免費都玩到!OpenAI 發布 GPT-4o 多模態可接收聲音、圖像

alex 2024-05-14 11:15 | 科技新知
OpenAI  發表 GPT-4 的最新版本 GPT-4o。新版本不僅速度更快,除了文字更支援讀取影像和聲音。GPT-4o 將免費開放給所有 ChatGPT 註冊用戶,付費用戶則享有比免費用戶高 5 倍的容量限制。

螢幕截圖 2024-05-14 上午10.52.27.png


據悉 GPT-4o的「o」代表拉丁文「omni」,為「全能」的意思,其實是指其多模態功能。在直播活動中,OpenAI 的首席技術官 Mira Murati 表示,GPT-4o 在多模態功能上有了顯著的提升。它能夠理解和生成聲音、文字或圖像內容,實現「原生多模態」功能。根據 OpenAI 的官方網誌表示,新功能將分段推出,當中文本和圖像功能今日起已可以使用。

此外,開發者如果希望深入研究 GPT-4o,還可以透過 API 資源存取,據悉該 API 成本為 GPT-4 Turbo 的一半,速度則快了一倍。

據悉在 GPT-4o,模型可以於 232 毫秒內作出回應用戶輸入的語音資料,平均回應時間為 320 毫秒。在新模型下,ChatGPT 可擔任語音助理,能夠實時回應並觀察周圍環境,官方就展示了一段礼障者使用的影片。相比之下,當前的聲音模式功能較為有限,只能一次回應一個提示和處理其聽到的內容。

另外,已有手機版 App 的 ChatGPT,如今增添桌面版 App,優先適用於 Mac 電腦,至於 Windows 電腦的版本今年稍晚推出。

消息來源:TheVerge

最新新聞