免費都玩到！OpenAI 發布 GPT-4o 多模態可接收聲音、圖像

alex 2024-05-14 11:15 | 科技新知

OpenAI 發表 GPT-4 的最新版本 GPT-4o。新版本不僅速度更快，除了文字更支援讀取影像和聲音。GPT-4o 將免費開放給所有 ChatGPT 註冊用戶，付費用戶則享有比免費用戶高 5 倍的容量限制。

螢幕截圖 2024-05-14 上午10.52.27.png

據悉 GPT-4o的「o」代表拉丁文「omni」，為「全能」的意思，其實是指其多模態功能。在直播活動中，OpenAI 的首席技術官 Mira Murati 表示，GPT-4o 在多模態功能上有了顯著的提升。它能夠理解和生成聲音、文字或圖像內容，實現「原生多模態」功能。根據 OpenAI 的官方網誌表示，新功能將分段推出，當中文本和圖像功能今日起已可以使用。

此外，開發者如果希望深入研究 GPT-4o，還可以透過 API 資源存取，據悉該 API 成本為 GPT-4 Turbo 的一半，速度則快了一倍。

據悉在 GPT-4o，模型可以於 232 毫秒內作出回應用戶輸入的語音資料，平均回應時間為 320 毫秒。在新模型下，ChatGPT 可擔任語音助理，能夠實時回應並觀察周圍環境，官方就展示了一段礼障者使用的影片。相比之下，當前的聲音模式功能較為有限，只能一次回應一個提示和處理其聽到的內容。

另外，已有手機版 App 的 ChatGPT，如今增添桌面版 App，優先適用於 Mac 電腦，至於 Windows 電腦的版本今年稍晚推出。

消息來源：TheVerge

分區列表

免費都玩到！OpenAI 發布 GPT-4o 多模態可接收聲音、圖像

最新新聞