
SeamlessM4T:一個將文字、語音相互翻譯的人工智模型
Meta 最近在 AI 人工智能發展上,急起直追。由於 Meta 採用了 Open Source 及容許修改的方式,令不少公司或者程式設計員都好肯去開發。相信未來,有力挑戰要收費的 OpenAI 及暫時還是收起自家研究的 Google 人工智能模組。Meta 在 23/8 又有新消息,推出了 SeamlessM4T:一個將文字、語音相互翻譯的人工智模型。Meta 聲稱 SeamlessM4T 是「第一個全功能多語言多模式 AI 翻譯和轉錄模型」。SeamlessM4T 可以做到翻譯:
001:語音到文字 (最多可達 100 種語言)
002:語音到語音 (最多可達 35 種語言)
003:文字到語音 (最多可達 35 種語言)
004:文字到文字 (最多可達 100 種語言)。
其中,語音到文字、文字到文字都支援廣東話。比較可惜的是,版主 Keith 最想要的文字轉語音 (Text to Speech) 就未能支援廣東話,令 Microsoft 的 Azure 繼續成為唯一「用得落手」的市場選擇。不過,因為支援廣東話語音到文字,Meta 這個 SeamlessM4T 好大潛力成為未來 Youtube 界廣東話變成中文及多國語言字幕的工具,背後主力的 AI 模組。因為是 Opensource 的關係,相信有不少免費或收費低廉工具推出,亦由於可以文字轉多國語音的能力,將來廣東話內容,都可以透過轉換,成為多國語言版本。
用在 WhatsApp 及 IG 上?
與 Meta 最近推出的其他 AI 模型(包括 Llama 2 和 AudioCraft)一樣,SeamlessM4T 是開源的。此外,Meta 還發佈了其名為 SeamlessAlign 的訓練數據集,其中包括 270,000 小時的語音和文字較對。與 OpenAI 和 Google 不同,Meta 已經決定將其模型開源並公開提供。Meta 推出開源模型的做法既使開發人員能夠構建和改進產品。Meta 的公告並未詳細說明 SeamlessM4T 的具體計劃,只是暗示它希望「探索這個基礎模型如何實現新的通信功能」。換句話說,我們可能有一天會在 WhatsApp 或 Instagram 上看到針對消費者的 SeamlessM4T 版本。免費試用
由於是開源關係,網上已有工具可以試玩,大家可以進入 Hagging Face 網站試試。由於是試玩,所以暫時只能處理很短的文字及語言相轉換,但大家可以睇睇 Meta 這個模組,在處理語音及文字轉換之間的能力。
▲ 由廣東話文字,轉成英文。今次用了好香港的廣東話來測試。
▲ 由廣東話語音,轉成繁體中文
▲ 由廣東話語音,轉成英文
ePrice.HK 同你齊齊學 AI : 按呢度進入 AI 大時代專頁,每日送上最強 AI 消息及工具測試
輕鬆講科技 Appe Podcast 節目!立即 Follow 我哋 ,有喺網站睇唔到,但聽得到的科技 / AI 消息+趣聞