Meta 發(fā)布 AI 模型SeamlessM4T，可轉(zhuǎn)錄和翻譯近100種語言

發(fā)布時間：2023-08-24 09:56:07來源：鈦媒體

　　科技巨頭 Facebook 母公司 Meta 對外發(fā)布了一款最新人工智能(AI)翻譯引擎 SeamlessM4T，可以更輕松地跨文本語音翻譯和轉(zhuǎn)錄近 100 種語言。

　　同時，Meta 還公布了新的開源翻譯數(shù)據(jù)集 SeamlessAlign，將 44.3 萬小時的語音與文本、2.9 萬小時的語音轉(zhuǎn)錄數(shù)據(jù)進行對齊，教會 SeamlessM4T 如何將語音轉(zhuǎn)錄為文本、翻譯文本、從文本生成語音。

　　Meta 表示，SeamlessM4T 將與 SeamlessAlign 一同開源。SeamlessM4T 代表了 AI 技術(shù)驅(qū)動的“語音到語音”和“語音到文本”領(lǐng)域的“重大突破”。

圖片來自網(wǎng)絡(luò)/侵刪

　　據(jù)悉，作為最早投資 AI 的大型科技企業(yè)之一，Meta 于 2013 年成立了 AI 基礎(chǔ)研究實驗室，聘請了 AI 領(lǐng)域的頂級學(xué)者，有大量社交與元宇宙算法，推出 Pytorch 框架、Zion 等軟硬件產(chǎn)品。不過，雖然 Meta 在 AI 領(lǐng)域也取得了一些進展，但它落后于 OpenAI、微軟、谷歌等公司。

　　隨著 ChatGPT 風靡全球，Meta AI 團隊正在加緊追趕，以及重新組合其關(guān)于語言、對話等領(lǐng)域與大模型相關(guān)的研究。

　　去年底之后，Meta 陸續(xù)發(fā)布 No Language Left Behind(不留語言)文本到文本的機器翻譯模型，支持 200 種語言，以及開發(fā)多語言數(shù)據(jù)集 SpeechMatrix、生成文本到聲音的 AudioCraft 等。另外在今年 7 月，Meta 還發(fā)布開源對話大模型 Llama 2，引發(fā)廣泛討論和關(guān)注。

　　此次公布的 SeamlessM4T，建立在 Meta AI 翻譯模型的技術(shù)能力基礎(chǔ)上，并重新設(shè)計 Fairseq 序列建模工具包，以創(chuàng)建更輕量級的模型和處理更多信息。Meta 表示，SeamlessM4T 從“爬取的網(wǎng)頁數(shù)據(jù)的公開可用存儲庫中”收集了 400 萬小時的“原始音頻”，該模型可以在近 100 種語言之間進行文本到語音的翻譯，并支持 35 種語言的完全語音到語音翻譯。

　　對于安全性和脫敏性，Meta 表示，在開發(fā) SeamlessM4T 時，團隊構(gòu)建了一個可以識別敏感詞系統(tǒng)，目標是能夠過濾了訓(xùn)練數(shù)據(jù)中不平衡的數(shù)據(jù)信息，從而檢測和輸出正確的翻譯內(nèi)容。而且，Meta 研究人員還嘗試清理誤譯一些臟話的數(shù)據(jù)集，以便更準確地檢測何時使用。

　　Meta 研究科學(xué)家負責人 Paco Guzman 表示，SeamlessM4T 的一大突破是它不依賴中間模型來產(chǎn)生結(jié)果，這使得它更加靈活，甚至支持動態(tài)更改語言。這將促進更多人使用其進行日程對話。

　　不過，Meta 建議不要使用 SeamlessM4T 進行長篇翻譯，政府專用的認證翻譯，以及不鼓勵出于醫(yī)療或法律目的部署該模型，原因或與專業(yè)領(lǐng)域的翻譯準確度有關(guān)。科技網(wǎng)站《對話》(theconversation)最近表示，AI 翻譯有許多缺陷，包括不同形式的性別錯誤和偏見、語音識別算法偏差等。

　　據(jù)報道稱，Meta 后續(xù)將把這些翻譯和轉(zhuǎn)錄方面的 AI 進展，整合到 Facebook、Instagram、WhatsApp、Messenger 和 Threads 等產(chǎn)品當中。
　?。?a href="http://www.yibianchina.com">邯鄲小程序）

馬斯克將推特改名為 X ...

最后一頁

熱點推薦

成人无码嫩草影院免费-三级黄舔b在线观看视频-日本精品中文一区二区-精产一二三区av成人免费

Meta 發(fā)布 AI 模型SeamlessM4T，可轉(zhuǎn)錄和翻譯近100種語言

Meta 發(fā)布 AI 模型SeamlessM4T，可轉(zhuǎn)錄和翻譯近100種語言