Meta公布AI語音模型支持4000種語言

作者：時間：2023-05-26 來源：工商時報

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

世界上許多語言正面臨消失的危機，而現(xiàn)有的語言辨識與生成技術上的限制更加快此趨勢。Meta今天發(fā)布新聞稿指出，Meta發(fā)表一系列的AI模型，希望幫助用戶以自己習慣的語言，更輕松獲取信息及使用電子裝置。

本文引用地址：http://m.butianyuan.cn/article/202305/446999.htm

Meta表示，公司研發(fā)的大規(guī)模多語言語音（Massively Multilingual Speech，簡稱MMS）模型，擴展文字轉語音及語音轉文字技術的應用范圍，從最初的100種語言，至今已可轉換超過1100種語言，超越過去的10倍。還能辨識超過4000種口語語言，是過去的40倍。

應用案例方面，從VR（虛擬現(xiàn)實）、AR（擴增實境）至訊息服務，不僅能使用偏好語言操作，更可理解每個人的聲音。

Meta指出，將開源這項技術的原始碼及模型，讓研究社群能夠以現(xiàn)有的工作成果為基礎繼續(xù)開發(fā)，一同保存全球的語言，并拉近人們間的距離。

過去最大型的語音數(shù)據(jù)庫最多僅涵蓋100種語言，因此開發(fā)此技術所面臨的第一個挑戰(zhàn)即為「搜集數(shù)千種語言的語音訓練數(shù)據(jù)」。為了克服這項挑戰(zhàn)，Meta使用已翻譯成多種語言、譯文已被廣泛閱讀及研究的宗教經(jīng)典，例如「圣經(jīng)」，作為語言的文字訓練數(shù)據(jù)。

Meta表示，圣經(jīng)譯文有多種語言的公開錄音文件，作為大型多語言語音模型計劃的一部分，Meta創(chuàng)造的數(shù)據(jù)集，搜集超過1100種語言的「新約圣經(jīng)」有聲讀物數(shù)據(jù)集，平均為每種語言提供32小時的語音訓練數(shù)據(jù)，后續(xù)又加入其他未標注的基督教有聲讀物后，可用的語言訓練數(shù)據(jù)已涵蓋超過4000種語言。

Meta強調，將持續(xù)擴增大規(guī)模多語言語音模型的涵蓋范圍，以支持更多語言的轉換及辨識，并努力克服現(xiàn)有語音技術難以處理方言的挑戰(zhàn)。