Meta 開發(fā) AI 語音助手,用于創(chuàng)建虛擬世界和實時翻譯
編譯 | 禾木木
出品 | AI科技大本營(ID:rgznai100)
Meta 在近日的「用人工智能構(gòu)建元宇宙」的討論會上,展示了最新的 AI 黑科技 「Builder Bot」 ,并且在此次會議上 Meta 公布了關(guān)于構(gòu)建元宇宙的人工智能計劃,其中包括通用語言翻譯系統(tǒng)、對話 AI 系統(tǒng)CAIRaoke,人工智能推薦系統(tǒng) TorchRec 等。
Builder Bot
在此次討論會上,扎克伯格分享了他們正在研究一類新的生成 AI 模型,該模型將允許人們描述一個世界,人工智能自動生成它的各個方面。首次展示了用人工智能系統(tǒng) Builder Bot 創(chuàng)建虛擬空間的過程。在元宇宙的島嶼上以 3D 化身的形式出現(xiàn),并發(fā)出語音命令創(chuàng)建海灘等,該系統(tǒng)可以跟隨命令更改氣候,添加不同的場景。在這個世界里,你想要什么、去到哪里,只需要語音命令,就可以秒出。更有熱點的是,Builder Bot 還可以播放不同的音樂。目前,Builder Bot 還在測試中,暫時還未開放,因為 Meta 也還不確定它的限制在哪。在討論會上的另一部分是語音識別技術(shù),Meta 表示正在研究人工智能,讓人們能夠與語音助手進(jìn)行更自然的對話。
對話 AI 系統(tǒng)CAIRaoke
在演示中,CAIRaoke 在一個家庭場景中起到了作用,人在煮菜時,語音助手會發(fā)出提示,警告說鹽已經(jīng)加到鍋里了。AI 助理還注意到鹽放少了,于是提示要加更多。在 Meta 發(fā)布的博客中,研究者們對 CAIRaoke 背后的技術(shù)進(jìn)行了解讀。CAIRaoke 減少了添加新域所需的工作。在規(guī)范方法中,擴(kuò)展到新領(lǐng)域需要順序構(gòu)建和更改每個模塊,然后才能可靠地訓(xùn)練下一個模塊。此項技術(shù)提高了開發(fā)和訓(xùn)練速度,使我們能夠以更少的數(shù)據(jù)微調(diào)其他模型。該公司還表示,它已在旗下的視頻通話設(shè)備 Portal 中使用該模型,并期待將其集成到具有 AR 和 VR 的硬件設(shè)備中。
實時翻譯器
Meta 正在開發(fā)一款通用語音翻譯器,旨在創(chuàng)建適用于「世界上所有語言」的翻譯軟件。該公司此前已為其人工智能系統(tǒng)設(shè)定了翻譯所有書面語言的目標(biāo)。扎克伯格表示:“能夠用任何語言與任何人交流,這是人們夢寐以求的超能力,而人工智能將在我們有生之年實現(xiàn)這一目標(biāo)?!?/span>盡管當(dāng)前的翻譯工具可以很好地適用于英語、普通話、西班牙語等常用語言,但世界上大約 20% 的人口不會說這些系統(tǒng)所涵蓋的語言。通常,這些服務(wù)不足的語言沒有易于訪問的書面文本語料庫,這些語料庫也是訓(xùn)練 AI 系統(tǒng)必需的,甚至一些語言根本沒有標(biāo)準(zhǔn)化的書寫系統(tǒng)。Meta 表示,它希望通過在兩個特定領(lǐng)域部署新的機(jī)器學(xué)習(xí)技術(shù)來克服這些挑戰(zhàn)。第一個稱為 No Language Left Behind,將專注于構(gòu)建可以使用更少的訓(xùn)練示例學(xué)習(xí)翻譯語言的 AI 模型。第二個是通用語音翻譯器,旨在構(gòu)建直接將語音從一種語言實時翻譯成另一種語言的系統(tǒng),而無需書面組件作為中介(書面中介是許多翻譯應(yīng)用程序的常用技術(shù))。Meta 正在構(gòu)建一個新的高級 AI 模型,可以從更少的示例中進(jìn)行語言學(xué)習(xí),Meta 將使用它來實現(xiàn)數(shù)百種語言的專家級翻譯,從阿斯圖里亞斯語、盧甘達(dá)語到烏爾都語。Meta 還在構(gòu)建新型通用實時語音翻譯器,以支持沒有標(biāo)準(zhǔn)書寫系統(tǒng)的語言及口頭語。為了支持低資源語言的翻譯,并為未來更多語言的翻譯創(chuàng)建構(gòu)建塊,Meta 正在擴(kuò)展自身的自動數(shù)據(jù)集創(chuàng)建技術(shù)。一種是基于 LASER,一個是開源工具包,現(xiàn)在包含用 28 種不同腳本編寫的超過125種語言?;?LASER ,研究者構(gòu)建了 ccMatrix 和 ccAligned 等系統(tǒng),它們能夠在互聯(lián)網(wǎng)上查找不同語言的平行文本。由于低資源語言的可用數(shù)據(jù)很少,Meta 創(chuàng)建了一種新的訓(xùn)練方法,使 LASER 能夠?qū)W⒂谔囟ǖ恼Z言子組,例如班圖語,并從更小的數(shù)據(jù)集中學(xué)習(xí)。這使得 LASER 能夠跨語言大規(guī)模有效地運(yùn)行,最近還將 LASER 擴(kuò)展到了語音處理領(lǐng)域。為了提升機(jī)器翻譯模型的性能,投入大量資源創(chuàng)建了大容量且可以高效訓(xùn)練的模型。通過增加模型體量和自動路徑學(xué)習(xí)功能,不同的符號可以使用不同的專家能力。為了將基于文本的機(jī)器翻譯模型擴(kuò)展到上百種語言,Meta 提取了另一種語言為核心的多語言翻譯系統(tǒng),其效果甚至優(yōu)于最好的雙語翻譯。在宣布這一消息的博客文章中,Meta 研究人員還沒有提供完成這些項目的時間表,也沒有提供實現(xiàn)目標(biāo)的主要路線圖。相反,該公司只是強(qiáng)調(diào)了通用語言翻譯的可能性。Meta 還設(shè)想這種技術(shù)將極大造福于其遍布全球的產(chǎn)品,進(jìn)一步擴(kuò)大其影響范圍并轉(zhuǎn)變?yōu)閿?shù)百萬人必不可少的通信工具。正如博客文章寫到的那樣,通用翻譯軟件將成為未來可穿戴設(shè)備的殺手級應(yīng)用,如 Meta 正在構(gòu)建的 AR 眼鏡,還將打破沉浸式VR 和 AR 現(xiàn)實空間(Meta 也在構(gòu)建)的界限。
結(jié)語
確實,近年來機(jī)器學(xué)習(xí)的進(jìn)步大幅度地提高了機(jī)器翻譯的速度和準(zhǔn)確性。從谷歌到蘋果,許多大型科技公司現(xiàn)在都在為用戶提供免費(fèi)的人工智能翻譯工具,用于工作和旅游,無疑在全球范圍內(nèi)都提供了不可估量的好處。但也會存在一些技術(shù)上的問題,批評者指出機(jī)器翻譯會忽略在人類說話時的一些至關(guān)重要的細(xì)微差別,在輸出中會存在一些偏見,并且指出只有計算機(jī)才能出現(xiàn)的一些奇怪的、意向不到的語法錯誤。對于使用非通用語言的人表示,如果翻譯完全由大型科技公司控制,他們擔(dān)心失去對自己語言和文化的掌握。盡管 Meta 長期以來一直渴望進(jìn)入全球市場,但該公司自己的產(chǎn)品仍然偏向于為其提供大部分收入的國家/地區(qū)。雖然通用翻譯器是一個非常美好的愿望,但 Meta 不僅需要證明它的技術(shù)和能力,作為一家公司,還需要公平地研究其應(yīng)用。在此次討論會上,收獲的信息還是滿滿的,對此,你怎么看呢?參考鏈接:https://www.theverge.com/2022/2/23/22947368/meta-facebook-ai-universal-speech-translation-projecthttps://ai.facebook.com/blog/teaching-ai-to-translate-100s-of-spoken-and-written-languages-in-real-timehttps://www.reuters.com/technology/metaverse-event-metas-zuckerberg-unveils-work-improve-how-humans-chat-ai-2022-02-23/
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。