谷歌開源Live Transcribe語(yǔ)音識(shí)別轉(zhuǎn)文字工具
谷歌在其開源博客中宣布開源 Android語(yǔ)音識(shí)別轉(zhuǎn)錄工具——Live Transcribe的語(yǔ)音引擎,它可以將語(yǔ)音或?qū)υ拰?shí)時(shí)轉(zhuǎn)錄為文字,還能夠?yàn)槁犝先耸刻峁椭?/p>本文引用地址:http://m.butianyuan.cn/article/201908/403851.htm
谷歌開源Live Transcribe語(yǔ)音識(shí)別轉(zhuǎn)文字工具
Live Transcribe 是谷歌于今年2月推出的一款A(yù)ndroid應(yīng)用程序,它的語(yǔ)音識(shí)別由谷歌最先進(jìn)的Cloud Speech API提供。但是,依賴于云引入了一些復(fù)雜性,不斷變化的網(wǎng)絡(luò)連接、數(shù)據(jù)成本和延遲等等都帶來(lái)一些考驗(yàn)。因此,谷歌把它開源出來(lái),希望開發(fā)人員在已有的基礎(chǔ)上進(jìn)一步構(gòu)建和開發(fā)。
Cloud Speech API目前無(wú)法支持無(wú)限的音頻流,團(tuán)隊(duì)采取了一些措施來(lái)解決這一難題,例如在達(dá)到超時(shí)之前關(guān)閉并重新啟動(dòng)流式傳輸請(qǐng)求,這將有效減少會(huì)話中丟失的文本量。
值得一提的是,Live Transcribe支持超過(guò)70種語(yǔ)言,并能夠根據(jù)語(yǔ)音自動(dòng)識(shí)別語(yǔ)種,其中也包括中文。
另外,由于是提供實(shí)時(shí)語(yǔ)音轉(zhuǎn)錄,轉(zhuǎn)錄出來(lái)的文本會(huì)隨著語(yǔ)音的輸入不斷發(fā)生變化,降低延遲自然十分必要。該引擎能夠大大降低延遲率,這都要?dú)w功于它的自定義Opus編碼器。
(文中圖片來(lái)自互聯(lián)網(wǎng))
評(píng)論