語音識別芯片實現(xiàn)人機交互!
物聯(lián)網(wǎng)時代,語音識別被視作為人機交互的入口,人工智能和機器學習的迅猛發(fā)展,使語音控制變得更為實用。雖然語音識別與生物識別相比,發(fā)展相對緩慢,但是學術界和工業(yè)界對于語音市場都很看好,這意味著未來發(fā)展空間十分巨大。而人工智能芯片的應用領域也不斷向多維度發(fā)展。
語音識別芯片最大的特點就是能夠語音識別,它能讓機器聽懂人類的語音,并且可以根據(jù)命令執(zhí)行各種動作,如眨眼睛、動嘴巴(智能娃娃)。
除此之外,語音識別芯片還具有高品質、高壓縮率錄音放音功能,可實現(xiàn)人機對話。
按照使用者的限制而言,語音識別芯片可以分為特定人語音識別芯片和非特定人語音識別芯片。
特定人語音識別特定人語音識別芯片是針對指定人的語音識別,其他人的話不識別,須先把使用者的語音參考樣本存入當成比對的資料庫,即特定人語音識別在使用前必須要進行語音訓練,一般按照機器提示訓練2遍語音詞條即可使用。
非特定人語音識別非特定人語音識別芯片是不用針對指定的人的識別技術,不分年齡、性別,只要說相同語言就可以,應用模式是在產(chǎn)品定型前按照確定的十幾個語音交互詞條,采集200人左右的聲音樣本,經(jīng)過PC算法處理得到交互詞條的語音模型和特征數(shù)據(jù)庫,然后燒錄到芯片上。應用這種芯片的機器(智能娃娃、電子寵物、兒童電腦)就具有交互功能了。
一般我們選擇的AI智能產(chǎn)品都是非特定語音識別芯片,只需要說出智能產(chǎn)品的喚醒詞就可以實現(xiàn)人機對話。
當然語音識別的內容條數(shù)也是有限制的,一般市面上的語音識別芯片只能識別20條左右,不能滿足一些產(chǎn)品語音交互的需求,而九芯電子的NRK220X語音識別芯片可以識別三百條;可以滿足語音識別內容指令多的智能產(chǎn)品的需求。
NRK220X語音識別模塊為廣州九芯電子自主研發(fā)的一款模塊,無須外圍元件,直接對接外部,集成了一顆高性能、低成本的離線語音識別芯片,具有語音識別及播報功能,需要外掛 SPI-Flash,存儲詞條或者語音播內容。
他具有識別率高,工業(yè)級性能、簡單易用,更新詞條方便等優(yōu)勢。廣泛應用在智能家居、AI人工智能、玩具等多種領域。
而且語音存放的長度由音頻采樣率及芯片內部(或外掛)ROM空間所決定,音頻采樣率的大小直接影響音頻輸出的音質,同一型號芯片的音頻采樣率越高,音質越好,但是需要占用更多的ROM空間。芯片的成本也因存儲空間的增大而有不同幅度的上漲。
*博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。