聚焦2016：關(guān)于語音識別、圖像識別及大數(shù)據(jù)

作者：時(shí)間：2016-02-16 來源：智能視頻技術(shù)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編者按：語音識別和圖像識別讓我們跟智能設(shè)備之間的交互更自然，基于大數(shù)據(jù)的技術(shù)支持，讓識別變得主動而聰明，將走進(jìn)普通人的世界，讓我們的生活更生動。

　　圖像、語音成為近兩年最熱門的概念，所謂娛樂驅(qū)動市場，市場驅(qū)動技術(shù)發(fā)展。在多元化的互聯(lián)網(wǎng)圈里“好玩”才能紅，而圖像與音像也從過去的美化處理往更高深的技術(shù)領(lǐng)域前進(jìn)，在2016年，智能的語音識別和圖像識別將走進(jìn)普通人的生活中，它們會有哪些展望和動作呢?讓我們所見所聽的世界將變得生動起來。

本文引用地址：http://m.butianyuan.cn/article/201602/286964.htm

　　語音識別

　　語音識別技術(shù)雖然起源于1952年，但真正進(jìn)入消費(fèi)市場已經(jīng)是上世紀(jì)90年代的事了。目前語音識別有兩大發(fā)展方向，一個(gè)是純機(jī)械指令，基于產(chǎn)品定位而設(shè)計(jì)命令詞組，作為高效的輔助工具存在;一個(gè)是智能化理解語境，與人進(jìn)行互動交流，并承擔(dān)部分處理工作。后者可能是語音識別未來的發(fā)展方向，但實(shí)際應(yīng)用中兩者并不沖突。簡單精準(zhǔn)的機(jī)械指令讓工作更為純粹，沒必要做多余的計(jì)算動作。而很多智能設(shè)備將語音作為“解放雙手”的第三類互動形態(tài)，就需要對人的語境進(jìn)行“理解”，相信很多朋友都玩過siri、GoogleNow、Cortana，也同時(shí)體驗(yàn)過這些語音助手“會錯意”的賣萌行為。老羅在去年堅(jiān)果發(fā)布會上曾說所有語音助手都是“偽”智能，雖然有點(diǎn)以偏概全，但目前語音對語境的識別確實(shí)還不夠智能，遠(yuǎn)不如機(jī)械指令效率。不過這些問題隨著深度學(xué)習(xí)等AI領(lǐng)域技術(shù)的崛起將逐漸克服。

　　圖像識別

　　圖像識別從以圖搜圖到明星、物體識別，再到場景識別，甚至現(xiàn)在延伸到了視頻領(lǐng)域，給行業(yè)帶來了太多驚喜?，F(xiàn)在圖片內(nèi)容的價(jià)值已經(jīng)超越圖片本身，并且建立了從圖片到電商的商業(yè)模式。圖像識別一般針對畫面中一個(gè)對象做識別，比如大眾熟知的人臉、明星臉等識別技術(shù)已經(jīng)很成熟了，基本識別率達(dá)到90%以上。近年、服飾品牌的同款識別和風(fēng)景識別大行其道，為旅游行業(yè)和服飾行業(yè)創(chuàng)造了商機(jī)。圖像識別在視頻領(lǐng)域涌現(xiàn)出強(qiáng)大的應(yīng)用前景，新興起的互動視頻技術(shù)video++已經(jīng)實(shí)現(xiàn)視頻中的人臉和服飾同款的識別，基于圖像識別技術(shù)發(fā)展視頻中的商業(yè)場景。另外瞳孔識別的研究已經(jīng)提上日程，不久的將來，科幻片中所見即所得的情景不再是幻想。