扎克伯格的尷尬與AI的真實(shí)進(jìn)展

作者：時(shí)間：2016-12-27 來源：雷鋒網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　扎克伯格如果要優(yōu)化效果，那么基本方法有下面幾類：

本文引用地址：http://m.butianyuan.cn/article/201612/342079.htm

　　一種可能是扎克伯格覺得真實(shí)場景下的信號優(yōu)化(聲學(xué)、硬件等)也沒什么，找?guī)讉€(gè)人做做就完了，如果這么想Facebook可能會(huì)自己組建個(gè)硬件、聲學(xué)團(tuán)隊(duì)來做Echo Dot那樣的終端。但這么做很可能短期就不會(huì)有下次演示了。因?yàn)樽屨Z音識別匹配前端聲學(xué)信號是容易的，但反過來讓牽涉硬件和物理的聲學(xué)來適應(yīng)語音識別則基本會(huì)做掛。而在互聯(lián)網(wǎng)公司里通常后端偏算法的勢力會(huì)大，所以很容易走到前面那條路上去(這事情國內(nèi)至少做掛了兩撥人了)。國內(nèi)的大公司很容易走上這條路，但從分工習(xí)慣來看，國外公司更愿意在技術(shù)棧上卡住特定位置，非自己核心的部分會(huì)更愿意開放給其它人，所以扎克伯格這么干的可能性不高，除非他覺得自己也得搞Amazon Echo那種產(chǎn)品了。

　　一種可能是扎克伯格和深度學(xué)習(xí)科學(xué)家思路一致，認(rèn)為所有東西都可以通過深度學(xué)習(xí)在云端算法層面來解決。這種思路下，就會(huì)通過深度學(xué)習(xí)來做降噪等信號層面的工作，用算法挑戰(zhàn)各種物理層面的問題。如果走上這條路，那估計(jì)短期也不會(huì)有下次演示了，因?yàn)樗龅降膯栴}并非單純的降噪問題，回聲抵消、Beamforming、降噪、聲源定向這些東西是關(guān)聯(lián)在一起的，指望深度學(xué)習(xí)短期突破這些問題更像科研上的一種設(shè)想而非工程上的一種實(shí)踐。“設(shè)想”是說可以成為一種探索的思路，但結(jié)果完全沒譜，高度不確定，相當(dāng)于把不確定性引入產(chǎn)品開發(fā)之中。

　　一種可能是扎克伯格走下一步的時(shí)候想的很清楚，知道自己這類公司的能力邊界，因此把這部分開放出去，讓專業(yè)的人做專業(yè)的事。物理的事情歸物理，算法的事情歸算法，這樣的話就會(huì)滿世界找聲學(xué)和遠(yuǎn)場語音識別供貨商，但這反倒是最快的一種方式。

　　不知道扎克伯格具體會(huì)走那條路，如果是最后一種，聲智科技這樣的公司應(yīng)該會(huì)很快收到消息。

　　打破原子與比特的邊界

　　扎克伯格這件事情事實(shí)上也提供了一個(gè)跳出來看AI的機(jī)會(huì)。

　　下圖是Jarvish的系統(tǒng)架構(gòu)圖：

　　一般來講，從產(chǎn)品體驗(yàn)上可以看出技術(shù)水平，從架構(gòu)圖則可以看出來認(rèn)知上的差異。

　　根據(jù)上圖，顯然的在扎克伯格這里Jarvish被理解成了一個(gè)命令控制型的系統(tǒng)，但感知這環(huán)節(jié)被忽略了，盡管扎克伯格自己在文章里也提到感知上下文是非常關(guān)鍵的一個(gè)環(huán)節(jié)(Understanding context is important for any AI)。

　　這種理解在互聯(lián)網(wǎng)企業(yè)那里很可能非常有代表性，但問題就在于感知恰恰是打造一個(gè)初級的Jarvis這樣的系統(tǒng)時(shí)最難的環(huán)節(jié)，因?yàn)楦兄偸且虼┰雍捅忍氐倪吔?。Language Processing、Speech Recognition、Face Recognition總是立刻可用的，只受限于算法的發(fā)展程度和數(shù)據(jù)，但感知部分不是這樣，不單要算法行，器件、生產(chǎn)都要行才能有好的結(jié)果。比如說麥克風(fēng)陣列，你算法再好但MEMS麥克風(fēng)不給力，那你一樣抓瞎。如果要說的短板的話，在深度學(xué)習(xí)突破后，感知這一環(huán)節(jié)才是真的短板。

　　這就涉及到這次AI突破的一個(gè)深層次問題：這次的AI起于深度學(xué)習(xí)的突破，但真要想創(chuàng)造價(jià)值并不能停步在深度學(xué)習(xí)本身。關(guān)鍵原因就在于其AI創(chuàng)造價(jià)值的鏈條比較長，必須打破軟硬的邊界，補(bǔ)全整個(gè)鏈條，價(jià)值才會(huì)體現(xiàn)出來。幾乎我們所有能想到的大機(jī)會(huì)都是這樣，語音交互(需要打穿聲學(xué)和識別邊界)、自動(dòng)駕駛(打穿計(jì)算機(jī)視覺、雷達(dá)、機(jī)械控制的邊界)等。這部分難度通常是被忽略了，似乎是有幾個(gè)深度學(xué)習(xí)專家問題就可以搞定一切問題。后者不是不行，但要限定在特定類別的事情上，比如圖普科技做的鑒黃等。正是同時(shí)做好軟硬這兩部分在拉長投資-回報(bào)的周期，投資和創(chuàng)業(yè)如果對此沒有自己的判斷，那準(zhǔn)備的耐心可能就不夠。

　　小結(jié)

　　近來和AI各方面的人(創(chuàng)業(yè)者、投資人、科學(xué)家、媒體)接觸下來，發(fā)現(xiàn)大家基本都在思考這樣兩個(gè)問題：

　　第一，本次AI浪潮會(huì)不會(huì)和前兩次一樣很快冷下來?

　　第二，落地點(diǎn)到底在那里，究竟還要多久?

　　對于第一個(gè)問題到現(xiàn)在為止還沒碰到任何一個(gè)人認(rèn)為這次AI浪潮會(huì)冷到前兩次那樣。對于第二個(gè)問題，大的落地點(diǎn)上大家基本也已經(jīng)達(dá)成了共識(語音交互、AR、自動(dòng)駕駛等)，爭議最大的就是啟動(dòng)期究竟還要持續(xù)多久這一點(diǎn)。從兩個(gè)維度來判斷，這個(gè)時(shí)間更可能是在3年左右：

　　一是產(chǎn)品經(jīng)過兩個(gè)周期的優(yōu)化會(huì)更加成熟;

　　一個(gè)是計(jì)算能力、基礎(chǔ)設(shè)施到那個(gè)時(shí)候也會(huì)變的足夠強(qiáng)大和便利(過去3年Training速度提高了60倍，比摩爾定律還快，而Intel則正在推出集成度更高的服務(wù)器)。

新聞中心

扎克伯格的尷尬與AI的真實(shí)進(jìn)展

評論

相關(guān)推薦

技術(shù)專區(qū)