Google大腦工程師詳解：深度學(xué)習(xí)技術(shù)能帶來哪些新產(chǎn)品？

作者：時(shí)間：2017-02-21 來源：量子位

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編者按：提到深度學(xué)習(xí)，你可能會想到認(rèn)貓、認(rèn)臉，或者下圍棋、翻譯……其實(shí)，這項(xiàng)技術(shù)還能用在很多你意想不到的地方。

　　這種技術(shù)還帶來一些其他可能：

本文引用地址：http://m.butianyuan.cn/article/201702/344219.htm

　　· 離線仍保持某些功能可用的虛擬助手;

　　· 告訴你植物、蘑菇等是否有毒能不能吃的荒野求生應(yīng)用;

　　· 自帶TPU(Google的Tensor Processing Unit)芯片[11]、能實(shí)現(xiàn)簡單避障、導(dǎo)航功能的小型無人機(jī)。

　　人機(jī)交互

　　深度神經(jīng)網(wǎng)絡(luò)是第一種能真正看見、聽見我們的世界，并且健壯性達(dá)到可接受水平的模型，這開啟了很多人機(jī)交互的可能性。

　　現(xiàn)在，我們可以利用攝像頭來識別手語、讀書給人類聽。實(shí)際上，深度神經(jīng)網(wǎng)絡(luò)已經(jīng)可以用完整的句子來描述它們所見。百度的盲人助手小明(DuLight)項(xiàng)目就是一個(gè)能把畫面轉(zhuǎn)換成語音的耳機(jī)。

　　我們的人機(jī)交互不局限在視覺相關(guān)的領(lǐng)域，深度學(xué)習(xí)也可以用于校正腦電(EEG)接口，讓截癱人士能更快地與計(jì)算機(jī)交流，也能為類似手勢識別工具Soli的項(xiàng)目提供更精確的解碼技術(shù)。

　　游戲

　　在計(jì)算上，游戲是非常具有挑戰(zhàn)性的，因?yàn)樗瑫r(shí)實(shí)時(shí)運(yùn)行著物理模擬、AI邏輯、渲染、多玩家互動(dòng)。這其中很多部件的復(fù)雜度都達(dá)到了至少O(N^2)，因此，我們現(xiàn)有的算法已經(jīng)觸碰到了摩爾定律的天花板。

　　深度學(xué)習(xí)在幾個(gè)不同方面推進(jìn)了游戲能力的邊界。

　　顯然，有一個(gè)方面是游戲AI。在現(xiàn)在的電子游戲中，AI為非玩家角色(NPC)設(shè)計(jì)的邏輯無非是一串“如果-則-否則”的表述擰在一起，來模仿智能行為。對于高級玩家來說，這種AI不夠智能，導(dǎo)致單人模式下的角色互動(dòng)在某種程度上缺乏挑戰(zhàn)性，即使在多人游戲中，最聰明的也通常是人類玩家。

　　深度學(xué)習(xí)會改變這一狀況。Google旗下DeepMind的AlphaGo向我們展示了深度神經(jīng)網(wǎng)絡(luò)與梯度策略學(xué)習(xí)結(jié)合，可以強(qiáng)大到能在圍棋這樣復(fù)雜的游戲中擊敗最強(qiáng)的人類選手。AlphaGo所用的深度學(xué)習(xí)技術(shù)可能很快將用于游戲的NPC上，利用玩家的弱點(diǎn)來提供更吸引人的游戲體驗(yàn)，其他玩家的游戲數(shù)據(jù)可以被發(fā)往云端供AI學(xué)習(xí)。

　　深度學(xué)習(xí)在游戲中的另一個(gè)應(yīng)用是物理世界的模擬。我們也許可以把非線性動(dòng)力問題轉(zhuǎn)換成一個(gè)回歸問題，而不用從基本原理出發(fā)來模擬流體和粒子。比方說，如果我們訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)，讓它學(xué)習(xí)支配流體動(dòng)力學(xué)的基本規(guī)律，在游戲中就能快速評價(jià)，不需要對N-S方程(Navier-Stokes equations)大規(guī)模實(shí)時(shí)求解。

　　實(shí)際上，Ladicky & Jeong 2015已經(jīng)這么做了。

Google大腦工程師詳解：深度學(xué)習(xí)技術(shù)能帶來哪些新產(chǎn)品？

　　對于每秒不能低于90幀的VR應(yīng)用，這可能是現(xiàn)有硬件限制下的唯一可行方案。

　　第三，深度生成模型可以用于創(chuàng)建無限豐富的程序性內(nèi)容，例如動(dòng)物群、角色對話、動(dòng)畫、音樂，也許還有游戲的故事線本身。剛剛有游戲開始探索這個(gè)領(lǐng)域，例如無人深空(No Man’s Sky)就有潛力成為一款具有無限內(nèi)容的游戲。

　　最后，作為蛋糕頂上櫻桃一樣的點(diǎn)綴，深度神經(jīng)網(wǎng)絡(luò)很適合平行小批求值，就是說運(yùn)行在一塊GPU上的AI邏輯可以同時(shí)模擬出128個(gè)NPC、32處水流。

　　藝術(shù)助手

　　由于神經(jīng)網(wǎng)絡(luò)對于圖像、音頻、文本都有著很好的感知能力，我們可以用它來繪畫、作曲、寫小說也就不奇怪了。

　　多年來，人們一直在嘗試讓計(jì)算機(jī)作曲、繪畫，不過直到深度學(xué)習(xí)出現(xiàn)，我們才開始真正生成出“好結(jié)果”，現(xiàn)在蘋果的App Store中已經(jīng)有幾個(gè)App為取樂使用了這類算法，但我們可能很快就會看到專業(yè)的內(nèi)容創(chuàng)作軟件中將這類算法用作輔助的生成手段或?yàn)V鏡。

　　非結(jié)構(gòu)化數(shù)據(jù)挖掘

　　在從網(wǎng)頁上獲取信息方面，深度學(xué)習(xí)還沒有達(dá)到人類的水平，但是深度神經(jīng)網(wǎng)絡(luò)賦予機(jī)器的視覺能力，讓它們足以理解超文本之外的內(nèi)容。

　　例如：

　　· 從掃描的傳單分析事件;

　　· 識別EBay上哪些商品是相同的;

　　· 通過攝像頭辨別客戶情緒;

　　· 不借助RSS從網(wǎng)頁上提取博客內(nèi)容;

　　· 將照片信息整合到金融估值工具、保險(xiǎn)單、信用評分中。

　　語音合成

　　從生成模型的發(fā)展水平、數(shù)據(jù)的豐富程度來看，以摩根·弗里曼或者斯嘉麗約翰遜的聲音讀文章給你聽的應(yīng)用遲早要出現(xiàn)。我在Vanguard游戲里的密碼就是我的聲音。

　　其他

　　自適應(yīng)操作系統(tǒng)/網(wǎng)絡(luò)堆棧調(diào)度：在操作系統(tǒng)中安排線程和進(jìn)程是一個(gè)非常難的問題，我們目前還沒有非常令人滿意的解決方案，現(xiàn)代操作系統(tǒng)、文件系統(tǒng)和網(wǎng)絡(luò)傳輸協(xié)議TCP/IP的調(diào)度算法還相當(dāng)簡單。我們或許可以用小型神經(jīng)網(wǎng)絡(luò)來適應(yīng)用戶特定的調(diào)度模式。

　　顯微鏡軟件的菌落計(jì)數(shù)、細(xì)胞追蹤(用于生物實(shí)驗(yàn)研究)

　　“以機(jī)器學(xué)習(xí)替代模擬”的策略已經(jīng)在藥物設(shè)計(jì)領(lǐng)域發(fā)揮作用，大幅提升了找到哪種化合物有幫助、哪種有毒性的效率。

新聞中心

Google大腦工程師詳解：深度學(xué)習(xí)技術(shù)能帶來哪些新產(chǎn)品？

評論

相關(guān)推薦

技術(shù)專區(qū)