新聞中心

EEPW首頁(yè) > 業(yè)界動(dòng)態(tài) > 2016人工智能技術(shù)發(fā)展進(jìn)程梳理

2016人工智能技術(shù)發(fā)展進(jìn)程梳理

作者: 時(shí)間:2017-02-04 來(lái)源:CSDN 收藏
編者按:2016年是“智能駕駛元年”、“人工智能硬件元年”、“增強(qiáng)學(xué)習(xí)元年”、“嵌入式人工智能元年”。算法和模型創(chuàng)新、硬件提速、應(yīng)用創(chuàng)新這三駕馬車(chē),將帶領(lǐng)我們高速奔向更加智能的時(shí)代。

  如果說(shuō)2015年大家還在質(zhì)疑深度學(xué)習(xí)、,認(rèn)為這是又一輪泡沫的開(kāi)始,那么2016年可以說(shuō)是全面影響人們生活的一年。從到無(wú)人駕駛,從美國(guó)大選到量子計(jì)算機(jī),從小Ai預(yù)測(cè)“我是歌手”到馬斯克的太空計(jì)劃,每個(gè)焦點(diǎn)事件背后都與有聯(lián)系??v覽2016年的人工智能技術(shù),筆者的印象是實(shí)用化、智能化、芯片化、生態(tài)化,讓所有人都觸手可及。下面我們以時(shí)間為坐標(biāo),盤(pán)點(diǎn)這一年的技術(shù)進(jìn)展。

本文引用地址:http://m.butianyuan.cn/article/201702/343473.htm

  

  3月9-15日,棋壇新秀一戰(zhàn)成名,以4:1成績(jī)打敗韓國(guó)職業(yè)棋手圍棋九段李世石(圍棋規(guī)則介紹:對(duì)弈雙方在19x19棋盤(pán)網(wǎng)格的交叉點(diǎn)上交替放置黑色和白色的棋子,落子完畢后,棋子不能移動(dòng),對(duì)弈過(guò)程中圍地吃子,以所圍“地”的大小決定勝負(fù))。

  其實(shí)早在2015年10月,AlphaGo v13在與職業(yè)棋手、歐洲冠軍樊麾二段的五番棋比賽中,以5:0獲勝。在與李世石九段比賽中版本為v18,賽后,AlphaGo榮獲韓國(guó)棋院授予的“第〇〇一號(hào) 名譽(yù)九段”證書(shū)。7月19日,AlphaGo在GoRantings世界圍棋排名中超過(guò)柯潔,成為世界第一。

  看到AlphaGo這一連串不可思議的成績(jī),我們不禁要問(wèn),是什么讓AlphaGo在短短時(shí)間內(nèi)就能以如此大的能量在古老的圍棋這一競(jìng)技項(xiàng)目迅速擊敗數(shù)千年歷史積累的人類(lèi)?

2016人工智能技術(shù)發(fā)展進(jìn)程梳理

  圖1 AlphaGo與李世石的對(duì)陣

  AlphaGo由Google在2014年收購(gòu)的英國(guó)人工智能公司DeepMind開(kāi)發(fā),背后是一套神經(jīng)網(wǎng)絡(luò)系統(tǒng),由許多個(gè)數(shù)據(jù)中心作為節(jié)點(diǎn)相連,每個(gè)節(jié)點(diǎn)內(nèi)有多臺(tái)超級(jí)計(jì)算機(jī)。這個(gè)系統(tǒng)基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)——一種在大型圖像處理上有著優(yōu)秀表現(xiàn)的神經(jīng)網(wǎng)絡(luò),常用于人工智能圖像識(shí)別,比如Google的圖片搜索、百度的識(shí)圖、阿里巴巴拍立淘等都運(yùn)用了卷積神經(jīng)網(wǎng)絡(luò)。AlphaGo背后的系統(tǒng)還借鑒了一種名為深度強(qiáng)化學(xué)習(xí)(Deep Q-Learning,DQN)的技巧。強(qiáng)化學(xué)習(xí)的靈感來(lái)源于心理學(xué)中的行為主義理論,即有機(jī)體如何在環(huán)境給予的獎(jiǎng)勵(lì)或懲罰的刺激下,逐步形成對(duì)刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。不僅如此,AlphaGo借鑒了蒙特卡洛樹(shù)搜索算法(Monte Carlo Tree Search),在判斷當(dāng)前局面的效用函數(shù)(value function)和決定下一步的策略函數(shù)(policy function)上有著非常好的表現(xiàn)。作為一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)、采用了強(qiáng)化學(xué)習(xí)模型的人工智能,AlphaGo具有廣泛適應(yīng)性,學(xué)習(xí)能力很強(qiáng),除了玩游戲、下圍棋,最近的DeepMind Health項(xiàng)目將人工智能引入了疾病診斷和預(yù)測(cè)中,為人們的健康提供更好的保障。

  AlphaGo系統(tǒng)和IBM在上個(gè)世紀(jì)打敗國(guó)際象棋大師卡斯帕羅夫的深藍(lán)超級(jí)計(jì)算機(jī)有什么不同?

  國(guó)際象棋AI算法一般是枚舉所有可能招法,給局面打分。AI能力主要分為兩方面:一是局面打分算法是否合理,二是迭代的深度。國(guó)際象棋開(kāi)局的時(shí)候可以動(dòng)8個(gè)兵(*2)和兩個(gè)馬(*2)共20種招法,雖然開(kāi)局到中期招法會(huì)多一點(diǎn),但是總數(shù)也就是幾十種,游戲判斷局面也簡(jiǎn)單,將軍的加分,攻擊強(qiáng)子加分,被將軍或者有強(qiáng)子被攻擊減分,控制范圍大的加分,國(guó)際象棋里即將升變的兵加分,粗略一算就可以有個(gè)相對(duì)不錯(cuò)的判斷。

  圍棋棋盤(pán)上每一點(diǎn),都有黑、白、空,三種情況,棋盤(pán)上共有19*19=361個(gè)點(diǎn),所以可能產(chǎn)生的局?jǐn)?shù)為3的361次方種(可以想象,從137億年前宇宙初始下起,60億人口每天下60億盤(pán),到目前為止,只下了不到億億億萬(wàn)分之一)。

  圍棋可選招法非常多,在初期可以全盤(pán)落子,打劫的時(shí)候則要找“劫材”。圍棋判斷形勢(shì)的復(fù)雜度也很高,因?yàn)樗衅遄拥匚黄降?,不在于一子定勝?fù),但每一子對(duì)于全局又都是牽一發(fā)而動(dòng)全身,所以需要的是整體協(xié)調(diào)和全局決策。AlphaGo不僅能很快計(jì)算圍棋當(dāng)前局面的效用函數(shù)和決定下一步的策略函數(shù),還能結(jié)合蒙特卡洛樹(shù)搜索算法進(jìn)行縱深的分析,得到整局棋的“最優(yōu)解”。無(wú)論從計(jì)算復(fù)雜度還是決策的深度上,AlphaGo都有質(zhì)的飛躍。

  小結(jié): AlphaGo可能是Google公關(guān)塑造的一個(gè)AI形象,但這是一次十分成功的嘗試,引起了世界性的關(guān)注。在這些華麗的成績(jī)之外,技術(shù)鋪墊仍然是一項(xiàng)不容小覷的工作,包括DQN算法模型與硬件平臺(tái)。我們接下來(lái)會(huì)詳細(xì)介紹。

  深度增強(qiáng)學(xué)習(xí)DQN

  增強(qiáng)學(xué)習(xí)是最近幾年中機(jī)器學(xué)習(xí)領(lǐng)域的最新進(jìn)展。

  增強(qiáng)學(xué)習(xí)的目的是通過(guò)和環(huán)境交互學(xué)習(xí)到如何在相應(yīng)的觀(guān)測(cè)中采取最優(yōu)行為。行為的好壞可以通過(guò)環(huán)境給的獎(jiǎng)勵(lì)來(lái)確定。不同的環(huán)境有不同的觀(guān)測(cè)和獎(jiǎng)勵(lì)。

  增強(qiáng)學(xué)習(xí)和傳統(tǒng)機(jī)器學(xué)習(xí)的最大區(qū)別在于,增強(qiáng)學(xué)習(xí)是一個(gè)閉環(huán)學(xué)習(xí)的系統(tǒng),算法選取的行為會(huì)直接影響到環(huán)境,進(jìn)而影響到該算法之后從環(huán)境中得到的觀(guān)測(cè)。

  增強(qiáng)學(xué)習(xí)存在著很多傳統(tǒng)機(jī)器學(xué)習(xí)所不具備的挑戰(zhàn)。

  首先,因?yàn)樵谠鰪?qiáng)學(xué)習(xí)中沒(méi)有確定在每一時(shí)刻應(yīng)該采取哪個(gè)行為的信息,算法必須通過(guò)探索各種可能才能判斷出最優(yōu)行為。如何有效地在可能行為數(shù)量較多的情況下有效探索,是增強(qiáng)學(xué)習(xí)的重要問(wèn)題。

  其次,在增強(qiáng)學(xué)習(xí)中一個(gè)行為不僅可能會(huì)影響當(dāng)前時(shí)刻的獎(jiǎng)勵(lì),而且還可能會(huì)影響之后所有時(shí)刻的獎(jiǎng)勵(lì)。

  在最壞的情況下,一個(gè)好行為不會(huì)在當(dāng)前時(shí)刻獲得獎(jiǎng)勵(lì),而會(huì)在很多步都執(zhí)行正確后才能得到。在這種情況下,判斷出獎(jiǎng)勵(lì)和很多步之前的行為有關(guān)非常難。

  雖然增強(qiáng)學(xué)習(xí)存在很多挑戰(zhàn),它也能夠解決很多傳統(tǒng)機(jī)器學(xué)習(xí)不能解決的問(wèn)題。首先,由于不需要標(biāo)注的過(guò)程,增強(qiáng)學(xué)習(xí)可以更有效地解決環(huán)境中所存在著的特殊情況。比如,無(wú)人車(chē)環(huán)境中可能會(huì)出現(xiàn)行人和動(dòng)物亂穿馬路的特殊情況。只要模擬器能模擬出這些特殊情況,增強(qiáng)學(xué)習(xí)就可以學(xué)習(xí)到怎么在這些特殊情況中做出正確的行為。其次,增強(qiáng)學(xué)習(xí)可以把整個(gè)系統(tǒng)作為一個(gè)整體,從而對(duì)其中的一些模塊更加魯棒。例如,自動(dòng)駕駛中的感知模塊不可能做到完全可靠。前一段時(shí)間,特斯拉無(wú)人駕駛的事故就是因?yàn)樵趶?qiáng)光環(huán)境中感知模塊失效導(dǎo)致的。增強(qiáng)學(xué)習(xí)可以做到,即使在某些模塊失效的情況下也能做出穩(wěn)妥的行為。最后,增強(qiáng)學(xué)習(xí)可以比較容易學(xué)習(xí)到一系列行為。

  自動(dòng)駕駛需要執(zhí)行一系列正確的行為才能成功駕駛。如果只有標(biāo)注數(shù)據(jù),學(xué)習(xí)到的模型每個(gè)時(shí)刻偏移了一點(diǎn),到最后可能就會(huì)偏移非常多,產(chǎn)生毀滅性的后果。而增強(qiáng)學(xué)習(xí)能夠?qū)W會(huì)自動(dòng)修正偏移。

  DeepMind曾用五款雅達(dá)利(Atari)游戲Pong、打磚塊、太空侵略者、海底救人、Beam Rider分別測(cè)試了自己開(kāi)發(fā)的人工智能,結(jié)果發(fā)現(xiàn):游戲后,神經(jīng)網(wǎng)絡(luò)的操控能力已經(jīng)遠(yuǎn)超世界上任何一位已知的游戲高手。

  DeepMind用同樣的一套人工智能,測(cè)試各種各樣的智力競(jìng)技項(xiàng)目,取得了優(yōu)異的戰(zhàn)績(jī),足以證明坐在李世石面前的AlphaGo,擁有多強(qiáng)的學(xué)習(xí)能力。

2016人工智能技術(shù)發(fā)展進(jìn)程梳理

  圖2 Atari游戲畫(huà)面

  小結(jié):如果說(shuō)深度學(xué)習(xí)相當(dāng)于嗷嗷待哺的嬰兒,需要人們準(zhǔn)備好大量有營(yíng)養(yǎng)的數(shù)據(jù)親手喂給它,那么增強(qiáng)學(xué)習(xí)就是擁有基本生活能力的青少年,叛逆而獨(dú)立,充滿(mǎn)激情,喜歡挑戰(zhàn),不斷在對(duì)抗中學(xué)習(xí)成長(zhǎng)。雖然與成熟的人工智能仍有較大差距,但可以肯定,這只是個(gè)時(shí)間問(wèn)題。


上一頁(yè) 1 2 3 4 下一頁(yè)

關(guān)鍵詞: 人工智能 AlphaGo

評(píng)論


相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉