谷歌與DeepMind:史上最強(qiáng)AI拉鋸戰(zhàn)
DeepMind控制權(quán)之爭
本文引用地址:http://m.butianyuan.cn/article/201903/398607.htmHassabis一直說,DeepMind將使世界變得更好。但AGI存在不確定性。如果它真的出現(xiàn),我們不知道它是善是惡,也不知道它是否會服從于人類控制。即便它聽從人類控制,那這個人類舵手又會是誰呢?
從一開始,Hassabis就試圖保護(hù)DeepMind的獨(dú)立性。他一直堅(jiān)持讓DeepMind留在倫敦。Hassabis不愿交出自己一手帶大的公司。因此DeepMind制定了一項(xiàng)協(xié)議,阻止谷歌單方面控制該公司的知識產(chǎn)權(quán)。據(jù)知情人士透露,在收購前一年,雙方簽署了《道德與安全審查協(xié)議》。該協(xié)議將DeepMind的核心AGI技術(shù)的控制權(quán)交給了一個名為Ethics Board的委員會。Ethics Board為DeepMind提供了堅(jiān)實(shí)的法律支持,以保持對其最有價值、也可能是最危險的技術(shù)的控制。小組成員的名字尚未公布,但據(jù)消息人士透露,DeepMind的三位創(chuàng)始人都是Ethics Board成員。
此外DeepMind在市場公關(guān)方面表現(xiàn)極好。AlphaGo就是典型的例子。自谷歌被收購以來,DeepMind多次創(chuàng)造了舉世矚目的奇跡。比如,一個軟件可以在眼睛掃描中發(fā)現(xiàn)黃斑病變。另一個程序使用與AlphaGo類似的架構(gòu)從無到有地學(xué)會了下棋,僅僅花費(fèi)九個小時。2018年12月,一個名為AlphaFold的程序被證明可以從復(fù)合物列表中預(yù)測蛋白質(zhì)的三維結(jié)構(gòu),其準(zhǔn)確率高于同行競爭對手,這有助于治療帕金森病和阿爾茨海默癥等疾病。
谷歌數(shù)據(jù)中心預(yù)計(jì)包含250萬臺服務(wù)器,DeepMind開發(fā)了一套算法,以優(yōu)化谷歌數(shù)據(jù)中心冷卻方案,DeepMind深以為傲,因?yàn)楣雀枰虼私档土?0%的能源成本。谷歌母公司Alphabet為這類服務(wù)付給DeepMind豐厚的報酬。2017年,DeepMind向Alphabet收取了5400萬英鎊。但與DeepMind的日常管理費(fèi)用相比,這一數(shù)字顯得微不足道。那一年僅在DeepMind員工身上就花了2億英鎊??傮w而言,公司在2017年支出2.82億英鎊。
谷歌收購DeepMind五年后,控制權(quán)之爭不可避免??紤]到Hassabis對事業(yè)的執(zhí)著,他不太可能離開公司。他對金錢感興趣只是因?yàn)殄X能幫助他完成事業(yè)追求。到目前為止,谷歌對DeepMind的干預(yù)還不大。但最近發(fā)生的一件事卻引發(fā)了對公司未來獨(dú)立性的擔(dān)憂。
2016年2月,DeepMind成立了新醫(yī)療保健部門DeepMind Health,由公司聯(lián)合創(chuàng)始人之一的Mustafa Suleyman領(lǐng)導(dǎo)。公司希望創(chuàng)建Streams項(xiàng)目,當(dāng)病人的健康狀況惡化時,可以向醫(yī)生發(fā)出警告。DeepMind將獲得基于績效的費(fèi)用。由于這項(xiàng)工作需要獲得有關(guān)病人的敏感信息,Suleyman建立了一個獨(dú)立的審查小組(IRP)。
2018年11月8日,谷歌宣布成立自己的醫(yī)療保健部門Google Health。五天后,公司宣布將把DeepMind Health并入母公司相關(guān)部門。Suleyman曾在2016年寫道:“在任何階段,患者數(shù)據(jù)都不會與谷歌賬戶、產(chǎn)品或服務(wù)相關(guān)聯(lián)?!钡某兄Z似乎已經(jīng)落空。不過DeepMind還是說:“在這個階段,我們的合同都沒有轉(zhuǎn)到谷歌,只有得到合作伙伴的同意,才會轉(zhuǎn)去谷歌?!焙喜⒓づ薉eepMind Health的員工。據(jù)消息人士說,一旦合并完成,就會有更多員工計(jì)劃離職。據(jù)多名知情人士透露,有員工于2017年12月辭職,原因是擔(dān)心合并后該獨(dú)立審查小組更多的是為了裝門面,而不會對病人隱私數(shù)據(jù)使用情況進(jìn)行真正的監(jiān)督。
這一事件表明,DeepMind的非核心業(yè)務(wù)容易受到谷歌的左右。DeepMind在一份聲明中對此次合并給出了正面評價。但是我們不禁要問,谷歌是否會將同樣的邏輯應(yīng)用于DeepMind在AGI方面的工作。
強(qiáng)化學(xué)習(xí)
總體上來說DeepMind進(jìn)步明顯。它的軟件可以模擬甚至超越人類學(xué)習(xí)執(zhí)行任務(wù)。比如打磚塊游戲。沒有人類指導(dǎo),DeepMind的程序不僅學(xué)會了玩這個游戲,而且還學(xué)會了如何把球打進(jìn)磚塊后面的空間,利用球回彈來打更多的磚塊。Hassabis說,這證明了強(qiáng)化學(xué)習(xí)的力量和DeepMind計(jì)算程序的非凡能力。
這個游戲演示令人印象深刻,但有個問題。如果虛擬球拍移動得更高一些,程序就會失敗。AI項(xiàng)目所掌握的技能非常有限,即使對環(huán)境的微小變化也無法做出反應(yīng),除非接受數(shù)千輪強(qiáng)化學(xué)習(xí)?,F(xiàn)實(shí)世界的變化太多了。對于智能診斷來說,沒有兩個身體器官是完全相同的。對于智能機(jī)械,沒有兩個引擎可以用相同的方式調(diào)整。因此,將虛擬空間中完善的程序投放到現(xiàn)實(shí)世界困難重重。
另外一個問題是,虛擬環(huán)境中的成功取決于獎勵機(jī)制:一個允許軟件衡量其進(jìn)程的信號。程序了解到物體從墻上回彈會加分。AlphaGo很多編程工作都是在構(gòu)建與復(fù)雜游戲兼容的獎勵函數(shù)。不幸的是,現(xiàn)實(shí)世界并不提供這種簡單的獎勵。政治因素使問題更加復(fù)雜化。要協(xié)調(diào)氣候健康的獎勵信號(單位體積二氧化碳粒子數(shù))與石油公司的獎勵信號(股價),牽涉到許多動機(jī)矛盾的各方。獎勵信號往往非常微弱。而人腦在執(zhí)行任務(wù)的過程中不會去想有沒有獎勵的問題。
DeepMind通過大量計(jì)算機(jī)電力找到了解決方法。公司最近專注于策略電腦游戲星際爭霸II,游戲早期所做的決定對后來會產(chǎn)生影響,這更接近于現(xiàn)實(shí)世界任務(wù)所特有的那種復(fù)雜而延遲的反饋。今年1月,DeepMind軟件擊敗了一些頂級人類玩家,給人留下了深刻印象。它的程序也已經(jīng)開始學(xué)習(xí)經(jīng)由人類反饋的獎勵功能。不過,把人類指令置于計(jì)算循環(huán)中,比起純粹的計(jì)算機(jī)處理,其計(jì)算規(guī)模和速度都會受到影響。
公司研究人員匿名表示,他們也對DeepMind能否通過這些方法達(dá)到AGI表示懷疑,專注于在模擬環(huán)境中實(shí)現(xiàn)高性能,這使得獎勵信號問題很難解決。然而,這種方法又是DeepMind的核心。
Hassabis的人生一直在和游戲打交道。就像公司的軟件一樣,Hassabis只能從以往的經(jīng)驗(yàn)中學(xué)習(xí)。在發(fā)明了一些有用的醫(yī)療技術(shù),并超越了世界上最偉大的棋類游戲玩家之后,對AGI的追求最終還是可能會失敗。公司取得的成績斐然,卻不是Hassabis最終想要的。他仍然可以開創(chuàng)AGI的時代,就在谷歌的眼皮底下,但卻超出了它的控制范圍。如果這樣做,Hassabis將贏得最艱難的比賽。
評論