吳恩達(dá):AI的下一個(gè)發(fā)展方向,從大數(shù)據(jù)轉(zhuǎn)向小數(shù)據(jù)
AI 發(fā)展方向需要轉(zhuǎn)向「小數(shù)據(jù)」了。
吳恩達(dá)(Andrew Ng)在 AI 領(lǐng)域有著很高的聲譽(yù)。在 2000 年代后期,他率先使用 GPU 與斯坦福大學(xué)的學(xué)生一起訓(xùn)練深度學(xué)習(xí)模型,并于 2011 年創(chuàng)立了 Google Brain,以通過(guò)分布式集群計(jì)算機(jī)開(kāi)發(fā)超大規(guī)模的人工神經(jīng)網(wǎng)絡(luò)。2014 年 5 月,吳恩達(dá)加入百度,負(fù)責(zé)「百度大腦」計(jì)劃,并擔(dān)任百度公司首席科學(xué)家,2017 年 3 月,吳恩達(dá)宣布從百度辭職。2017 年 12 月,吳恩達(dá)宣布成立人工智能公司 Landing . AI,擔(dān)任公司的首席執(zhí)行官。
近日,吳恩達(dá)在接受 IEEE Spectrum 的采訪時(shí),他表示已經(jīng)確定了 AI 領(lǐng)域的下一個(gè)重大轉(zhuǎn)變方向,是時(shí)候從大數(shù)據(jù)轉(zhuǎn)向小數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)。
目前,吳恩達(dá)的工作重心在其所創(chuàng)立的 Landing.AI 公司,該公司建立了一個(gè)名為 LandingLens 的平臺(tái),以幫助制造商通過(guò)計(jì)算機(jī)視覺(jué)改進(jìn)視覺(jué)檢測(cè)。此外,他還成為了「以數(shù)據(jù)為中心」的 AI 運(yùn)動(dòng)的擁護(hù)者,并表示小數(shù)據(jù)也能解決包括模型效率、準(zhǔn)確率和偏見(jiàn)等問(wèn)題在內(nèi)的 AI 大問(wèn)題。
以下是采訪原文,機(jī)器之心做了不改變?cè)獾木幾g。
吳恩達(dá):以數(shù)據(jù)為中心的解決方案來(lái)解決 AI 大問(wèn)題
在過(guò)去十年左右的時(shí)間里,深度學(xué)習(xí)的巨大進(jìn)步是由越來(lái)越大的模型處理越來(lái)越多的數(shù)據(jù)推動(dòng)的。有人認(rèn)為這是一個(gè)不可持續(xù)的軌跡。你怎么看?
吳恩達(dá):這確實(shí)是個(gè)值得思考的問(wèn)題。我們?cè)?NLP 領(lǐng)域已經(jīng)看到了的基礎(chǔ)模型的發(fā)展?jié)摿?。我?duì) NLP 模型變得更大以及在計(jì)算機(jī)視覺(jué)中構(gòu)建基礎(chǔ)模型感到興奮。我認(rèn)為在 CV 中仍有很多信息可以利用:但由于計(jì)算性能以及視頻處理成本的限制,還無(wú)法建立相關(guān)的基礎(chǔ)模型。大數(shù)據(jù)、大模型作為深度學(xué)習(xí)算法引擎已經(jīng)成功的運(yùn)行了大約 15 年,到目前為止,它仍然有動(dòng)力。話雖如此,它只適用于某些問(wèn)題,還有一系列其他問(wèn)題需要小數(shù)據(jù)才能解決。
你提到的計(jì)算機(jī)視覺(jué)基礎(chǔ)模型是指什么?
吳恩達(dá):這是我和斯坦福大學(xué)的一些朋友創(chuàng)造的一個(gè)術(shù)語(yǔ),它指的是非常大的模型,并在非常大的數(shù)據(jù)集上進(jìn)行訓(xùn)練,使用時(shí)可以為特定的應(yīng)用進(jìn)行微調(diào)。例如,我們可以將 GPT-3 視為 NLP 領(lǐng)域的一個(gè)基礎(chǔ)模型。基礎(chǔ)模型為開(kāi)發(fā)機(jī)器學(xué)習(xí)應(yīng)用程序提供了新范式,應(yīng)用前景很大,但同時(shí)也面臨著一些挑戰(zhàn):如何確保合理公平且沒(méi)有偏見(jiàn),特別是這些挑戰(zhàn)隨著越來(lái)越多的研究者在基礎(chǔ)模型上構(gòu)建應(yīng)用,會(huì)越來(lái)越明顯。
為視頻建立一個(gè)基礎(chǔ)模型需要什么?
吳恩達(dá):我認(rèn)為存在可擴(kuò)展性問(wèn)題。相比于 NLP,在 CV 領(lǐng)域處理大量視頻圖像需要巨大的計(jì)算,我認(rèn)為這就是為什么在 NLP 中率先出現(xiàn)了基礎(chǔ)模型。許多研究者正在研究這個(gè)問(wèn)題,我認(rèn)為在 CV 領(lǐng)域開(kāi)發(fā)此類(lèi)模型已經(jīng)有了早期跡象。但如果有比現(xiàn)在高 10 倍以上的處理器,我們就可以輕松構(gòu)建包含 10 倍視頻數(shù)據(jù)的基礎(chǔ)視覺(jué)模型。
話雖如此,過(guò)去十年深度學(xué)習(xí)的成功更多的發(fā)生在面向消費(fèi)者的公司,這些公司擁有龐大的用戶群體,有時(shí)是數(shù)十億用戶,因此數(shù)據(jù)量巨大。雖然這種機(jī)器學(xué)習(xí)范式為消費(fèi)軟件帶來(lái)了巨大的經(jīng)濟(jì)價(jià)值,但我發(fā)現(xiàn)這種規(guī)?;椒ú贿m用于其他行業(yè)。
聽(tīng)你這么說(shuō)很有趣,因?yàn)槟阍缙诘墓ぷ魇窃谝患颐嫦蛳M(fèi)者、擁有數(shù)百萬(wàn)用戶的公司。
吳恩達(dá):十多年前,當(dāng)我提議啟動(dòng) Google Brain 項(xiàng)目時(shí),使用谷歌的計(jì)算基礎(chǔ)設(shè)施來(lái)構(gòu)建大型神經(jīng)網(wǎng)絡(luò),這是一個(gè)有爭(zhēng)議的做法。一位非常資深的研究者曾告訴我,創(chuàng)辦 Google Brain 會(huì)對(duì)我的職業(yè)生涯不利。我不應(yīng)該只關(guān)注擴(kuò)大規(guī)模,而應(yīng)該專(zhuān)注于架構(gòu)創(chuàng)新。
在數(shù)據(jù)行業(yè)中,我認(rèn)為重點(diǎn)必須從大數(shù)據(jù)轉(zhuǎn)向優(yōu)質(zhì)數(shù)據(jù)。擁有 50 個(gè)精心設(shè)計(jì)的示例就足以向神經(jīng)網(wǎng)絡(luò)解釋用戶希望它學(xué)習(xí)什么。
我記得當(dāng)我和我的學(xué)生發(fā)表第一篇 NeurIPS workshop 論文時(shí),提倡使用 CUDA 進(jìn)行深度學(xué)習(xí)——另一位 AI 領(lǐng)域的資深人士告訴我:CUDA 編程很復(fù)雜,作為一種編程范式,工作量太大了,但我沒(méi)有辦法說(shuō)服他。
我想他們現(xiàn)在都相信了。
吳恩達(dá):我也這樣認(rèn)為。在過(guò)去的一年里,當(dāng)我與人們談?wù)撘詳?shù)據(jù)為中心的 AI 運(yùn)動(dòng)時(shí),我總是想到 10 或 15 年前與人們談?wù)撋疃葘W(xué)習(xí)和可擴(kuò)展性時(shí)的情景。在過(guò)去的一年里,我和 10 年前的評(píng)價(jià)一樣:這里沒(méi)有什么新東西以及這似乎是錯(cuò)誤的方向。
你如何定義以數(shù)據(jù)為中心的 AI,為什么你認(rèn)為它是一種運(yùn)動(dòng)?
吳恩達(dá):以數(shù)據(jù)為中心的 AI 是一門(mén)學(xué)科,它的研究重點(diǎn)是構(gòu)建 AI 系統(tǒng)所需的數(shù)據(jù)。對(duì)于 AI 系統(tǒng),你必須用代碼實(shí)現(xiàn)一些算法,比如神經(jīng)網(wǎng)絡(luò),然后在你的數(shù)據(jù)集上訓(xùn)練它。基于這種范式,在過(guò)去的十年中,深度學(xué)習(xí)網(wǎng)絡(luò)有了顯著的改進(jìn),以至于對(duì)于許多應(yīng)用程序,代碼、神經(jīng)網(wǎng)絡(luò)架構(gòu)基本上是一個(gè)已經(jīng)解決的問(wèn)題。因此,在實(shí)際應(yīng)用程序中,現(xiàn)在更有效率的做法是保持神經(jīng)網(wǎng)絡(luò)體系架構(gòu)不變,轉(zhuǎn)而尋找改進(jìn)數(shù)據(jù)的方法。
當(dāng)我講到這件事時(shí),很多研究者表示贊成,他們按照這個(gè)規(guī)律已經(jīng)做了 20 年了。現(xiàn)在是時(shí)候把這些事做成一門(mén)系統(tǒng)的工程學(xué)科了。
以數(shù)據(jù)為中心的 AI 運(yùn)動(dòng)要比一家公司或一組研究人員要大得多。我和其他合作者在 NeurIPS 上組織了一個(gè)以數(shù)據(jù)為中心的 AI 研討會(huì),我對(duì)出席的作者和演講者的數(shù)量感到非常高興。
你經(jīng)常談?wù)摴净驒C(jī)構(gòu)可供使用的數(shù)據(jù)非常少,以數(shù)據(jù)為中心的 AI 如何幫助他們?
吳恩達(dá):我們?cè)?tīng)說(shuō)過(guò)很多用數(shù)百萬(wàn)張圖像構(gòu)建的視覺(jué)系統(tǒng)——我曾經(jīng)用 3.5 億張圖像構(gòu)建了一個(gè)人臉識(shí)別系統(tǒng)。用數(shù)億張圖像構(gòu)建的系統(tǒng),是用 50 張圖像構(gòu)建的系統(tǒng)所遠(yuǎn)不能達(dá)到的。但事實(shí)證明,如果你有 50 個(gè)非常好的示例,你就可以構(gòu)建一些有價(jià)值的東西,比如缺陷檢查系統(tǒng)。在許多缺少巨型數(shù)據(jù)集的行業(yè)中,我認(rèn)為重點(diǎn)必須從大數(shù)據(jù)轉(zhuǎn)向優(yōu)質(zhì)數(shù)據(jù)。擁有 50 個(gè)精心設(shè)計(jì)的示例足以向神經(jīng)網(wǎng)絡(luò)解釋用戶希望它學(xué)習(xí)什么。
僅使用 50 張圖像來(lái)訓(xùn)練模型,你所講的是在非常大的數(shù)據(jù)集上訓(xùn)練模型并對(duì)其進(jìn)行微調(diào)?還是訓(xùn)練一個(gè)全新的模型?
吳恩達(dá):讓我來(lái)描述一下 Landing.AI 的功能。在為制造商做視覺(jué)檢查時(shí),我們經(jīng)常使用預(yù)訓(xùn)練模型 RetinaNet,其實(shí)預(yù)訓(xùn)練只是一小部分難題,更大的難題是可供使用的工具,使制造商能夠選擇正確的圖像集并以相同的方式標(biāo)注它們。我們?cè)谝曈X(jué)、NLP 和語(yǔ)音方面都遇到過(guò)一個(gè)非常實(shí)際的問(wèn)題,即使是人類(lèi)標(biāo)注也不能就標(biāo)簽達(dá)成一致。對(duì)于大數(shù)據(jù)應(yīng)用程序,常見(jiàn)的反應(yīng)是:如果數(shù)據(jù)有噪聲,我們只需通過(guò)大量數(shù)據(jù),相應(yīng)的算法就會(huì)對(duì)其進(jìn)行平均。但是,如果能夠開(kāi)發(fā)出一些工具來(lái)標(biāo)記數(shù)據(jù)不一致的地方,并提供具有針對(duì)性的方法改善數(shù)據(jù)的一致性,這將是一個(gè)獲得高性能系統(tǒng)的更有效的方法。
收集更多的數(shù)據(jù)通常會(huì)有所幫助,但如果研究者嘗試為所有內(nèi)容收集更多數(shù)據(jù),那代價(jià)非常昂貴。
例如,如果你有 10,000 張圖像,其中 30 張圖像屬于一類(lèi),而這 30 張圖像標(biāo)簽有不一致的地方,我們要做的就是構(gòu)建一種工具來(lái)對(duì)不一致的數(shù)據(jù)子集進(jìn)行處理。因此,你可以非??焖俚刂匦聵?biāo)記這些圖像以使其更加一致,從而提高性能。
對(duì)高質(zhì)量數(shù)據(jù)的關(guān)注是否會(huì)幫助消除數(shù)據(jù)偏見(jiàn)?如果你可以在訓(xùn)練之前更多地整理數(shù)據(jù)?
吳恩達(dá):肯定是這樣。很多研究人員指出,有偏見(jiàn)的數(shù)據(jù)是導(dǎo)致有偏見(jiàn)系統(tǒng)的眾多因素之一。在數(shù)據(jù)工程方面我們已經(jīng)有許多深思熟慮的工作。在 NeurIPS 的研討會(huì)上,Olga Russakovsky 對(duì)此進(jìn)行了非常精彩的演講。在 NeurIPS 主會(huì)議上,我也非常喜歡 Mary Gray 的演講,其中談到了以數(shù)據(jù)為中心的 AI 如何成為解決方案的一部分(而不是整個(gè)解決方案)。像 Datasheets for Datasets 這樣的新工具似乎也是這個(gè)難題的重要組成部分。
以數(shù)據(jù)為中心的 AI 為我們提供的強(qiáng)大工具之一是能夠設(shè)計(jì)數(shù)據(jù)子集。想象一下,訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)系統(tǒng),發(fā)現(xiàn)它的性能對(duì)于大多數(shù)數(shù)據(jù)集都還可以,但它的性能只對(duì)數(shù)據(jù)的一個(gè)子集有偏見(jiàn)。如果你嘗試更改整個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)以?xún)H提高該子集的性能,那將非常困難。但是,如果你可以調(diào)整數(shù)據(jù)的子集,則可以更有針對(duì)性地解決問(wèn)題。
當(dāng)說(shuō)到數(shù)據(jù)工程,我們主要在討論的是什么?
吳恩達(dá):在 AI 領(lǐng)域里,數(shù)據(jù)清洗非常重要,但清洗數(shù)據(jù)的方式通常高度依賴(lài)手動(dòng)的方式。在計(jì)算機(jī)視覺(jué)中,有人可能會(huì)通過(guò) Jupyter Notebook 來(lái)可視化圖像,以發(fā)現(xiàn)問(wèn)題并修復(fù)它。我對(duì)能夠讓自己擁有大規(guī)模數(shù)據(jù)集的工具感到興奮,這些工具可以快速有效地將你的注意力吸引到標(biāo)簽嘈雜的數(shù)據(jù)子集上?;蛘呖焖賹⒛愕淖⒁饬ξ?100 個(gè)類(lèi)別中的一個(gè),這將有利于收集更多數(shù)據(jù)。但如果你嘗試為所有內(nèi)容收集更多數(shù)據(jù),那可能是一項(xiàng)非常昂貴的工作。
例如,我曾經(jīng)發(fā)現(xiàn)當(dāng)背景中有汽車(chē)噪音時(shí),語(yǔ)音識(shí)別系統(tǒng)的性能會(huì)很差。知道這一點(diǎn)讓我能夠在后臺(tái)收集更多有汽車(chē)噪音的數(shù)據(jù),而不是試圖為所有事情收集更多數(shù)據(jù),后者將是昂貴且緩慢的。
使用合成數(shù)據(jù)怎么樣,這通常是一個(gè)好的解決方案嗎?
吳恩達(dá):我認(rèn)為合成數(shù)據(jù)是以數(shù)據(jù)為中心的 AI 工具箱中的重要工具。在 NeurIPS 研討會(huì)上,Anima Anandkumar 做了一個(gè)關(guān)于合成數(shù)據(jù)的精彩演講。我認(rèn)為合成數(shù)據(jù)的重要用途不僅僅是作為增加學(xué)習(xí)算法數(shù)據(jù)集的預(yù)處理步驟。我希望看到更多工具讓開(kāi)發(fā)人員使用合成數(shù)據(jù)生成作為迭代機(jī)器學(xué)習(xí)開(kāi)發(fā)閉環(huán)的一部分。
你的意思是,合成數(shù)據(jù)可以讓你在更多數(shù)據(jù)集上嘗試模型嗎?
吳恩達(dá):不,這是個(gè)例子。假如你試圖檢測(cè)智能手機(jī)外殼上的缺陷,手機(jī)上有很多不同類(lèi)型的缺陷:如劃痕、凹痕、砂孔、涂料問(wèn)題等等。如果你訓(xùn)練了一個(gè)模型,然后通過(guò)錯(cuò)誤分析發(fā)現(xiàn)它總體上表現(xiàn)良好,但在凹痕問(wèn)題上表現(xiàn)不佳,那么合成數(shù)據(jù)生成可以讓你以更有針對(duì)性的方式解決問(wèn)題。你可以?xún)H為凹痕記類(lèi)別生成更多數(shù)據(jù)。
合成數(shù)據(jù)生成是一個(gè)非常強(qiáng)大的工具,我們也會(huì)率先嘗試很多其他工具。例如數(shù)據(jù)增強(qiáng)、提高標(biāo)簽一致性,或者僅僅要求工廠收集更多數(shù)據(jù)。
你能舉個(gè)例子嗎?有公司聯(lián)系 Landing.AI 并表示在視覺(jué)檢測(cè)方面有問(wèn)題時(shí),你如何說(shuō)服他們部署自己的產(chǎn)品?
吳恩達(dá):當(dāng)客戶找到我們時(shí),我們首先就他們面臨的問(wèn)題進(jìn)行交流,并查看一些圖像以驗(yàn)證該問(wèn)題在計(jì)算機(jī)視覺(jué)方面是否可行。通常我們會(huì)要求他們將數(shù)據(jù)上傳到 LandingLens 平臺(tái)。我們經(jīng)常就以數(shù)據(jù)為中心的 AI 方法論向他們提供建議,并幫助他們標(biāo)注數(shù)據(jù)。
Landing.AI 的一項(xiàng)重要業(yè)務(wù)就是幫助制造業(yè)公司應(yīng)用機(jī)器學(xué)習(xí)。我們很多時(shí)候的工作是確保軟件足夠快速,易于使用。通過(guò)機(jī)器學(xué)習(xí)開(kāi)發(fā)的迭代流程,我們?yōu)榭蛻籼峁┲T如如何在平臺(tái)上訓(xùn)練模型、何時(shí)以及如何改進(jìn)數(shù)據(jù)標(biāo)記以提高模型性能等方面的建議。最后,我們的培訓(xùn)和軟件服務(wù),及已訓(xùn)練模型將部署到工廠的邊緣設(shè)備上,來(lái)為他們提供全程支持。
如何應(yīng)對(duì)不斷變化的需求?如果工廠的產(chǎn)品發(fā)生變化或照明條件發(fā)生變化,AI 模型能否跟上?
吳恩達(dá):每個(gè)工廠的情況都不一樣。很多情況下都會(huì)出現(xiàn)數(shù)據(jù)飄移現(xiàn)象,但是有一些制造商的生產(chǎn)線已經(jīng)運(yùn)行了 20 年幾乎沒(méi)有變化,他們也預(yù)計(jì)未來(lái)五年不發(fā)生變化。那些穩(wěn)定的環(huán)境使事情變得更容易。
對(duì)于其他生產(chǎn)商,我們提供了在出現(xiàn)重大數(shù)據(jù)漂移問(wèn)題時(shí)進(jìn)行標(biāo)記的工具。我發(fā)現(xiàn)授權(quán)制造業(yè)客戶更正數(shù)據(jù)、重新訓(xùn)練和更新模型是非常重要的事。因?yàn)槿绻l(fā)生問(wèn)題并是在美國(guó)凌晨 3 點(diǎn)的情況下,我希望他們能夠立即調(diào)整他們的機(jī)器學(xué)習(xí)算法以維持工廠運(yùn)轉(zhuǎn)。
在消費(fèi)互聯(lián)網(wǎng)軟件中,我們可以訓(xùn)練一些機(jī)器學(xué)習(xí)模型來(lái)服務(wù)數(shù)十億用戶。在制造業(yè)中,你可能有一萬(wàn)家制造商構(gòu)建一萬(wàn)個(gè)自定義 AI 模型。挑戰(zhàn)在于,Landing.AI 如何在不雇傭一萬(wàn)名機(jī)器學(xué)習(xí)專(zhuān)家的條件下做到這一點(diǎn)?
你是說(shuō)要使其規(guī)?;?,就必須在用戶側(cè)做大量訓(xùn)練等工作?
吳恩達(dá):就是這樣。這是人工智能領(lǐng)域中的一個(gè)全行業(yè)問(wèn)題,而不僅僅是制造業(yè)??纯瘁t(yī)療行業(yè),每家醫(yī)院的電子健康記錄格式都略有不同。醫(yī)院如何在此之上訓(xùn)練自己的 AI 模型?期望每家醫(yī)院的 IT 人員都發(fā)明新的神經(jīng)網(wǎng)絡(luò)架構(gòu)是不現(xiàn)實(shí)的。
擺脫困境的唯一方法是構(gòu)建工具,通過(guò)為客戶提供工具來(lái)構(gòu)筑數(shù)據(jù)和表達(dá)他們的領(lǐng)域知識(shí),從而使他們能夠構(gòu)建自己的模型。這是 Landing.AI 在計(jì)算機(jī)視覺(jué)領(lǐng)域中所做的工作,而 AI 領(lǐng)域需要其他團(tuán)隊(duì)在其他領(lǐng)域執(zhí)行。
你認(rèn)為在以數(shù)據(jù)為中心的 AI 運(yùn)動(dòng)中,還有哪些是人們需要知道的重要事情?
吳恩達(dá):過(guò)去十年,人工智能最大的轉(zhuǎn)變是向深度學(xué)習(xí)的轉(zhuǎn)變。我認(rèn)為在這十年中,最大的變化很可能是轉(zhuǎn)向以數(shù)據(jù)為中心的人工智能。隨著當(dāng)今神經(jīng)網(wǎng)絡(luò)架構(gòu)的成熟,我認(rèn)為在很多實(shí)際應(yīng)用上,瓶頸將出在「能否有效獲取開(kāi)發(fā)運(yùn)行良好系統(tǒng)所需的數(shù)據(jù)」上。
以數(shù)據(jù)為中心的 AI 運(yùn)動(dòng)在整個(gè)社區(qū)擁有巨大的能量和動(dòng)力。我希望更多研究和開(kāi)發(fā)人員能夠加入并持續(xù)推動(dòng)它。
原文鏈接:https://spectrum.ieee.org/andrew-ng-data-centric-ai
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。