吳恩達(dá)：AI的下一個(gè)發(fā)展方向，從大數(shù)據(jù)轉(zhuǎn)向小數(shù)據(jù)

發(fā)布人：機(jī)器之心時(shí)間：2022-02-19 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

AI 發(fā)展方向需要轉(zhuǎn)向「小數(shù)據(jù)」了。

吳恩達(dá)（Andrew Ng）在 AI 領(lǐng)域有著很高的聲譽(yù)。在 2000 年代后期，他率先使用 GPU 與斯坦福大學(xué)的學(xué)生一起訓(xùn)練深度學(xué)習(xí)模型，并于 2011 年創(chuàng)立了 Google Brain，以通過(guò)分布式集群計(jì)算機(jī)開(kāi)發(fā)超大規(guī)模的人工神經(jīng)網(wǎng)絡(luò)。2014 年 5 月，吳恩達(dá)加入百度，負(fù)責(zé)「百度大腦」計(jì)劃，并擔(dān)任百度公司首席科學(xué)家，2017 年 3 月，吳恩達(dá)宣布從百度辭職。2017 年 12 月，吳恩達(dá)宣布成立人工智能公司 Landing . AI，擔(dān)任公司的首席執(zhí)行官。
近日，吳恩達(dá)在接受 IEEE Spectrum 的采訪時(shí)，他表示已經(jīng)確定了 AI 領(lǐng)域的下一個(gè)重大轉(zhuǎn)變方向，是時(shí)候從大數(shù)據(jù)轉(zhuǎn)向小數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)。
目前，吳恩達(dá)的工作重心在其所創(chuàng)立的 Landing.AI 公司，該公司建立了一個(gè)名為 LandingLens 的平臺(tái)，以幫助制造商通過(guò)計(jì)算機(jī)視覺(jué)改進(jìn)視覺(jué)檢測(cè)。此外，他還成為了「以數(shù)據(jù)為中心」的 AI 運(yùn)動(dòng)的擁護(hù)者，并表示小數(shù)據(jù)也能解決包括模型效率、準(zhǔn)確率和偏見(jiàn)等問(wèn)題在內(nèi)的 AI 大問(wèn)題。
以下是采訪原文，機(jī)器之心做了不改變?cè)獾木幾g。
吳恩達(dá)：以數(shù)據(jù)為中心的解決方案來(lái)解決 AI 大問(wèn)題

在過(guò)去十年左右的時(shí)間里，深度學(xué)習(xí)的巨大進(jìn)步是由越來(lái)越大的模型處理越來(lái)越多的數(shù)據(jù)推動(dòng)的。有人認(rèn)為這是一個(gè)不可持續(xù)的軌跡。你怎么看？
吳恩達(dá)：這確實(shí)是個(gè)值得思考的問(wèn)題。我們?cè)?NLP 領(lǐng)域已經(jīng)看到了的基礎(chǔ)模型的發(fā)展?jié)摿?。我?duì) NLP 模型變得更大以及在計(jì)算機(jī)視覺(jué)中構(gòu)建基礎(chǔ)模型感到興奮。我認(rèn)為在 CV 中仍有很多信息可以利用：但由于計(jì)算性能以及視頻處理成本的限制，還無(wú)法建立相關(guān)的基礎(chǔ)模型。大數(shù)據(jù)、大模型作為深度學(xué)習(xí)算法引擎已經(jīng)成功的運(yùn)行了大約 15 年，到目前為止，它仍然有動(dòng)力。話雖如此，它只適用于某些問(wèn)題，還有一系列其他問(wèn)題需要小數(shù)據(jù)才能解決。
你提到的計(jì)算機(jī)視覺(jué)基礎(chǔ)模型是指什么?
吳恩達(dá)：這是我和斯坦福大學(xué)的一些朋友創(chuàng)造的一個(gè)術(shù)語(yǔ)，它指的是非常大的模型，并在非常大的數(shù)據(jù)集上進(jìn)行訓(xùn)練，使用時(shí)可以為特定的應(yīng)用進(jìn)行微調(diào)。例如，我們可以將 GPT-3 視為 NLP 領(lǐng)域的一個(gè)基礎(chǔ)模型。基礎(chǔ)模型為開(kāi)發(fā)機(jī)器學(xué)習(xí)應(yīng)用程序提供了新范式，應(yīng)用前景很大，但同時(shí)也面臨著一些挑戰(zhàn)：如何確保合理公平且沒(méi)有偏見(jiàn)，特別是這些挑戰(zhàn)隨著越來(lái)越多的研究者在基礎(chǔ)模型上構(gòu)建應(yīng)用，會(huì)越來(lái)越明顯。
為視頻建立一個(gè)基礎(chǔ)模型需要什么?
吳恩達(dá)：我認(rèn)為存在可擴(kuò)展性問(wèn)題。相比于 NLP，在 CV 領(lǐng)域處理大量視頻圖像需要巨大的計(jì)算，我認(rèn)為這就是為什么在 NLP 中率先出現(xiàn)了基礎(chǔ)模型。許多研究者正在研究這個(gè)問(wèn)題，我認(rèn)為在 CV 領(lǐng)域開(kāi)發(fā)此類(lèi)模型已經(jīng)有了早期跡象。但如果有比現(xiàn)在高 10 倍以上的處理器，我們就可以輕松構(gòu)建包含 10 倍視頻數(shù)據(jù)的基礎(chǔ)視覺(jué)模型。
話雖如此，過(guò)去十年深度學(xué)習(xí)的成功更多的發(fā)生在面向消費(fèi)者的公司，這些公司擁有龐大的用戶群體，有時(shí)是數(shù)十億用戶，因此數(shù)據(jù)量巨大。雖然這種機(jī)器學(xué)習(xí)范式為消費(fèi)軟件帶來(lái)了巨大的經(jīng)濟(jì)價(jià)值，但我發(fā)現(xiàn)這種規(guī)?；椒ú贿m用于其他行業(yè)。
聽(tīng)你這么說(shuō)很有趣，因?yàn)槟阍缙诘墓ぷ魇窃谝患颐嫦蛳M(fèi)者、擁有數(shù)百萬(wàn)用戶的公司。
吳恩達(dá)：十多年前，當(dāng)我提議啟動(dòng) Google Brain 項(xiàng)目時(shí)，使用谷歌的計(jì)算基礎(chǔ)設(shè)施來(lái)構(gòu)建大型神經(jīng)網(wǎng)絡(luò)，這是一個(gè)有爭(zhēng)議的做法。一位非常資深的研究者曾告訴我，創(chuàng)辦 Google Brain 會(huì)對(duì)我的職業(yè)生涯不利。我不應(yīng)該只關(guān)注擴(kuò)大規(guī)模，而應(yīng)該專(zhuān)注于架構(gòu)創(chuàng)新。
在數(shù)據(jù)行業(yè)中，我認(rèn)為重點(diǎn)必須從大數(shù)據(jù)轉(zhuǎn)向優(yōu)質(zhì)數(shù)據(jù)。擁有 50 個(gè)精心設(shè)計(jì)的示例就足以向神經(jīng)網(wǎng)絡(luò)解釋用戶希望它學(xué)習(xí)什么。
我記得當(dāng)我和我的學(xué)生發(fā)表第一篇 NeurIPS workshop 論文時(shí)，提倡使用 CUDA 進(jìn)行深度學(xué)習(xí)——另一位 AI 領(lǐng)域的資深人士告訴我：CUDA 編程很復(fù)雜，作為一種編程范式，工作量太大了，但我沒(méi)有辦法說(shuō)服他。
我想他們現(xiàn)在都相信了。
吳恩達(dá)：我也這樣認(rèn)為。在過(guò)去的一年里，當(dāng)我與人們談?wù)撘詳?shù)據(jù)為中心的 AI 運(yùn)動(dòng)時(shí)，我總是想到 10 或 15 年前與人們談?wù)撋疃葘W(xué)習(xí)和可擴(kuò)展性時(shí)的情景。在過(guò)去的一年里，我和 10 年前的評(píng)價(jià)一樣：這里沒(méi)有什么新東西以及這似乎是錯(cuò)誤的方向。
你如何定義以數(shù)據(jù)為中心的 AI，為什么你認(rèn)為它是一種運(yùn)動(dòng)？
吳恩達(dá)：以數(shù)據(jù)為中心的 AI 是一門(mén)學(xué)科，它的研究重點(diǎn)是構(gòu)建 AI 系統(tǒng)所需的數(shù)據(jù)。對(duì)于 AI 系統(tǒng)，你必須用代碼實(shí)現(xiàn)一些算法，比如神經(jīng)網(wǎng)絡(luò)，然后在你的數(shù)據(jù)集上訓(xùn)練它。基于這種范式，在過(guò)去的十年中，深度學(xué)習(xí)網(wǎng)絡(luò)有了顯著的改進(jìn)，以至于對(duì)于許多應(yīng)用程序，代碼、神經(jīng)網(wǎng)絡(luò)架構(gòu)基本上是一個(gè)已經(jīng)解決的問(wèn)題。因此，在實(shí)際應(yīng)用程序中，現(xiàn)在更有效率的做法是保持神經(jīng)網(wǎng)絡(luò)體系架構(gòu)不變，轉(zhuǎn)而尋找改進(jìn)數(shù)據(jù)的方法。
當(dāng)我講到這件事時(shí)，很多研究者表示贊成，他們按照這個(gè)規(guī)律已經(jīng)做了 20 年了。現(xiàn)在是時(shí)候把這些事做成一門(mén)系統(tǒng)的工程學(xué)科了。
以數(shù)據(jù)為中心的 AI 運(yùn)動(dòng)要比一家公司或一組研究人員要大得多。我和其他合作者在 NeurIPS 上組織了一個(gè)以數(shù)據(jù)為中心的 AI 研討會(huì)，我對(duì)出席的作者和演講者的數(shù)量感到非常高興。
你經(jīng)常談?wù)摴净驒C(jī)構(gòu)可供使用的數(shù)據(jù)非常少，以數(shù)據(jù)為中心的 AI 如何幫助他們？
吳恩達(dá)：我們?cè)?tīng)說(shuō)過(guò)很多用數(shù)百萬(wàn)張圖像構(gòu)建的視覺(jué)系統(tǒng)——我曾經(jīng)用 3.5 億張圖像構(gòu)建了一個(gè)人臉識(shí)別系統(tǒng)。用數(shù)億張圖像構(gòu)建的系統(tǒng)，是用 50 張圖像構(gòu)建的系統(tǒng)所遠(yuǎn)不能達(dá)到的。但事實(shí)證明，如果你有 50 個(gè)非常好的示例，你就可以構(gòu)建一些有價(jià)值的東西，比如缺陷檢查系統(tǒng)。在許多缺少巨型數(shù)據(jù)集的行業(yè)中，我認(rèn)為重點(diǎn)必須從大數(shù)據(jù)轉(zhuǎn)向優(yōu)質(zhì)數(shù)據(jù)。擁有 50 個(gè)精心設(shè)計(jì)的示例足以向神經(jīng)網(wǎng)絡(luò)解釋用戶希望它學(xué)習(xí)什么。
僅使用 50 張圖像來(lái)訓(xùn)練模型，你所講的是在非常大的數(shù)據(jù)集上訓(xùn)練模型并對(duì)其進(jìn)行微調(diào)？還是訓(xùn)練一個(gè)全新的模型？
吳恩達(dá)：讓我來(lái)描述一下 Landing.AI 的功能。在為制造商做視覺(jué)檢查時(shí)，我們經(jīng)常使用預(yù)訓(xùn)練模型 RetinaNet，其實(shí)預(yù)訓(xùn)練只是一小部分難題，更大的難題是可供使用的工具，使制造商能夠選擇正確的圖像集并以相同的方式標(biāo)注它們。我們?cè)谝曈X(jué)、NLP 和語(yǔ)音方面都遇到過(guò)一個(gè)非常實(shí)際的問(wèn)題，即使是人類(lèi)標(biāo)注也不能就標(biāo)簽達(dá)成一致。對(duì)于大數(shù)據(jù)應(yīng)用程序，常見(jiàn)的反應(yīng)是：如果數(shù)據(jù)有噪聲，我們只需通過(guò)大量數(shù)據(jù)，相應(yīng)的算法就會(huì)對(duì)其進(jìn)行平均。但是，如果能夠開(kāi)發(fā)出一些工具來(lái)標(biāo)記數(shù)據(jù)不一致的地方，并提供具有針對(duì)性的方法改善數(shù)據(jù)的一致性，這將是一個(gè)獲得高性能系統(tǒng)的更有效的方法。
收集更多的數(shù)據(jù)通常會(huì)有所幫助，但如果研究者嘗試為所有內(nèi)容收集更多數(shù)據(jù)，那代價(jià)非常昂貴。
例如，如果你有 10,000 張圖像，其中 30 張圖像屬于一類(lèi)，而這 30 張圖像標(biāo)簽有不一致的地方，我們要做的就是構(gòu)建一種工具來(lái)對(duì)不一致的數(shù)據(jù)子集進(jìn)行處理。因此，你可以非?？焖俚刂匦聵?biāo)記這些圖像以使其更加一致，從而提高性能。
對(duì)高質(zhì)量數(shù)據(jù)的關(guān)注是否會(huì)幫助消除數(shù)據(jù)偏見(jiàn)？如果你可以在訓(xùn)練之前更多地整理數(shù)據(jù)？
吳恩達(dá)：肯定是這樣。很多研究人員指出，有偏見(jiàn)的數(shù)據(jù)是導(dǎo)致有偏見(jiàn)系統(tǒng)的眾多因素之一。在數(shù)據(jù)工程方面我們已經(jīng)有許多深思熟慮的工作。在 NeurIPS 的研討會(huì)上，Olga Russakovsky 對(duì)此進(jìn)行了非常精彩的演講。在 NeurIPS 主會(huì)議上，我也非常喜歡 Mary Gray 的演講，其中談到了以數(shù)據(jù)為中心的 AI 如何成為解決方案的一部分（而不是整個(gè)解決方案）。像 Datasheets for Datasets 這樣的新工具似乎也是這個(gè)難題的重要組成部分。
以數(shù)據(jù)為中心的 AI 為我們提供的強(qiáng)大工具之一是能夠設(shè)計(jì)數(shù)據(jù)子集。想象一下，訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)，發(fā)現(xiàn)它的性能對(duì)于大多數(shù)數(shù)據(jù)集都還可以，但它的性能只對(duì)數(shù)據(jù)的一個(gè)子集有偏見(jiàn)。如果你嘗試更改整個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)以?xún)H提高該子集的性能，那將非常困難。但是，如果你可以調(diào)整數(shù)據(jù)的子集，則可以更有針對(duì)性地解決問(wèn)題。
當(dāng)說(shuō)到數(shù)據(jù)工程，我們主要在討論的是什么？
吳恩達(dá)：在 AI 領(lǐng)域里，數(shù)據(jù)清洗非常重要，但清洗數(shù)據(jù)的方式通常高度依賴(lài)手動(dòng)的方式。在計(jì)算機(jī)視覺(jué)中，有人可能會(huì)通過(guò) Jupyter Notebook 來(lái)可視化圖像，以發(fā)現(xiàn)問(wèn)題并修復(fù)它。我對(duì)能夠讓自己擁有大規(guī)模數(shù)據(jù)集的工具感到興奮，這些工具可以快速有效地將你的注意力吸引到標(biāo)簽嘈雜的數(shù)據(jù)子集上?；蛘呖焖賹⒛愕淖⒁饬ξ?100 個(gè)類(lèi)別中的一個(gè)，這將有利于收集更多數(shù)據(jù)。但如果你嘗試為所有內(nèi)容收集更多數(shù)據(jù)，那可能是一項(xiàng)非常昂貴的工作。
例如，我曾經(jīng)發(fā)現(xiàn)當(dāng)背景中有汽車(chē)噪音時(shí)，語(yǔ)音識(shí)別系統(tǒng)的性能會(huì)很差。知道這一點(diǎn)讓我能夠在后臺(tái)收集更多有汽車(chē)噪音的數(shù)據(jù)，而不是試圖為所有事情收集更多數(shù)據(jù)，后者將是昂貴且緩慢的。
使用合成數(shù)據(jù)怎么樣，這通常是一個(gè)好的解決方案嗎？
吳恩達(dá)：我認(rèn)為合成數(shù)據(jù)是以數(shù)據(jù)為中心的 AI 工具箱中的重要工具。在 NeurIPS 研討會(huì)上，Anima Anandkumar 做了一個(gè)關(guān)于合成數(shù)據(jù)的精彩演講。我認(rèn)為合成數(shù)據(jù)的重要用途不僅僅是作為增加學(xué)習(xí)算法數(shù)據(jù)集的預(yù)處理步驟。我希望看到更多工具讓開(kāi)發(fā)人員使用合成數(shù)據(jù)生成作為迭代機(jī)器學(xué)習(xí)開(kāi)發(fā)閉環(huán)的一部分。
你的意思是，合成數(shù)據(jù)可以讓你在更多數(shù)據(jù)集上嘗試模型嗎？
吳恩達(dá)：不，這是個(gè)例子。假如你試圖檢測(cè)智能手機(jī)外殼上的缺陷，手機(jī)上有很多不同類(lèi)型的缺陷：如劃痕、凹痕、砂孔、涂料問(wèn)題等等。如果你訓(xùn)練了一個(gè)模型，然后通過(guò)錯(cuò)誤分析發(fā)現(xiàn)它總體上表現(xiàn)良好，但在凹痕問(wèn)題上表現(xiàn)不佳，那么合成數(shù)據(jù)生成可以讓你以更有針對(duì)性的方式解決問(wèn)題。你可以?xún)H為凹痕記類(lèi)別生成更多數(shù)據(jù)。
合成數(shù)據(jù)生成是一個(gè)非常強(qiáng)大的工具，我們也會(huì)率先嘗試很多其他工具。例如數(shù)據(jù)增強(qiáng)、提高標(biāo)簽一致性，或者僅僅要求工廠收集更多數(shù)據(jù)。
你能舉個(gè)例子嗎？有公司聯(lián)系 Landing.AI 并表示在視覺(jué)檢測(cè)方面有問(wèn)題時(shí)，你如何說(shuō)服他們部署自己的產(chǎn)品？
吳恩達(dá)：當(dāng)客戶找到我們時(shí)，我們首先就他們面臨的問(wèn)題進(jìn)行交流，并查看一些圖像以驗(yàn)證該問(wèn)題在計(jì)算機(jī)視覺(jué)方面是否可行。通常我們會(huì)要求他們將數(shù)據(jù)上傳到 LandingLens 平臺(tái)。我們經(jīng)常就以數(shù)據(jù)為中心的 AI 方法論向他們提供建議，并幫助他們標(biāo)注數(shù)據(jù)。
Landing.AI 的一項(xiàng)重要業(yè)務(wù)就是幫助制造業(yè)公司應(yīng)用機(jī)器學(xué)習(xí)。我們很多時(shí)候的工作是確保軟件足夠快速，易于使用。通過(guò)機(jī)器學(xué)習(xí)開(kāi)發(fā)的迭代流程，我們?yōu)榭蛻籼峁┲T如如何在平臺(tái)上訓(xùn)練模型、何時(shí)以及如何改進(jìn)數(shù)據(jù)標(biāo)記以提高模型性能等方面的建議。最后，我們的培訓(xùn)和軟件服務(wù)，及已訓(xùn)練模型將部署到工廠的邊緣設(shè)備上，來(lái)為他們提供全程支持。
如何應(yīng)對(duì)不斷變化的需求？如果工廠的產(chǎn)品發(fā)生變化或照明條件發(fā)生變化，AI 模型能否跟上？
吳恩達(dá)：每個(gè)工廠的情況都不一樣。很多情況下都會(huì)出現(xiàn)數(shù)據(jù)飄移現(xiàn)象，但是有一些制造商的生產(chǎn)線已經(jīng)運(yùn)行了 20 年幾乎沒(méi)有變化，他們也預(yù)計(jì)未來(lái)五年不發(fā)生變化。那些穩(wěn)定的環(huán)境使事情變得更容易。
對(duì)于其他生產(chǎn)商，我們提供了在出現(xiàn)重大數(shù)據(jù)漂移問(wèn)題時(shí)進(jìn)行標(biāo)記的工具。我發(fā)現(xiàn)授權(quán)制造業(yè)客戶更正數(shù)據(jù)、重新訓(xùn)練和更新模型是非常重要的事。因?yàn)槿绻l(fā)生問(wèn)題并是在美國(guó)凌晨 3 點(diǎn)的情況下，我希望他們能夠立即調(diào)整他們的機(jī)器學(xué)習(xí)算法以維持工廠運(yùn)轉(zhuǎn)。
在消費(fèi)互聯(lián)網(wǎng)軟件中，我們可以訓(xùn)練一些機(jī)器學(xué)習(xí)模型來(lái)服務(wù)數(shù)十億用戶。在制造業(yè)中，你可能有一萬(wàn)家制造商構(gòu)建一萬(wàn)個(gè)自定義 AI 模型。挑戰(zhàn)在于，Landing.AI 如何在不雇傭一萬(wàn)名機(jī)器學(xué)習(xí)專(zhuān)家的條件下做到這一點(diǎn)？
你是說(shuō)要使其規(guī)?；?，就必須在用戶側(cè)做大量訓(xùn)練等工作？
吳恩達(dá)：就是這樣。這是人工智能領(lǐng)域中的一個(gè)全行業(yè)問(wèn)題，而不僅僅是制造業(yè)?？纯瘁t(yī)療行業(yè)，每家醫(yī)院的電子健康記錄格式都略有不同。醫(yī)院如何在此之上訓(xùn)練自己的 AI 模型？期望每家醫(yī)院的 IT 人員都發(fā)明新的神經(jīng)網(wǎng)絡(luò)架構(gòu)是不現(xiàn)實(shí)的。
擺脫困境的唯一方法是構(gòu)建工具，通過(guò)為客戶提供工具來(lái)構(gòu)筑數(shù)據(jù)和表達(dá)他們的領(lǐng)域知識(shí)，從而使他們能夠構(gòu)建自己的模型。這是 Landing.AI 在計(jì)算機(jī)視覺(jué)領(lǐng)域中所做的工作，而 AI 領(lǐng)域需要其他團(tuán)隊(duì)在其他領(lǐng)域執(zhí)行。
你認(rèn)為在以數(shù)據(jù)為中心的 AI 運(yùn)動(dòng)中，還有哪些是人們需要知道的重要事情？
吳恩達(dá)：過(guò)去十年，人工智能最大的轉(zhuǎn)變是向深度學(xué)習(xí)的轉(zhuǎn)變。我認(rèn)為在這十年中，最大的變化很可能是轉(zhuǎn)向以數(shù)據(jù)為中心的人工智能。隨著當(dāng)今神經(jīng)網(wǎng)絡(luò)架構(gòu)的成熟，我認(rèn)為在很多實(shí)際應(yīng)用上，瓶頸將出在「能否有效獲取開(kāi)發(fā)運(yùn)行良好系統(tǒng)所需的數(shù)據(jù)」上。
以數(shù)據(jù)為中心的 AI 運(yùn)動(dòng)在整個(gè)社區(qū)擁有巨大的能量和動(dòng)力。我希望更多研究和開(kāi)發(fā)人員能夠加入并持續(xù)推動(dòng)它。
原文鏈接：https://spectrum.ieee.org/andrew-ng-data-centric-ai

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專(zhuān)欄

吳恩達(dá)：AI的下一個(gè)發(fā)展方向，從大數(shù)據(jù)轉(zhuǎn)向小數(shù)據(jù)

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

博客專(zhuān)欄

吳恩達(dá)：AI的下一個(gè)發(fā)展方向，從大數(shù)據(jù)轉(zhuǎn)向小數(shù)據(jù)

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

吳恩達(dá)：AI的下一個(gè)發(fā)展方向，從大數(shù)據(jù)轉(zhuǎn)向小數(shù)據(jù)