Science：AI競賽，學界正在輸給業(yè)界

發(fā)布人：大數(shù)據(jù)文摘時間：2023-03-06 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

大數(shù)據(jù)文摘轉(zhuǎn)載自學術(shù)頭條

人工智能（AI）正在向業(yè)界傾斜。相比于學界的前沿性研究，風靡當下的 AI 聊天機器人 ChatGPT、AI 藝術(shù)生成器 Midjourney，以及微軟發(fā)布的新一代 AI 驅(qū)動搜索引擎 New Bing、谷歌發(fā)布 ChatGPT 競品 Bard 和那些未來將要發(fā)布的“類 ChatGPT”等，似乎正在預(yù)示著一場更大、更系統(tǒng)的變革。

盡管消費者能夠從業(yè)界的這些成果中受益，但伴隨而來的是全球決策者的擔憂——重要 AI 工具的公共科技替代品可能會越來越稀缺。

2023 年 3 月 3 日，來自麻省理工學院、弗吉尼亞理工大學的研究團隊在權(quán)威科學期刊 Science 上發(fā)文，闡述了業(yè)界在“數(shù)據(jù)、算力與人才”方面的優(yōu)勢，并探討了業(yè)界的這些優(yōu)勢可能帶來的隱患，以及可行的對策。

學術(shù)頭條在不改變文章原意的前提下，對原文進行了精簡與編譯。

幾十年來，AI 研究在學界和業(yè)界并存，但隨著深度學習成為該領(lǐng)域的領(lǐng)先技術(shù)，平衡正在向業(yè)界傾斜。我們常常看到業(yè)界 AI 的成功，如 DALL·E 2、ChatGPT、new Bing 等。

然而，這些頭條新聞預(yù)示著一場更大、更系統(tǒng)的變革：業(yè)界正在占據(jù) AI 研究的主導地位，從大型數(shù)據(jù)集、計算能力和高技能研究人員三方面支配著 AI 投入。這種支配正在轉(zhuǎn)化為一系列研究成果：業(yè)界在學術(shù)出版物、尖端模型和關(guān)鍵基準方面的影響力越來越大。盡管消費者能夠從中受益，但伴隨而來的是全球決策者的擔憂——重要 AI 工具的公共科技替代品可能會越來越稀缺。

業(yè)界的投入優(yōu)勢：數(shù)據(jù)、算力與人才

業(yè)界長期以來更能夠訪問大型、具有經(jīng)濟價值的數(shù)據(jù)集，因為大量用戶與設(shè)備交互時會自然而然地產(chǎn)生數(shù)據(jù)。例如，在 2020 年，WhatsApp 美國用戶每天發(fā)送大約 1000 億條消息。然而，業(yè)界的主導地位除了凸顯在數(shù)據(jù)之外，更是擴展到了現(xiàn)代 AI 的其他關(guān)鍵投入：人才和計算能力。

在過去十年中，AI 人才的需求驟升導致了 AI 人才競爭的加劇。然而，業(yè)界正在贏得這場競賽。來自北美州的眾多大學的數(shù)據(jù)顯示，專門研究 AI 的計算機科學（CS）博士畢業(yè)生正以前所未有的數(shù)量進入業(yè)界。2004 年，只有 21% 的 AI 博士進入業(yè)界，但到 2020 年，這一數(shù)量占比高達 70%。

專門研究 AI 的 CS 研究人員也從大學被聘請到業(yè)界工作。自 2006 年以來，這一招聘人數(shù)增長了 8 倍，遠高于 CS 研究人員的整體增長。這種擔憂并不局限于美國的大學。在英國，華威大學國王十字校區(qū)院長 Abhinay Muthoo 表示，“頂尖的科技公司正在汲取大學的精華”。

學界和業(yè)界的算力使用也呈現(xiàn)出越來越大的差距。在圖像分類中，業(yè)界使用的算力比學界或業(yè)界-學界合作使用的更大，并且增長更快。研究運用參數(shù)數(shù)量（所需算力的關(guān)鍵決定因素之一）來代替模型中使用的計算能力。2021 年，業(yè)界模型的平均規(guī)模是學界的 29 倍，突顯出兩組計算能力的巨大差異。

業(yè)界雇傭人才和利用更大算力的能力很可能是造成 AI 研究成果差異的原因。雖然公共和私營部門在 AI 方面的投資都在大幅增加，但業(yè)界的投資更大、增長更快。2021 年，非國防的美國政府機構(gòu)在 AI 行業(yè)撥款 15 億美元。同年，歐盟委員會計劃支出 10 億歐元。

相比之下，同年全球范圍內(nèi)，業(yè)界在 AI 上的支出超過了 3400 億美元，大大超過了公共投資。例如，2019 年，谷歌母公司 Alphabet 在其子公司 DeepMind 上花費了 15 億美元，這只是其 AI 投資的一部分。在歐洲，這一差距較小，但仍然存在；AI Watch 估計，“私營和公共部門分別占歐盟 AI 投資的 67% 和 33%”。

開展 AI 研究所需資金規(guī)模的一個例子來自 OpenAI，它最初是一個非營利組織，聲稱“不受產(chǎn)生財務(wù)回報的約束”，旨在“造福整個人類”。四年后，OpenAI 將其定位改為“有上限的營利組織”，并宣布這一改變將使他們“迅速增加對算力和人才方面的投資”。

業(yè)界在 AI 研究中日益占據(jù)主導地位

如今，業(yè)界對 AI 輸入的主導地位表現(xiàn)在 AI 成果的日益突出，尤其是在研究發(fā)布、創(chuàng)建最大模型和超越關(guān)鍵基準方面。在主要 AI 會議上，由一位或多位業(yè)界聯(lián)合作者撰寫的研究論文從 2000 年的 22% 增長到 2020 年的 38%；業(yè)界在最大的 AI 模型中所占份額已從 2010 年的 11% 上升到 2021 年的 96%。

在 AI 基準方面，縱觀圖像識別、語義分析、語言建模、語義分割、對象檢測和機器翻譯 6 個方面，以及涵蓋機器人和常識推理等領(lǐng)域的另外 14 項基準，在 2017 年之前，業(yè)界單獨或與大學合作，有 62% 的時間處于領(lǐng)先地位。自 2020 年以來，這一比例已上升到 91%。

因此，通過在領(lǐng)先的研究機構(gòu)發(fā)表文章、建立最先進的 AI 模型以及超越關(guān)鍵基準三個方面衡量，分析表明，業(yè)界在 AI 產(chǎn)出方面的地位越來越突出。

業(yè)界的壓倒性優(yōu)勢帶來隱患

業(yè)界對 AI 的投資不斷增加，可能通過技術(shù)的商業(yè)化為社會帶來巨大利益。公司可以創(chuàng)造更好的產(chǎn)品，使消費者受益——機器翻譯有利于國際貿(mào)易，并能簡化流程降低成本。業(yè)界對 AI 的投資還產(chǎn)生了對整個社區(qū)有價值的工具。例如，學界廣泛使用的 PyTorch 和 TensorFlow，促進深度學習模型高效訓練的硬件如 TPU，以及可公開訪問的預(yù)訓練模型——Meta 的 OPT 模型。

與此同時，AI 在業(yè)界中的集中也令人擔憂，業(yè)界的商業(yè)動機促使他們關(guān)注以盈利為導向的話題。如果所有的前沿模型都來自業(yè)界，就會出現(xiàn)不存在具有公共意識的替代品的情況。換句話來說，“優(yōu)先部門的 AI 研究人員傾向于專注于數(shù)據(jù)要求高和計算密集的深度學習方法”是以“涉及其他 AI 方法的研究、考慮 AI 的社會和倫理影響的研究以及在健康等領(lǐng)域的應(yīng)用”為代價的。

AI 的發(fā)展軌跡如何？誰來控制它？AI 會替代人類嗎并引發(fā)不平等嗎？一些研究人員擔心，“我們可能正走向社會次優(yōu)軌跡，它更側(cè)重于替代人類勞動，而不是增強人類能力?！币恍┤苏归_想象：業(yè)界和學界可能會形成與其他學科類似的分工：基礎(chǔ)研究主要由大學完成，而應(yīng)用研究和開發(fā)則主要由業(yè)界完成。

然而，在 AI 領(lǐng)域，產(chǎn)學的明確分工并不存在。業(yè)界所使用的應(yīng)用模型往往是那些突破基礎(chǔ)研究邊界的模型。例如，transformer 是由谷歌大腦研究人員于 2017 年開發(fā)的一種深度學習架構(gòu)，使得基礎(chǔ)研究向前邁出重要一步，并且?guī)缀趿⒓磻?yīng)用于業(yè)界使用。盡管這意味著學術(shù)工作可以直接惠及業(yè)界，但是應(yīng)用工作的業(yè)界主導權(quán)也賦予了它決定基礎(chǔ)研究方向的權(quán)力。

鑒于 AI 工具可以在整個社會中得到廣泛的應(yīng)用，這種情況將使少數(shù)技術(shù)公司在社會發(fā)展方向擁有巨大的權(quán)力。對于世界上許多人來說，這種擔憂進一步加劇，因為這些組織對他們來說是“外國公司”。例如，生命未來研究所認為，“歐洲公司沒有開發(fā)通用 AI 系統(tǒng)，而且由于他們與美國和中國公司相比在競爭上處于相對劣勢，不太可能很快開始開發(fā)”。

學界重塑 AI 前沿的可行之路

通過對業(yè)界 AI 的審查或外部監(jiān)督，監(jiān)管可能是解決方案。例如，2018 年，學者 Joy Buolamwini 和 Timnit Gebru 記錄了商業(yè)人臉識別系統(tǒng)中的性別和種族偏見。然而，如果學界不能接觸到業(yè)界的 AI 系統(tǒng)，或者沒有資源來開發(fā)競爭模型，他們解釋業(yè)界模型或提供公共利益的替代方案的能力將受到限制。

這既是因為學界無法建立尖端性能所需的大型模型，也是因為 AI 系統(tǒng)的一些有用的能力似乎是“涌現(xiàn)”的——系統(tǒng)只有在特別大的時候才能獲得這些能力。模型的一些負面特征似乎也隨著規(guī)模的增加而擴大。例如，AI 生成的語言中的毒性以及刻板印象。在任何一種情況下，沒有足夠資源的學者都無法對這些重要領(lǐng)域做出有意義的貢獻。

在全球范圍內(nèi)，這種對學界在 AI 研究中的資源劣勢的擔憂正在被認識到，并開始出現(xiàn)政策應(yīng)對措施。在美國，NAIRR 工作組提議創(chuàng)建公共研究云和公共數(shù)據(jù)集。在加拿大，國家高級研究計算平臺一直在為該國的學界服務(wù)，自從近十年前啟動以來，一直被超額使用。

對許多國家來說，這類投資所需的規(guī)模可能令人望而生畏。在這種情況下，決策者面臨的關(guān)鍵問題將是，他們是否能夠與志同道合的合作者一起籌集足夠的資源，以達到創(chuàng)建反映自己優(yōu)先事項的 AI 系統(tǒng)所需的規(guī)模。

算力并不是提供補救措施的唯一領(lǐng)域，構(gòu)建公共數(shù)據(jù)集將非常重要。但是，這并非易事，因為現(xiàn)代 AI 訓練數(shù)據(jù)集可以是數(shù)十億份文檔。特別值得關(guān)注的是，創(chuàng)建沒有直接商業(yè)利益的重要數(shù)據(jù)集，以及提供資源讓頂尖 AI 研究人員留在學界。例如，加拿大研究主席計劃（CRCP）通過提供工資和研究基金吸引加拿大頂尖人才。

對于致力于這一問題的決策者來說，目標應(yīng)該是確保有足夠的能力來幫助審查或監(jiān)控業(yè)界模型，或生產(chǎn)出符合公眾利益的替代模型。

有了這些能力，學界可以繼續(xù)塑造現(xiàn)代 AI 研究的前沿，并為負責任的 AI 制定基準。若沒有這些能力，重要的公眾興趣 AI 工作將被拋棄。

參考鏈接：https://www.science.org/doi/10.1126/science.ade2420

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

Science：AI競賽，學界正在輸給業(yè)界

相關(guān)推薦

技術(shù)專區(qū)