Science:AI競賽,學界正在輸給業(yè)界
大數(shù)據(jù)文摘轉(zhuǎn)載自學術(shù)頭條
人工智能(AI)正在向業(yè)界傾斜。相比于學界的前沿性研究,風靡當下的 AI 聊天機器人 ChatGPT、AI 藝術(shù)生成器 Midjourney,以及微軟發(fā)布的新一代 AI 驅(qū)動搜索引擎 New Bing、谷歌發(fā)布 ChatGPT 競品 Bard 和那些未來將要發(fā)布的“類 ChatGPT”等,似乎正在預(yù)示著一場更大、更系統(tǒng)的變革。
盡管消費者能夠從業(yè)界的這些成果中受益,但伴隨而來的是全球決策者的擔憂——重要 AI 工具的公共科技替代品可能會越來越稀缺。
2023 年 3 月 3 日,來自麻省理工學院、弗吉尼亞理工大學的研究團隊在權(quán)威科學期刊 Science 上發(fā)文,闡述了業(yè)界在“數(shù)據(jù)、算力與人才”方面的優(yōu)勢,并探討了業(yè)界的這些優(yōu)勢可能帶來的隱患,以及可行的對策。
學術(shù)頭條在不改變文章原意的前提下,對原文進行了精簡與編譯。
幾十年來,AI 研究在學界和業(yè)界并存,但隨著深度學習成為該領(lǐng)域的領(lǐng)先技術(shù),平衡正在向業(yè)界傾斜。我們常常看到業(yè)界 AI 的成功,如 DALL·E 2、ChatGPT、new Bing 等。
然而,這些頭條新聞預(yù)示著一場更大、更系統(tǒng)的變革:業(yè)界正在占據(jù) AI 研究的主導地位,從大型數(shù)據(jù)集、計算能力和高技能研究人員三方面支配著 AI 投入。這種支配正在轉(zhuǎn)化為一系列研究成果:業(yè)界在學術(shù)出版物、尖端模型和關(guān)鍵基準方面的影響力越來越大。盡管消費者能夠從中受益,但伴隨而來的是全球決策者的擔憂——重要 AI 工具的公共科技替代品可能會越來越稀缺。
業(yè)界的投入優(yōu)勢:數(shù)據(jù)、算力與人才
業(yè)界長期以來更能夠訪問大型、具有經(jīng)濟價值的數(shù)據(jù)集,因為大量用戶與設(shè)備交互時會自然而然地產(chǎn)生數(shù)據(jù)。例如,在 2020 年,WhatsApp 美國用戶每天發(fā)送大約 1000 億條消息。然而,業(yè)界的主導地位除了凸顯在數(shù)據(jù)之外,更是擴展到了現(xiàn)代 AI 的其他關(guān)鍵投入:人才和計算能力。
在過去十年中,AI 人才的需求驟升導致了 AI 人才競爭的加劇。然而,業(yè)界正在贏得這場競賽。來自北美州的眾多大學的數(shù)據(jù)顯示,專門研究 AI 的計算機科學(CS)博士畢業(yè)生正以前所未有的數(shù)量進入業(yè)界。2004 年,只有 21% 的 AI 博士進入業(yè)界,但到 2020 年,這一數(shù)量占比高達 70%。
專門研究 AI 的 CS 研究人員也從大學被聘請到業(yè)界工作。自 2006 年以來,這一招聘人數(shù)增長了 8 倍,遠高于 CS 研究人員的整體增長。這種擔憂并不局限于美國的大學。在英國,華威大學國王十字校區(qū)院長 Abhinay Muthoo 表示,“頂尖的科技公司正在汲取大學的精華”。
學界和業(yè)界的算力使用也呈現(xiàn)出越來越大的差距。在圖像分類中,業(yè)界使用的算力比學界或業(yè)界-學界合作使用的更大,并且增長更快。研究運用參數(shù)數(shù)量(所需算力的關(guān)鍵決定因素之一)來代替模型中使用的計算能力。2021 年,業(yè)界模型的平均規(guī)模是學界的 29 倍,突顯出兩組計算能力的巨大差異。
業(yè)界雇傭人才和利用更大算力的能力很可能是造成 AI 研究成果差異的原因。雖然公共和私營部門在 AI 方面的投資都在大幅增加,但業(yè)界的投資更大、增長更快。2021 年,非國防的美國政府機構(gòu)在 AI 行業(yè)撥款 15 億美元。同年,歐盟委員會計劃支出 10 億歐元。
相比之下,同年全球范圍內(nèi),業(yè)界在 AI 上的支出超過了 3400 億美元,大大超過了公共投資。例如,2019 年,谷歌母公司 Alphabet 在其子公司 DeepMind 上花費了 15 億美元,這只是其 AI 投資的一部分。在歐洲,這一差距較小,但仍然存在;AI Watch 估計,“私營和公共部門分別占歐盟 AI 投資的 67% 和 33%”。
開展 AI 研究所需資金規(guī)模的一個例子來自 OpenAI,它最初是一個非營利組織,聲稱“不受產(chǎn)生財務(wù)回報的約束”,旨在“造福整個人類”。四年后,OpenAI 將其定位改為“有上限的營利組織”,并宣布這一改變將使他們“迅速增加對算力和人才方面的投資”。
業(yè)界在 AI 研究中日益占據(jù)主導地位
如今,業(yè)界對 AI 輸入的主導地位表現(xiàn)在 AI 成果的日益突出,尤其是在研究發(fā)布、創(chuàng)建最大模型和超越關(guān)鍵基準方面。在主要 AI 會議上,由一位或多位業(yè)界聯(lián)合作者撰寫的研究論文從 2000 年的 22% 增長到 2020 年的 38%;業(yè)界在最大的 AI 模型中所占份額已從 2010 年的 11% 上升到 2021 年的 96%。
在 AI 基準方面,縱觀圖像識別、語義分析、語言建模、語義分割、對象檢測和機器翻譯 6 個方面,以及涵蓋機器人和常識推理等領(lǐng)域的另外 14 項基準,在 2017 年之前,業(yè)界單獨或與大學合作,有 62% 的時間處于領(lǐng)先地位。自 2020 年以來,這一比例已上升到 91%。
因此,通過在領(lǐng)先的研究機構(gòu)發(fā)表文章、建立最先進的 AI 模型以及超越關(guān)鍵基準三個方面衡量,分析表明,業(yè)界在 AI 產(chǎn)出方面的地位越來越突出。
業(yè)界的壓倒性優(yōu)勢帶來隱患
業(yè)界對 AI 的投資不斷增加,可能通過技術(shù)的商業(yè)化為社會帶來巨大利益。公司可以創(chuàng)造更好的產(chǎn)品,使消費者受益——機器翻譯有利于國際貿(mào)易,并能簡化流程降低成本。業(yè)界對 AI 的投資還產(chǎn)生了對整個社區(qū)有價值的工具。例如,學界廣泛使用的 PyTorch 和 TensorFlow,促進深度學習模型高效訓練的硬件如 TPU,以及可公開訪問的預(yù)訓練模型——Meta 的 OPT 模型。
與此同時,AI 在業(yè)界中的集中也令人擔憂,業(yè)界的商業(yè)動機促使他們關(guān)注以盈利為導向的話題。如果所有的前沿模型都來自業(yè)界,就會出現(xiàn)不存在具有公共意識的替代品的情況。換句話來說,“優(yōu)先部門的 AI 研究人員傾向于專注于數(shù)據(jù)要求高和計算密集的深度學習方法”是以“涉及其他 AI 方法的研究、考慮 AI 的社會和倫理影響的研究以及在健康等領(lǐng)域的應(yīng)用”為代價的。
AI 的發(fā)展軌跡如何?誰來控制它?AI 會替代人類嗎并引發(fā)不平等嗎?一些研究人員擔心,“我們可能正走向社會次優(yōu)軌跡,它更側(cè)重于替代人類勞動,而不是增強人類能力?!币恍┤苏归_想象:業(yè)界和學界可能會形成與其他學科類似的分工:基礎(chǔ)研究主要由大學完成,而應(yīng)用研究和開發(fā)則主要由業(yè)界完成。
然而,在 AI 領(lǐng)域,產(chǎn)學的明確分工并不存在。業(yè)界所使用的應(yīng)用模型往往是那些突破基礎(chǔ)研究邊界的模型。例如,transformer 是由谷歌大腦研究人員于 2017 年開發(fā)的一種深度學習架構(gòu),使得基礎(chǔ)研究向前邁出重要一步,并且?guī)缀趿⒓磻?yīng)用于業(yè)界使用。盡管這意味著學術(shù)工作可以直接惠及業(yè)界,但是應(yīng)用工作的業(yè)界主導權(quán)也賦予了它決定基礎(chǔ)研究方向的權(quán)力。
鑒于 AI 工具可以在整個社會中得到廣泛的應(yīng)用,這種情況將使少數(shù)技術(shù)公司在社會發(fā)展方向擁有巨大的權(quán)力。對于世界上許多人來說,這種擔憂進一步加劇,因為這些組織對他們來說是“外國公司”。例如,生命未來研究所認為,“歐洲公司沒有開發(fā)通用 AI 系統(tǒng),而且由于他們與美國和中國公司相比在競爭上處于相對劣勢,不太可能很快開始開發(fā)”。
學界重塑 AI 前沿的可行之路
通過對業(yè)界 AI 的審查或外部監(jiān)督,監(jiān)管可能是解決方案。例如,2018 年,學者 Joy Buolamwini 和 Timnit Gebru 記錄了商業(yè)人臉識別系統(tǒng)中的性別和種族偏見。然而,如果學界不能接觸到業(yè)界的 AI 系統(tǒng),或者沒有資源來開發(fā)競爭模型,他們解釋業(yè)界模型或提供公共利益的替代方案的能力將受到限制。
這既是因為學界無法建立尖端性能所需的大型模型,也是因為 AI 系統(tǒng)的一些有用的能力似乎是“涌現(xiàn)”的——系統(tǒng)只有在特別大的時候才能獲得這些能力。模型的一些負面特征似乎也隨著規(guī)模的增加而擴大。例如,AI 生成的語言中的毒性以及刻板印象。在任何一種情況下,沒有足夠資源的學者都無法對這些重要領(lǐng)域做出有意義的貢獻。
在全球范圍內(nèi),這種對學界在 AI 研究中的資源劣勢的擔憂正在被認識到,并開始出現(xiàn)政策應(yīng)對措施。在美國,NAIRR 工作組提議創(chuàng)建公共研究云和公共數(shù)據(jù)集。在加拿大,國家高級研究計算平臺一直在為該國的學界服務(wù),自從近十年前啟動以來,一直被超額使用。
對許多國家來說,這類投資所需的規(guī)模可能令人望而生畏。在這種情況下,決策者面臨的關(guān)鍵問題將是,他們是否能夠與志同道合的合作者一起籌集足夠的資源,以達到創(chuàng)建反映自己優(yōu)先事項的 AI 系統(tǒng)所需的規(guī)模。
算力并不是提供補救措施的唯一領(lǐng)域,構(gòu)建公共數(shù)據(jù)集將非常重要。但是,這并非易事,因為現(xiàn)代 AI 訓練數(shù)據(jù)集可以是數(shù)十億份文檔。特別值得關(guān)注的是,創(chuàng)建沒有直接商業(yè)利益的重要數(shù)據(jù)集,以及提供資源讓頂尖 AI 研究人員留在學界。例如,加拿大研究主席計劃(CRCP)通過提供工資和研究基金吸引加拿大頂尖人才。
對于致力于這一問題的決策者來說,目標應(yīng)該是確保有足夠的能力來幫助審查或監(jiān)控業(yè)界模型,或生產(chǎn)出符合公眾利益的替代模型。
有了這些能力,學界可以繼續(xù)塑造現(xiàn)代 AI 研究的前沿,并為負責任的 AI 制定基準。若沒有這些能力,重要的公眾興趣 AI 工作將被拋棄。
參考鏈接:https://www.science.org/doi/10.1126/science.ade2420
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。