擁有100萬(wàn)億參數(shù)的GPT-4，有何值得期待？

發(fā)布人：大數(shù)據(jù)文摘時(shí)間：2021-09-20 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自數(shù)據(jù)實(shí)戰(zhàn)派

作者：Alberto Romero

譯者：青蘋(píng)果

為了應(yīng)對(duì)實(shí)現(xiàn)通用人工智能（AGI, Artificial General Intelligence）的挑戰(zhàn)，OpenAI 應(yīng)運(yùn)而生。通俗來(lái)說(shuō)，這就是一種能夠完成人類(lèi)所能完成的任何事情的 AI。

毫無(wú)疑問(wèn)，這樣的技術(shù)必將改變我們所認(rèn)知的世界。它就如一把雙刃劍，如果使用得當(dāng)，可使所有人受益；倘若落入壞人之手，也會(huì)變成最具毀滅性的武器。這就是 OpenAI 接手這項(xiàng)任務(wù)的原因，以確保每個(gè)人都能平等受益：“我們的目標(biāo)是以最有可能造福全人類(lèi)的方式推進(jìn)數(shù)字智能。”

然而，這個(gè)問(wèn)題的嚴(yán)重性使得它可以說(shuō)是人類(lèi)涉足的最大的科學(xué)事業(yè)。盡管計(jì)算機(jī)科學(xué)（CS, Computer Science）和 AI 有了長(zhǎng)足的進(jìn)步，但沒(méi)有人知道如何解決這個(gè)問(wèn)題，以及它何時(shí)會(huì)成為現(xiàn)實(shí)。

有些人認(rèn)為，深度學(xué)習(xí)不足以實(shí)現(xiàn) AGI。伯克利大學(xué)的計(jì)算機(jī)科學(xué)教授、AI 先驅(qū) Stuart Russell 認(rèn)為：

“專(zhuān)注于原始計(jì)算能力完全沒(méi)有切中要點(diǎn)……我們不知道如何讓機(jī)器實(shí)現(xiàn)真正的智能——即使它有宇宙那么大?！?/p>

相比之下，OpenAI 相信，以大型數(shù)據(jù)集為基礎(chǔ)并在大型計(jì)算機(jī)上訓(xùn)練的大型神經(jīng)網(wǎng)絡(luò)是實(shí)現(xiàn) AGI 的最佳途徑。OpenAI 的首席技術(shù)官格雷格·布羅克曼（Greg Brockman）在接受《金融時(shí)報(bào)》采訪(fǎng)時(shí)表示：“我們認(rèn)為，誰(shuí)擁有最大型的計(jì)算機(jī)，誰(shuí)就將獲得最大的收益?！?/p>

顯然，他們也是這樣做的：開(kāi)始訓(xùn)練越來(lái)越大的模型，以喚醒深度學(xué)習(xí)中隱藏的力量。朝此方向邁出的第一個(gè)非微妙步驟是 GPT 和 GPT-2 的發(fā)布。這些大型語(yǔ)言模型將為后續(xù)的 “新秀”模型-GPT-3 奠定基礎(chǔ)。一個(gè)擁有 1750 億參數(shù)，比 GPT-2 大 100 倍的語(yǔ)言模型。

可見(jiàn) GPT-3 是當(dāng)時(shí)最大的神經(jīng)網(wǎng)絡(luò)，并且就目前來(lái)說(shuō)，仍是最大的密集神經(jīng)網(wǎng)絡(luò)。它的語(yǔ)言專(zhuān)長(zhǎng)以及數(shù)不勝數(shù)的能力令多少人為之驚嘆。盡管一些專(zhuān)家仍持懷疑態(tài)度，但大型語(yǔ)言模型已經(jīng)讓人感到新奇。

對(duì)于 OpenAI 研究人員來(lái)說(shuō)，這是一個(gè)巨大的飛躍并且增強(qiáng)了他們的信念感，也進(jìn)一步讓我們相信 AGI 是深度學(xué)習(xí)的一個(gè)值得關(guān)注的問(wèn)題。

三位一體——算法、數(shù)據(jù)和計(jì)算

OpenAI 相信擴(kuò)展假說(shuō)（ the scaling hypothesis）。

給定一個(gè)可擴(kuò)展的算法，即本例中的 Transformer——GPT 系列背后的基本架構(gòu)——可能有一條通向 AGI 的直接路徑，該路徑可以基于該算法訓(xùn)練越來(lái)越大的模型。

但大型模型只是 AGI 難題的一部分。訓(xùn)練它們需要大量的數(shù)據(jù)集和大量的計(jì)算能力。

當(dāng)機(jī)器學(xué)習(xí)社區(qū)開(kāi)始揭示無(wú)監(jiān)督學(xué)習(xí)的潛力時(shí)，數(shù)據(jù)不再是瓶頸。這與生成語(yǔ)言模型和小樣本任務(wù)（few-shot task）遷移一起解決了 OpenAI 的“大數(shù)據(jù)集”問(wèn)題。

他們只需要使用大量的計(jì)算資源來(lái)訓(xùn)練和部署他們的模型即可很好地運(yùn)行。這也就是他們?cè)?2019 年與微軟合作的原因。他們授權(quán)了這家大型科技公司，這樣他們就可以在商業(yè)上使用 OpenAI 的一些模型，以換取對(duì)其云計(jì)算基礎(chǔ)設(shè)施和所需的強(qiáng)大 GPUs 的訪(fǎng)問(wèn)權(quán)。

但是 GPUs 并非是專(zhuān)為訓(xùn)練神經(jīng)網(wǎng)絡(luò)而構(gòu)建的。游戲行業(yè)開(kāi)發(fā)這些芯片用于圖形處理，而 AI 行業(yè)只是利用了它對(duì)并行計(jì)算的適用性。OpenAI 想要最好的模型和最好的數(shù)據(jù)集，他們也想要最佳的計(jì)算機(jī)芯片。然而，GPUs 還不夠。

許多公司也意識(shí)到了這一點(diǎn)，并開(kāi)始在不損失效率和能力的情況下，構(gòu)建訓(xùn)練神經(jīng)網(wǎng)絡(luò)的內(nèi)部專(zhuān)用芯片。然而，像 OpenAI 這樣的純軟件公司很難將硬件設(shè)計(jì)和制造進(jìn)行集成。這恰好解釋了他們?yōu)槭裁床扇×肆硪粭l路線(xiàn)：使用第三方 AI 專(zhuān)用芯片。

這時(shí)到 CerebrasSystems 登場(chǎng)了。這家致力于研發(fā)用于深度學(xué)習(xí)的芯片產(chǎn)品的公司早在 2019 年便制造了有史以來(lái)最大的用于訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)的芯片?，F(xiàn)在他們“重出江湖”，OpenAI 將很好地與其進(jìn)行合作，開(kāi)展新的研究。

WSE-2 芯片和 GPT-4 模型

兩周前，Wired 雜志發(fā)表了一篇文章，披露了兩條重要消息。

首先，Cerebras 再次制造了市場(chǎng)上最大的芯片- WSE-2（Wafer Scale Engine Two）。它大約 22 厘米，有 2.6 萬(wàn)億晶體管。相比之下，特斯拉（Tesla）全新的訓(xùn)練芯片也僅有 1.25 萬(wàn)億晶體管。

Cerebras 找到了一種有效壓縮計(jì)算能力的方法，因此 WSE-2 有 85 萬(wàn)個(gè)核心（計(jì)算單元），而典型的 GPUs 只有幾百個(gè)。他們還用一種新穎的冷卻系統(tǒng)解決了散熱問(wèn)題，并創(chuàng)設(shè)了一種高效的 I/O 數(shù)據(jù)流。

像 WSE-2 這樣的超專(zhuān)業(yè)、超昂貴、超強(qiáng)大的芯片用途并不多。訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)就是其中之一。所以 Cerebras 和 OpenAI 進(jìn)行了對(duì)話(huà)。

第二條消息是，Cerebras 首席執(zhí)行官安德魯·費(fèi)爾德曼（Andrew Feldman）對(duì) Wired 雜志表示：“從與 OpenAI 的對(duì)話(huà)來(lái)看，GPT-4 將會(huì)有大約 100 萬(wàn)億個(gè)參數(shù)?！劣诎l(fā)布，可能還需要幾年來(lái)準(zhǔn)備?！?/p>

從 GPT-3 開(kāi)始，人們就對(duì) OpenAI 及其后續(xù)版本充滿(mǎn)了期待。現(xiàn)在我們知道它會(huì)在幾年內(nèi)問(wèn)世，而且規(guī)模會(huì)非常大。它的尺寸將超過(guò) GPT-3 的 500 倍。是的，你沒(méi)看錯(cuò)：500 倍！

GPT-4 將比去年震驚世界的語(yǔ)言模型大 500 倍。

GPT-4 可以帶給我們什么期待？

100 萬(wàn)億的參數(shù)究竟有多大呢？

為了理解這個(gè)數(shù)字概念，我們用人腦與其展開(kāi)比較。一般情況下，大腦約有 800-1000 億個(gè)神經(jīng)元（GPT-3 的數(shù)量級(jí)）和大約 100 萬(wàn)億個(gè)突觸。

GPT-4 將擁有與大腦的突觸一樣多的參數(shù)。

這種神經(jīng)網(wǎng)絡(luò)的龐大規(guī)?？赡軒?lái)我們只能想象的 GPT-3 的質(zhì)的飛躍。我們甚至可能無(wú)法用當(dāng)前的提示方法測(cè)試系統(tǒng)的全部潛力。

然而，將人工神經(jīng)網(wǎng)絡(luò)與大腦進(jìn)行比較是一件棘手的事情。這種比較看似公平，但那只是因?yàn)槲覀兗僭O(shè)至少在一定程度上，人工神經(jīng)元是松散地基于生物神經(jīng)元的。最近發(fā)表在 Neuron 雜志上的一項(xiàng)研究表明并非如此。他們發(fā)現(xiàn)，至少需要一個(gè) 5 層神經(jīng)網(wǎng)絡(luò)來(lái)模擬單個(gè)生物神經(jīng)元的行為。換句話(huà)說(shuō)，每個(gè)生物神經(jīng)元大約需要 1000 個(gè)人工神經(jīng)元才可以模擬。

由此看來(lái)，比較結(jié)果是，我們的大腦更勝一籌。即使 GPT-4 不如我們的大腦強(qiáng)大，它也肯定會(huì)帶來(lái)一些驚喜。與 GPT-3 不同，它可能不僅僅是一個(gè)語(yǔ)言模型。OpenAI 首席科學(xué)家 Ilya Sutskever 在 2020 年 12 月撰寫(xiě)多模態(tài)的相關(guān)文章時(shí)暗示了這一點(diǎn)：

“到 2021 年，語(yǔ)言模型將開(kāi)始認(rèn)識(shí)視覺(jué)世界。當(dāng)然，文字本身即可表達(dá)關(guān)于這個(gè)世界的大量信息，但畢竟是不完整的，因?yàn)槲覀円采钤谝曈X(jué)世界之中?！?/p>

我們已經(jīng)在 DALL·E 中看到了一些，它是 GPT-3 的一個(gè)較小版本（120 億參數(shù)），專(zhuān)門(mén)針對(duì)文本-圖像對(duì)進(jìn)行訓(xùn)練。OpenAI 當(dāng)時(shí)表示，“通過(guò)語(yǔ)言描述視覺(jué)概念現(xiàn)在已經(jīng)觸手可及。”

OpenAI 一直在不停地開(kāi)發(fā) GPT-3 的隱藏能力。DALL·E 是 GPT-3 的一個(gè)特例，很像 Codex。但它們并不是絕對(duì)的改進(jìn)，更像是一種特殊情況。而 GPT-4 具備更多的功能。舉例來(lái)說(shuō)，將 DALL·E（文本圖像）和 Codex（編碼）等專(zhuān)業(yè)系統(tǒng)的深度與 GPT-3（通用語(yǔ)言）等通用系統(tǒng)的寬度相結(jié)合。

那么其他類(lèi)人特征呢，比如推理或常識(shí)？在這方面，Sam Altman 表示他們也不確定，但仍然保持“樂(lè)觀(guān)”心態(tài)。

總之，目前看來(lái)，問(wèn)題很多但答案卻很少。沒(méi)有人知道 AGI 能否成為可能，也沒(méi)有人知道如何構(gòu)建，亦沒(méi)有人知道更大的神經(jīng)網(wǎng)絡(luò)是否會(huì)越來(lái)越向其靠近。但不可否認(rèn)的一點(diǎn)是：GPT-4 值得我們關(guān)注，必定不負(fù)期待。

原文：

GPT-4 Will Have 100 Trillion Parameters — 500x the Size of GPT-3.

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專(zhuān)欄

擁有100萬(wàn)億參數(shù)的GPT-4，有何值得期待？

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

博客專(zhuān)欄

擁有100萬(wàn)億參數(shù)的GPT-4，有何值得期待？

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

擁有100萬(wàn)億參數(shù)的GPT-4，有何值得期待？