經(jīng)驗(yàn)分享：如何在自己的創(chuàng)業(yè)中，用上GPT-3等AI大模型

發(fā)布人：數(shù)據(jù)派THU 時(shí)間：2022-03-13 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

以下文章來(lái)源于數(shù)據(jù)實(shí)戰(zhàn)派，作者Elliot Turner

隨著機(jī)器學(xué)習(xí)技術(shù)的逐漸成熟并從學(xué)術(shù)走向工業(yè)，支持大規(guī)模機(jī)器學(xué)習(xí)所需的方法和基礎(chǔ)設(shè)備也在不斷發(fā)展。利用這些進(jìn)步對(duì)初創(chuàng)公司來(lái)說(shuō)機(jī)遇與風(fēng)險(xiǎn)并存——幾乎所有初創(chuàng)公司，都以各種方式利用機(jī)器學(xué)習(xí)來(lái)競(jìng)爭(zhēng)各自的市場(chǎng)。

在這之前差不多經(jīng)歷了 9 年多的時(shí)間，當(dāng)時(shí)的深度學(xué)習(xí)革命起源于一個(gè) 2012 年起，一年一度的競(jìng)賽，即 AlexNet 的 ImageNet LSVRC 競(jìng)賽（由研究社群舉辦的計(jì)算機(jī)視覺(jué)競(jìng)賽）。在一次比拼中，一個(gè)三人小組（Alex Krizhevsky、Illya Sutskever 和 Geoffrey Hinton）使用了一種稱為卷積神經(jīng)網(wǎng)絡(luò)的技術(shù)來(lái)理解照片的內(nèi)容。他們毫無(wú)懸念地贏得了比賽——以相當(dāng)大的優(yōu)勢(shì)擊敗了所有其他人——并且他們使用的系統(tǒng)僅僅是在 700 美元的游戲顯卡上訓(xùn)練出來(lái)的。

至此機(jī)器學(xué)習(xí)的世界永遠(yuǎn)地改變了。

一年之內(nèi)，初創(chuàng)公司開(kāi)始涌現(xiàn)以復(fù)制 AlexNet 的成功。我之前的公司 AlchemyAPI（2015 年被 IBM 收購(gòu)）早在 2013 年就使用我們的 AlchemyVision 計(jì)算機(jī)視覺(jué) API 發(fā)布了這項(xiàng)工作的第一個(gè)商業(yè)版本。大約在這個(gè)時(shí)候成立的其他初創(chuàng)公司還包括 DeepMind（被谷歌收購(gòu)）、MetaMind（被 Salesforce 收購(gòu)）和 Clarifai 等。學(xué)術(shù)界也發(fā)生了巨大變化，許多專家迅速?gòu)膶?duì)人工智能的懷疑轉(zhuǎn)變?yōu)槿娜獾負(fù)肀疃葘W(xué)習(xí)。

快進(jìn)到 2022 年：神經(jīng)網(wǎng)絡(luò)已經(jīng)改變了我們?nèi)粘Ｊ褂玫能浖到y(tǒng)中機(jī)器智能的方方面面，從識(shí)別我們的語(yǔ)音，到推薦我們的新聞?wù)械膬?nèi)容（且不論好壞）。
現(xiàn)在的系統(tǒng)仍然使用神經(jīng)網(wǎng)絡(luò)——但規(guī)模大不相同。最近用于理解和生成人類語(yǔ)言的系統(tǒng)，例如 OpenAI 的 GPT-3，在超級(jí)龐大的數(shù)據(jù)上進(jìn)行了訓(xùn)練：數(shù)千塊 GPU（每塊至少花費(fèi)一千美元）被編織成一個(gè)由高速網(wǎng)絡(luò)互連的數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施組成的復(fù)雜結(jié)構(gòu)。雖然 2012 年最先進(jìn)的系統(tǒng)可以在 700 美元的游戲顯卡上進(jìn)行訓(xùn)練，但今天的最先進(jìn)系統(tǒng)——通常被稱為預(yù)訓(xùn)練模型——可能需要用數(shù)千萬(wàn)美元的計(jì)算設(shè)備來(lái)訓(xùn)練。
這些大規(guī)模、高成本的預(yù)訓(xùn)練模型的出現(xiàn)為初創(chuàng)公司和其他希望在人工智能或機(jī)器學(xué)習(xí)方面進(jìn)行創(chuàng)新的人帶來(lái)了機(jī)遇、風(fēng)險(xiǎn)和限制。盡管它們可能無(wú)法在研究的前沿與谷歌、Facebook 或 OpenAI 競(jìng)爭(zhēng)，但小微企業(yè)可以利用這些巨頭的工作，當(dāng)然包括預(yù)訓(xùn)練模型，來(lái)啟動(dòng)他們自己的基于機(jī)器學(xué)習(xí)的應(yīng)用程序的開(kāi)發(fā)。

預(yù)訓(xùn)練網(wǎng)絡(luò)為小型團(tuán)隊(duì)提供支持
AlexNet 等神經(jīng)網(wǎng)絡(luò)最初是針對(duì)每項(xiàng)任務(wù)從頭開(kāi)始訓(xùn)練的——當(dāng)網(wǎng)絡(luò)需要幾周時(shí)間在單塊游戲顯卡上進(jìn)行訓(xùn)練時(shí)，這是可行的，但隨著網(wǎng)絡(luò)規(guī)模、計(jì)算資源和訓(xùn)練數(shù)據(jù)量開(kāi)始按需求擴(kuò)展時(shí)，難度要大得多。這導(dǎo)致了一種稱為預(yù)訓(xùn)練的方法的普及，該方法首先使用大量計(jì)算資源在大型通用數(shù)據(jù)集上訓(xùn)練神經(jīng)網(wǎng)絡(luò)，然后使用更少量的資源，比如數(shù)據(jù)和計(jì)算資源，對(duì)手頭的任務(wù)進(jìn)行微調(diào)。
近年來(lái)，隨著機(jī)器學(xué)習(xí)在許多領(lǐng)域的工業(yè)化和落地（例如語(yǔ)言或語(yǔ)音處理），并且可用于訓(xùn)練的數(shù)據(jù)量急劇增加，預(yù)訓(xùn)練網(wǎng)絡(luò)的使用量也呈爆炸式增長(zhǎng)。例如，使用預(yù)先訓(xùn)練的網(wǎng)絡(luò)可以讓初創(chuàng)公司使用少得多的資源來(lái)（相比于從頭開(kāi)始訓(xùn)練所需的數(shù)據(jù)和計(jì)算資源）研發(fā)產(chǎn)品。這種方法在學(xué)術(shù)界也越來(lái)越流行，研究人員可以快速微調(diào)預(yù)訓(xùn)練網(wǎng)絡(luò)以完成新任務(wù)，然后發(fā)表成果。
對(duì)于某些任務(wù)領(lǐng)域——包括理解或生成書(shū)面文本、識(shí)別照片或視頻的內(nèi)容以及音頻處理——隨著預(yù)訓(xùn)練模型的出現(xiàn)而不斷發(fā)展，比如 BERT、GPT、DALL -E、CLIP 還有一些其他的模型。這些模型在大型通用數(shù)據(jù)集（通常是數(shù)十億個(gè)訓(xùn)練示例的數(shù)量級(jí)）上進(jìn)行了預(yù)訓(xùn)練，并由資金充足的 AI 實(shí)驗(yàn)室（例如谷歌、微軟和 OpenAI 的實(shí)驗(yàn)室）以開(kāi)源形式發(fā)布。
商業(yè)化機(jī)器學(xué)習(xí)應(yīng)用的創(chuàng)新速率與這些預(yù)訓(xùn)練模型的公益化效果不容小覷。對(duì)于那些沒(méi)有配備超級(jí)計(jì)算機(jī)的現(xiàn)場(chǎng)工作人員來(lái)說(shuō)，它們一直是靈丹妙****。它們使初創(chuàng)公司、研究人員和其他人能夠快速掌握最新的機(jī)器學(xué)習(xí)方法，而無(wú)需花費(fèi)時(shí)間和資源從頭開(kāi)始訓(xùn)練這些模型。
預(yù)訓(xùn)練模型的風(fēng)險(xiǎn)：規(guī)模、成本和外包創(chuàng)新
然而，在預(yù)訓(xùn)練的基礎(chǔ)模型領(lǐng)域，并不是所有的模型都面對(duì)著一片坦途，而且隨著它們的應(yīng)用越來(lái)越多，風(fēng)險(xiǎn)也接踵而來(lái)。
與預(yù)訓(xùn)練模型相關(guān)的風(fēng)險(xiǎn)之一便是其規(guī)模的不斷擴(kuò)大。谷歌的 T5-11 b（于 2019 年開(kāi)源）等神經(jīng)網(wǎng)絡(luò)已經(jīng)需要一組昂貴的 GPU 來(lái)簡(jiǎn)單地加載和進(jìn)行預(yù)測(cè)。而微調(diào)這些系統(tǒng)需要更多的資源。由谷歌、微軟、OpenAI 在 2021-2022 年間創(chuàng)建的最新模型通常非常龐大，以至于這些公司沒(méi)有將它們作為開(kāi)源發(fā)布——它們現(xiàn)在需要數(shù)千萬(wàn)美元來(lái)創(chuàng)建，并且越來(lái)越多地被視為重要的 IP 投資，即使對(duì)于這些巨頭來(lái)說(shuō)也是如此。
然而，即便這些最新模型是開(kāi)源的，僅僅加載這些網(wǎng)絡(luò)以進(jìn)行預(yù)測(cè)（機(jī)器學(xué)習(xí)用語(yǔ)中的“推理”）所涉及的資源需求量，也比許多初創(chuàng)公司和學(xué)術(shù)研究人員可以運(yùn)用多。例如，OpenAI 的 GPT-3 需要大量 GPU 才能加載。即使使用 Amazon Web Services 等現(xiàn)代云端計(jì)算，也需要將數(shù)十臺(tái) Amazon 最昂貴的 GPU 機(jī)器配置到高性能計(jì)算集群中。
對(duì)于那些使用預(yù)訓(xùn)練模型的人來(lái)說(shuō)，數(shù)據(jù)集對(duì)齊也是一個(gè)挑戰(zhàn)。對(duì)大型通用數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練并不能保證網(wǎng)絡(luò)能夠?qū)Ｓ袛?shù)據(jù)執(zhí)行新任務(wù)。網(wǎng)絡(luò)可能缺乏上下文信息或存在基于其預(yù)訓(xùn)練的偏見(jiàn)，以至于即使進(jìn)行微調(diào)也可能無(wú)法輕易解決問(wèn)題。
例如，自然語(yǔ)言處理領(lǐng)域的流行預(yù)訓(xùn)練模型 GPT-2 最初于 2019 年初宣布，因此模型是對(duì)在該日期或之前收集的數(shù)據(jù)進(jìn)行了訓(xùn)練。想想自 2019 年以來(lái)發(fā)生的一切——疫情，有任何涉及嗎？最初的 GPT-2 模型肯定會(huì)知道什么是流行病，但是缺乏圍繞 COVID-19 及其近年來(lái)出現(xiàn)的變異株的詳細(xì)信息。
為了說(shuō)明這一點(diǎn)，這里是 GPT-2 試圖完成句子“COVID-19 是……”：GPT-2 (2019)：“COVID-19 是一種高容量 LED 屏幕，可顯示有關(guān)電池大小和狀態(tài)的信息。”

相比之下，2021 年發(fā)布的開(kāi)源語(yǔ)言模型 GPT-J 完成的句子如下：

GPT-J (2021)：“COVID-19 是一種新型冠狀病毒，主要影響呼吸系統(tǒng)，會(huì)導(dǎo)致一種具有多種臨床表現(xiàn)的疾病?！?/span>

相當(dāng)戲劇性的差異對(duì)吧？數(shù)據(jù)集對(duì)齊和訓(xùn)練數(shù)據(jù)的時(shí)效性可能非常重要，具體取決于用例。任何在機(jī)器學(xué)習(xí)工作中利用預(yù)訓(xùn)練模型的初創(chuàng)公司都應(yīng)該密切關(guān)注這些類型的問(wèn)題。

云 API 更易得，但外包不是免費(fèi)的

OpenAI、微軟和英偉達(dá)等公司已經(jīng)看到了計(jì)算資源需求規(guī)模增加所帶來(lái)的挑戰(zhàn)，并正在通過(guò)云 API 做出措施，這些 API 能夠在其托管的基礎(chǔ)設(shè)施上運(yùn)行推理和微調(diào)大型模型。
當(dāng)然，每個(gè)主要的云提供商現(xiàn)在都提供一套機(jī)器學(xué)習(xí)服務(wù)，在某些情況下，還提供專為這些工作負(fù)載設(shè)計(jì)的定制處理器。這可以通過(guò)將計(jì)算和基礎(chǔ)設(shè)施挑戰(zhàn)轉(zhuǎn)移給更大的公司，為初創(chuàng)公司、研究人員甚至個(gè)人愛(ài)好者提供有限的應(yīng)對(duì)措施。
然而，這種方法有其自身的風(fēng)險(xiǎn)。無(wú)法托管您自己的模型意味著依賴集中式的計(jì)算集群進(jìn)行訓(xùn)練和推理。這可能會(huì)在構(gòu)建預(yù)備投入生產(chǎn)的機(jī)器學(xué)習(xí)應(yīng)用程序時(shí)產(chǎn)生外部風(fēng)險(xiǎn)：網(wǎng)絡(luò)中斷、API 的并發(fā)性故障或速率限制，或者托管公司的政策變化可能會(huì)導(dǎo)致的重大運(yùn)營(yíng)影響。此外，當(dāng)敏感的標(biāo)記數(shù)據(jù)集（其中一些可能被 HIPAA 等法規(guī)涵蓋）必須發(fā)送給云提供商進(jìn)行微調(diào)或推理時(shí)， IP 泄漏的可能性可能會(huì)讓一些人感到不舒服。
從底線的角度來(lái)看，調(diào)用這些 API 對(duì) COGS（銷售成本）的影響，也可能是那些使用云計(jì)算來(lái)滿足其機(jī)器學(xué)習(xí)需求的人關(guān)注的問(wèn)題。使用價(jià)格因供應(yīng)商而異，更不用說(shuō) API 調(diào)用、數(shù)據(jù)存儲(chǔ)和云實(shí)例的成本將隨著您的使用而增加。如今，許多使用云 API 進(jìn)行機(jī)器學(xué)習(xí)的公司最終可能會(huì)嘗試過(guò)渡到自托管或自訓(xùn)練模型，以更好地控制其機(jī)器學(xué)習(xí)途徑并消除外部風(fēng)險(xiǎn)和成本。
使用托管和預(yù)訓(xùn)練模型的機(jī)會(huì)和風(fēng)險(xiǎn)導(dǎo)致許多公司在“試驗(yàn)階段”利用云 API 來(lái)啟動(dòng)產(chǎn)品開(kāi)發(fā)。這正是一家公司試圖尋找適合其產(chǎn)品的市場(chǎng)的時(shí)候。利用云 API 可以讓公司快速啟動(dòng)并大規(guī)模運(yùn)行其產(chǎn)品，而無(wú)需投資于昂貴的基礎(chǔ)計(jì)算設(shè)施、模型訓(xùn)練或數(shù)據(jù)收集。來(lái)自谷歌、IBM、微軟和 OpenAI 等提供商的云機(jī)器學(xué)習(xí)服務(wù)和托管的預(yù)訓(xùn)練模型現(xiàn)在正為數(shù)千家初創(chuàng)公司和學(xué)術(shù)研究項(xiàng)目提供支持。
一旦公司確認(rèn)其產(chǎn)品與市場(chǎng)契合，它通常會(huì)過(guò)渡到自托管或自訓(xùn)練模型，以獲得對(duì)數(shù)據(jù)、流程和知識(shí)產(chǎn)權(quán)的更多控制。這種轉(zhuǎn)變可能很困難，因?yàn)楣拘枰軌驍U(kuò)展其基礎(chǔ)架構(gòu)以滿足模型的需求，還要進(jìn)行管理與數(shù)據(jù)收集，還伴隨著注釋和存儲(chǔ)相關(guān)的成本上升。為了實(shí)現(xiàn)這一轉(zhuǎn)變，公司正籌集越來(lái)越多的投資者資金。

我最近的創(chuàng)業(yè)公司 Hyperia 最近就進(jìn)行了這樣的轉(zhuǎn)變。早期，我們?cè)谂α私鈽I(yè)務(wù)會(huì)議和客戶語(yǔ)音對(duì)話的內(nèi)容時(shí)嘗試了云 API。但最終我們決定從頭掌控我們自己的事務(wù)，啟動(dòng)了大規(guī)模的數(shù)據(jù)收集和模型訓(xùn)練工作，以構(gòu)建我們自己的專有語(yǔ)音和語(yǔ)言引擎。對(duì)于許多商業(yè)模式來(lái)說(shuō)，如果要實(shí)現(xiàn)積極的單位經(jīng)濟(jì)化和市場(chǎng)差異化，這種演變是不可避免的。

具備戰(zhàn)略性并密切關(guān)注大型人工智能實(shí)驗(yàn)室

預(yù)訓(xùn)練模型是機(jī)器學(xué)習(xí)中最新的顛覆性趨勢(shì)之一，但不會(huì)是最后一個(gè)。

在公司繼續(xù)建造更大的機(jī)器學(xué)習(xí)超級(jí)計(jì)算集群（Facebook 最新的計(jì)算集群包括超過(guò) 16,000 塊 GPU）的同時(shí)，研究人員正忙于開(kāi)發(fā)新技術(shù)以降低訓(xùn)練和托管最先進(jìn)的神經(jīng)網(wǎng)絡(luò)的計(jì)算成本。谷歌最新的 LaMDA 模型利用多項(xiàng)創(chuàng)新來(lái)比 GPT-3 更有效地訓(xùn)練，學(xué)術(shù)界正在迅速研發(fā)模型蒸餾和嘈雜學(xué)生訓(xùn)練等技術(shù)以減小模型大小。
這樣或那樣的創(chuàng)新成果意味著初創(chuàng)公司可以繼續(xù)創(chuàng)新——但隨著環(huán)境的不斷變化，保持警惕是很重要的。值得警惕的事情包括：

云 API 絕對(duì)可以加速公司的產(chǎn)品與市場(chǎng)契合之路，但往往會(huì)帶來(lái)長(zhǎng)期的問(wèn)題。制定戰(zhàn)略退出計(jì)劃非常重要，這樣這些 API 就不會(huì)控制您產(chǎn)品的命運(yùn)。
預(yù)訓(xùn)練模型可以極大地加快您的機(jī)器學(xué)習(xí)工作并降低整體訓(xùn)練和數(shù)據(jù)收集成本，但了解這些系統(tǒng)的局限性（例如，訓(xùn)練數(shù)據(jù)的時(shí)效性）很重要。
密切關(guān)注巨頭們的 AI 實(shí)驗(yàn)室（谷歌、微軟、IBM、百度、Facebook、OpenAI 等）的最新成果。機(jī)器學(xué)習(xí)正在以極快的速度迭代更新，每個(gè)月都會(huì)發(fā)布新技術(shù)、模型和數(shù)據(jù)集。這些版本通常會(huì)在意想不到的時(shí)間發(fā)布，如果您能夠快速適應(yīng)，這將對(duì)您公司的機(jī)器學(xué)習(xí)工作產(chǎn)生巨大影響。

最終，機(jī)器學(xué)習(xí)的未來(lái)及其對(duì)初創(chuàng)公司和科技公司的影響是不確定的，但有一件事是明確的：了解可用資源并做出明智決策的公司將比那些只尋求 AI 輔助的公司更容易取得成功。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。