GPT-4 API平替？性能媲美同時(shí)成本降低98%，斯坦福提出FrugalGPT，研究卻惹爭(zhēng)議

發(fā)布人：CV研究院時(shí)間：2023-06-07 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

Game Changer還是標(biāo)題黨？

轉(zhuǎn)自《機(jī)器之心》

隨著大型語(yǔ)言模型（LLM）的發(fā)展，人工智能正處于變革的爆發(fā)期。眾所周知，LLM 可用于商業(yè)、科學(xué)和金融等應(yīng)用，因而越來(lái)越多的公司（OpenAI、AI21、CoHere 等）都在提供 LLM 作為基礎(chǔ)服務(wù)。雖然像 GPT-4 這樣的 LLM 在問(wèn)答等任務(wù)中取得了前所未有的性能，但因?yàn)槠涓咄掏铝康奶刭|(zhì)，使得它們?cè)趹?yīng)用中非常昂貴。
例如，ChatGPT 每天的運(yùn)營(yíng)成本超過(guò) 70 萬(wàn)美元，而使用 GPT-4 來(lái)支持客戶服務(wù)可能會(huì)讓一個(gè)小企業(yè)每月花費(fèi)超過(guò) 2.1 萬(wàn)美元。除了金錢成本外，使用最大的 LLM 還會(huì)帶來(lái)巨大的環(huán)境和能源影響。
現(xiàn)在很多公司通過(guò) API 提供 LLM 服務(wù)，它們收費(fèi)各異。使用 LLM API 的成本通常包括三個(gè)組成部分：1）prompt 成本（與 prompt 的長(zhǎng)度成比例），2）生成成本（與生成的長(zhǎng)度成比例），以及 3）有時(shí)還會(huì)有對(duì)于每個(gè)查詢的固定成本。
下表 1 比較了 12 個(gè)不同商業(yè) LLM 的成本，這些 LLM 來(lái)自主流供應(yīng)商，包括 OpenAI、AI21、CoHere 和 Textsynth。它們的成本相差高達(dá) 2 個(gè)數(shù)量級(jí)：例如，對(duì)于 1000 萬(wàn)個(gè) token，OpenAI 的 GPT-4 的 prompt 成本為 30 美元，而 Textsynth 托管的 GPT-J 僅為 0.2 美元。

成本和準(zhǔn)確性之間的平衡是決策制定的關(guān)鍵因素，尤其是在采用新技術(shù)時(shí)。如何有效和高效地利用 LLM 是從業(yè)者面臨的關(guān)鍵挑戰(zhàn)：如果任務(wù)相對(duì)簡(jiǎn)單，那么聚合來(lái)自 GPT-J （其規(guī)模比 GPT-3 小 30 倍）的多個(gè)響應(yīng)可以實(shí)現(xiàn)與 GPT-3 類似的性能，從而實(shí)現(xiàn)成本和環(huán)境上的權(quán)衡。然而，在較為困難任務(wù)上，GPT-J 的性能可能會(huì)大大下降。因此，如何經(jīng)濟(jì)高效地使用 LLM 需要采用新的方法。
最近的一項(xiàng)研究嘗試提出解決這一成本問(wèn)題的方法，研究者通過(guò)實(shí)驗(yàn)表明，F(xiàn)rugalGPT 可以與最佳個(gè)體 LLM（例如 GPT-4）的性能相媲美，成本降低高達(dá) 98%，或者在相同成本下將最佳個(gè)體 LLM 的準(zhǔn)確性提高 4%。

論文地址：https://arxiv.org/pdf/2305.05176.pdf

來(lái)自斯坦福大學(xué)的研究者回顧了使用 LLM API（例如 GPT-4，ChatGPT，J1-Jumbo）所需的成本，并發(fā)現(xiàn)這些模型具有不同的定價(jià)，費(fèi)用可能相差兩個(gè)數(shù)量級(jí)，特別是在大量查詢和文本上使用 LLM 可能更昂貴?；谶@一點(diǎn)，該研究概述并討論了用戶可以利用的三種策略來(lái)降低使用 LLM 的推理成本：1）prompt 適應(yīng)，2）LLM 近似和 3）LLM 級(jí)聯(lián)。此外，該研究提出了級(jí)聯(lián) LLM 一個(gè)簡(jiǎn)單而靈活的實(shí)例 FrugalGPT，它學(xué)習(xí)在不同查詢中使用哪些 LLM 組合以減少成本并提高準(zhǔn)確性。
這項(xiàng)研究提出的思想和發(fā)現(xiàn)為可持續(xù)高效地使用 LLM 奠定了基礎(chǔ)。如果能夠在不增加預(yù)算的情況下采用更高級(jí)的 AI 功能，這可能會(huì)推動(dòng)人工智能技術(shù)在各個(gè)行業(yè)的更廣泛采用，即使是較小的企業(yè)也有能力在其運(yùn)營(yíng)中實(shí)施復(fù)雜的人工智能模型。
當(dāng)然，這只是一個(gè)角度，F(xiàn)rugalGPT 到底能實(shí)現(xiàn)怎樣的影響力，能否成為「AI 行業(yè)的游戲規(guī)則改變者」，還需要一段時(shí)間才能揭曉。在論文發(fā)布之后，這項(xiàng)研究也引發(fā)了一些爭(zhēng)議：

「摘要嚴(yán)重夸大了論文的內(nèi)容，這里的標(biāo)題也有嚴(yán)重的誤導(dǎo)性。他們所做的是設(shè)計(jì)了一種方法，以減少在論文中所涉及的一類問(wèn)題中需要調(diào)用高端模型的次數(shù)。這不是以 2% 的成本替代 GPT-4，也不是以 4% 的精度替代 GPT-4。它是一種將 GPT-4 與更低廉的模型和支持性基礎(chǔ)設(shè)施相結(jié)合的方法。摘要中沒(méi)有指出的是，這需要建立一個(gè)自定義模型來(lái)對(duì)結(jié)果進(jìn)行評(píng)分，而這是該機(jī)制的真正核心?！?這種方法有合法的用例，其中包括基本的成本工程，如緩存結(jié)果。但對(duì)于大多數(shù)用例來(lái)說(shuō)，這完全不相關(guān)，因?yàn)槟銢](méi)有一個(gè)合適的評(píng)分模型?！?/span>

「他們只在三個(gè)（小的）數(shù)據(jù)集上評(píng)估了這一點(diǎn)，并且沒(méi)有提供關(guān)于 FrugalGPT 選擇各自模型的頻率的信息。另外，他們報(bào)告說(shuō)較小的模型取得了比 GPT-4 更高的準(zhǔn)確性，這使我對(duì)這篇論文總體上非常懷疑?！?/span>
具體如何判斷，讓我們看一下論文內(nèi)容。
如何經(jīng)濟(jì)、準(zhǔn)確地使用 LLM
接下來(lái)論文介紹了如何在預(yù)算范圍內(nèi)高效的使用 LLM API。如圖 1 (b) 所示，該研究討論了三種降低成本的策略，即 prompt 適應(yīng)、LLM 近似和 LLM 級(jí)聯(lián)。

策略 1：prompt 適應(yīng)。LLM 查詢的成本與 prompt 的大小呈線性增長(zhǎng)。因此，降低使用 LLM API 成本的一個(gè)合理方法包括減小 prompt 大小，該研究將這個(gè)過(guò)程稱為 prompt 適應(yīng)。prompt 選擇如圖 2（a）所示：與使用包含許多示例以演示如何執(zhí)行任務(wù)的 prompt 相比，可以只保留 prompt 中的一個(gè)小子集示例。這將導(dǎo)致更小的 prompt 和更低的成本。另一個(gè)例子是查詢串聯(lián)（圖 2（b）所示）。

策略 2：LLM 近似。LLM 近似的概念非常簡(jiǎn)單：如果使用 LLM API 成本太高，可以使用更實(shí)惠的模型或基礎(chǔ)設(shè)施進(jìn)行近似。其中一個(gè)例子如圖 2（c）所示，其基本思想是在向 LLM API 提交查詢時(shí)將響應(yīng)存儲(chǔ)在本地緩存（例如數(shù)據(jù)庫(kù)）中。LLM 近似的另一個(gè)例子是模型微調(diào)，如圖 2 (d) 所示。
策略 3：LLM 級(jí)聯(lián)。不同的 LLM API 在各種查詢中都有自己的優(yōu)勢(shì)和劣勢(shì)。因此，適當(dāng)選擇要使用的 LLM 既能降低成本又能提高性能。如圖 2（e）所示為 LLM 級(jí)聯(lián)的一個(gè)例子。
成本的降低與精度的提高
研究者進(jìn)行了一項(xiàng)關(guān)于 FrugalGPT LLM 級(jí)聯(lián)的實(shí)證研究，目標(biāo)有三個(gè)：

了解 LLM 級(jí)聯(lián)的簡(jiǎn)單實(shí)例所學(xué)習(xí)的內(nèi)容；
量化 FrugalGPT 在匹配最佳的單個(gè) LLM API 的性能時(shí)實(shí)現(xiàn)的成本節(jié)約；
衡量 FrugalGPT 所實(shí)現(xiàn)的性能和成本之間的 trade-off。

實(shí)驗(yàn)設(shè)置分為幾方面：LLM API（表 1）、任務(wù)、數(shù)據(jù)集（表 2）和 FrugalGPT 實(shí)例。

FrugalGPT 是在上述 API 之上開(kāi)發(fā)的，并在一系列屬于不同任務(wù)的數(shù)據(jù)集上進(jìn)行了評(píng)估。其中，HEADLINES 是一個(gè)金融新聞數(shù)據(jù)集，目標(biāo)是通過(guò)閱讀金融新聞標(biāo)題來(lái)確定金價(jià)趨勢(shì)（上升、下降、中性或無(wú)），這對(duì)于過(guò)濾金融市場(chǎng)的相關(guān)新聞特別有用；OVERRULING 是一個(gè)法律文件數(shù)據(jù)集，其目標(biāo)是確定一個(gè)給定的句子是否是一個(gè)「overruling」，即推翻以前的法律案件；COQA 是一個(gè)在對(duì)話環(huán)境中開(kāi)發(fā)的閱讀理解數(shù)據(jù)集，研究者將其改編為一個(gè)直接查詢回答任務(wù)。
他們專注于 LLM 級(jí)聯(lián)方法，級(jí)聯(lián)長(zhǎng)度為 3，因?yàn)檫@簡(jiǎn)化了優(yōu)化空間，并且已經(jīng)展示了良好的結(jié)果。每個(gè)數(shù)據(jù)集被隨機(jī)分成一個(gè)訓(xùn)練集來(lái)學(xué)習(xí) LLM 級(jí)聯(lián)和一個(gè)測(cè)試集進(jìn)行評(píng)估。

這里是一個(gè) HEADLINES 數(shù)據(jù)集案例研究：設(shè)定預(yù)算為 6.5 美元，是 GPT-4 成本的五分之一。采用針對(duì)回歸的 DistilBERT [SDCW19] 作為評(píng)分函數(shù)。值得注意的是，DistilBERT 比這里考慮的所有 LLM 都要小得多，因此成本較低。如圖 3（a）所示，學(xué)習(xí)的 FrugalGPT 順序調(diào)用 GPT-J、J1-L 和 GPT-4。對(duì)于任何給定的查詢，它首先從 GPT-J 中提取一個(gè)答案。如果這個(gè)答案的分?jǐn)?shù)大于 0.96，這個(gè)答案就被接受為最終的響應(yīng)。否則，將對(duì) J1-L 進(jìn)行查詢。如果 J1-L 的答案得分大于 0.37，則被接受為最終答案；否則，將調(diào)用 GPT-4 來(lái)獲得最終答案。有趣的是，這種方法在許多查詢中都優(yōu)于 GPT-4。例如，基于納斯達(dá)克的頭條新聞「美國(guó) GDP 數(shù)據(jù)慘淡，黃金脫離低點(diǎn)」，F(xiàn)rugalGPT 準(zhǔn)確地預(yù)測(cè)了價(jià)格將下跌，而 GPT-4 提供了一個(gè)錯(cuò)誤的答案（如圖 3（b）所示）。
總體來(lái)說(shuō)，F(xiàn)rugalGPT 的結(jié)果是既提高了準(zhǔn)確率又降低了成本。如圖 3 (c) 所示，其成本降低了 80%，而準(zhǔn)確率甚至高出 1.5%。

LLM 的多樣性
為什么多個(gè) LLM API 有可能產(chǎn)生比最好的單個(gè) LLM 更好的性能？從本質(zhì)上講，這是由于生成的多樣性：即使是一個(gè)低成本的 LLM 有時(shí)也能正確地回答更高成本的 LLM 所不能回答的查詢。為了衡量這種多樣性，研究者使用最大的性能改進(jìn)，也可以成為 MPI。LLM A 相對(duì)于 LLM B 的 MPI 是指 LLM A 產(chǎn)生正確答案而 LLM B 提供錯(cuò)誤答案的概率。這個(gè)指標(biāo)實(shí)質(zhì)上是衡量在調(diào)用 LLM B 的同時(shí)調(diào)用 LLM A 所能達(dá)到的最大性能提升。
圖 4 顯示了所有數(shù)據(jù)集的每一對(duì) LLM API 之間的 MPI。在 HEADLINES 數(shù)據(jù)集上，GPT-C、GPT-J 和 J1-L 都可以將 GPT-4 的性能提高 6%。在 COQA 數(shù)據(jù)集上，有 13% 的數(shù)據(jù)點(diǎn) GPT-4 出現(xiàn)了錯(cuò)誤，但 GPT-3 提供了正確的答案。盡管這些改進(jìn)的上界可能并不總是可以實(shí)現(xiàn)的，但它們確實(shí)證明了利用更低廉的服務(wù)來(lái)實(shí)現(xiàn)更好性能的可能性。

成本節(jié)約
隨后，研究者考察了 FrugalGPT 是否能在保持準(zhǔn)確性的同時(shí)降低成本，如果能，又能降低多少。表 3 顯示了 FrugalGPT 的總體成本節(jié)約，范圍從 50% 到 98%。這是可行的，因?yàn)?FrugalGPT 可以識(shí)別那些可以由較小的 LLM 準(zhǔn)確回答的查詢，因此只調(diào)用那些具有成本效益的 LLM。而強(qiáng)大但昂貴的 LLM，如 GPT-4，只用于由 FrugalGPT 檢測(cè)到的挑戰(zhàn)性查詢。

性能和成本的權(quán)衡
接著，研究者探討了 FrugalGPT 實(shí)現(xiàn)的性能和成本之間的權(quán)衡，如圖 5 所示，得出了幾個(gè)有趣的觀察結(jié)果。
首先，不同 LLM API 的成本排名并不是固定的。此外，更昂貴的 LLM APIs 有時(shí)會(huì)導(dǎo)致比其更便宜的同類產(chǎn)品更差的性能。這些觀察結(jié)果強(qiáng)調(diào)了適當(dāng)選擇 LLM API 的重要性，即使在沒(méi)有預(yù)算限制的情況下。
接下來(lái)，研究者還注意到，F(xiàn)rugalGPT 能夠在所有被評(píng)估的數(shù)據(jù)集上實(shí)現(xiàn)平滑的性能 - 成本權(quán)衡。這為 LLM 用戶提供了靈活的選擇，并有可能幫助 LLM API 供應(yīng)商節(jié)約能源和減少碳排放。事實(shí)上，F(xiàn)rugalGPT 可以同時(shí)降低成本和提高精確度，這可能是因?yàn)?FrugalGPT 整合了來(lái)自多個(gè) LLM 的知識(shí)。
圖 5 所示的例子查詢進(jìn)一步解釋了為什么 FrugalGPT 可以同時(shí)提高性能和降低成本。GPT-4 在一些查詢上犯了錯(cuò)誤，比如例如（a）部分的第一個(gè)例子，但一些低成本的 API 提供了正確的預(yù)測(cè)。FrugalGPT 準(zhǔn)確地識(shí)別了這些查詢，并完全依賴低成本的 API。例如，GPT-4 錯(cuò)誤地從法律陳述「現(xiàn)在是協(xié)調(diào)和規(guī)范我們?cè)谶@個(gè)領(lǐng)域的案件的時(shí)候了」中推斷出沒(méi)有推翻，如圖 5（b）所示。然而，F(xiàn)rugalGPT 接受了 GPT-J 的正確答案，避免了昂貴的 LLM 的使用，提高了整體性能。當(dāng)然，單一的 LLM API 并不總是正確的；LLM 級(jí)聯(lián)通過(guò)采用一連串的 LLM API 克服了這一點(diǎn)。例如，在圖 5 (a) 所示的第二個(gè)例子中，F(xiàn)rugalGPT 發(fā)現(xiàn) GPT-J 的生成可能不可靠，于是轉(zhuǎn)向鏈中的第二個(gè) LLM J1-L，以找到正確的答案。同樣，GPT-4 提供了錯(cuò)誤的答案。FrugalGPT 并不完美，仍有足夠的空間來(lái)減少成本。例如，在圖 5 (c) 的第三個(gè)例子中，鏈中所有的 LLM API 都給出了相同的答案。然而，F(xiàn)rugalGPT 不確定第一個(gè) LLM 是否正確，導(dǎo)致需要查詢鏈中的所有 LLM。確定如何避免這種情況仍然是一個(gè)開(kāi)放的問(wèn)題。