堅持做行業(yè)大模型，竹間智能給大模型造了一座「模型工廠」（1）

發(fā)布人：機器之心時間：2023-07-03 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

企業(yè)被放在了開往大模型時代列車的駕駛座上。

從 2 月份起，我們就被絡繹不絕的大模型發(fā)布和各種 AI 新品轟炸。風暴眼當然是 ChatGPT。

除了極少數(shù)瞄準通用底層的野心，一眾以 AIGC、NLP 技術為名的創(chuàng)業(yè)公司后臺接入基礎大模型底座，前端做 UI 設計，上架應用商店。

還有一些 AI 公司沒有通用底層的抱負，但也不滿足于 API 式創(chuàng)新，而是瞄準了中間層與應用層的戰(zhàn)略價值。他們往往沒有參數(shù)規(guī)模的執(zhí)念，更關心行業(yè)落地的效率。

竹間智能就是其中一員。八年前，前微軟（亞洲）互聯(lián)網(wǎng)工程院副院長簡仁賢堅定看好對話機器人在企業(yè)級市場的潛力，離開微軟創(chuàng)業(yè)。最近，竹間智能也官宣了自己大模型產(chǎn)品矩陣「1+4」，希望解決大模型落地行業(yè)「最后一公里問題」。

「實際上大部分企業(yè)場景不需要 AGI（通用人工智能）來滿足，在合理的成本下選擇合適的模型才是企業(yè)客戶需要思考的。」公司 CEO 簡仁賢在接受機器之心專訪時談道。

這套「1+4」產(chǎn)品的邏輯關系，簡明清晰。

「1」指 EmotiBrain ，一個大模型微調(diào)訓練平臺，專注降低大模型訓練的成本，提供從模型選擇、微調(diào)訓練、評測、部署到最后接入企業(yè)應用的一站式服務。

定制好的模型只是一臺強大的發(fā)動機，沒辦法直接上路。為此，竹間智能又推出四款裝配先進發(fā)動機的「車型」。

如果你體驗過微軟 Office Copilot ，超級助手 KKbot 的功能幾乎與之無異。 Magic Writer 是大模型 AIGC 能力最典型的應用，除了文本生成，還可以文生圖。 Emoti Coach 是由大語言模型和生成式AI驅(qū)動的「教練」，培訓效果完勝被動式的e-learning。

至于 Knowledge Factory 、Bot Factory+，顧名思義，肯定與批量生產(chǎn)有關。

背靠大模型， Bot Factory 能力升級，以更低成本、更高效率批量生產(chǎn)對話機器人。 Knowledge Factory 協(xié)助企業(yè)在私域數(shù)據(jù)必須「足不出戶」的限制下，更好管理內(nèi)部知識數(shù)據(jù)，也為穩(wěn)定大模型的輸出質(zhì)量打好基礎，讓知識與模型形成閉環(huán)。

一、「中間層」的價值

企業(yè)要想享受到大模型的神奇能力，一般有三個辦法。

像谷歌、Meta、OpenAI 一樣從零開始、全量訓練基礎大模型。但巨額開發(fā)成本（動輒百萬甚至千萬美金）和頂尖人才（據(jù)說全球不過百人）稀缺注定這是一條「少有人走的路」。

第二個辦法是在開源預訓練模型上面做微調(diào)( Fine-Tuning ) 。 Vicuna、Alpaca 、Guanaco 羊駝系列預訓練模型都是在最初的 LLaMA 上做了微調(diào)。目前，大部分國產(chǎn)大模型也是在 GPT、LLaMA 的框架上進行訓練與微調(diào)，并在此基礎上為客戶定制行業(yè)模型。

「還有一個辦法是在與訓練好的模型上用 embedding 與 vectorization 做預檢索給企業(yè)提供私有數(shù)據(jù)的大模型?！购喨寿t說。

這個辦法做起來很方便，但弊端也很明顯。檢索依賴檢索的indexing及語義匹配效果來獲得比較好的輸出，如果 indexing 的檢索、ranking、語義相似與理解的匹配能力不夠，給到大模型的數(shù)據(jù)也會有誤差，這些技術 NLP 廠商相對的做的更好。

在他看來，通過在預訓練模型上微調(diào)獲得定制化行業(yè)模型（也就是第二個辦法）最適合中國國情，不過成本比只用 embedding 的方式高，技術與數(shù)據(jù)的門檻也比較高。

「生成式 AI 有一個很重要的特點，它是根據(jù)訓練數(shù)據(jù)生成的，所以大模型在中國落地面臨的最大挑戰(zhàn)就是數(shù)據(jù)安全，模型安全?！购喨寿t認為。

企業(yè)不可能把內(nèi)部數(shù)據(jù)上傳，比如產(chǎn)品設計、技術架構、核心代碼、制造工藝、配方、客戶隱私，會議紀要，戰(zhàn)略文檔，業(yè)務規(guī)劃，商業(yè)邏輯等，一定要保留在內(nèi)部，尤其是對于國央企、金融、能源、大型集團企業(yè)、先進制造等數(shù)據(jù)敏感性較高的行業(yè)而言。所以，「未來一定是企業(yè)擁有自己專屬的、定制化、場景化的大模型。」

從成本上來看，在模型微調(diào)階段，可以依據(jù)不同任務(Task)來微調(diào)訓練大模型，訓練數(shù)據(jù)的多少，模型參數(shù)大小以及能力涵蓋的范圍，如果能有高效的訓練方式以及自動化的訓練量產(chǎn)，可以達到規(guī)?；牡统杀?，絕大多數(shù)中型以上企業(yè)足以負擔。

國金證券曾做過初步測算，由 8 塊 A100 組成的 AI 服務器可為規(guī)模達 2,000 人的中大型企業(yè)提供 AI 服務，離線部署方案每年的推理算力成本約為 33.2 萬元，若采用云計算方案則每年需花費約 66 萬元算力成本。

不過，企業(yè)負擔得起成本是一回事，工程技術上能不能靠自己搞定完全是另一碼事。

中國 IT 應用開發(fā)的成熟度不像美國那么發(fā)達。很多企業(yè)有 IT 團隊，規(guī)模也不小，但主要是在維護內(nèi)部的業(yè)務系統(tǒng)，沒有人懂得模型如何落地，外部合格的人才也缺乏。

也許你會說，直接賣給他們模型不就好了？但中國軟件和算法領域環(huán)境，跟美國差別很大。中國企業(yè)會花 2000 萬買很多服務器，但很難買一個軟件。

「將模型當作一個商品（commodity）賣給企業(yè)，就像賣代碼一樣，不太現(xiàn)實?！购喨寿t有過多年的中美從業(yè)經(jīng)驗，美國企業(yè)能用 SaaS 就用 SaaS，中國企業(yè)更喜歡own （擁有）、control（把控）這個東西?！傅绻隳芙o到一個 total solution ，企業(yè)更容易買單?！?nbsp;

這也是竹間智能過去一直堅持「授人以漁」的根本原因。借由他們提供的機器人「工廠」（BotFactory），銀行、證券、保險、能源、制造、消費等行業(yè)七、八百家客戶已經(jīng)定制出無數(shù)個私有的行業(yè)模型、特殊任務模型，包括情感分析在內(nèi)。

現(xiàn)在大語言模型可以做很多不需要再用代碼做的事情。未來代碼量會越來越少，模型數(shù)會越來越多，「模型就是代碼」。簡仁賢一直強調(diào)這一點。

而另一方面，海量場景又需要不斷切換和更新、訓練、運維模型，那么，中間層會變得很重?！腹芾頂?shù)據(jù)，管理模型、訓練模型、微調(diào)模型，評測模型，推理運維，讓模型持續(xù)迭代就會成為一個非常重要的產(chǎn)業(yè)。」他認為。

「這就像蓋房子并不難，但要蓋一個豪宅還是平民住宅，那就不一樣了?！?nbsp;

二、EmotiBrain 如何實現(xiàn)可定制？

有了 EmotiBrain 「金剛鉆」，幾乎可以解決企業(yè)攬下「瓷器活兒」過程中 70% 的問題。

企業(yè)只用勾選基礎模型、訓練數(shù)據(jù)和微調(diào)（Fine-Tuning ）方法，然后交給平臺自動訓練。根據(jù)結果評測，選出最適合業(yè)務的模型，直接接入企業(yè)應用即可。

EmotiBrain 是一個企業(yè)定制化大模型的流水線平臺，所有復雜微調(diào)流程都被封裝在里面，內(nèi)置多個參數(shù)高效微調(diào)技術( Parameter-Efficient Fine Tuning )與驗證過的訓練數(shù)據(jù)集，包括竹間積累七年的行業(yè)訓練數(shù)據(jù)集，透過簡單 UI 設計，有「basic understanding 」的人就能馬上上手。

當然，「你至少要了解什么樣數(shù)據(jù)合適，還有一些 Fine-Tuning 基本知識，但不需要知道很多細節(jié)?！购喨寿t補充道。

EmotiBrain 由三個核心部分組成。

一個是訓練大模型的地方，Model Factory。工廠里，企業(yè)可以同時訓練二十多個甚至上百個大模型，包括非常前沿的開源 LLM。比如，羊駝系列( LLaMA )。

企業(yè)也可以自己下載開源模型，放到平臺去訓練。另外，模型工廠還提供竹間智能自己訓練微調(diào)好的大模型。

「2019 年我們的模型做到了 3.4 億的參數(shù)量，也已開發(fā) Transformer 的模型」，據(jù)簡仁賢透露，「現(xiàn)在已經(jīng)訓練出來、可用的有 70 億、130 億的參數(shù)規(guī)模，下一步是 330 億參數(shù)與 650 億參數(shù)的模型，650 億參數(shù)的模型微調(diào)時間比較久一點，但新的高效方法如 QLoRA 提速了不少?！?nbsp;

模型選好后，就要選擇訓練數(shù)據(jù)集，比如指令數(shù)據(jù)集，法律領域數(shù)據(jù)集、中醫(yī)西醫(yī)領域數(shù)據(jù)集、醫(yī)藥的數(shù)據(jù)集、財經(jīng)類數(shù)據(jù)集，汽車，電商，企業(yè)私有數(shù)據(jù)。

AI 大模型實現(xiàn)高性能，數(shù)據(jù)質(zhì)量比數(shù)據(jù)體量更重要。因此，竹間智能將過去七年積累下的行業(yè)訓練語料（包括中英文訓練數(shù)據(jù)）做了優(yōu)化，放到了平臺。

選好訓練數(shù)據(jù)集后，就來到最具挑戰(zhàn)的環(huán)節(jié)——對預訓練的模型展開微調(diào)。「現(xiàn)在大模型還有一個非常大的缺點，你要會寫提示（prompt）才能把大模型用得好，這可不是任何人都能寫得好的。」簡仁賢說。

讓大模型變得聰明起來的辦法很多，無論是 Instruct learning、in context learning、Chain of Thought (CoT)，門檻都比較高，模型工程師也要懂得很多技術細節(jié)。竹間智能將八年來 NLP 模型訓練的 know-how，再加上大語言模型訓練的know-how，以及包括最前沿、最新微調(diào)技術在內(nèi)的許多微調(diào)方法（比如DeepSpeed、LoRA、QLoRA、P-Tuning等），都做到了模型工廠里，變成幫助企業(yè)的工具。即使用戶不用懂技術細節(jié)，也可以做微調(diào)。

用戶還可以用 RLHF（Human Feedback Reinforcement Learning）的 Fine-Tuning 方式進行微調(diào)，等于賦予企業(yè)以「指令微調(diào)定制」的方式滿足自己的個性化需求。

例如，選出某個模型，詢問相關問題，看看輸出結果怎么樣，給它做標注。以少量標注的高質(zhì)量模板數(shù)據(jù)，對模型的輸出進行誘導與限制，讓模型的輸出更加符合企業(yè)業(yè)務的喜好，同時減少模型的有害輸出。

簡仁賢反復強調(diào)，EmotiBrain 可以幫你構建的，從來不是一個模型，而是同時訓練多個模型。例如，當用戶選擇三個預訓練模型進行微調(diào)時，又分別選擇了三組測試數(shù)據(jù)、三種微調(diào)方法，最后會得到 27 個定制化模型。

如何從多個模型里面選出最合適的？這就離不開平臺的第二個核心要件 Benchmark System。在這里，每個模型就像一個個被多維度評分系統(tǒng)加以評估的小朋友，每個人都有自己的一套得分：比如平均分數(shù)、推理分數(shù)、知識分數(shù)、對話分數(shù)、上下文，文本生成分數(shù)等。每個模型的長處、短板和綜合實力，一目了然。

最后，用戶可透過平臺將選定的定制化模型部署到自己的服務器，或者跑在企業(yè)私有云，當然，也支持對接所有廠商的云計算平臺。系統(tǒng)會自動產(chǎn)生 API，與既有的企業(yè)應用做結合，企業(yè)馬上就能用起來。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

博客專欄

堅持做行業(yè)大模型，竹間智能給大模型造了一座「模型工廠」（1）

相關推薦

技術專區(qū)

博客專欄

堅持做行業(yè)大模型，竹間智能給大模型造了一座「模型工廠」（1）

相關推薦

技術專區(qū)

堅持做行業(yè)大模型，竹間智能給大模型造了一座「模型工廠」（1）