開源大模型超越 GPT-3.5!爆火 MoE 實測結果出爐,網(wǎng)友:OpenAI 越來越?jīng)]護城河了
一條神秘磁力鏈接引爆整個 AI 圈,現(xiàn)在,正式測評結果終于來了:
本文引用地址:http://m.butianyuan.cn/article/202312/453814.htm首個開源 MoE 大模型 Mixtral 8x7B,已經(jīng)達到甚至超越了 Llama 2 70B 和 GPT-3.5 的水平。
(對,就是傳聞中 GPT-4 的同款方案。)
并且由于是稀疏模型,處理每個 token 僅用了 12.9B 參數(shù)就做到了這般成績,其推理速度和成本也與 12.9B 的密集模型相當。
消息一出,再次在社交媒體上掀起討論熱潮。
OpenAI 創(chuàng)始成員 Andrej Karpathy 第一時間趕到現(xiàn)場整理起了筆記,還高亮出了重點:這家“歐版 OpenAI”透露出的最強模型,還只是“中杯”。
p.s. Mixtral 8×7B 甚至只是小杯……
英偉達 AI 科學家 Jim Fan 則贊說:
每個月都會有十幾個新的模型冒出來,但真正能經(jīng)得住檢驗的卻寥寥無幾,能引發(fā)大家伙熱烈關注的就更少了。
并且這波啊,不僅是模型背后公司 Mistral AI 大受關注,也帶動 MoE(Mixture of Experts)再次成為開源 AI 社區(qū)的最火議題。
HuggingFace 官方就趁熱發(fā)布了一篇 MoE 的解析博文,同樣打出了“轉發(fā)如潮”的效果。
值得關注的是,Mistral AI 的最新估值已經(jīng)沖破 20 億美元,在短短 6 個月中增長了 7 倍多……
基本超越 Llama 2 70B
說起來,Mistral AI 這家公司也是不走尋常路。隔壁大廠前腳剛轟轟烈烈搞發(fā)布會,慢慢悠悠發(fā)模型,他們可倒好,直接來了個程序顛倒:
先甩鏈接開放下載,又給 vLLM 項目(一個大模型推理加速工具)提了 PR,最后才想起來發(fā)布技術博客給自家模型整了個正經(jīng)官宣。
△ 模型一開始是醬嬸發(fā)布的
那么還是先來看看,官方給出了哪些信息,與這兩天吃瓜群眾自己扒出來的細節(jié)有何不同。
首先,官方自信地表示:
Mixtral 8×7B 在大多數(shù)基準測試中都優(yōu)于 Llama 2 70B,推理速度快了 6 倍。
它是最強大的、具有寬松許可的開放權重模型,也是最佳性價比之選。
具體來說,Mixtral 采用了稀疏混合專家網(wǎng)絡,是一個 decoder-only 的模型。在其中,前饋塊會從 8 組不同的參數(shù)組中進行選擇 ——
也就是說,實際上,Mixtral 8×7B 并不是 8 個 7B 參數(shù)模型的集合,僅僅是 Transformer 中的前饋塊有不同的 8 份。
這也就是為什么 Mixtral 的參數(shù)量并不是 56B,而是 46.7B。
其特點包括以下幾個方面:
在大多數(shù)基準測試中表現(xiàn)優(yōu)于 Llama 2 70B,甚至足以擊敗 GPT-3.5
上下文窗口為 32k
可以處理英語、法語、意大利語、德語和西班牙語
在代碼生成方面表現(xiàn)優(yōu)異
遵循 Apache 2.0 許可(免費商用)
具體測試結果如下:
另外,在幻覺問題方面,Mixtral 的表現(xiàn)也由于 Llama 2 70B:
在 TruthfulQA 基準上的成績是 73.9% vs 50.2%;在 BBQ 基準上呈現(xiàn)更少的偏見;在 BOLD 上,Mixtral 顯示出比 Llama 2 更積極的情緒。
此次與 Mixtral 8×7B 基礎版本一起發(fā)布的,還有 Mixtral 8x7B Instruct 版本。后者經(jīng)過 SFT 和 DPO 優(yōu)化,在 MT-Bench 上拿到了 8.3 的分數(shù),跟 GPT-3.5 差不多,優(yōu)于其他開源大模型。
目前,Mistral 官方已經(jīng)宣布上線 API 服務,不過還是邀請制,未受邀用戶需要排隊等待。
值得關注的是,API 分為三個版本:
小小杯(Mistral-tiny),對應模型是 Mistral 7B Instruct;
小杯(Mistral-small),對應模型是這次發(fā)布的 Mixtral 8×7B;
中杯(Mistral-medium),對應的模型尚未公布,但官方透露其在 MT-Bench 上的得分為 8.6 分。
有網(wǎng)友直接把 GPT-4 拉過來對比了一下。可以看到,中杯模型在 WinoGrande(常識推理基準)上的得分超過了 GPT-4。
價格方面,小小杯到中杯的輸入和輸出價格分別是每一百萬 token0.14~2.5 歐元和 0.42~7.5 歐元不等,嵌入模型則是 0.1 歐元每百萬 token(1 歐元約合 7.7 人民幣)。
而在線版本,目前還只能到第三方平臺(Poe、HuggingFace 等)體驗。
能看懂中文,但不太愿意說
雖然官方通告中并沒有說支持中文,但我們實測(HuggingFace Chat 中的在線版,模型為 Instruct 版本)發(fā)現(xiàn),Mixtral 至少在理解層面上已經(jīng)具備一定中文能力了。
生成層面上,Mixtral 不太傾向于用中文來回答,但如果指明的話也能得到中文回復,不過還是有些中英混雜的情況。
面對更多的“弱智吧”問題,Mixtral 的回答雖中規(guī)中矩,但看上去至少已經(jīng)理解了字面含義。
數(shù)學方面,面對經(jīng)典的雞兔同籠問題,Mixtral 的回答從過程到結果都完全正確。
即使是高等數(shù)學問題,比如復雜的函數(shù)求導,Mixtral 也能給出正確答案,更難能可貴的是過程沒什么問題。
而此次的官方通告中專門強調了 Mixtral 的代碼能力很強,所以也受到了我們的重點考察。
一道困難難度的 LeetCode 下來,Mixtral 給出的代碼一次就通過了測試。
給你一個未排序的整數(shù)數(shù)組 nums,請你找出其中沒有出現(xiàn)的最小的正整數(shù)。
請你實現(xiàn)時間復雜度為 O (n) 并且只使用常數(shù)級別額外空間的解決方案。
但隨著我們繼續(xù)提問,Mixtral 的回答一不小心暴露了自己可能專門針對 LeetCode 做過訓練,而且還是中文版 LC。
為了更加真實地展示 Mixtral 的代碼能力,我們轉而讓它編寫實用程序 —— 用 JS 寫一個 Web 版計算器。
經(jīng)過幾輪調整之后,雖然按鈕的布局有些奇怪,但基本的四則運算已經(jīng)可以完成了。
此外我們會發(fā)現(xiàn),如果在同一個對話窗口中不斷補充新的要求,Mixtral 的表現(xiàn)可能會有所下降,出現(xiàn)代碼格式混亂等問題,開啟新一輪對話后則會恢復正常。
除了 API 和在線版本,Mistral AI 還提供了模型下載服務,可以用
評論