微軟發(fā)布 Phi-3.5 系列 AI 模型：上下文窗口 128K，首次引入混合專家模型

作者：時(shí)間：2024-08-21 來(lái)源：IT之家

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

IT之家 8 月 21 日消息，微軟公司今天發(fā)布了 Phi-3.5 系列 AI 模型，其中最值得關(guān)注的是推出了該系列首個(gè)混合專家模型（MoE）版本 Phi-3.5-MoE。

本文引用地址：http://m.butianyuan.cn/article/202408/462244.htm

微軟發(fā)布 Phi-3.5 系列 AI 模型：上下文窗口 128K，首次引入混合專家模型

本次發(fā)布的 Phi-3.5 系列包括 Phi-3.5-MoE、Phi-3.5-vision 和 Phi-3.5-mini 三款輕量級(jí) AI 模型，基于合成數(shù)據(jù)和經(jīng)過(guò)過(guò)濾的公開(kāi)網(wǎng)站構(gòu)建，上下文窗口為 128K，所有模型現(xiàn)在都可以在 Hugging Face 上以 MIT 許可的方式獲取。IT之家附上相關(guān)介紹如下：

Phi-3.5-MoE：首個(gè)混合專家模型

Phi-3.5-MoE 是 Phi 系列中首個(gè)利用混合專家（MoE）技術(shù)的模型。該模型在 16 x 3.8B MoE 模型使用 2 個(gè)專家僅激活了 66 億個(gè)參數(shù)，并使用 512 個(gè) H100 在 4.9T 標(biāo)記上進(jìn)行了訓(xùn)練。

微軟研究團(tuán)隊(duì)從零開(kāi)始設(shè)計(jì)該模型，以進(jìn)一步提高其性能。在標(biāo)準(zhǔn)人工智能基準(zhǔn)測(cè)試中，Phi-3.5-MoE 的性能超過(guò)了 Llama-3.1 8B、Gemma-2-9B 和 Gemini-1.5-Flash，并接近目前的領(lǐng)先者 GPT-4o-mini。