從基礎能力到應用，大模型實測結果揭曉

作者：時間：2024-06-11 來源：IDC

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

OpenAI 于 2023 年 3 月 14 日發(fā)布最新版本多模態(tài)大模型 GPT-4 及其 API；在中國市場，模型的通用性和泛化能力吸引了各大廠商布局，市場上的大模型/生成式AI產品紛至沓來。2024年5月，全球代表性AI技術供應商如OpenAI發(fā)布了更新的大模型GPT-4o，在文本、圖像、音頻和視頻等多模態(tài)融合嘗試方面展現(xiàn)出強大的能力，能夠以這三者的任意組合進行輸入和輸出，Google也發(fā)布了大模型Gemini的最新功能、文生圖模型Imagen3、對標Sora的文生視頻模型Veo等。IDC觀察到，在中國市場，從2024年第二季度開始，越來越多的AI技術供應商開始更新升級基礎大模型及相關產品，新一輪的“百模大戰(zhàn)”一觸即發(fā)。

本文引用地址：http://m.butianyuan.cn/article/202406/459752.htm

實測方法

本次實測面向市場上主流的大模型技術供應商，產品必須是已經開放使用，并按照國家互聯(lián)網信息辦公室要求已經完成備案。測試的媒介主要是基于基礎大模型的網頁版的產品，IDC對參與廠商的產品表現(xiàn)分別進行測評?；A能力問題涉及問答理解類、推理類、創(chuàng)作表達類、數學類、代碼類等；應用問題主要包含toC通用場景類和toB特定行業(yè)類，每一類單獨計分。

基礎大模型產品實測結果評述

為對比國內外大模型的產品差異以及推動大模型/生成式AI相關產品的發(fā)展和應用，IDC成立產品測試團隊，通過多個維度（如生成質量、使用與性能、安全與合規(guī)等）對基礎大模型及相關產品進行評測，并邀請外部專家團隊深入分析各個產品答案準確性、合理性等，并在審核委員會的監(jiān)督下，最終得出各廠商的評估結果，供用戶選型參考。

綜合最終的得分情況，基礎大模型產品能力處于第一梯隊的有（梯隊產品表現(xiàn)在同一均線，以下按照技術供應商首字母順序排列）：阿里通義千問/通義萬相等通義系列生成式AI產品、百度文心一言/文心一格、科大訊飛訊飛星火 3.5 Max、OpenAI GPT4、商湯日日新SenseNova 5.0。

在所有的題目類型中，目前如問答理解、toC通用場景類得分率較高，數學類、推理類、代碼類問題、行業(yè)應用類的準確率較低，需進一步優(yōu)化。詳細的測評結果展示如下：

IDC中國大模型產品測試團隊表示，2024年產業(yè)界更加關注大模型和生成式AI的落地，生成式AI的進一步發(fā)展需要多種模態(tài)的大模型作為引擎。更為接近人類的思維方式，是未來大語言模型競爭的關鍵，技術供應商還需持續(xù)優(yōu)化大模型在數學、推理、代碼等問題以及在行業(yè)應用中的生成質量，提高生成的速度并降低大模型使用的成本，加快大模型技術的應用與普及。

免責聲明

本文中的內容和數據均來源于IDC所發(fā)布的報告，所有內容及數據均為我公司所有。未經IDC書面許可，任何機構和個人不得以任何形式翻版、復制、刊登、發(fā)表或引用。

新聞中心

從基礎能力到應用，大模型實測結果揭曉

評論

相關推薦

技術專區(qū)

新聞中心

從基礎能力到應用，大模型實測結果揭曉

評論

相關推薦

技術專區(qū)

從基礎能力到應用，大模型實測結果揭曉