谷歌發(fā)布多模態(tài)大模型Gemini,性能超GPT-4!
12月7日凌晨,谷歌CEO桑達爾?皮查伊和Deepmind CEO戴密斯·哈薩比斯在谷歌官網(wǎng)聯(lián)名發(fā)文,宣布最新多模態(tài)大模型Gemini 1.0(雙子星)版本正式上線,其性能有望超過OpenAI GPT-4 模型。
Gemini號稱是目前最強大、最通用的模型,第一版Gemini 1.0能夠理解和操作包括文字、圖象、音頻、視頻、代碼在內(nèi)不同類型信息。
Gemini原生設(shè)計成多模態(tài)模型,一開始就在不同模態(tài)上預訓練,接著通過額外的多模態(tài)數(shù)據(jù)進行微調(diào)、提升性能。目前,Gemini 1.0所受的訓練是同時識別和理解文字、圖象、音頻、視頻、代碼等不同類型信息,并可回答涉及復雜主題的問題,這也讓Gemini在解釋、推理如數(shù)學和物理這樣復雜的問題時表現(xiàn)出色。
不只如此,Gemini 1.0能夠理解和解釋世界上常用的程序語言如Python、Java、C++和Go,并且產(chǎn)生高品質(zhì)的代碼。值得一提的是,Google DeepMind 2年前推出AI代碼生成系統(tǒng)AlphaCode,現(xiàn)在通過一個專門版本的Gemini,建立更進階的AlphaCode 2,不僅擅長程序設(shè)計,還能處理與數(shù)學、理論計算機科學相關(guān)的競技程序設(shè)計問題。
Google DeepMind團隊使用Google自行研發(fā)、用于加速機器學習的TPU v4和v5e(Tensor Processing Unit),有規(guī)模地訓練Gemini 1.0。依照模型大小有Ultra、Pro、Nano三種。
其中中端型號的Gemini Pro能夠擊敗GPT-3.5,可擴展多種任務(wù);Gemini Nano用于特定任務(wù)和移動設(shè)備。
而Gemini Ultra則是規(guī)模最大、功能最強大的模型,專為高度復雜任務(wù)所設(shè)計,Gemini Nano則是處理裝置上任務(wù)最有效率的模型。
Google DeepMind團隊不斷對Gemini模型進行嚴格測試,從理解自然圖象、音頻、視頻,再到數(shù)學推理,其中發(fā)現(xiàn)Gemini Ultra在大型語言模型研究和開發(fā)廣泛采用的32項學術(shù)基準測試中,有30個取得領(lǐng)先成績。
其中Gemini Ultra以90%的高得分成為第一個在MMLU(massive multitask language understanding,大規(guī)模多任務(wù)語言理解)測試里超越人類專家的模型,而在新的MMMU基準測試里也得到59.4%領(lǐng)先分數(shù),兩項測試皆超越OpenAI所開發(fā)的GPT-4模型。
截至目前Google所有AI模型中,Gemini在偏誤、數(shù)據(jù)毒性(toxicity)等方面都接受最全面的安全性評價。在網(wǎng)絡(luò)攻擊、說服能力、自主性等可能存在風險的領(lǐng)域,Google DeepMind團隊都進行最新研究,也運用Google Research的對抗測試技巧,在部署Gemini前率先找出關(guān)鍵的安全問題。
Google將在多項產(chǎn)品中導入Gemini,包括軟件方面的Bard、以及有關(guān)硬件Pixel 8 Pro。從12月13日起,開發(fā)者和企業(yè)客戶可以透過Google AI Studio或Google Cloud Vertex AI的Gemini API使用Gemini Pro。Android開發(fā)者也能透過AICore,在開發(fā)作業(yè)中運用Gemini Nano。
在ChatGPT推出后Google內(nèi)部宣布「紅色警戒」,從那時起被認為在AI競賽急起直追。Gemini可說是Google多年來一直苦心建立的模型,也被外界視為能一舉挑戰(zhàn)OpenAI的關(guān)鍵利器。接下來我們將在越來越多Google產(chǎn)品看見Gemini身影,及其驅(qū)動的強大功能。
編輯:芯智訊-林子
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。