大模型能自己「寫」論文了，還帶公式和參考文獻，試用版已上線

發(fā)布人：機器之心時間：2022-11-19 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發(fā)布文章

Meta AI 提出了一個可以總結學術文獻，解決數學問題的新模型，該模型還能生成百科文章，編寫科學代碼，注釋分子和蛋白質等等。

近年來，隨著各學科領域研究的進步，科學文獻和數據呈爆炸式增長，使學術研究者從大量信息中發(fā)現(xiàn)有用的見解變得越來越困難。通常，人們借助搜索引擎來獲取科學知識，但搜索引擎不能自主組織科學知識。

現(xiàn)在，來自 Meta AI 的研究團隊提出了一種新的大型語言模型 Galactica，可以存儲、組合和推理科學知識。

論文地址：https://galactica.org/static/paper.pdf
試用地址：https://galactica.org/

Galactica 模型有多強大呢，它可以自己總結歸納出一篇綜述論文：

也可以生成詞條的百科查詢：

對所提問題作出知識性的回答：

這些任務對于人類學者來說尚且是具有挑戰(zhàn)性的任務，但 Galactica 卻很好地完成了。圖靈獎得主 Yann LeCun 也在推特上發(fā)文稱贊：

我們來看一下 Galactica 模型的具體細節(jié)。

模型概述

Galactica 模型是在大量的論文、參考資料、知識庫和許多其他來源的科學語料庫上進行訓練的，包括超過 4800 萬篇論文、教科書和講義、數百萬種化合物和蛋白質知識、科學網站、百科全書等。與依賴于未經整理的、基于網絡爬蟲文本的現(xiàn)有語言模型不同，Galactica 訓練所用的語料庫是高質量且經過高度整理的。該研究在不過擬合的前提下對模型進行多個 epoch 的訓練，其中在上游和下游任務上的性能通過使用重復的 token 得到改善。

Galactica 的性能在一系列科學任務上優(yōu)于現(xiàn)有模型。在 LaTeX 方程式等技術知識的探索任務上，Galactica 與 GPT-3 的性能是 68.2% VS 49.0%。Galactica 在推理方面也表現(xiàn)出色，在數學 MMLU 基準上的表現(xiàn)顯著優(yōu)于 Chinchilla。

盡管沒有接受過通用語料庫的訓練，Galactica 在 BIG-bench 上的性能也優(yōu)于 BLOOM 和 OPT-175B。此外，它還在 PubMedQA 和 MedMCQA 開發(fā)等下游任務上創(chuàng)下了 77.6% 和 52.9% 的性能新高。

簡單來說，該研究將逐步推理封裝在特殊的 token 中，以模仿內部工作原理。這允許研究人員使用自然語言與模型進行交互，下圖是 Galactica 的試用界面。

值得一提的是，除了文本生成，Galactica 還可以執(zhí)行涉及化學公式和蛋白質序列的多模態(tài)任務。這將為****物發(fā)現(xiàn)領域做出貢獻。

實現(xiàn)細節(jié)

本文的語料庫包含 1060 億個 token，這些 token 來自論文、參考文獻、百科全書以及其他科學資料?？梢哉f該研究將自然語言資源（論文、參考書）與自然界中的序列（蛋白質序列、化學形式）都囊括了。表 1 和表 2 中顯示了語料庫的細節(jié)。

語料庫有了，接下來是對數據怎么操作。一般來講，對 tokenization 的設計是非常重要的。例如，蛋白質序列是根據氨基酸殘基來編寫的，那么基于字符的 tokenization 是合適的。為了實現(xiàn) tokenization，該研究對不同的模態(tài)進行了專門的 token 化。具體表現(xiàn)在（包括但不僅限于）：

引用：用特殊的參考 token[START_REF]和 [END_REF] 來包裝引用；
逐步推理：用 working memory token 來封裝逐步推理，模擬內部 working memory 上下文；
數字：把數字分成單獨的 token。例如， 737612.62 → 7,3,7,6,1,2,.,6,2；
SMILES 公式：用 [START_SMILES] 和[END_SMILES]包裝序列，并應用基于字符的 tokenization。同樣，該研究使用 [START_I_SMILES] 和[END_I_SMILES]來表示異構體 SMILES。例如：C(C(=O)O)N→C，(，C，(，=，O，)，O，)，N；
DNA 序列：應用一種基于字符的 tokenization，將每個核苷酸堿基視為一個 token，其中起始 token 為 [START_DNA] 和[END_DNA]。例如，CGGTACCCTC→C, G, G, T, A, C, C, C, T, C。

如下圖 4 顯示了對一篇論文的引用進行處理的示例。在處理引用時使用全局標識符和特殊 token[START_REF]和 [END_REF] 來表示引用的地方。

數據集處理好之后，接下來就是怎么實現(xiàn)。Galactica 在 Transformer 架構的基礎上進行了以下修改：

GeLU 激活：將 GeLU 激活用于各種大小的模型；
上下文窗口：對于不同大小的模型，使用 2048 長度的上下文窗口；
無偏置：遵循 PaLM，在密集內核或層規(guī)范中不使用偏置；
學習位置嵌入：學習位置嵌入用于模型；
詞匯表：使用 BPE 構建一個包含 50k token 的詞匯表。

表 5 列出了不同大小模型以及訓練超參數。

實驗

重復的 token 被認為是無害的

從圖 6 可以看出，在經過四個 epoch 的訓練之后，驗證損失繼續(xù)下降。擁有 120B 參數的模型在第五個 epoch 開始時才開始過擬合。這是出乎意料的，因為現(xiàn)有的研究表明重復的 token 可能對性能有害。該研究還發(fā)現(xiàn)，30B 和 120B 的模型在 epoch-wise 后表現(xiàn)出雙下降效應，即驗證損失達到平穩(wěn)(或上升)，然后是下降。這種效果在每個 epoch 后都變得更強，最明顯的是 120B 模型在訓練結束時。

圖 8 結果顯示實驗沒有出現(xiàn)過擬合跡象，這表明重復 token 能夠提高下游和上游任務性能。

其他結果

鍵入公式太慢了，現(xiàn)在用提示就能生成 LaTeX：

在化學反應中，要求 Galactica 在化學方程 LaTeX 中預測反應的產物，模型僅根據反應物就能進行推理，結果如下：

表 7 中報告了一些其他結果：

Galactica 的推理能力。該研究首先在 MMLU mathematics 基準上進行評估，并在表 8 中報告了評估結果。Galactica 與較大的基礎模型相比表現(xiàn)強勁，并且使用 token 似乎可以提高 Chinchilla 的性能，即使對于較小的 30B Galactica 模型也是如此。

該研究還對 MATH 數據集進行了評估，以進一步探索 Galactica 的推理能力：

從實驗結果可以得出：Galactica 在思維鏈和提示方面都大大優(yōu)于基礎 PaLM 模型。這表明 Galactica 在處理數學任務上是個更好的選擇。

在下游任務的評估結果如表 10 所示。Galactica 顯著優(yōu)于其他語言模型，并且在大多數任務中優(yōu)于更大的模型（Gopher 280B）。與 Chinchilla 相比，性能表現(xiàn)差異更大，Chinchilla 在子集任務上似乎更強：特別是高中科目以及數學較少、記憶密集型任務。相比之下，Galactica 往往在數學和研究生水平的任務中表現(xiàn)更好。