Nature最新封面：DeepMind AI “再下一城”，追尋人類古老文字

發(fā)布人：大數(shù)據(jù)文摘時間：2022-03-15 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自學(xué)術(shù)頭條

撰文：楊逍

不可否認(rèn)的是，人工智能（AI）正在加速全行業(yè)變革。

小到生活中常見的人臉識別、語音助手，大到基礎(chǔ)科學(xué)領(lǐng)域的蛋白質(zhì)結(jié)構(gòu)預(yù)測、核聚變控制等，如今的人工智能應(yīng)用，已經(jīng)遍地開花。

而這一次，它又瞄向了記載歷史的碑文。
今天，來自 DeepMind、威尼斯大學(xué)、哈佛大學(xué)的聯(lián)合研究團(tuán)隊及其合作者，提出了一種可以復(fù)原、定位、定年古希臘銘文的深度神經(jīng)網(wǎng)絡(luò)——Ithaca（以荷馬史詩《奧德賽》中的希臘島嶼命名）。

相關(guān)研究論文以“Restoring and attributing ancient texts using deep neural networks”為題，以封面文章形式發(fā)表在權(quán)威科學(xué)期刊 Nature 上。

研究結(jié)果顯示，當(dāng) Ithaca 單獨被用于復(fù)原受損銘文時，準(zhǔn)確率可以達(dá)到 62%，而參與此次研究的歷史學(xué)家，單獨預(yù)測準(zhǔn)確率僅為 25%；而當(dāng) Ithaca 與歷史學(xué)家“合作”后，這一數(shù)字可以提升到 72%。

而且，Ithaca 還能以 71% 的準(zhǔn)確度判斷這些銘文的原始位置，鑒定年代與歷史學(xué)家提出的范圍也相差少于 30 年。

在論文的最后，研究人員表示，研究方法適用于手稿學(xué)、錢幣學(xué)和紙草學(xué)等所有與古代文本相關(guān)的學(xué)科，也適用于古代、現(xiàn)代的任何語言。

這一研究成果，或?qū)⑨尫湃斯ぶ悄芘c歷史學(xué)家的合作潛力，提升我們對人類歷史的理解。

挖掘遺失的歷史
從狹義上講，人類文字的誕生，標(biāo)志著歷史的開端。

原始文字是人類用來紀(jì)錄特定事物、簡化圖像而成的書寫符號，對人類理解過去人類文明和當(dāng)前世界至關(guān)重要。

早期文字以圖畫形式存在，有些是以形表意，有些是以形表音。

象形文字就屬于以形表意的范疇，與語音關(guān)系不大，漢字便由從象形文字漸次演變而成。
圖｜不同象形文字的演化（來源：維基百科）
而古埃及文、羅馬文字和拉丁文字等以形表音的圖畫文字，也在漫長的人類歷史中，逐漸演化成語音符號，即外文字母。

不同的外文字母可以組合成不同的外國文字。
圖｜不同語言文字的字體與樣式（來源：維基百科）
因此，要想更好地探究古代文明史，研究古人直接書寫在石頭、陶器或金屬等材料上并留存至今的銘文，是一種通用且有效的研究手段。

例如，早在 2500 多年前，古希臘人便開始在石頭、陶器和金屬上記錄從租約、法律到日歷、預(yù)言的一切。正是這些史料，讓歷史學(xué)家們對地中海地區(qū)有了詳細(xì)的了解。

但不幸的是，這一記錄并不完整。幾個世紀(jì)以來，眾多幸存下來的銘文也陸續(xù)遭到破壞，從原來的位置被移走，或被販運。

而且，由于各種外部原因，這些文本難以辨認(rèn)，書寫時間也不確定。

盡管當(dāng)前歷史學(xué)家們可以借助現(xiàn)有方法重建出缺失的文本，但目前的年代測定技術(shù)（如放射性碳年代測定法）卻無法在這些材料上使用。

基于以上原因，這些銘文解讀起來，既困難又費時。
歷史學(xué)家的 AI 助手
如何解決上述問題？如今，AI 做得或許要更好一些。

當(dāng)前，自然語言處理（NLP）模型通常會使用大量單詞來進(jìn)行訓(xùn)練，因為這些單詞在句子中出現(xiàn)的順序與它們之間的關(guān)系可以提供額外的含義。比如，“once upon a time” 一起出現(xiàn)，就比單個字符或單詞更有含義。

在此次研究中，Ithaca 是基于帕卡德人文學(xué)院（Packard Humanities Institute）提供的最大希臘碑文數(shù)字?jǐn)?shù)據(jù)集訓(xùn)練的。

為確保 Ithaca 模型在使用缺失字符時仍能正常進(jìn)行訓(xùn)練，研究人員同時將單詞和單個字符作為輸入，模型核心的稀疏自我注意機(jī)制并行地評估這兩個輸入，允許 Ithaca 根據(jù)需要評估銘文。

結(jié)果表明，Ithaca 的設(shè)計決策和可視化輔助可以幫助歷史學(xué)家更容易地復(fù)原銘文，強(qiáng)大的人機(jī)合作潛力，有助于更好地還原歷史真相，甚至幫助解決一些爭議性問題。

例如，歷史學(xué)家們對雅典頒布的一系列重要法令的日期存在分歧，這些法令是在蘇格拉底和伯里克利等著名人物在世時期頒布的，被認(rèn)為是在公元前 446/5 年之前書寫的。而 Ithaca 與歷史學(xué)家一起，將這一日期更新到了公元前 424/3 年。
圖｜碑文記錄了迦爾西斯城對雅典的效忠誓言。（來源：衛(wèi)城博物館）
放眼歷史長河，盡管這兩個數(shù)字看起來差別不大，但這些法令對當(dāng)前人類理解古雅典的政治史是至關(guān)重要的。

此外，歷史學(xué)家們也與 Ithaca 一起，重新復(fù)原了希臘歷史上一次關(guān)于雅典衛(wèi)城的法令。
圖｜修復(fù)后的銘文記錄了一項關(guān)于公元前 485/4 年雅典衛(wèi)城的法令。
Ithaca 的架構(gòu)側(cè)重于協(xié)作、決策支持和可解釋性。盡管單獨使用 Ithaca 修復(fù)受損銘文的準(zhǔn)確率只有 62%，但當(dāng)與歷史學(xué)家們協(xié)同工作時，可以將人類的準(zhǔn)確率從 25% 提高到 72%。

這一變化證明，Ithaca 具有強(qiáng)大的協(xié)同效應(yīng)。

“學(xué)者們不會被取代，相反，Ithaca 就像一只獵犬，會為學(xué)者尋找線索，但不做最后的決定?！庇鴤惗貒鯇W(xué)院（King's College London）榮譽(yù)退休教授 Charlotte Roueche? 在評論文章中表示。

Roueche? 認(rèn)為，這一進(jìn)步不應(yīng)該被解讀為對上百年傳統(tǒng)的威脅，而應(yīng)該是對傳統(tǒng)的一種補(bǔ)充。人工智能不應(yīng)該讓學(xué)者變得多余，而應(yīng)該是挑戰(zhàn)他們對自認(rèn)為已經(jīng)知道的東西的理解。

原文鏈接：
https://www.nature.com/articles/s41586-022-04448-z
https://en.wikipedia.org/wiki/Writing_system