Nature最新封面:DeepMind AI “再下一城”,追尋人類古老文字
撰文:楊逍
不可否認(rèn)的是,人工智能(AI)正在加速全行業(yè)變革。
小到生活中常見的人臉識別、語音助手,大到基礎(chǔ)科學(xué)領(lǐng)域的蛋白質(zhì)結(jié)構(gòu)預(yù)測、核聚變控制等,如今的人工智能應(yīng)用,已經(jīng)遍地開花。
而這一次,它又瞄向了記載歷史的碑文。
今天,來自 DeepMind、威尼斯大學(xué)、哈佛大學(xué)的聯(lián)合研究團(tuán)隊及其合作者,提出了一種可以復(fù)原、定位、定年古希臘銘文的深度神經(jīng)網(wǎng)絡(luò)——Ithaca(以荷馬史詩《奧德賽》中的希臘島嶼命名)。
相關(guān)研究論文以“Restoring and attributing ancient texts using deep neural networks”為題,以封面文章形式發(fā)表在權(quán)威科學(xué)期刊 Nature 上。
研究結(jié)果顯示,當(dāng) Ithaca 單獨被用于復(fù)原受損銘文時,準(zhǔn)確率可以達(dá)到 62%,而參與此次研究的歷史學(xué)家,單獨預(yù)測準(zhǔn)確率僅為 25%;而當(dāng) Ithaca 與歷史學(xué)家“合作”后,這一數(shù)字可以提升到 72%。
而且,Ithaca 還能以 71% 的準(zhǔn)確度判斷這些銘文的原始位置,鑒定年代與歷史學(xué)家提出的范圍也相差少于 30 年。
在論文的最后,研究人員表示,研究方法適用于手稿學(xué)、錢幣學(xué)和紙草學(xué)等所有與古代文本相關(guān)的學(xué)科,也適用于古代、現(xiàn)代的任何語言。
這一研究成果,或?qū)⑨尫湃斯ぶ悄芘c歷史學(xué)家的合作潛力,提升我們對人類歷史的理解。
挖掘遺失的歷史
從狹義上講,人類文字的誕生,標(biāo)志著歷史的開端。
原始文字是人類用來紀(jì)錄特定事物、簡化圖像而成的書寫符號,對人類理解過去人類文明和當(dāng)前世界至關(guān)重要。
早期文字以圖畫形式存在,有些是以形表意,有些是以形表音。
象形文字就屬于以形表意的范疇,與語音關(guān)系不大,漢字便由從象形文字漸次演變而成。
圖|不同象形文字的演化(來源:維基百科)
而古埃及文、羅馬文字和拉丁文字等以形表音的圖畫文字,也在漫長的人類歷史中,逐漸演化成語音符號,即外文字母。
不同的外文字母可以組合成不同的外國文字。
圖|不同語言文字的字體與樣式(來源:維基百科)
因此,要想更好地探究古代文明史,研究古人直接書寫在石頭、陶器或金屬等材料上并留存至今的銘文,是一種通用且有效的研究手段。
例如,早在 2500 多年前,古希臘人便開始在石頭、陶器和金屬上記錄從租約、法律到日歷、預(yù)言的一切。正是這些史料,讓歷史學(xué)家們對地中海地區(qū)有了詳細(xì)的了解。
但不幸的是,這一記錄并不完整。幾個世紀(jì)以來,眾多幸存下來的銘文也陸續(xù)遭到破壞,從原來的位置被移走,或被販運。
而且,由于各種外部原因,這些文本難以辨認(rèn),書寫時間也不確定。
盡管當(dāng)前歷史學(xué)家們可以借助現(xiàn)有方法重建出缺失的文本,但目前的年代測定技術(shù)(如放射性碳年代測定法)卻無法在這些材料上使用。
基于以上原因,這些銘文解讀起來,既困難又費時。
歷史學(xué)家的 AI 助手
如何解決上述問題?如今,AI 做得或許要更好一些。
當(dāng)前,自然語言處理(NLP)模型通常會使用大量單詞來進(jìn)行訓(xùn)練,因為這些單詞在句子中出現(xiàn)的順序與它們之間的關(guān)系可以提供額外的含義。比如,“once upon a time” 一起出現(xiàn),就比單個字符或單詞更有含義。
在此次研究中,Ithaca 是基于帕卡德人文學(xué)院(Packard Humanities Institute)提供的最大希臘碑文數(shù)字?jǐn)?shù)據(jù)集訓(xùn)練的。
為確保 Ithaca 模型在使用缺失字符時仍能正常進(jìn)行訓(xùn)練,研究人員同時將單詞和單個字符作為輸入,模型核心的稀疏自我注意機(jī)制并行地評估這兩個輸入,允許 Ithaca 根據(jù)需要評估銘文。
結(jié)果表明,Ithaca 的設(shè)計決策和可視化輔助可以幫助歷史學(xué)家更容易地復(fù)原銘文,強(qiáng)大的人機(jī)合作潛力,有助于更好地還原歷史真相,甚至幫助解決一些爭議性問題。
例如,歷史學(xué)家們對雅典頒布的一系列重要法令的日期存在分歧,這些法令是在蘇格拉底和伯里克利等著名人物在世時期頒布的,被認(rèn)為是在公元前 446/5 年之前書寫的。而 Ithaca 與歷史學(xué)家一起,將這一日期更新到了公元前 424/3 年。
圖|碑文記錄了迦爾西斯城對雅典的效忠誓言。(來源:衛(wèi)城博物館)
放眼歷史長河,盡管這兩個數(shù)字看起來差別不大,但這些法令對當(dāng)前人類理解古雅典的政治史是至關(guān)重要的。
此外,歷史學(xué)家們也與 Ithaca 一起,重新復(fù)原了希臘歷史上一次關(guān)于雅典衛(wèi)城的法令。
圖|修復(fù)后的銘文記錄了一項關(guān)于公元前 485/4 年雅典衛(wèi)城的法令。
Ithaca 的架構(gòu)側(cè)重于協(xié)作、決策支持和可解釋性。盡管單獨使用 Ithaca 修復(fù)受損銘文的準(zhǔn)確率只有 62%,但當(dāng)與歷史學(xué)家們協(xié)同工作時,可以將人類的準(zhǔn)確率從 25% 提高到 72%。
這一變化證明,Ithaca 具有強(qiáng)大的協(xié)同效應(yīng)。
“學(xué)者們不會被取代,相反,Ithaca 就像一只獵犬,會為學(xué)者尋找線索,但不做最后的決定?!庇鴤惗貒鯇W(xué)院(King's College London)榮譽(yù)退休教授 Charlotte Roueche? 在評論文章中表示。
Roueche? 認(rèn)為,這一進(jìn)步不應(yīng)該被解讀為對上百年傳統(tǒng)的威脅,而應(yīng)該是對傳統(tǒng)的一種補(bǔ)充。人工智能不應(yīng)該讓學(xué)者變得多余,而應(yīng)該是挑戰(zhàn)他們對自認(rèn)為已經(jīng)知道的東西的理解。
原文鏈接:
https://www.nature.com/articles/s41586-022-04448-z
https://en.wikipedia.org/wiki/Writing_system
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。