人工智能領(lǐng)軍團(tuán) DeepMind 又爆出了一項(xiàng)重要成果:用深度神經(jīng)網(wǎng)絡(luò)修復(fù)古希臘受損的石碑銘文,號(hào)稱「Predicting the Past」(預(yù)測(cè)過去),在以 Nature 為首的科學(xué)媒介上掀起了一番熱烈關(guān)注。
他們以古希臘的島嶼名為該模型命名 ——「Ithaca」(伊薩卡島),以表對(duì)古希臘文明的神往。在荷馬史詩《奧德賽》中,伊薩卡島是英雄奧德修斯(Odysseus)的故鄉(xiāng)。傳聞,公元前 1183 年,國(guó)王奧德修斯在特洛伊戰(zhàn)役中取得勝利后,歷經(jīng)十七年的艱險(xiǎn)斗爭(zhēng),戰(zhàn)勝無數(shù)困難,最終回到伊薩卡島,與妻兒幸福團(tuán)聚。
「伊薩卡」也從此成為古希臘文明中「家」的象征。這可能也是 DeepMind 迄今為止被賦予了最浪漫名義的 AI 模型。
在官方推特中,他們也稱,希望能夠「幫助歷史學(xué)家,更好地理解古代歷史」,馬上就收獲了過千的點(diǎn)贊:
作為「AI for Science」的著名代表,顯然,DeepMind 祭出的深度神經(jīng)網(wǎng)絡(luò) Ithaca 打破了外界對(duì)它的「純理工科」誤解。在官方博客中,DeepMind 也解釋,這次的成果符合他們「實(shí)現(xiàn)智能、促進(jìn)科學(xué)與人文發(fā)展」的使命。
Ithaca 是 DeepMind 在「AI for Humanity」(用人工智能研究人文社科)的第一個(gè)里程碑。那么,這是否意味著:DeepMind 的野心不僅是「AI for Science」,還有「AI for Humanity」?
科學(xué)與人文從來便是人類文明的兩大黃金分支。歷史的前進(jìn),從來離不開這兩個(gè)車輪。往后回看,Ithaca 的出現(xiàn),或許正是 AI 進(jìn)軍人文社科的起點(diǎn)。
揭開 Ithaca 的神秘面紗
3 月 9 日,Nature 封面發(fā)布,Ithaca 登頂。古老的土黃銘文與酷炫的深藍(lán)編碼交織,完美寫就了 DeepMind 與威尼斯 Ca' Foscari 大學(xué)人文系、牛津大學(xué)經(jīng)典學(xué)院和雅典經(jīng)濟(jì)大學(xué)信息系學(xué)者的研究成果:
用神經(jīng)網(wǎng)絡(luò)修復(fù)、破解幾千年前的古希臘銘文,不僅有歷史的滾滾黃塵,還有最新的時(shí)代印記 —— 人工智能。
相關(guān)論文也以“Restoring and attributing ancient texts using deep neural networks”為題發(fā)表在了 Nature 上(如下圖):
一個(gè)字:秀!?
文字是文明的載體。從兩千多年前開始,古希臘人便在石頭、陶器和金屬上書寫文字,以記錄租約、法律、日歷、神諭等社會(huì)生活的內(nèi)容。但由于年代久遠(yuǎn),許多銘文經(jīng)過風(fēng)雨摧殘,已被損壞,并從原來的位置移走。
在文物修復(fù)一塊,現(xiàn)代的測(cè)年技術(shù)(如放射性碳測(cè)年)并不能用于研究刻在石頭、陶瓷和金屬等材料上的銘文,使得這些銘文難以解讀或解讀十分耗時(shí)。因此,DeepMind 的團(tuán)隊(duì)開始思考:是否可以用人工智能幫助歷史學(xué)家解釋銘文?
于是,他們與歷史學(xué)家們合作,推出了 Ithaca—— 據(jù)稱,這是第一個(gè)可以恢復(fù)受損銘文的缺失文本,識(shí)別銘文在載體上的初始位置、以確定書寫年限的深度神經(jīng)網(wǎng)絡(luò)。
Ithaca 的架構(gòu)如下:文本的損壞部分用破折號(hào)“-”表示;此外,DeepMind 研究團(tuán)隊(duì)還人為地破解了字符“δημ”。提供輸入后,Ithaca 會(huì)自動(dòng)恢復(fù)文本,并識(shí)別文本的編寫時(shí)間和地點(diǎn)。
據(jù)介紹,Ithaca 在帕卡德人文學(xué)院(Packard Humanities Institute)最大的希臘銘文數(shù)字?jǐn)?shù)據(jù)集上進(jìn)行訓(xùn)練。
通常來說,自然語言處理模型是使用單詞進(jìn)行訓(xùn)練,因?yàn)樗鼈冊(cè)诰渥又谐霈F(xiàn)的順序以及單詞之間的關(guān)系提供了額外的上下文背景和含義。但由于許多銘文都處于損壞狀態(tài),并且經(jīng)常有大塊的文字丟失。因此,為了確保模型適用于文字損失狀態(tài),他們使用了單詞和單個(gè)字符作為輸入來訓(xùn)練。模型核心的稀疏自注意力機(jī)制會(huì)并行評(píng)估這兩個(gè)輸入,以更好地評(píng)估銘文。
為了最大限度地發(fā)揮 Ithaca 的價(jià)值,DeepMind 團(tuán)隊(duì)還創(chuàng)建了許多視覺輔助工具,以確保 Ithaca 的研究結(jié)果容易被歷史學(xué)家解讀:
恢復(fù)假設(shè):Ithaca 為文本恢復(fù)任務(wù)生成了幾個(gè)預(yù)測(cè)假設(shè),供歷史學(xué)家使用他們的專業(yè)知識(shí)進(jìn)行選擇。
地理歸因:Ithaca 通過為歷史學(xué)家提供所有可能預(yù)測(cè)的概率分布(而不僅僅是單個(gè)輸出)來顯示其不確定性。它會(huì)返回代表其確定性水平的 84 個(gè)不同古代區(qū)域的概率。它在地圖上將這些結(jié)果可視化,以闡明古代世界可能存在的潛在地理聯(lián)系。
年代歸屬:在對(duì)文本進(jìn)行年測(cè)時(shí),Ithaca 會(huì)生成從公元前 800 年到公元 800 年所有十年的預(yù)測(cè)日期分布。這可以使歷史學(xué)家對(duì)特定日期范圍的置信度可視化,可能會(huì)提供有價(jià)值的歷史見解。
顯著性映射:為了將結(jié)果傳達(dá)給歷史學(xué)家,Ithaca 使用計(jì)算機(jī)視覺中常用的一種技術(shù)來識(shí)別哪些輸入序列對(duì)預(yù)測(cè)的貢獻(xiàn)最大。輸出以不同顏色強(qiáng)度突出顯示導(dǎo)致 Ithaca 預(yù)測(cè)缺失文本、位置和日期的單詞。
據(jù) DeepMind 介紹,經(jīng)評(píng)估表明:Ithaca 在恢復(fù)受損文本方面的準(zhǔn)確率達(dá)到了62%,在識(shí)別其原始位置方面的準(zhǔn)確率達(dá)到71%,并且可以將文本的日期確定在其真實(shí)日期范圍的30 年內(nèi)。
DeepMind 還說:與他們合作的歷史專家在單獨(dú)修復(fù)古代文本時(shí)準(zhǔn)確率只有 25%,但當(dāng)他們與 Ithaca 合作修復(fù)時(shí)時(shí),準(zhǔn)確率提高到了72%,超過了模型的個(gè)人性能,體現(xiàn)出了人機(jī)協(xié)作在歷史解釋、建立歷史事件的相對(duì)年代上的優(yōu)勢(shì)。
通過 Ithaca,歷史學(xué)家們重新評(píng)估了希臘歷史上的多個(gè)重要時(shí)期。用一個(gè)夸張點(diǎn)的說法是:Ithaca 「改變」了歷史;四舍五入,人工智能「改變」了歷史。
目前,Ithaca 已開源,供歷史學(xué)家們按需使用。
進(jìn)一步討論
DeepMind 認(rèn)為,Ithaca 的出現(xiàn)有助于歷史學(xué)家對(duì)歷史事實(shí)的辯論。
目前歷史學(xué)家們?cè)谔K格拉底等人物生活的時(shí)代制定的一系列重要的雅典法令的日期上有爭(zhēng)議。長(zhǎng)期以來,人們一直認(rèn)為這些法令是在公元前 446/445 年之前制定的,但新的證據(jù)表明其日期是公元前 420 年代。雖然這些差異看起來很小,但對(duì)人類理解古典雅典的政治史至關(guān)重要。
不過,也有網(wǎng)友指出:Ithaca 的性能指標(biāo)似乎單單聚焦在「準(zhǔn)確率」上,并不足以測(cè)出有說服力的年份。
事實(shí)上,「AI for Humanity」也并不是一個(gè)新鮮的話題。中國(guó)人民大學(xué)的高瓴人工智能研究院自成立之初,就將「用人工智能促進(jìn)人文學(xué)科研究」作為主要的方向之一。
對(duì)于 DeepMind 來說,AI 進(jìn)軍人文社科是第一次,但此前已有許多學(xué)者用神經(jīng)網(wǎng)絡(luò)進(jìn)行文字修復(fù)。此次登 Nature 封面,究竟是工作夠強(qiáng),還是 DeepMind 的 IP 號(hào)召力夠大,仍有待商榷。
不過,不可否認(rèn),用 AI 幫助人文學(xué)科研究,總歸利大于弊,值得喝彩。
關(guān)鍵詞: 人工智能 深度神經(jīng)網(wǎng)絡(luò) 古希臘石碑銘文 科學(xué)媒介