
我的工作是用計算機破譯甲骨文。
甲骨文是一種刻在龜甲或獸骨上的古文字。3000"多年前的商朝王室熱衷占卜,占卜官在龜甲和牛骨的背面鉆出圓形的深窩或者淺槽,火烤之后產生裂紋,以此判斷吉兇,然后把占卜結果刻在這片龜甲或者牛骨之上。甲骨卜辭的內容很豐富,是關于商代歷史的真實記錄,把中國的信史往前推了1000"年。
現存于世的甲骨文物大約"16"萬片,主要來自殷墟。殷墟,就是殷商都城的廢墟,位于現在的安陽。
別看我是安陽人,一直在安陽師范學院工作,但我的專業是數學和計算機,對歷史本來是完全不感興趣的。我們有一個副校長叫屈凌波,和殷墟考古隊隊長唐際根是北京大學的同學,他一到周末就拉著我去考古隊。這讓我對商朝的文化,對青銅器、玉器漸漸熟悉起來。
有一年冬天,非常冷,我帶著同事去考古隊時,他們正在挖掘洹北商城,遺址上的土很多都是紅顏色的。我問為啥是紅顏色?唐隊長回答:3000"年前這里發生過一場大火,把洹北商城全部燒掉了。我摸了一下這種土,感覺好像能夠穿越時間,太奇妙了。甲骨文權威宋鎮豪老師說,安陽是一潭活水。他一年至少有一半的時間都待在我們實驗室。
甲骨文研究就是穿越"3000"年的對話,是“尋找我們從何而來”的關鍵。現已發現的甲骨文字有"4000"多個,破譯的卻只有"1/3,剩下的都是硬骨頭。2018"年中國文字博物館向社會公布了一批未釋文字,每個字給出10"萬元人民幣的懸賞,但當時只有一個人完全拿到獎金。他譯出了一個“蠢”字。
世界上最難的拼圖游戲
甲骨文是真正的冷門絕學,國內做甲骨文研究的專家不超過"50"人,全世界加起來可能不超過"80"人。我"2000"年從西北工業大學研究生畢業,回到安陽師范學院,當時只有幾個研究甲骨文的老師,彼時甲骨文只有圖片,沒法用電腦輸入,也沒法檢索,他們問我:“你能不能解決這個問題?”我想漢字能進入計算機,甲骨文也是一種符號,也應該能夠進入計算機,就開始研究,花了"3"年時間做出了甲骨文的輸入法。
從甲骨文中,我們能夠理解一些文字的本源。我經常舉“爭”這個字為例,上面是一只手,中間也是一只手,豎鉤是一樣東西,“爭”就是兩只手在爭東西;商戶的“戶”,就是一片窗戶。對我們先人造字的智慧,我感到非常佩服,他們把事物的特征抓得非常好。比如說“狗”的尾巴是向上卷的,“豬”的尾巴是往下的,古人肯定是經過仔細觀察的,我為先人們感到自豪,這就是文化自信。
我最大心愿就是未來能用計算機破譯甲骨文。那時候只有我一個人,力量不夠。我找了一位研究甲骨文的退休老師,把計算機學院的年輕老師們集中到一起,大概有十幾個人,周六在一起上課。這樣,我們就形成一個團隊了,這個團隊按照我的思路做語料庫、字形分析、語法分析,做了好多工具和軟件。
現在,我們的甲骨文信息處理實驗室有"22"個人,學計算機專業的占多數,研究古文字的有兩三個,還有體育博士、法律博士、建筑工程博士、音樂博士、舞蹈博士。殷商是個社會,有戰爭、農業、天文、地理,當然也有音樂舞蹈。舞蹈博士在研究一種祭祀舞蹈,化學博士研究的是文物黏合劑。
2018"年,實驗室引進了計算機博士張展,我讓他用計算機做甲骨文的“綴合”。由于甲骨脆弱易碎,經過鉆孔和燒灼,以及"3000"多年的時間,很多在出土時已經裂成碎片,只有盡可能地將這些碎片拼接在一起,才能了解其中的內容。
綴合是甲骨學里一個重要分支,被稱為“甲骨文的再發掘”,就好像發現了新的甲骨文片一樣。原來都是由專家通過分析甲骨文片的材料、年代、文字等信息來綴合,堪稱“世界上最難的拼圖游戲”。
張展通過計算機圖像技術分析甲骨片的邊緣吻合度進行綴合,2019"年安陽舉行甲骨文發現"120"周年國際學術研討會,他宣讀了使用計算機輔助第一次成功綴合甲骨碎片的論文。截至目前,已經綴合了"50"組甲骨文片,都是人類專家沒有綴合成功的。張展告訴我,其中有一組非常重要,經過專家研究,卜辭的體例很罕見,講的是五月丙戌日出現日偏食,商王占卜之后認為不詳,要舉行祭祀消除災禍。這一則甲骨卜辭為商代天文歷法研究提供了非常寶貴的材料。
安陽師范學院的甲骨文信息處理在國內外都是比較領先的。這兩年隨著國家的重視,也有一些高校進入相關研究領域,但是都是一兩個人,成團隊的只有我們實驗室,涉及甲骨文信息化的項目都會聯系我們。
人工智能加速度
2022年3月,《自然》雜志以封面文章形式報道了DeepMind團隊的最新突破。這個以開發AlphaGo人工智能擊敗人類圍棋冠軍而聞名的研究機構,此次成功研發出名為“伊薩卡”(Ithaca)的深度神經網絡。該人工智能系統在考古學領域展現出驚人能力——通過分析殘存筆跡、銘文位置及歷史背景等要素,成功復原了多件破損古希臘石碑上的缺失文字。這項技術突破不僅為文物修復提供了新工具,更開創了人工智能在歷史文獻研究中的創新應用。
這篇文章對計算機界影響很大,廈門大學的紀榮嶸老師想,能不能用人工智能破譯甲骨文?他找到我們合作,我們又通過紀老師跟騰訊建立了聯系。最終,我們合作的項目叫“人機協同甲骨文破譯”。這種新一代數字技術的發展,讓我們在文化遺產很多問題上找到了新的解法。騰訊有個數字文化實驗室,這幾年圍繞文化遺產數字化做了很多探索,也承擔起了探尋文字源頭這個時代命題。
破譯甲骨文有很多思路,其中之一是漢字演變的思路,尋找甲骨文字和后世金文、戰國文字的相似度,通過這種聯系來破譯。和騰訊合作以后,我們做了“以字搜字”,用計算機把甲骨文字與金文、戰國文字一個一個去匹配,從字形上找到和它接近的文字,看字的整體相似度和部分相似度。
現在甲骨文材料有"16"萬片,但是我們數據庫中的拓片有"23"萬張,其中很多是重復的。原因有很多,有些是重拓,這片甲骨在山東博物館拓了一遍,在國家博物館又拓了一遍。另外,以前做拓片時只重視甲骨字,只拓了有字的地方,沒有字的地方就沒有拓,后來又做了全拓,后期還拍攝了彩色照片,所以一片甲骨可能有多個圖像。還有一種情況是本來完整的甲骨碎了,完整的時候拓過,各個碎片又分別被不同人拓過。
查重是非常重要的工作,是甲骨文數據的科學整理。之前微軟研究院出過一個程序,按照紋理圖像查重,現在我們已經把"153"部甲骨文著錄上搜集的拓片文字全部提取出來,有"143"萬字,之前專家預估只有"80"萬字,短時間里把甲骨文語料庫的庫存提高了將近一倍。用重復的文字檢查重復的甲骨文拓片是一種新思路,目前我們已經查出了一部分重片,我們的目標是要把"23"萬張拓片全部查一遍。

在甲骨文的活化利用上,騰訊作為一家互聯網企業,在這方面有優勢。2024年"4"月"20"日,我們共同推出了“了不起的甲骨文”微信小程序,可以在上面學習甲骨文,還可以根據造字原理創造文字,甚至試著破譯甲骨文,這是甲骨文大眾傳播的一個成果。圍繞“了不起的甲骨文”,我們也做了一些工作,比如甲骨文進入中小學課堂,老師可以使用數字資源進行教學,還能夠以小程序為基礎組織甲骨文挑戰賽。此外,我們還有甲骨文進博物館項目,安陽的“殷墟博物館”中就有高清的甲骨文宣傳片進行互動展示。
破譯甲骨文的珠穆朗瑪峰
2025年到2026年,我們有兩項任務,其一是“全球甲骨數字回歸計劃”。作為甲骨文信息處理實驗室,搜集數據、提高數據質量是我們的職責,要為甲骨文研究提供高質量數據。我們計劃把現存于世界200多個機構的16萬甲骨文片全部做成高清的電子照片,讓它們以數字形式回歸安陽。
“甲骨三維模型”的工作在疫情前就開始了,現在甲骨文著錄里的拓片都是平面圖,我們一直想做甲骨文的三維建模,把國內的掃描儀全部試了一遍,都不行。后來在波蘭一家公司訂做了一臺設備,耗資"97"萬買回來,掃描得確實比較清楚。但是有一個缺點,太慢,掃描一份甲骨要半個小時,將來我們做甲骨文的數字化回歸,數據量很大,肯定不行。
現在我們跟騰訊合作,決定用“光照變換矩陣”的方法給甲骨片拍攝高清圖:環繞甲骨文片"360"度,每"2"度拍一張照片,最后合成一張照片,拍照的速度要比掃描快得多。甲骨文都是刻在骨頭上的,不同角度的光照對刻痕的展示是不一樣的,根據照片我們可以提取刻痕的深度,數倍提高甲骨刻痕的辨識度。
“光照變換矩陣”對微痕、刻痕的展示好一些,但是整體建模也有局限,比如對甲骨文片的邊緣展示還不行。我們在討論一個新的方案,就是“多視圖三維建模技術”,可以集成“光照變換矩陣”和三維建模技術,自動合成數據。要全世界跑,設備也不能太大,我們正在跟騰訊一起開發這項設備。
甲骨文的全球數字化回歸意義有兩點。其一是數字化保護。甲骨是"3000"多年前的文物,非常脆弱,宋鎮豪老師說,在中國社會科學院有一片甲骨,原來有"3"個字,現在去看只剩"2"個字了,如果現在不保護有些材料就會消失。其二是通過高清拍攝,能夠看到原來看不見、看不清的信息,從而推進甲骨學的研究。
我們合作的另外一個目標就是甲骨文破譯,我希望這"3"年里能夠破譯出一個甲骨文字。甲骨文破譯一直是我們實驗室的夢想,這是世界難題,是甲骨文研究界的珠穆朗瑪峰,非常非常難。為什么非要做這件事?就像人為什么非要攀登最高峰,我感覺有點相似。
很多古文字專家不相信計算機可以破譯甲骨文,但我一直想證明人工智能可以做到。日思夜想,半夜有什么想法也會馬上記在手機上。今天凌晨"4點我就醒了,還在琢磨,能不能從數學的角度建立一個大模型呢?
責任編輯:周瑩瑩