李 邦,劉永革
(安陽師范學院 甲骨文信息處理教育部重點實驗室,河南 安陽 455000)
甲骨文是迄今為止中國發現的年代最早的成熟文字系統,也是研究我國文字源流的珍貴資料。識別和解讀甲骨文對于研究早期文字的產生、演變,了解殷商時期的歷史文化以及中華民族的文化傳承都具有重要意義。自1899年甲骨文首次被發現以來,殷墟甲骨文逐漸為人們所熟知,國內外學界也對其表現出濃厚的興趣,在幾代考古學家和歷史學家孜孜不倦的努力之下,甲骨文的解讀和考釋迄今已取得豐碩成果[1-4]。記載和收錄這些研究成果的甲骨文研究文獻極大地推進了甲骨文的研究進程,奠定了甲骨文的研究基礎。隨著甲骨文研究的逐漸深入,為了便于查閱資料,學者們對甲骨文資料進行了整理,出版了《甲骨文合集》[1]《甲骨學文獻集成》[2]《甲骨文詁林》[3]《甲骨文研究資料匯編》[4]等系列叢書。但遺憾的是,整理成冊的書籍資料雖然為甲骨學研究提供了極大的便利,但也存在一定的局限性。大部頭、多冊出版的書籍受限于成本通常售價高昂,其豐富且繁雜的內容也大量增加了資料查閱的時間、人力成本。隨著信息化、數字化技術的發展,通過對甲骨文研究文獻進行數字化處理,打造開放、便捷、共享的甲骨文數字化平臺成為大勢所趨。而甲骨學文獻實現數據化,也意味著可以進一步利用大數據技術對文獻進行分析,并為甲骨學研究提供更深入的智能化服務[5](p74-77)。本文將對甲骨文大數據平臺--《殷契文淵》開發所需的關鍵技術文獻數字化進行詳細介紹,并進一步展望數字化技術在實現甲骨學研究智能化過程中的前景運用,為甲骨學研究者了解當下甲骨學研究領域中的信息化進程提供幫助。
信息化浪潮下,文獻的數字化發展也成為大勢所趨。借助數字網絡技術,對甲骨文研究手稿、文獻等資料進行數字化處理,可使研究人員不受時間、空間限制,實現對甲骨文研究原著的便捷查閱、比對和校勘。此外,文獻數字化還可以降低在人工翻閱甲骨文研究手稿等原始資料時可能產生的丟失或損壞風險,進一步拓寬和提高原始文獻的利用范圍和利用率[6](p130-137)。因此,文獻數字化在推動甲骨文研究廣度和深度的拓展方面必將發揮重要作用。
從廣義上講,任何將文獻內容從物理空間輸入至計算機存儲單元的行為,都可以稱為文獻數字化。然而,在人工智能、大數據時代背景下,如果所謂的數字化過程僅能起到保護文獻的作用,而不能為其研究對象提供便捷的查閱、對比、校勘等服務,這樣的文獻數字化就顯得有些“名不副實”。甲骨文大數據平臺--《殷契文淵》的開發目標是實現甲骨學研究的便捷性、共享性、交互性、實用性,盡可能地為研究者提供權威便捷的檢索、查詢、對比、校勘等服務,平臺開發過程中對甲骨學文獻的大規模數字化工作也始終貫徹該思想,并創造性地將整個開發過程劃分為三個階段,即“數據化” “數字化”“智能化”。
首先,《殷契文淵》的“數據化”階段旨在將物理空間的書籍、文獻、原始手稿等紙媒文檔通過拍照掃描等方式轉化為計算機可以存儲的數據。一般而言,文獻資料的數據化結果將按照頁碼順序對圖片進行排列并以pdf文件格式存儲。目前,《殷契文淵》中所收錄的文獻均以pdf格式分門別類地存儲,已實現資源共享,研究者可通過訪問網站直接免費下載(需要聲明的是,《殷契文淵》大數據平臺上的文獻資料不完全是由實驗室搜集整理的,其中有很大一部分來自于廣大甲骨學研究者的無私奉獻)。“數據化”的過程作為甲骨學文獻整理的第一階段,其目的在于為后續的智能化開發提供盡可能多的數據支撐。但是,僅對文獻資料進行數據化處理存在著明顯的弊端:在交互性方面,圖片格式的文檔資料過于“死板”,利用計算機翻閱pdf文獻與翻閱紙質文檔并沒有太大區別,也不能實現文檔內容的復制、粘貼以及檢索,單純的文獻數據化對閱讀者來說依然不夠“便捷”。只有能夠通過檢索快速提取到所需信息,才能真正體現出數字化工作的意義。因此,平臺建設的第二階段就是在實現文獻數據化的基礎上,進一步開發文獻的內容檢索、對比等功能,這個階段稱為平臺的“數字化”階段。
相較于文獻“數據化”,“數字化”可以將不便于計算機處理的“數據”轉化為便于計算機處理的形式,具體表現為:將圖片格式的文檔轉化為可以檢索的文字文檔,并在此基礎上對文獻內容進行“碎片化”處理。例如,將著錄文獻內容按照拓片、摹本、出處、著拓號等內容分類并在平臺上進行系統地存儲;將拓片圖像以及甲骨文釋集上的甲骨字與對應的釋文進行識別、定位并在平臺上進行展示等。簡單來說,“數字化”工作是將甲骨學文獻的“數據”進行系統地整理,使研究者能夠更加快速、精準地查找到自己所需的內容。平臺“數字化”的發展,無疑將極大地減輕研究者檢索文獻資料的負擔,推動甲骨文研究廣度與深度的拓展。需要特別指出的是,隨著近年來數據挖掘與機器學習技術的發展,在平臺“數據化”建設的過程中,針對甲骨學文獻的“數字化”研究也正向著“智能化”發展。在完善相關技術之后,殷契文淵平臺也將推出相應的“智能化”服務,如甲骨字識別服務(筆跡分類)、以圖查甲骨片服務、手寫甲骨字識別服務等等。
文獻數字化技術正是依托于平臺的“數字化”建設階段,在利用計算機技術大幅提高“數據化”工作效率的同時,開發一系列智能應用工具,為廣大甲骨學研究者與愛好者提供智能化、便捷化、精準化服務的一項技術。
甲骨學文獻數字化工作主要利用了光學字符識別技術(OCR)[7]。該技術涵蓋了所有圖像文字檢測和識別的相關技術。本文選取了其中與文獻文本圖片識別相關的兩個重要技術進行介紹,即文檔分析技術與字符識別技術[8]。文檔分析又稱為文檔布局分析,是指識別和分類文本文檔的掃描圖像中的特征區域。字符識別,則是在文檔分析的基礎上,將其中的文本區域的內容轉化為計算機通用的字符編碼。由于實現準確、高效、智能的文檔分析與字符識別是文獻數字化技術發展的基礎和關鍵,因此,對文檔分析和字符識別技術的研究與應用也成為《殷契文淵》甲骨文大數據平臺當前建設的重點。
文檔分析技術作為文獻數字化的第一步,是對文獻整體結構的初步分析。根據分析需求的不同,文檔布局分析可劃分為兩個層次,即幾何文本分析與邏輯文本分析[9](p139)。
幾何文本分析是指對文檔圖片中文本正文、插圖、數學符號和嵌入文檔中的表格等不同區域進行檢測和標記,找出文本中字符所在的位置,并在分割出的文本區域中,進一步進行字符切分的一種技術,這也為后續的字符識別奠定了基礎。
從圖像處理的角度看,幾何文本分析主要是利用圖片的幾何結構特征進行圖片分割。對大部分甲骨學文獻而言,由于文獻本身一般是出版物,其內容是經過統一整理編輯后再進行印刷的,因此排版布局具有一定的規范性,比較適合運用經典的版面分析方法進行版面分析。常見的經典版面分析算法包括:投影法[10](p139-141)、遞歸X-Y剪切法[11](p10-22)、行程拖尾算法(RLSA)[12]( p1658-1669)等。這些算法的共同點在于可以通過分析文檔圖片中黑色像素的位置,將間隔比較近的黑色像素劃分為同一個文本塊。在文本塊正確分割的基礎上,進行后續的幾何版面分析,將文本分割為文本行或文本列,最終實現對單個字符的分割。就中文文獻而言,漢字單個字符的分割通常需要與識別結果相結合,判斷單個字符的分割是否正確,主要是看分割出的字符能否被識別。但是,在單個漢字字符的分割中,經常出現漢字粘連、重疊以及漢字部首的錯誤分割等問題,導致分割出的漢字字符不能被正確識別,例如,在字符分割中,經常會出現偏旁部首“搭錯車”的錯誤識別案例,不得不再次進行人工校勘,增加了研究者的時間、人力成本。
從數據整理的角度看,幾何文檔分割是后續字符識別的前提和必要條件。但受限于當下的技術發展程度,對于結構化文檔,僅通過幾何分析結果完成的字符識別仍需進行大量的后續數據整理工作。以甲骨學研究中必不可少的著錄類文獻為例,此類文獻的整理通常需要在圖片分割與字符識別的基礎上,將甲骨片的編號、出處、著拓號、甲骨字原文、漢字釋文等相關信息也錄入到系統中。而這些信息在文獻中往往具有較強的邏輯關系,如編號通常出現在拓片附近、著拓號在文檔中一般有固定結構等。因此,要實現對甲骨學文獻中著錄類文獻的文檔分析,需要在幾何文本分析的基礎上,進一步運用邏輯文本分析技術進行分析。
邏輯文本分析可理解為是對幾何文檔分析結果的深度挖掘,它將進一步對文本區域在文檔中扮演的不同邏輯角色(如標題、腳注等)進行分析[13]( p1658-1669)。簡單而言,邏輯文本分析技術是指在幾何分析的基礎上對文本塊內容之間的邏輯結構進行劃分。這種邏輯劃分可以更高效且準確地識別結構化文本,其在日常生活中已有廣泛運用,如對身份證、銀行票據、病例、各種登記表格以及高度結構化的書籍等的識別就屬于邏輯文本分析技術[14]。
邏輯文本分析技術的優勢在高度架構化文本的識別整理中更為明顯。相較于幾何文本分析,即便是使用最簡單的邏輯文檔分析技術提取高度架構化文本中的圖片,也將大幅提升文獻的整理效率。以《簠室殷契征文》一書為例,全書共計收錄拓片圖1125張,書中內容頁只包含拓片圖像與對應漢字編號的共有228頁。如果通過手工截圖的方式對這本著錄進行整理,約需花費20個小時的工作時間。然而,通過分析文獻頁面的圖片特征對圖片進行提取,整個截圖過程僅需花費不到一分鐘的時間。而且在全部截圖中,累計錯誤截圖僅17張,所需的人工勘誤與整理時間合計不超過半個小時。在這個案例中,使用邏輯文檔分析技術可以將甲骨文著錄整理的工作效率提高將近40倍。
目前,邏輯文本分析的實現方式主要有兩種。常見的一種是首先在幾何文本分析的基礎上進行字符識別,然后利用自然語言處理技術(NLP)對字符識別結果進行處理,以理解文本內容并推理文檔內容之間的邏輯關系[15](p5-9)。另一種則是直接從圖片中獲取視覺信息并進行語義分析的邏輯文檔分析方式[16]。在流程上,該方式在實現步奏上與上一種方式有著本質區別。以著錄整理為例,第一種方式需要計算機首先將所有圖片上的內容識別出來,在利用NLP技術進行語義理解后將識別出來的內容歸類并放入目標excel表格。然而,不管是圖片內容識別還是語義理解的過程都存在一定的錯誤率,因此最終生成的excel表格一般還需進行人工糾錯。而第二種方式的實現步奏是,先不對文本圖片的具體內容進行識別,而是通過位置判定進行分析,即通過判斷圖片上哪些字距離文中圖片比較近,哪些字在圖表中的第一行等諸如此類的位置信息,提前明確需要識別的內容在目標excel表中的位置,并在識別完成后錄入目標excel表。相較于第一種方式,這種利用計算機視覺技術進行語義分析的方法可以最大程度地規避邏輯分析錯誤。
對比邏輯文本分析的兩種實現方式,對《殷契文淵》平臺的著錄類文獻的整理工作而言,第二種實現方式具有更高的準確率,可以更好地減少人力的機械重復工作。但是,第二種實現方式需要提供大量的結構化文檔數據以供計算機進行訓練。為了早日實現對甲骨學文獻的邏輯文本分析,進一步提高文獻的整理效率,《殷契文淵》甲骨文大數據平臺正著手創建用于甲骨學文獻文檔分析的訓練數據集,以支撐甲骨學文獻研究中邏輯分析技術的創新和發展。相信假以時日,文獻的整理工作將由人工整理進化為人工智能整理,屆時專家學者可以將自己搜集到的文獻資料直接上傳至大數據平臺,平臺在完成自動化的資料分析整理后錄入數據庫,并自動實現與其他數據的關聯對比,以此為專家學者研究甲骨學提供更多更好的智能化、便捷化服務。
在順利實現甲骨學文獻數字化的文檔分析之后,能否高效、準確地實現甲骨學文獻內容的字符識別,直接關系到文獻數字化的成功與否。因此,字符識別技術也是當下《殷契文淵》甲骨文大數據平臺的研究重點。前文提到,字符識別技術的主要目的在于將字符的圖片轉化為字符編碼以便計算機直接查詢,這項技術在日常生活中也早有應用,使用計算機進行字符輸入就是通過輸入法查找字符編碼完成的。對于《殷契文淵》而言,字符識別是平臺“數據化”工作的必由之路,只有將文獻中的每一個字都轉化為計算機可識別的字符,并將識別結果全部錄入到平臺中,才能實現文獻內容的“網絡化”,進而達到只需輸入一個甲骨字/漢字/作者/拓片圖等便可檢索到所有與輸入內容相關的文獻/甲骨片信息的目標。
就目前的技術發展而言,字符識別主要是通過深度學習技術完成的。深度學習技術,就是計算機使用訓練集中的字符數據來訓練計算,通過不斷“學習”獲得正確識別字符的能力。為了實現對每一個字符的正確識別,訓練集必須囊括所有需要被識別的圖片和字符,而且每個字都需要上千張圖片組作為訓練數據,每張圖片也需要標記識別結果以供計算機學習。可以看出,要獲得高正確率的識別結果,需要在大量具有正確結果標記的數據的基礎上不斷進行深度學習算法開發。
而根據字符數據集開發進度的不同,字符識別技術可以進一步細分為印刷漢字識別,手寫漢字識別,拓片甲骨字識別,手寫甲骨字識別等。
訓練集圖片獲取難度最低的當屬印刷體漢字,因為常見漢字均可以從網絡上獲取圖片,甚至可以直接利用標準宋體字庫作為訓練數據。當下,在印刷體漢字的文獻識別方面已經具備比較成熟的識別技術,僅漢字識別這一環節,識別準確率已可達到99%以上。市面上現已開發出一大批高質量、高準確率的ocr軟件,這些軟件在簡/繁體中文的印刷體以及清末石印的古籍漢字等字符的識別中表現良好。在此基礎上,《殷契文淵》甲骨文大數據平臺也已經開始利用ocr進行甲骨學文獻數字化的記錄工作,實現了部分漢字印刷文獻的全文檢索。對于已完成數據化的文獻,在平臺上輸入文獻中的任何內容即可檢索到相關文獻,基本實現了甲骨學文獻檢索的便捷化、高效化。
相較于印刷體漢字,手寫漢字數據集的獲取存在一定的困難,因為手寫漢字很難直接從網絡圖片中獲取,其收集工作進展相對緩慢。同時,由于每個人的書寫風格有所不同,同一個手寫字的圖像特征也存在很大差別,客觀上增大了手寫漢字的識別難度。近年來,手寫漢字識別一直是國內漢字識別領域的研究熱點,專家學者也陸續整理出一系列適合手寫漢字識別的中文手寫數據集,例如,北京郵電大學整理的HCL2000數據集[17],華南理工大學整理的SCUT-COUCH2009系列數據集[18](p53-64),以及中國科學院自動化研究所整理的CASIA-HWDB1.0-1.2系列數據集[19] (p155-162)等。在這些手寫數據集中,SCUT-COUCH2009系列數據集中共涉及6763個簡體漢字以及5401個繁體漢字,CASIA-HWDB1.0-1.2系列數據集則囊括了7185個簡體漢字。通過對數據集中上百萬張圖片的訓練,單個手寫漢字的識別準確度已經可以達到98%以上。但將文檔分析與漢字識別相結合,整個文檔的漢字識別正確率卻只有80%左右[20](p370-382)。
盡管對手寫漢字進行識別的技術已經漸趨成熟,但這類手寫漢字的識別技術卻不能直接應用于手寫甲骨學文獻中的漢字字符識別。這主要是由以下兩方面原因造成的:一方面,作為文字研究類文獻,文獻中經常出現上述數據集中沒有收錄到的生僻漢字,這些生僻字在手寫漢字數據集中沒有出現過,因此無法進行正確識別;另一方面,甲骨學文獻常用繁體字書寫,且文中經常出現不屬于現代漢字的古文字、隸定字等,即使這些字體不是手寫字,但無論在數據上還是技術上對這些字體的相關研究均不夠充分,因此,手寫甲骨學文獻中的漢字字符的識別仍有很長的路要走。
除漢字字符外,甲骨學文獻中還收錄了大量的甲骨字字符,根據文獻中甲骨字所在的位置,可將其分為拓片甲骨字與手寫甲骨字。安陽師范學院甲骨文信息處理教育部重點實驗室以甲骨文識別為核心開展了一系列的研究開發工作,其中,拓片甲骨字的識別便是實驗室的研究重心之一。拓片甲骨字是在整理著錄中拓片圖的基礎上,對拓片上的每一個甲骨字進行分割整理,并將分割出來的甲骨字圖片作為訓練數據供計算機進行深度學習。根據目前的整理結果,數據集已整理出4927個甲骨字、474379張甲骨字圖片。但在整理過程中,由于許多甲骨字的出現次數過少,導致訓練數據出現了樣本不均衡現象,拓片甲骨字的整體識別準確率尚未達到讓人滿意的水平。為規避樣本不均衡問題,我們只對出現次數較多的306個甲骨字(共計309551張圖片)進行了識別訓練,目前達到的最高單字準確率為82.28%[21]。
拓片甲骨字的識別是未來甲骨文大數據平臺提供智能化服務的重要一環。目前,平臺已經初步實現了查詢包含特定甲骨字的所有甲骨片的功能。隨著拓片甲骨字識別技術的完善,該功能將兼容輸入拓片圖進行查詢的功能,平臺會自動對甲骨拓片上的甲骨字進行識別并利用識別結果進行檢索,用戶可以通過點擊自己上傳的拓片圖上的特定甲骨字進行直接檢索。
除拓片甲骨字外,甲骨學文獻中常見的甲骨字通常為手寫甲骨字,這是由于當前甲骨字還沒有統一的字符編碼,在甲骨學文獻的編輯過程中,難以利用輸入法直接輸入甲骨字并進行排版,因此大部分甲骨學文獻中的甲骨字通常為手寫甲骨字或甲骨字摹本的截圖。要從根本上解決手寫甲骨字的識別難題,需要整理并建立甲骨字字符編碼,以確保甲骨學文獻中的甲骨字書寫方式統一。目前,實驗室已經開始著手甲骨字的整理,整理結果將以甲骨文字庫的方式上傳到甲骨文大數據平臺。在此基礎上,平臺還開發了與字庫相匹配的甲骨字輸入法以期實現甲骨字的直接輸入與智能檢索。
對手寫甲骨字的識別而言,在已經出版的甲骨學文獻中,不論是手寫甲骨字還是摹本甲骨字,甲骨文都不是書寫者的母語,其書寫方式本質上都是通過臨摹方式完成的,手寫甲骨字的識別與其說是字符識別,不如說是圖畫(簡筆畫)識別。因此手寫甲骨字的識別更適合借鑒基于深度學習的圖像識別技術。而深度學習技術同樣需要建立手寫甲骨字的數據集,為此,實驗室還利用甲骨文字庫專門開發了手寫甲骨字搜集工具,截至目前,已搜集手寫甲骨字圖片83245張。利用目前收集的手寫甲骨字數據,手寫甲骨字識別準確度達到97.8%,相關識別成果已經應用于平臺上的手寫甲骨字輸入法的開發中。隨著手寫甲骨字識別技術的逐漸成熟,平臺未來也會推出基于甲骨字識別的智能化服務,用戶可以隨時隨地將手機拍到的甲骨字上傳至平臺進行識別并查詢相應的信息。此外,對手寫甲骨字識別的研究也將在計算機輔助的基礎上實現對甲骨字的筆記識別,對于甲骨字的分期研究起到一定的幫助。
本文圍繞《殷契文淵》甲骨文大數據平臺“數據化”“數字化”“智能化”三個發展階段,重點介紹并展望了文獻數字化技術在甲骨學文獻中的應用與前景。在《殷契文淵》甲骨文大數據平臺的建設過程中,文獻數字化技術為計算機提供了可供檢索、關聯與分析的數字化素材,為實現甲骨學研究的便捷化、智能化奠定了基礎。盡管利用人工錄入也可以完成文獻數字化工作,但以機器學習為代表的人工智能技術輔助文獻整理工作,使得甲骨學文獻整理的工作效率得到了大幅提升,利用人工智能技術進行甲骨學文獻整理也成為未來的發展趨勢。此外,文獻數字化技術也可以為甲骨學研究者與甲骨文愛好者提供一系列智能化服務,如圖片手寫甲骨字識別、拓片字符關聯信息檢索等,不斷拓展甲骨學研究的廣度與深度。目前,《殷契文淵》開發團隊正積極開展甲骨學文獻整理相關應用軟件的研發工作,并針對深度學習所需要的大量數據進行了搜集與整理,組成了部分數據訓練集。相信隨著大量先進技術的應用,《殷契文淵》一定能成為甲骨學研究的綜合性平臺,為甲骨學研究持續取得突破性進展提供有力支撐與保障。