古籍文獻知識組織由靜態檢索向動態表征趨向的實證檢驗*

2022-03-06 03:14:56于蓓莉周文杰

圖書與情報 2022年5期

于蓓莉劉蕾周文杰

（1.成都航空職業技術學院四川成都 610100）

（2.西北師范大學商學院甘肅蘭州 730070）

最近數年來，在政策引導和學術引領的雙重作用下，我國古籍文獻數字化進程顯著加速，卷帙浩繁的優秀典籍借助于OCR、自然語言處理等先進技術，不斷創新存儲與呈現方式［1-3］，有效提升了服務效率［4-6］，為開掘古籍文獻中蘊含的優秀傳統文化成分提供了極大便利。

對于圖檔博等古籍文獻的管理機構來說，適應數字化時代的需求［7］，對實現古籍文獻序化整理由文獻單元的靜態檢索向知識單元的動態表征的轉型發展，具有重要的理論意義和實踐價值。在前序研究中，本研究團隊對傳統分類法在古籍文獻管理中應用的肇始進行了回顧，并深入評析了分類法對于古籍文獻管理的貢獻及局限性，并通過回顧主題法、聚類分析、關聯規則等在文獻管理中的應用歷程，對著眼于內容挖掘的知識單元古籍文獻序化整理的進展進行了深入剖析。在上述工作的基礎上，本團隊將科學哲學家波普爾的“世界3”歸結為古籍文獻知識組織的理論基礎［8］，從而在理論上論證了古籍文獻由靜態檢索走向動態表征的可能性和必然性。

立足于前序研究，已從理論上對古籍文獻序化整理由文獻單元的靜態檢索向知識單元的動態表征的路向進行了充分論證，本文的目標是應用實際的古籍文獻語料，通過使用自然語言處理等方法和工具，對古籍文獻知識組織中的若干實踐問題展開探索，以期支撐前序研究所提出的理論路向，并對后續研究的深入開展奠定基礎。

1 前序研究回顧

古籍文獻知識組織的基本目標，是通過對古籍文獻中知識要素的序化整理，有效揭示古籍文獻的內容結構，從而提升古籍文獻的閱讀效率［9］。在前序研究中，本團隊已針對數字化文獻的內容結構表征問題展開了一系列研究，以期為讀者提供有效的輔助閱讀工具，從而提高讀者的閱讀效率，并促進讀者在閱讀中獲得積極的閱讀體驗。前序研究的結果，為本研究展開古籍文獻知識組織的探索奠定了基礎。

對古籍文獻中加以序化整理的意義，是幫助用戶以有限的分析能力“消化”數量越來越龐大的數字化古籍文獻。顯然，只有以高效率的數字信息分析效率為支撐，用戶面對海量的數字化古籍文獻時才不至于迷失其中［10］。為此，面對古籍文獻展開知識組織的首要難題，是能否提供有效輔助工具，幫助用戶在結構化的古籍文獻中獲得有價值的閱讀線索。基于此，團隊于2011 年以大學生為被試，通過單因素前后測對照組設計，檢驗了詞頻分布輔助工具對于讀者閱讀數字化文獻的幫助作用。前序研究中，本團隊通過使用AntConc 軟件對實驗文本進行詞頻統計及詞分布的可視化，為讀者提供條形碼（見圖1），其中的豎線表示特定詞語在實驗文本中分布情況。

圖1 詞頻分布的條形碼

在對文本進行了詞頻分析且制作了詞頻分布“條形碼”的基礎上，本團隊對照數字信息分析輔助工具有效性實驗（見表1）程序，對有輔助工具幫助讀者閱讀的效果進行了實驗研究。

表1 數字信息分析輔助工具有效性實驗各變量及處理措施一覽［13］

研究結果表明，雖然高頻詞表對被試完成瀏覽型數字信息分析任務的效率無顯著影響，但高頻詞表的可視化呈現對被試完成瀏覽型數字信息分析任務的效率有顯著影響。也就是說，在數字化文本的閱讀中，應用輔助性工具（即本文所述的“條形碼”）可以有效提升讀者的信息分析效率，這與現有相關文獻的發現一致［11-12］。這一研究結果清晰地表明，基于詞頻的可視化呈現，可以有效促進讀者對于數字文獻的閱讀效率。由此也說明，詞頻分析及其可視化是對古籍文獻加以知識組織的重要基礎性指標［13］。

與上述研究相匹配，本團隊還針對數字化信息資源閱讀中，如何通過有效的知識組織方法幫助讀者獲得積極的閱讀體驗展開了研究（具體實驗程序見表2）。

表2 數字信息分析中用戶積極體驗實驗各變量及處理措施一覽［14］

研究結果表明，借助于新型技術展開數字化信息資源的組織，不會造成用戶焦慮水平的顯著變化。當然，有一些問題也需要引起信息資源管理者的注意。如以新技術為特征的知識組織方式初次被用戶所使用時，數字資料的引入次序和不同性質的信息分析任務會造成用戶一定程度的焦慮。也就是說，在將新技術應用于古籍文獻的知識組織時，應注意與用戶原有的閱讀習慣之間做好銜接與過渡，盡量避免使用戶“突然”進入新技術情境，以提高用戶對于數字化古籍資源使用的舒適度［14］。除本團隊所展開的上述研究外，針對古籍文獻的知識組織，圖檔博領域的研究者也從語義描述［3］、實體消歧［15］、古籍知識關聯［16］等方面展開了大量研究。

總之，前序研究已對數字化文獻的分析中應用新的技術工具與方法手段所具有的效果進行了系統檢驗。前序研究所獲得的結果，為本文展開古籍文獻知識組織基礎指標的探析提供了堅實的基礎。

2 研究設計

2.1 語料選擇

由西漢史學家司馬遷撰寫的紀傳體史書《史記》是我國最偉大的典籍之一。《史記》記述了上至上古傳說中的黃帝時代，下至漢武帝太初四年間共3000多年的歷史。該書包括十二本紀（記歷代帝王政績）、三十世家（記諸侯國和漢代諸侯、勛貴興亡）、七十列傳（記重要人物的言行事跡，主要敘人臣，其中最后一篇為自序）、十表（大事年表）、八書（記各種典章制度記禮、樂、音律、歷法、天文、封禪、水利、財用），共130 篇，52 萬余字［17］。《史記》被列為“二十四史”之首，其首創的紀傳體編史方法為后來歷代“正史”所傳承。《史記》還被認為是一部優秀的文學著作，在中國文學史上具有重要地位。

《史記》作為一部經典的古籍文獻，在史學和文學界都享有突出地位和卓越影響。為此，本文以《史記》作為分析語料，就古籍文獻知識組織的若干實踐操作問題展開實證研究，以便為解析古籍文獻知識組織由靜態檢索向動態表征的發展路向提供實證支持。

2.2 分析程序

在前序研究已經對古籍文獻知識組織由文獻單元向知識單元、由靜態檢索向動態表征的路向進行了理論解析。在前序研究已理出的理論脈絡的基礎上，本文旨在通過實證研究，對上述理論脈絡加以實證分析。具體分析程序是：

首先，應用中文古籍領域的分詞工具jiayan（甲言），使用隱馬爾可夫模型（Hidden Markov Model，HMM），對《史記》全文中的130 個篇章進行分詞；

其次，去除分詞結果中的停用詞；

第三，保留分詞結果中的名詞；

第四，對保留下來的詞語按照字數多少進行詞頻統計；

第五，對詞頻最高的部分詞語在整體文本和局部文本中的分布狀況進行可視化分析；

第六，對詞頻最高的部分詞語與其周邊關聯詞語的搭配情況進行匹配分析。

3 研究結果

3.1 古籍文獻知識組織的三個基礎元素

對古籍文獻進行知識組織的基本目標，是幫助減輕閱讀者的認知負擔，使閱讀變得高效、直觀、愉悅。如前所述，基于團隊前序研究成果，研究劃定詞頻、詞頻的分布和詞語的搭配為數字化信息資源知識的三個基礎元素。

詞頻指古籍文獻中的詞語出現的頻數。詞語是古籍文獻知識組織的基本要素。本文使用了研究者專門為古籍文獻分詞而發展的軟件工具jiayan，對《史記》全文進行了分詞，并保存了詞性為名詞的全部詞語，以備進行進一步分析。

前序研究中已證明了詞語分布的可視化（即本文中的“條形碼”）能夠輔助用戶提高數字信息分析效率。為此，研究在對《史記》進行分詞并保留名詞的前提下，對詞的分布以氣泡圖的形式進行了可視化呈現。也就是說，本研究中，詞語分布的可視化結果被作為古籍文獻知識組織的第二個基礎元素。

研究發現脫離實際語境常常是基于計算語言學原理的古籍知識計算與數字人文研究備受質疑的一個重要方面［18］。為此，本文為防止上述兩個古籍文獻知識組織的基礎元素脫離語境，進而以詞語的搭配為古籍文獻知識組織的第三個基礎元素。也就是說，在獲得分詞結果并制作了名詞可視化工具的前提下，進而針對《史記》中每個詞左右兩側所出現的詞語搭配展開了分析，以便為前述兩個知識組織元素提供語境信息。

總之，本文基于團隊研究成果，以詞頻、詞語分布和詞語搭配為古籍文獻知識組織的三個基礎性元素。由此得出，古籍文獻的知識組織應以上述三個要素為基準，通過應用科學的數據分析技術和知識序化方法展開研究。

3.2 文獻全局特征分析

如前所述，研究以《史記》為語料對象，通過詞頻、詞語分布的可視化和詞語搭配，為古籍文獻知識組織提供基礎。以下分別展示了這三個知識組織元素的初步分析結果。

（1）詞頻。本文應用jiayan 庫，首先對《史記》全文進行了分詞。在去除停用詞及非名詞詞語后，最終在單字、兩字、三字和四字上得到高頻詞表（見表3）。

表3 《史詞》全文中的高頻單字

由表3 可見，《史記》中“王”一詞出現頻數高達2740 次，其他出現頻次較高的還包括“君”“臣”等特定稱謂。另外，國家名稱（如“趙”“周”“魏”）出現頻次也較高。單字雖然從一定程度上能夠反映古籍文獻的內容結果，但語義單位常常不夠完善。為此，本文進一步提取二字高頻詞展開分析（見表4）。

由表4 可見，除“諸侯”“大夫”“陛下”等特定稱謂出現頻次高之外，“孔子”“高祖”“趙王”“項羽”等特定人物出現頻次也很高。這些知識組織的線索，無疑能夠為讀者展開高效率閱讀提供參考。依據同樣的邏輯，進而提取三字和四字的高頻詞（見表5、表6）。相比較而言，這些詞語語義單位更加完整，提供的語境信息更加充分，為讀者提供的語義線索也更加完善。

表4 《史記》全文中的二字高頻詞

表5 《史記》全文中的三字和四字高頻詞

（2）詞的分布。前文已經完整地介紹了本團隊針對數字信息分析的輔助工具，就知識組織基礎元素展開的相關研究。基于前序研究的基礎，本文在《史記》全文詞頻統計的基礎上，對各種類型詞語在《史記》全文中的分布狀況進行了可視化分析。

以“趙”這個單字詞為例，分析其在《史記》全文中的分布狀況（見圖2）。由圖可知，在第40 號文獻的位置，“趙”字出現次數高達174 次，因此其節點最大。由于《史記》中，“趙”主要是指代“趙國”，因此，觀察圖2 可以快速發現，趙國在文獻不同位置出現次數差異很大。此線索顯然對于讀者理解《史記》全貌，有針對性地發現有價值的文獻線索意義重大。

圖2 “趙”在《史記》全文中的分布狀況

考慮到單字在表征語義方面可能存在不完整的情況，研究進而對二字詞、三字詞和四字詞在《史記》全文中的分布進行了可視化分析（見圖3）。該分析選擇以“匈奴”為二字詞的代表，以“平原君”為三字詞的代表，以“伯夷叔齊”為四字詞的代表，分別展開了《史記》全文中上述三詞的分布狀況考察。

由圖3 可見，研究所選擇這些典型詞語在《史記》全文中的分布具有鮮明的特色。如二字詞“匈奴”在50-51 號文獻中出現達99、94 次，但在其他部分出現的次數則相對較低。由此可見，《史記》關于“匈奴”的記載多見于上述兩個篇章。同理，從三字詞“平原君”的分布可以看出，這一詞語高頻出現于37-46號文獻之中。據此可以推斷，平原君是一位僅出現于特定階段的歷史人物，與平原君相關的史料記載集中在《史記》中后篇章的情況相符。四字詞“伯夷叔齊”一共再現10 次，但其中7 次集中在第31 號文獻。為此，讀者可按圖索驥，快速獲得關于“伯夷叔齊”在《史記》中的知識元素。

圖3 《史記》中代表性的二字詞、三字詞、四字詞分布狀況

（3）詞的搭配。在詞頻分析基礎上，上文展示了高頻詞的分布。為了豐富讀者關于語境的信息，本文進而對高頻詞與左右相鄰詞語的搭配進行了進一步分析（見表6）。其中，“王”一詞在《史記》全文中搭配比較多的有淮南王、秦昭王，“君”搭配比較多的有平原君、孟嘗君等。在實際的古籍文獻知識組織中，可以用更加靈活便捷的形式，在更大范圍對詞語搭配展開分析，以便為古籍文獻的閱讀者提供更加豐富、全面的語境信息。

表6 高頻詞的搭配例析

3.3 文本的典型局部特征分析

上文針對古籍文獻知識組織的三個基本元素，從《史記》全文的角度進行了解析。在知識組織的實踐中，信息資源的整理序化不僅需要從整體展開全貌的展示，更需要深入到文獻的局部細節，就一些重點關注的知識元素展開表征［19］。為此，本文在前述分析的基礎上，進一步在特定局部文獻的基礎上展開了知識組織三元素的分析。

通過全局詞頻的分析和高頻詞分布狀況的分析，發現“孔子”一詞大量集中在第四十七卷。基于此，針對《卷四十七·孔子世家第十七》，進一步進行詞頻統計，發現“孔子”一詞在本卷出現181 次，得出其分布狀況（見圖4）。

由圖4 可見，“孔子”一詞在本卷中分布較不均衡。這些信息，對于讀者快速理解文本，把握文獻主旨具有啟示意義。與此相對應，對“項羽”一詞進行了同樣的分析，發現該詞主要出現在《卷八·高祖本紀第八》中。進一步統計詞頻發現（見圖5），“項羽”一詞在某些段落比較密集，而另一些段落則非常稀疏。

圖4 “孔子”一詞在第四十七卷中的分布

圖5 “項羽”一詞在第八卷中的分布

在上述分析的基礎上，對“匈奴”一詞在《卷一百一十·匈奴列傳第五十》中進行了高頻搭配分析（見表7）。可見，“單于”“右賢王”“降”等詞都與“匈奴”一詞出現了較高頻次的搭配，這提示閱讀者，可以按此線索展開文獻分析。

表7 “匈奴”一詞在第一百十卷中的搭配

總之，詞頻統計、高頻詞的可視化及詞語在特定篇章中的搭配，為讀者減輕閱讀古籍文獻時的認知負擔，提高數字化文獻信息資源的閱讀與分析效率提供了工具，這與文獻資源的知識組織與序化整理的根本目標相互契合。從這個意義上說，上述三個基礎元素對于實現古籍文獻知識組織目標意義重大。

4 結論與后續研究

在本團隊的前序研究中，已針對數字化資源序化整理的若干基礎性要素進行了實證檢驗。前序研究表明，基于詞頻分析結果，對特定詞語加以可視化，可以有效幫助用戶在提高信息分析的效率的同時，降低用戶在使用新技術時的不適應感。基于前序研究，本文以《史記》為語料對象，借助于自然語言處理工具，對詞頻、高頻詞可視化呈現和詞語搭配進行了分析，從而為古籍文獻知識組織提供了可資借鑒的參照。

詞頻、高頻詞的可視化及詞語的搭配作為知識組織的三個基礎性元素，在古籍知識資源的序化整理中具有重要作用。這啟示我們，在古籍文獻知識組織的過程中，要切實將知識內容的分析、表征與自然語言處理等工具、方法的使用結合起來。通過對數字化古籍文獻各種特征的深入計算、分析、建模，研究者完全可能實現古籍文獻知識組織的結構與用戶的認識結構的契合，從而消除文獻資源“藏”與“用”之間的鴻溝［20］，使古籍文獻中蘊含的豐富優秀傳統文化養分惠及更多的讀者。