林偉杰 楊 陽 文玉鋒 周文杰
(1.北京交通大學經濟管理學院 北京 100081)
(2.西北師范大學商學院 甘肅蘭州 730070)
古籍文獻中蘊含著豐富的知識元素。 對凝含于史料典籍和文學作品中的文化或知識要素加以挖掘和展示,對于彰顯民族精神,提高文化自信具有非常重要的意義。 知識計算通過應用人工智能等先進數據信息處理手段,基于對數據化知識載體的大規模計算,對各種形態的知識元素進行抽取、表達,并產生精準的模型以賦能機器和人,使其具備從海量知識載體中汲取知識要素的能力。在數智化的社會,知識計算是實現高效文化傳播和有效知識傳承的重要輔助手段。
卷帙浩繁的古籍文獻,承載著中華民族源遠流長的優秀傳統文化。黨的二十大號召,要將馬克思主義基本原理同中國具體實際、中華民族優秀傳統文化結合起來,以回答時代和實踐之問[1]。 習近平總書記也指出,堅定中國特色社會主義道路自信、理論自信、制度自信,說到底是要堅持文化自信[2]。 當前,在實現中華民族偉大復興的重要歷史關口,應用知識計算等先進信息技術手段,挖掘中華典藏文獻中的寶貴思想財富,是滋養民族精神、提高文化自信的重要途徑。 為此,本文旨在立足于古籍文獻內容的表征與挖掘,以《史記·本紀》部分為例,對古籍知識組織中知識計算的理論特性和基礎指標展開深入的探析。 具體而言,本文研究的主要問題是:古籍文獻知識計算有何理論根基?針對古籍文獻展開知識計算時,應當包括哪些基礎指標?
知識計算是一種在機器學習、人工智能、知識圖譜等新型信息技術支撐下,一站式完成知識獲取、知識建模、知識管理、知識應用的智能化信息處理與服務方式。知識計算的初衷,是借助于先進的計算機建模技術,對隱含于記錄載體中的知識元素進行抽取、表達、計算,以便把各種形態的知識元素訓練為精準的模型。 知識計算的最終目標是自動化解析文本內涵并將其模型化、可視化和外顯化,以便使之更加符合人們的認知結構,從而有效支撐多領域、多場景的知識應用。
不同領域的知識計算常常具有不同的功能目標,因此在具體計算方法與程序步驟方面有所差異。雖然如此,通過抽象知識計算的通行邏輯,仍然可以大致概括出知識計算的四個基本環節:
(1)知識獲取。 主要指獲取知識計算的基本素材,并進行初步的挖掘、分析與結構化處理。知識計算的素材類型多樣,形態豐富。 如學術論文、政策文本、行業技術文獻、專家經驗、測試報告等都是知識計算的潛在對象。對于知識計算而言,知識獲取顯示了由數據向知識轉化的關鍵步驟,是數據、信息、知識、智慧轉化鏈條上的基礎性環節。由于知識的原始載體常常多源異質,因此,在知識獲取的階段,最關鍵的研究問題是使用合理、快捷的知識識別和知識抽取技術,對多源異構的數據進行結構化處理。在傳統的知識獲取技術中,研究者大量依賴于人工標注,從而使得知識獲取的效率常常受到制約。為此,最新的知識計算技術都致力于發展自動化、細粒度知識元素的抽取工具與模型,從而使基于大數據的超大規模知識獲取成為可能。
(2)知識建模。在完成知識元素的抽取與結構化之后,根據既定的算法與模型展開計算,是知識計算的第二個步驟。 具體而言,在完成知識抽取后,根據具體的知識應用情境和實際業務流程,自動化構建知識圖譜,以備知識的使用者更直觀、更高效率地使用知識要素。近年來,自動化知識圖譜的構建技術已獲得了日新月異的高速發展,目前,流水線式自動化構建知識圖譜的技術已廣泛應用于智能制造等相關領域,大規模圖譜構建的時間也由過去的數星期縮短到數分鐘。更重要的是,現有的知識計算技術已經能夠支持知識圖譜的自動更新,從而使用戶從更加動態的視角獲取知識服務與支持。
(3)知識管理。當完成前序兩個環節后,多元異質乃至雜亂無章的知識元素不僅得以從其原始載體中提取了出來,而且基于圖譜技術實現了結構化、可視化和有序化。經過建模處理,知識元素得以以最符合人類認知的模式展現出來,從而使知識的存儲、檢索、使用能力獲得了質的飛躍。 也就是說,基于知識計算的上述兩個環節,人們具備了對超大規模知識總體在宏觀上加以把握、分析和操控的能力。由于實現了對知識總體的駕馭,因此,管理行為更加有效,管理效率也得到幾何級數的提升。
(4)知識應用。知識計算的最終目標是將知識要素應用于不同的場景,以解決實際問題。 具體而言,在前序知識計算各環節的基礎上,通過提供知識搜索、可視化分析、知識推薦等基礎能力,以及智能對話、預測分析、知識推理等高級能力,匹配用戶的多樣化知識應用需求,幫助用戶有效解決實際問題,從而實現知識的“致用”價值。
在信息資源管理領域,知識計算及相關方法已廣泛應用到了語義組織與語義服務[3]、知識組織系統的 構 建[4]、基 于 知 識 元 概 念 的 主 題 知 識 組 織[5]等 方面。隨著知識計算理論的發展,技術的儲備及研究的進一步深化,未來,人工智能、機器學習等方法將在信息資源領域具有越來越廣闊的應用前景。
知識計算技術突飛猛進的發展,為古籍知識組織提升了全新的解決方案,也為深入挖掘古籍文獻中的知識元素,彰顯古籍文獻的當代價值提供了關鍵契機。 如“文史互證”是中國傳統知識分子長期秉持和不懈追求的治學傳統。然而,由于汗牛充棟的古籍文獻遠遠超出了個體有限的認知能力,應用傳統的文獻閱讀方法,要實現“文史互證”對于個體的研究者來說殊為艱難。為此,古籍文獻的整理序化工作者一直孜孜以求,優化文獻信息與內容要素的揭示,以期實現自動化、外顯化、動態化的證據線索匹配,以達到“文史互證”的目標。由此可見,古籍文獻的知識組織為知識計算提升了關鍵的應用場景。
在古籍文獻的知識組織過程中,知識計算至少可以解決如下問題:首先,基于知識計算,古籍文獻的閱讀者可借助于輔助推理與決策技術,實現數據、知識、經驗以及資料進行多模態建模,從而實現對相關知識元素進行可視化呈現等目標。更重要的是,古籍文獻的閱讀者可以對源自不同古籍或同一古籍不同位置的事件線索加以歸并處理,從而獲得整體性認識,并通過“互證”達到考據的效果;其次,知識計算幫助古籍文獻的閱讀者將碎片化知識整合為整體性的知識模塊,從而獲得關于知識領域全貌的認識。 這種跨越時期、跨越國家、跨越文化空間的知識整合,使研究者效率大為提升, 獲得的知識質量也與傳統方法完全不可同日而語;第三,知識計算有助于克服研究者個體認知結構的局限而帶來的偏差。 由于古籍文獻數量巨大,如果通過逐個閱讀、消化的方式來汲取其中的知識養分,難免使研究者陷入“身在廬山而不識其真面目”的尷尬。某些情況下,甚至出現“一葉障目,不見森林”的情形。 知識計算使閱讀者有機會跳出個體認知局限的窠臼,置身更高的認知層次,消除個體認知偏差,獲得更接近于真實的認識。
通過詞頻分析可以看到文本背后的關鍵信息。作者依據邏輯將自身想法表達在文本中,文本由多個句子構成,句子又由多個字詞組合而成,所以詞作為意思表達的最小單元,承載著信息,通過對文本中的詞進行統計分析可以了解關鍵信息。
針對英文文本中的詞頻分布,1948 年,哈佛大學語言學教授齊普夫(George K. Zipf )提出,文本中詞頻、詞序之間存在著如式(1)所示的關系,即為齊普夫定律。
由式(1)可知,C 值由詞序、頻數和總詞序三部分組成。 總詞序為分詞結果的總詞數,正常情況下長文本的總詞數會大于短文本的總詞數,所以總詞序大致可以代表文本的長度。 頻數表示對應詞序下的詞數,如當詞序為1 時,詞的頻數最大,因為詞序是根據詞頻數從大到小排序后依次賦值,即頻數最高詞的詞序為1,頻數次之詞的詞序為2,以此類推。如果文本討論的主題高度集中,在控制文本長度的情況下,詞序所對應的頻數越高,即文本的主題詞或關鍵詞被反復提及。
古籍文獻知識組織的目標,是通過結構化、可視化等方法,對文獻內容要素加以揭示和表征,以便最大程度提高讀者對古籍文獻的理解效率, 降低閱讀古籍文獻的認知負擔。 由于詞語是古籍文獻的基本成份,因此,對古籍文獻加以知識組織,就需要從詞頻的分析開始。 鑒于齊普夫定律在自然語言處理和文本內容分析中所具備的重要影響,對于古籍文獻展開知識組織的一項基礎性工作就是,應用齊普夫定律對古籍文獻的詞頻分析特征與規律加以解析,以備進一步展開古籍文獻內容的解析、結構化與可視化。
掌握重點內容能夠幫助使用者快速了解古籍文獻知識的核心,使用計量學來表述是較為客觀且廣泛的方法[6]。 目前的識別方法復雜且多樣,現有研究主要采用共詞分析[7]、知識圖譜[8]、構建標準[9]等方法,但是這些方法在客觀性或識別效度或理論上存在不同程度的缺陷, 且多以學術文獻作為研究樣本。 因此,本文基于齊普夫定律,引入計量經濟學中的回歸分析法,尋找高低詞頻轉折點,嘗試挖掘古籍文獻中的重點內容。
(1)研究設計。本文使用python 軟件作為數據初始處理工具,進行分詞與詞頻統計等初步處理,最后使用Stata17 進行統計分析。
(2)語料處理。 首先,使用python 軟件中的jiayan(甲言)庫①甲言取自甲骨文文言文之意,是一款專門用于古漢語處理的自然語言包,能夠輔助古漢語信息處理,在古漢語分詞的準確度上優于現代漢語分詞的jieba 庫,詳見:https://github.com/arahan99/Jiayan。對《史記》中的本紀部分進行分詞,為了使結果更有分析價值,只保留名詞并進行詞頻統計,之后根據詞頻數從大到小排序,詞頻數最高詞的詞序為1,第二高詞的詞序為2,第三高詞的詞序為3,依此類推,最后根據齊普夫定律公式計算C 值;其次,只保留一個同頻詞。在出現相同頻數時,詞序的賦值依舊進行,雖然相同頻數詞的頻率保持一致,但因詞序不同,導致C 值不同。為了解決這一問題,本文把每個文本中相同頻數的多余詞刪除,只保留一個。在實際操作中發現,低頻詞(如詞頻為1)會多次出現頻數相同的情況,而在高頻詞(如詞頻最高)中出現詞頻相同的情況卻較少,因此刪除多余的相同頻數詞并不會對后續研究產生重大影響。
(3)模型構建。齊普夫定律公式中的C 值并非為常數,而是在某一常數附近上下波動,為了探索影響C 值波動的因素,本文使用計量經濟學模型,依據齊普夫定律公式,將C 值作為因變量,將詞序和詞頻數作為自變量,構建模型式(2),通過查看模型擬合程度和自變量是否顯著,判斷模型設計是否合理。
(4)描述性統計。為了解《史記》本紀部分詞頻統計的基本概況,首先對其進行描述性統計,并得出結果(見表1)。

表1 變量描述性統計
如表1 所示,C 值變量的均值為0.772,標準差為0.187,說明C 值存在一定異質性。ln 詞序變量的均值等于中位數,表明分布較為合理。ln 詞頻數的中位數為3.942,接近均值3.815,也說明該變量的分布合理。
(5)模型估計。使用OLS 對式(2)進行估計。在計量經濟學中有許多估計方法, 需要根據具體情況進行選擇,在正常情況下OLS 估計最優,因為在高斯馬爾科夫假定下,OLS 的估計結果是最優的無偏線性估計。 基于此得出估計結果(見表2)。

表2 式(2)OLS 估計結果
模型的P 值為0,說明自變量的選擇合適,能夠解釋因變量的波動。 模型的擬合程度為93.4%,表明ln 詞序和ln 詞頻數這兩個變量能夠解釋因變量C值93.4%的波動,擬合效果好。 ln 詞序變量的系數為0.490,且此效應在1%水平上顯著,其意義為詞序每增加1%,C 值就增加0.49。 ln 詞頻數變量的系數為0.476,其意義為詞頻數每增加1%,C 值就增加0.476,且此效應在1%水平上顯著。根據回歸結果,模型顯著且擬合程度高,自變量也顯著,表明模型構建的合理性,ln 詞序變量和ln 詞頻數變量能夠解釋絕大部分的C 值波動,可使用此模型作為后續高低詞頻識別的基礎。
(6)高低詞頻劃分。使用門限回歸對高低詞頻進行劃分。區分高頻詞是因為高頻詞對全文有一個較好的概括,能夠表達全文的關鍵信息,所以高頻詞承載著更多的信息量,而低頻詞的信息含量不如高頻詞,C 值的大小也會因高低詞頻而不同。如果能夠區分古籍文獻中的高低詞頻,無疑能夠提升古籍知識組織的效率。 為了客觀區分高低詞頻,使用門限回歸,以詞序作為門限變量,將門限變量的門限值作為高低詞頻的界限,對式(2)再次進行估計,得出結果(見表3)。

表3 門限回歸
根據回歸結果,高低詞頻在對C 值的影響上表現出顯著差別。詞序是門限變量,且門限值為14,詞序小于等于14 的詞為高頻詞,詞序大于14 的詞為低頻詞。 在常數項上,高頻詞的C 值大于低頻詞的C值,且在1%水平顯著,這可能是因為高頻詞能夠更好地代表全文的重點內容,擁有更高的客觀信息含量;在ln 詞頻數變量和ln 詞序變量上,高頻詞的回歸系數均顯著小于低頻詞的回歸系數,結合常數項的顯著差別,表明高低詞頻在C 值和對C 值的影響上存在系統性差異,驗證了對詞進行高低詞頻區分的統計必要性。 如果在古籍知識組織中應用區分高低詞頻,使工作人員重點關注高頻詞內容,深挖背后的含義,減少對低頻詞的關注,從而增加工作效率,可見區分高低詞頻具有現實必要性。


古籍知識研究屬于社會科學領域,且擁有大量的個性化信息,需要進行頻數-位次分析。 前文的回歸分析是基于傳統的頻數統計,雖然已有成熟的體系,但是忽略了太多的個性信息。如部分詞的詞頻數相等,在回歸時將其歸為一類進行統計分析,但是不同詞的含義不同,這種現象在文字簡短的古漢語中更加頻繁,所以需要對相同詞頻數的古漢語詞再次進行細分。
鑒于古籍文獻所處的語言環境,其詞的構成通常以單字為主。由此而使同頻詞現象較之現代漢語更為普遍。如果不能有效地對這些同頻詞加以處理,則古籍文獻知識組織效率就難以保障,知識組織成果與用戶認知結構之間也難以建立起有效關聯。為此,針對古籍文獻的知識組織需要格外重視同頻詞的處理問題。唯其如此,才能提高古籍文獻知識組織的效率,有效促進知識組織成果與用戶認知結構之間的對接。
目前沒有直接可應用于古籍知識組織中的頻數-位次分析方法,將同頻詞進行細分,但能概括全文的詞或與全文含義更接近詞的重要性明顯更強,所以本文基于詞在特定語境下的重要性對同頻詞進行加權處理。
在同頻詞加權處理方面,主要使用python 軟件中的synonyms 庫①synonyms 庫使用word2vec 訓練的詞向量文件,可以用于處理相似度計算等自然語言理解任務,詳見:https://github.com/chatopera/Synonyms。計算詞與詞之間的相關度,以此為基礎進行詞頻數加權。具體流程如下:首先將詞頻統計結果按照詞頻數從大到小排序, 其次計算同頻詞與高于同頻詞頻數的詞的相關度,如假設全文有6 個詞,頻數依次為5、4、3、2、1、1,對應的詞為“天下”“劉邦”“丞相”“宗廟”“法度”“四方”,此時同頻詞的詞頻數為1,“法度”和“四方”為同頻詞,則計算“法度”與“天下”的相關度為0.241961,“法度”與“劉邦”的相關度為0.121253,“法度”與“丞相”的相關度為0.169126,“法度”與“宗廟”的相關度為0.236819,得到“法度”與全文的相關度為0.769159,之后將“四方”一詞重復操作,得到“四方”與全文的相關度為0.633816,最后以得到的相關度為基礎,對同頻詞的詞頻進行加權,“四方”的加權后詞頻為0.451766(0.633816/(0.633816+0.769159)),“法度”的加權后詞頻為1(《史記·本紀》中的部分同頻詞加權結果見表4)。

表4 同頻詞加權部分結果
如表4 所示,“皇帝”和“趙”為同頻詞,如果在傳統的頻數分析中,二者沒有任何區別,損失了客觀情報含量,不利于高效開展古籍知識分析。為了減少客觀情報損失,本文通過計算“皇帝”和“趙”兩詞與全文中更高頻數詞的相關度,作為頻數加權的基礎,對詞頻數重新進行賦值,既突顯出同頻詞的個性,又考慮到同頻詞與全文的整體相關性,盡可能地達到頻數-位次分析的預期效果,使后續的分析結果包含更多的客觀情報信息,提高古籍知識分析的效率。
古籍文獻知識組織需要借助詞頻統計實現從底層語義到高級本體的知識演化。 傳統的知識組織主要是先驗式,即從知識的頂層向下挖掘,這種方式帶有一定的主觀性且在無序狀態下的搜尋會導致低效率[13]。 為了有效促進古籍文獻知識的挖掘和傳播,需要有序有效地對古籍知識文獻進行研究,具體而言,可通過詞頻統計識別高低詞頻,以不同工作方式對待高頻詞與低頻詞。 因高頻詞通常含有大量主旨信息,所以要重點關注高頻詞,集中時間和精力對高頻詞進行深入挖掘,嘗試基于高頻詞進行古籍文獻知識組織,實現大規模古籍文獻知識的高效組織與管理。
同頻詞處理可以幫助古籍文獻知識強調個性化信息。頻數統計學具有嚴謹性與科學性,幫助自然科學領域的研究人員發現許多突破性的進展,在人文社科領域也廣泛應用, 更有研究人員建議創建文化計量學,對大量的歷史文字進行分析,構建精準的人類文化史[14-15]。古籍文獻知識也需要使用頻數統計學,從而進行古籍知識組織,但是與強調共性的頻數統計學不同,古籍文獻的最小知識單元(詞)具有很強的個性特性,不能因頻數統計學的優點而忽視其缺點,相反要在最大程度考慮古籍文獻知識個性的基礎上進行知識計算,達到“西學中用”的效果。古籍文獻詞頻統計中會存在長尾分布,導致實體與關系事實難以進行有效理解與推理[16],基于頻數-位次統計學的同頻詞處理就是可供參考的解決辦法之一,在納入古籍文獻知識個性的前提條件下進行知識計算。
中華文化源遠流長,海量的古籍文獻是前人智慧的結晶,利用知識計算挖掘古籍文獻對提升我國的文化自信具有重要的現實意義。 新型的知識計算技術能夠自動化解析文本信息,實現知識的外顯化,但目前的知識計算尚存在可完善之處。 本文以齊普夫定律作為理論基礎,從信息的最小單元(詞)入手,使用成熟且客觀的計量學方法對以《史記·本紀》部分為例的古籍文獻進行統計分析,區分高低詞頻,并引入頻數-位次統計學,既充分使用頻數統計學的優勢,又結合古籍文獻知識個性化的特點,使客觀情報信息含量損失最小化,為后續的知識計算提供一定的參考。
本文的貢獻在于利用計量學進行知識計算,并探索出一套理論上可行且實際操作較為容易的流程,提高了古籍文獻知識組織效率,也為后續古籍文獻知識組織以計量學結果為客觀標準提供了一個可行的思路。以本文所發展的基礎指標為依據,后續研究中可基于對古籍文獻的自然語言處理、機器學習和知識圖譜等方法,展開進一步的研究。此方面的研究,可望在未來的古籍文獻知識組織與知識服務中,發揮越來越大的作用。