基于語料庫的《黃帝內經》研究方法探索

2011-02-12 00:30:11聞永毅樊新榮

中國中醫基礎醫學雜志 2011年5期

聞永毅，樊新榮

(1.陜西中醫學院，陜西咸陽 712046;2.國家中醫藥管理局機關服務局，北京 100700)

《黃帝內經》研究，自成書以來，唐·王冰的補全《素問》81篇、隋·楊上善的《黃帝內經太素》19種分類、北宋·林億等校勘的《素問新校正》、明·張介賓注釋《黃帝內經》的成果《類經》等，據統計多達400余種。今天借助計算機技術，《黃帝內經》研究更加全面、深入、細致。張登本[1]等的《內經詞典》統計出《內經》載有漢字2286個、分離出詞語5580個，列出了每個字詞的出現頻率(即詞頻)。然而這些研究還未形成完整的存儲、檢索、分析等研究方法以及系統性的概念分析理論，致使各種統計數據以及檢索結果難以發揮其應有的作用，研究方法也難以推廣應用。本文從整體的角度，運用語料庫語言學的研究方法，以現代語義學的理論為指導，深入探討了基于語料庫的《黃帝內經》的研究方法和研究步驟，以期填補此方面的空白。

1 《黃帝內經》語料庫的建立

語料庫的建立總是從各種方式的文件輸入為開端。《內經》文件的輸入必須解決好兩個基本問題，即版本選擇和計算機對漢字的支持問題。

不同版本的文本可能在繁體、簡體漢字處理方面存在較大出入，通假字處理、標點符號的選用、段落的劃分、注解的編排方式等差別則更大。本項研究在決定使用張登本校注的簡體漢字版本《黃帝內經》之后，文件輸入時我們做了一些必要的處理。

1.1 使用特定過濾符標記非相關文字

如〈序言〉等。

1.2 系統性替代計算機不能識別的漢字

如“月左呂右”使用yuelv代替，“病頭珍下”使用bingSzhen代替;替代法必須具有惟一性、易辨認性以及整體性(計算機識別為1個單位)。

1.3 刪除編輯添加的字符

如“原文”、注解及編號、空行、多余空格和語料庫系統難以處理的圖表等。

1.4 簡單標記文本信息

主要有文件的標題和段落。

經過以上步驟的處理并把文件保存為純文本格式，我們就擁有了一個專著性質的《黃帝內經》生語料庫(Raw corpus)。生語料庫能夠提供的檢索項目和統計量跟檢索工具的處理能力密切相關，其中的字詞檢索(Concordance)、字詞表生成(Wordlist)為基本的檢索項目;語符數(Token)、類符數(Type)、句子總數(Sentence)、分隔符(Punctuation)、字詞頻率(Word Frequency)等是基本統計量，一般語料庫檢索工具都具備這些項目的檢索能力。本項研究使用的Wordsmith 4.0還能夠提供形符比(TTR)、標準形符比(STTR)等其他多項統計量。生語料庫的文本樣例如下:〈P〉丈夫八歲，腎氣實，發長齒更。二八，腎氣盛，天癸至，精氣溢瀉，陰陽和，故能有子……〈/P〉。

2 庫文件的分詞處理

生語料庫由于沒有經過加工，能夠提供的檢索項目還是有限的，如上文建立的生語料庫只能提供單個漢字的相關信息，不能生成多個漢字組成的詞語表。為達到檢索《內經》中多字詞語的目標，我們必須對庫文件進行分詞處理。下面是未經分詞處理語句和分詞處理后的庫文本的實例對比。

〈P〉丈夫八歲，腎氣實，發長齒更。二八，腎氣盛，天癸至，精氣溢瀉，陰陽和，故能有子。…〈/P〉(共30個漢字)。〈P〉丈夫八歲，腎氣實，發長齒更。二八，腎氣盛，天癸至，精氣溢瀉，陰陽和，故能有子……〈/P〉(共26個詞語)。

《黃帝內經》文件的數量不大，可以人工完成分詞任務，但是當面對大批量文件時，人工分詞的辦法顯然無法勝任。從長遠計，本項研究中我們采用了漢語自動分詞技術和人工輔助校正相結合的方案。

3 語料庫的標注

理論上講，分詞處理本身就是對語料的一種標注，而且目前廣為使用的現代漢語分詞系統實際上也是分詞與詞性標注同步完成的。不過，《黃帝內經》的中醫學研究重點不是語法、語言結構，而是語義的理解、概念的辨析與分類，實施語義標注才是基于語料庫的《黃帝內經》研究的核心問題。給分詞處理之后的語料中的每個詞語都貼上語義標簽需要2種技術的支撐，即語義分類系統和語義賦碼系統。

3.1 語義分類系統

漢語詞匯語義分類的研究已經具有了一定的基礎。梅家駒的《同義詞林》、董大年的《現代漢語分類大詞典》以及詹衛東[2]等使用的語義分類方法和研究思路，都為《黃帝內經》詞匯語義分類體系的研制提供了非常有價值的參考。具體分類過程如下。

3.1.1 使用語料庫檢索工具Wordsmith4.0把經過分詞處理的《黃帝內經》文件中的詞匯提取出來組成內經詞匯表。

3.1.2 采用自下而上的總體語義分析路線，不預先設計語義總體框架，而是憑借直覺和詞匯的語義組合關系把詞匯表中的詞語分為詞匯群。如與“人”相關的詞匯“丈夫、男子、上工、黃帝”等等臨時歸為一個語義類，判斷時借助“——想/要/愛/恨/死了”組合體幫助語義分析過程。“精、氣、血、肉、津液”等歸為“人體基本物質類”。

3.1.3 直覺法分類工作完成后，根據上下義關系、同義關系等語義學原則，調整分類結果、為每個詞匯群命名，其名稱就是系統中的一個節點。節點在本項研究中是一個非常重要的概念，是1組詞匯語義特征的代表或抽象概括，其名稱或者用1組詞匯中最具原型(Prototype)特點的詞命名，或者以1個適當的上位詞命名，如果沒有適當的詞就使用1個適當詞組命名。這個名稱就是即將用于標注庫文件的“語義標注符號”。節點與節點之間的語義關系分為:一是構成某種上下義關系，即上一節點與下一節點在語義上具有控制與被控制的關系，如分類關系、層級關系、比例關系、部分與整體關系等;二是構成同義關系，如近義或同義、反義，功能、屬性等同或相近等。如臟腑、經絡、四肢、骨骼等就被處理為同義關系，其節點名稱為“器官”;然而“臟腑”又是一個節點名，帶有心、肝、脾、肺、腎、三焦等等為其成員，此處“器官”與“臟腑”就形成上下義關系;三是系統外關系，主要涉及虛詞、標點符號等，它們雖然在語言學研究中非常重要，但不是中醫古典文獻研究所關注的對象，這些虛詞在標注時按1個一級類對待，留待日后必要時再細分類別。

3.1.4 語義分類系統的層次經過節點命名分類的“內經詞匯表”就形成了一個語義關系網絡:縱向為數量有限的具有控制與被控制關系的層次結構，呈金字塔狀;橫向則為具有《內經》語義特征的同義關系詞匯群。每一個縱向聚合頂端的節點在系統中被規定為一級標注符號，向下依次為二級、三級等，下級節點繼承上級節點的語義特征，所有一級標注符的語義概括抽象就是《內經》所表達的內容。

3.2 語義賦碼系統

語義分類系統給《黃帝內經》中的每一個詞語都指派了一個恰當的位置，貼上了語義標簽。接下來就可以照此給分詞處理后的庫文件賦碼了。語義類型的賦碼任務與人工分詞的任務一樣，大規模的賦碼工作絕非人工所能完成，即使能夠完成也難免有各種疏漏。因此，我們專門開發了一款內經語義賦碼工具，賦碼之后的文件樣例如下:【標注文件I】〈P〉丈夫〈人〉八〈數〉歲〈量〉，〈dian〉腎氣〈構件〉實〈狀態〉，〈dian〉發〈構件〉長〈動作〉齒〈構件〉更〈動作〉。〈st〉二〈數〉八〈數〉，〈dian〉腎氣〈構件〉盛〈狀態〉，〈dian〉天癸〈構件〉至〈動作〉，〈dian〉精〈構件〉氣〈構件〉溢〈動作〉瀉〈動作〉，〈dian〉陰〈法則〉陽〈法則〉和〈狀態〉，〈dian〉故〈yu〉能〈動作〉有〈動作〉子〈人〉。〈st〉

計算機自動語義賦碼工作結束之后，人工檢查修正的工作在所難免。人工校對既能夠修正自動賦碼的錯誤標記，更重要的是能夠為改進系統提供更為準確的訓練材料。

3.3 層級語義標注法

3.3.1 主觀意志對語料庫使用價值的影響語料庫的標注在本質上是開發人員思維方式和價值觀念的具體體現，因為語料標注就意味著對語言材料的某種分類，而分類就有主觀意志的參與。詞性標注體現了開發人員重語言形式研究的語言學觀;語法錯誤標注反映了對語法錯誤是什么的理解與判斷。當然，語義標注更是涉及對同義、近義、上下義等主觀認識，且語義的類型分得越細，開發人員主觀意志對分類結果的影響就越大。

語料庫開發人員主觀意志對標注體系的影響會損害語料庫的使用價值和適用范圍，主觀意志參與得越多，語料庫能夠適用的范圍就會越窄。例如，“毛、發、四肢、骨骼”等詞語被劃歸“肢體”語義類可能就得不到廣泛的認可。更為重要的是，即使能夠得到認可，當某項研究臨時需要把“發、口、鼻、腳、手”劃分到其他語義類中而已經賦碼的符號卻無法更改時，語料庫開發人員的主觀意志對語料庫使用價值的影響就會愈加充分地顯現出來。

主觀意志對標注活動的影響是不可避免的，但是如何把影響降低到最低限度卻不僅僅是盡量減少人為規定成分所能解決的，我們還需要在標注技術方面有所創新，用技術手段盡量降低直至抵消主觀因素的影響。

3.3.2 語義標注符的數量對標注的影響理論上講，語義分類越精細，標注語料庫能夠提供的信息量就越大，不過分類的詳細程度與需要的標注符號的數量成正比關系。我們暫且不討論分類的詳細程度問題，從語義分類業已取得的成果來看，總體上語義分類至少需要5個層次，否則很難達到分清語義類型的目的，這就意味著上千的標注符號。在一個文件中同時標記上如此眾多的標注符號，會對標注符號的校對、語料庫的維護、文件的檢索、檢索結果的使用等等帶來巨大的壓力。而如果采用數據庫方式處理具體詞語以上各節點，又會造成分類系統固化死板，語料庫使用人員難以自由組合檢索項目等問題。因此，語義標注符號的數量問題要求語義賦碼時不能采用常規的一次性賦碼的方式。

3.3.3 層級標注語料庫為了解決以上問題以及其他一些因素對《黃帝內經》語義分類語料庫的影響，我們設計了層級標注庫文件的方法，具體做法如下:把語義分類體系按照語義節點拆分，形成一級、二級等相對獨立的標注符號集合，每個集合中的其他節點全部撤銷，其成員保留。如一級語義類由以下節點組成:【標符Ⅰ】人、構件、疾病、動物、植物、藥物、自然物、人造物、現象、時間、空間、顏色、法則、觀念、情欲、動作、狀態、數、量、語法、標點。其中“人”這個一級標注符號下聚集了所有表示人的詞語，標注后的文件中也只有〈人〉這個標注符號。語料庫中所有文件在一級賦碼之后被存儲為“一級標注”文件夾(一級標注后的文本樣例參見4.2)。在二級標注符號集合中，“人”與“構件”控制的節點有:【標符Ⅱ·人】泛稱、定稱、年齡人、角色人、職業人。【標符Ⅱ·構件】肢體、感官、臟器、經絡、精微、神貌。

此時，庫文件中表示“人”的詞語不再有〈人〉標注符，而是分別被標記上了二級中的名稱。二級賦碼工作完成后的庫文件被存儲到“二級標注”文件夾，余者依次而行。二級標注后的文本樣例如下所示:【標注文件Ⅱ】〈P〉丈夫〈泛稱〉八〈數〉歲〈量〉，〈dian〉腎氣〈精微〉實〈功能態〉，〈dian〉發〈肢體〉長〈動作〉齒〈肢體〉更〈動作〉。〈st〉二〈數〉八〈數〉，〈dian〉腎氣〈精微〉盛〈功能態〉，〈dian〉天癸〈精微〉至〈動作〉，〈dian〉精〈精微〉氣〈精微〉溢〈動作〉瀉〈動作〉，〈dian〉陰〈陰陽〉陽〈陰陽〉和〈功能態〉，〈dian〉故〈yu〉能〈動作〉有〈動作〉子〈泛稱〉。〈st〉

4 語料庫的檢索

語義標注后的語料庫構成了一個帶著大量語義分類信息的文本文件庫，如何把這些語義信息靈活方便地按照研究人員的需要提取出來并給予科學的數據分析，則需要語料庫檢索工具的支持。檢索工具現在很容易找到，任何能夠支持漢字的檢索工具都能用于檢索目的，甚至可以使用Word自帶的查找工具進行檢索，只不過語料庫專用檢索工具如Wordsmith能夠提供更為有效、更加專業的檢索和數據統計。

語義標注語料庫提供的檢索項目主要以標注符號為基礎，可以說是對標注符號的檢索。對《黃帝內經》語義標注語料庫而言，每一個標注符號的檢索就是一個語義類型的所有文本資料及相關數據的匯集;標注符號的組合檢索理論上沒有限制，只要語義組合的模式在原文件中存在，就可以把幾個不同標注符號組合起來、甚至可以使用正則表達式(regular expression)進行組合。

《黃帝內經》語義標注語料庫的語料雖然按照標注符號的級別被存儲到幾個文件夾中，而且幾個標注后的文件的初始文件相同——同為分詞處理后的文件，但是這不會影響到對庫文件的檢索以及所提供數據的有效性，因為標注符號的惟一性能夠充分保證檢索到的文件只涉及到1個庫文件，不會出現1個檢索項目同時使用多個庫文件的情況。

如在上面列舉的樣例中檢索〈構件〉，就會得到“腎氣、發、齒、天癸、精、氣”，檢索任務只在一級標注文件中執行。如果語料庫使用人員需要更細的語義類型如構成人體的基本物質，只要了解這種語義被標注為〈精微〉，搜索它就可以得到“腎氣、天癸、精、氣”。同理，構成人體的、外觀可見的組成部分的詞語被標記為〈肢體〉，搜索它就可得到“發、齒、手、腳、唇、舌”等這些存放在二級標注文件中的語義類型。各級庫文件雖然分級別存儲，檢索平臺卻只有1個，因此檢索會非常方便。

5 結語

《內經》研究離不開概念的分類，對概念之間相互關系的研究更需要大規模的資料搜集和整理工作。單個概念的研究如“氣”或“血”等，或者某一個概念群的研究諸如“精微物質”等已經不能適應更深層次研究的需要。多種概念之間相互關系的探討需要中醫領域與語義學、語料庫語言學、計算機科學等學科的通力協作，特別是語料庫語言學，其嚴格的標注、檢索、數據分析等研究方法必能在中醫文獻研究領域發揮重要作用。

[1]武長春，張登本.內經詞典[M].北京.人民衛生出版社.1990.206-209.

[2]詹衛東，劉群.詞的語義分類在漢英機器翻譯中所起的作用以及難以處理的問題[J].語言研究.2003，5.