計算機漢語語義組織和檢索述評*

2014-02-12 17:56:04王仕雪

通化師范學院學報 2014年2期

王仕雪

(湖北民族學院圖書館，湖北恩施445000)

文獻數據庫產生以來，人們一直在用基于命令的布爾檢索式來回答比較復雜的檢索提問．90年代，一種以相關排序和智能文本處理為特征的“自然語言處理”(NLP)系統開始流行．國外對NLP引入信息檢索(IR)已由理論研究開始轉向應用，而國內尚處于理論探討階段．語義組織與檢索是當今計算機情報檢索領域的一種重要發展趨勢．語義信息組織和檢索是指利用某一檢索詞進行查詢時，系統基于對語義內涵的理解以及用戶提交的查詢詞所表達的概念內涵作為搜索依據，對自然語言進行處理，即對該詞的近義詞、同義詞、狹義詞、廣義詞均進行檢索，以達到擴檢、避免漏檢的要求．關于語義信息組織和檢索，在近30多年來已有很多相關的研究和實踐．我國在80年代，語義組織與檢索得到廣泛關注，對各種方法的研究和實驗已展開，并取得了不少成果．主要在以下幾個方面進行了拓展性的研究．

1 漢語自動分詞與自動標引

語義信息組織和檢索是利用計算機，以文本中的詞為處理對象的．西文以兩個空格之間的字符定義為一個詞，故計算機極易識別而將其自動分離出來，漢語則不行，因為漢語句子中詞與詞之間無空格作為分隔標志，而且，一個漢字可以同其他許多漢字進行組合構成不同含義的詞和詞組，并無形式化的規律．因此，計算機難以識別一個句子中哪個漢字或哪幾個漢字的組合是詞而自動把他們分離出來，也難于準確識別對檢索有用詞與無用詞．所以，把句子用計算機切分成詞，并建立知識詞語庫實現語義導航和查詢擴展就成為漢語語義信息組織和檢索的一個前提條件，而且在其他方面也有廣泛的用途．進行漢語分詞技術的研究，是為了解決自動抽詞問題．漢語分詞在我國提出較早，“最大匹配法”最早出現在1963年《文字改革》雜志上(劉涌泉)，80年代提出的漢語分詞方案很多，大致可以分為基于算法的分詞方法和基于知識的分詞方法兩大類，而大多數方案屬于形式匹配分詞法．

漢語分詞技術的研究可以說是語義信息組織和檢索研究的“開路先鋒”，如陳培久(1983)的詞典切分組詞法、王永成(1984)的部件詞典法、梁南元(1985)的最佳匹配法OM、北京大學圖書館學系(1987)的主題詞表法、鄧欽與毛玉嬌(1987，1989)的關鍵詞法、江孝感(1989)的漢語詞素自動詞素分詞法等，都屬于形式匹配分詞法，并且在80年代都已出現．到90年代，屬于形式匹配分詞法的新方案較少提出，如趙宗仁(1991)的語詞結構類比法、陳豫和曾民族(1983)的CWSAIS法等．但80年代上述方案有些在90年代有繼續改進和深入探討，如王永成等的《論中文詞切分中的歧義切分問題》、毛玉姣等的《漢文自動分詞與自動標引的新嘗試》、蘇新寧的《漢語詞切分算法的改進》、龔建偉的《中文自動標引中并行縮略詞串的處理》等．形式匹配分詞法比較簡單可行，都有一定實用價值，例如王永成的部件詞典法抽詞正確率已達到90%左右，已基本達到實用水平．

王瑋的《漢語文獻自動分詞存在的問題與趨向》認為，以上方法都存在優劣兩面，至今沒有一種方法完全解決漢語自動分詞存在的詞法的復雜性、切分的模糊性和語法分析問題，有必要向切分詞典設計、漢語自動分析研究和神經網絡分詞方法方面發展．

漢語自動分詞與漢語文獻自動標引既有區別又有緊密聯系，但是以自動標引作為題名的一些文獻，往往只談如何自動抽詞的方法，而對于自動抽出的詞是否符合文獻標引的要求的問題，卻很少見深入探討的專文發表．

漢語自動分詞不能脫離分詞詞典(關鍵詞詞典、停用詞詞典、部件詞典、切分標記詞典等)，目前分詞軟件普及的障礙主要是缺少分詞詞典，研究論著也少見．

2 自由標引與自由詞標引

自由標引與自由詞標引雖都屬于在檢索中利用自然語言，但兩者是不能混同的．自由標引是不根據詞表的一種主題標引法，標引人員在對文獻的情報內容進行分析之后，按一定規則自立標引用詞來表達文獻主題．這種標引方法的優點在于:由于不使用詞表控制，標引速度要比使用詞表的主題標引快許多倍，還可降低標引成本;可用與文獻主題專指度一致的詞進行標引，保證較高的檢準率;標引過程是通過標引人員主題分析的，如果標引人員具有一定的業務水平，則其標引質量可大大高于抽詞標引．自由標引主要適用于報紙文獻、期刊文獻的大型篇名數據庫的標引，因為這類文獻內容龐雜，新概念多，數量大，很難編制適用的詞表，而且使用詞表編制用功多，速度慢，建庫單位實際條件往往不許可，自由標引方法在一些單位常見，但討論的論文不多，代表性論文如張琪玉的《論自由標引》、宋明亮的《報紙文獻機助自由標引研究及對漢語后控詞表動態維護的思考》、高文生的《自由標引和只供檢索的規范詞表相結合建立檔案檢索系統的模式》等．

3 自動摘要

自動摘要是利用計算機自動地從原始文獻中提取文摘，方法是將句子視為詞的線性序列，將文本作為句子的線性序列．關于自動摘要的文獻極多，早在1952年，美國IBM公司的H．P．Luhn就開始了自動編制文摘方法的研究，及至1958年，Luhn第一篇有關文摘的自動生成方法的文章才開始發表．這一階段人們只是圍繞文章字詞層面進行特征提取，簡單地依賴粗糙的統計數據和不同性質的特征的簡單線性疊加．后來人們開始考慮文檔的句法特征和語義特征．建立起以人工智能特別是計算語言學為基礎的方法．

國內自動摘要的研究則起步較晚，1985年王兵才撰文介紹國外的自動摘要的研究情況．1980年代末以來，我國先后有大學和研究機構開展研究，開發了一批應用系統，并取得了許多重要理論成果．在應用系統的研究方面，80年代末，姚天順開展了面向中文的“基于規則的漢語自動分詞系統”的研究．90年代初李小濱、徐越開發了EAAS(English Automatic Abstract System)系統．王開鑄在90年代研制了MATAS型軍事領域摘要系統、HIT－863 I型摘要系統、HIT－97 I型英文摘要系統和HIT－863Ⅱ型摘要系統．王永成等人從1980年代末開始一直在進行此項研究，取得了較多成果，1997年研制了OA中文文獻自動摘要系統．2003年，吳立德研制了文本自動綜述系統，鐘義信則先后實現了面向計算機病毒的Glance系統，面向新聞報道的News系統和面向神經網絡學習算法領域的Ladies系統．

在理論研究方面，比較有新意的有楊建林的《一種使用自動聚類思想的自動文摘方法》，該文將自動聚類方法引入自動文摘研究，并用數學描述了聚類算法．郭俊文的《中文科技文獻自動文摘系統的研究》描述了一個中文科技文獻自動文摘系統，詳細地描述了總體結構，各環節的內部表示和算法．李明的《從字頻統計出發的中文文摘自動編寫》針對漢字文本的特點，提出一種在單漢字字頻統計分析基礎上實現自動編寫中文文摘的新設想．洪田玉、陳志剛的《一種跨語言的自動摘要技術》提出了一種不依賴于任何訓練集和自然語言本身信息的自動摘要方法，該方法利用改進后的PageRank公式和HITS公式對文檔所有句子打分排序，選取得分高的句子作為摘要．

4 自動分類

我國對基于自然語言的自動分類的研究起步較晚，從80年代至今僅有4次實驗．第一次實驗是朱蘭娟進行的，可參見朱蘭娟《中文文獻自動分類的理論與實踐》．第二次實驗是金巍進行的，可參見金巍的《中文文獻自動分類系統——以腫瘤學專業文獻為例》．第三次實驗是蘇新寧、徐進鴻、史久林合作進行的，可參考《檔案自動分類算法研究》．第四次實驗是葉新明進行的，可參考《基于〈中圖法〉的中文文獻自動分類》．

成穎、史九林的《自動分類研究現狀與展望》認為自動分類包括自動聚類、自動歸類及類號同的自動轉換三個方面．該文在回顧我國自動分類的歷史和現狀的基礎上，分析了我國自動分類研究存在的不足，指出基于自然語言語義理解的分類專家系統是自動分類研究的發展方向．張琪玉的《分類主題法一體化自動標引系統的基本原理和方法》主要是討論自動分類，該文提出用分面技術來構造自動分類用的分類表，根據體系分類法的類目內容范圍劃分規則來構造自動分類規則，使自動分類的過程大大簡化．李洪清的《一個自動漢語正文分類系統的模型設計》提出模糊－神經方法設計自動分類模型．鄧要武、王連俊的《圖書自動分類專家系統可行性研究》討論了專家系統技術用于自動分類的可行性．葉新明、徐進鴻的《中文文獻自動分類研究》提出了中文自動分類的一般模式，同時分析了實現中文文獻自動分類目前所面臨的一些問題．盧香宵、葉新明的《自動分類與手工分類的比較》對兩種標引方式作了一般的比較．

5 文本檢索與全文檢索

文本關鍵字詞匹配檢索是自然語言檢索中使用最普遍的方法．這種方法不需進行任何標引，檢索時則可用檢索者認為合適的關鍵性字詞，在文本中進行匹配查找、十分簡便．所謂文本，可以是文獻題名，或文摘，或文獻正文．對儲存文獻正文的數據庫的檢索，稱為全文檢索．全文檢索可以說是90年代自然語言檢索的熱點，研究成果甚多．顧耀芳《綜述全文檢索系統》對1991年上半年以前的國內全文檢索研究成果作了綜述，包括國外發展概況、全文檢索系統涵義、全文數據庫研制、全文本的前處理、文本檢索技術等．尹漢軍的《全文檢索與其他檢索的比較》對全文檢索、文獻檢索、標題檢索和受控詞表檢索四種檢索方法作了比較，并分析了產生優劣的原因．楊學倫的《全文檢索技術及其在圖書館中的應用》介紹了全文數據庫建設的前處理和檢索技術，討論了圖書館發展全文檢索系統的問題．1991年10月18日通過鑒定的“湖北省地方志全文檢索系統”一般認為是我國第一個以一部專著為對象的全文檢索系統，陳光祚和謝新洲的《湖北省地方志全文檢索系統》對該系統軟件作了詳細介紹．

信息組織的目的是建立有序、有效的檢索系統．信息檢索的最高境界是基于語義概念的智能檢索，這一目標的實現，從根本上來說，必須依賴有效的語義信息組織．根植于傳統的分類、分面、主題、術語學、計算機科學的知識組織方法等技術的出現，為建立互操作的語義知識庫實現漢語語義組織和智能檢索提供了可能．

［1] 包冬梅．網絡信息語義組織和檢索的實現路徑［J] ．圖書情報工作，2006，50(12):12－16．

［2] 孫清蘭．高頻詞與低頻詞的界分及詞頻估算法［J] ．中國圖書館學報，1992，18(2):78－81．

［3] 張琪玉．論自由標引［J] ．圖書館學刊，1995，17(5):35－37．

［4] 譚翀，陳躍新．自動摘要方法綜述［J] ．情報學報，2008，27(1):62－68．

［5] 郭俊文．中文科技文獻自動文摘系統的研究［J] ．情報探索，1995(4):26－28．

［6] 成穎，史九林．自動分類研究現狀與展望［J] ．情報學報，1999，18(1):20－26．

［7] 顧耀芳．綜述全文檢索系統［J] ．現代圖書情報技術，1992(1):7－13．