顧瀟華,楊杰,陳立勛
(1.中國地質大學 長城學院,河北 保定 071000;2.河北大學 管理學院,河北 保定 071002)
目前,主題自動標引形成的索引均為關鍵字或關鍵詞的索引.關鍵詞在選擇的時候,可以是主題詞,也可以是沒有經過任何規范化處理過的任意詞匯,也就是自由詞[1].用自由詞作為關鍵詞進行標引時,用戶檢索文獻的時候就很容易造成誤檢或者漏檢.如果將近義詞、同義詞以及多義詞規范化地統一處理,將會提高查準率和查全率,而規范處理即為將關鍵詞轉換為主題詞[2].
為提高檢索效率,主題詞有著重要的地位.所以,用主題詞作為文獻標引,形成檢索標識進行檢索具有明顯優點.首先,主題詞屬于規范化詞匯,具有單一性的特點,一個詞能夠準確地表達一個概念,不隨時間變化,不被使用者的主觀理解和上下文左右,是十分理想的分析元素[3].其次,主題詞所反應的概念并不是孤立的,它可以通過邏輯組合形成索引標識,來表達文獻的中心內容這就有效避免了標引詞對文獻主題表達不清,檢索率不高的問題.用主題詞作為檢索詞進行對中文文本數據的分析與研究,能有效避免由于檢索詞的不規范性所導致檢索數據庫中主題標識的冗余或缺失.
目前關鍵詞-主題詞轉換實現方式主要包括3種:人工方式、計算機輔助方式和自動轉換方式[5-7].1)人工方式,主要依賴智力勞動人工完成對應轉換的操作,效率較低,但質量較高.2)自動轉換方式,即由計算機根據釋義詞典、同義詞表等各種語義工具通過各種相似度算法自動完成,效率較高,但質量參差不齊.3)計算機輔助方式,即由人與計算機共同完成,是當前各種關鍵詞-主題詞轉換采用的主要編制形式.
如李綱在《基于詞匯鏈的關鍵詞自動標引方法》中,利用基于知網的詞語語義相關度算法對詞匯鏈的構建算法進行了改進,并結合詞頻和詞的位置等統計信息,進行關鍵詞的自動標引[8].程肖、路蓓等在《熱點主題詞提取方法研究》中,基于多特征的融合提出熱點主題詞權重計算方法,構造出熱點主題詞判斷公式HK,實現對熱點主題詞的提取[9].將關鍵詞自動轉換為主題詞是計算機中文信息處理一直關注和力爭解決的問題.
在海量的數據庫文獻中,并不能保證每篇文章的題名都能反映文章的主題,有的甚至再加上關鍵詞也不能準確地表達文章的主旨[10].筆者是將文章的題名和摘要兩者中的關鍵詞抽出并轉換為主題詞,這樣能有效地防止存取的主題詞不能完全表達文章主旨問題的產生.
關鍵詞自動轉換主題詞的過程可以分為以下幾個步驟:第1步,利用已有的詞法分析工具對文獻進行分詞處理和詞性標注;第2步,將經過分詞處理后的詞匯信息根據詞語的詞性標注進行篩選和詞頻統計;第3步,將篩選和統計好的詞與現有主題詞表進行匹配,并重新進行詞頻統計;第4步,經過人工干預選擇出能表達該文獻主旨的相關主題詞,并進行存儲.
其主要的簡單的設計流程如圖1所示.在此模塊中所應用的是中國科學院計算技術研究所開發的分詞工具ICTCLAS(institute of computing technology,Chinese lexical analysis system),應用此工具對數據庫中的中文文獻進行分詞處理和詞性標注.ICTCLAS(institute of computing technology,Chinese lexical analysis system)是中國科學院計算技術研究所研制出的基于多層隱馬模型的漢語詞法分析系統,該系統的功能主要有:中文分詞,詞性標注,未登錄詞識別.分詞正確率高達97.58%(最近的973專家組評測結果).其最主要特點是把分出的詞都進行了詞性標注,且標注詳細,不僅把詞類分得很詳細,而且把每一類又分成若干更詳細的類別.
在文獻中,具有實際意義的詞就是名詞(n),還有與名詞組合起來的形容詞等等,這些詞是描述性的詞,可以對主題起到更好地表達,而其他的詞比如量詞(q)、代詞(r)、介詞(p)、助詞(u)、標點符號(w)等等,則不具有實際意義.所以對文獻中詞語的篩選與統計,其實就是對文獻中名詞、動詞等的篩選與統計,避免數據的繁雜和冗余,降低了工作量,提高主題詞提取的準確性.
應用電子版中國分類主題詞表將分詞出的關鍵詞轉換為主題詞,具體步驟包括文獻分詞處理、詞頻統計、關鍵詞轉換主題詞和主題詞存儲.由于在前人研究中文獻分詞處理和詞頻統計技術已經比較成熟,本文著重討論關鍵詞轉換成主題詞的方法和步驟.

圖1 關鍵詞自動轉換主題詞步驟流程Fig.1 Flow chart of keywords automatically transform into subject headings
本方法使用國家圖書館出版社所出版的電子版中國分類主題詞表來具體操作,其界面如圖2所示.

圖2 中國分類主題詞表功能Fig.2 Function chart of chinese classified thesaurus
對于不規范的檢索詞,比如同義詞、多義詞等,利用電子版中國分類主題詞表能將其規范化.例如學名為玉米的事物,在現實生活和文獻中,有好多其他的別稱,如:苞谷、苞米、棒子,玉蜀黍等等.在此主題詞表的檢索框中輸入此類詞匯的別稱時,該詞表系統會自動地將規范化的主題詞匯輸出.將所有的篩選出來的詞匯經過規范化處理后,就可以得到所有有關文本的主題詞.針對可能存在主題詞重復的情況,再將其詞頻進行統計.經過人工篩選出確實能表達該文獻主題的主題詞,并進行數據存儲.
首先,數據庫中的表包括文獻的名稱、作者、出版社報刊名稱、出版或發表日期以及存取出來的主題詞等數據項.其次,主題詞存取的數據處理流程體現在主題詞存取過程中,通過計算機編程實現文獻信息的讀取,并利用分詞工具對文獻漢語語句做出分析并進行分詞處理,處理過的詞語信息經過詞頻統計,以方便主題詞匹配時的重點選擇,再人工干預選出能概括該文獻主旨的主題詞.其流程見圖3.

圖3 主題詞自動轉換的處理流程Fig.3 Program flow chart of subject headings automatically transform
本方法的重點就是漢語語句的分詞處理和分詞后對詞語進行的篩選統計,以及主題詞的錄入.其實現使用了C#作為其主要編程語言,目的是減少其繁瑣與易錯性.使用Microsoft SQL Server 2000數據庫實現標引詞的提取和存儲.
在中科院計算所漢語詞法分析系統ICTCLAS中,對中文文本數據進行分詞處理和分析.
如果僅對某些語句進行分詞處理,可以將要分析的語句輸入到上面的檢索框中,再點擊“運行”即可得到詳盡的分詞結果和詞語信息.如圖4所示.
如果對整個文件進行分析處理的話,點擊“處理文件…”按鈕,會彈出打開文件的對話框,系統會自動將分好的詞語保存在相應的目錄下,得到的文件留作后面統計處理用.
將漢語詞法分析系統分析的詞語信息進行統計,其算法如下:
1)初始化cizu,cixing,設定標示符flag,以及字符暫存zz,flag等于0時,表示算法在統計過程中,flag不等于0時,表示一個詞組識別結束.
2)讀取文件,用字符串(s)記錄.
3)設定循環次數i(i在(0,s.Length-1)區間).
當flag等于0時,如果s[i]為空,則繼續,i++;若s[i]是'/',則將cizu賦給zz,設置flag等于1,同時置cizu為空,i++;若s[i]是字,則將s[i]賦給cizu,i++.
否則,
若s[i]為空格,申請fenci類ci,將zz、詞性賦值給ci,同時置zz為空,之后在fenci類中查找當前加入的詞是否有記錄,若有記錄,則更新記錄,數目加1,若沒有記錄,則新建.置flag為0,cixing為空,i++.
若s[i]不是空格,則將s[i]賦值給cixing,i++.

圖4 漢語詞法分析系統Fig.4 Chinese lexical analysis system
將文本的基本信息和提取的主題詞保存在數據庫中,就得到主題詞標引的結果.存儲過程其相關代碼如下:

本文取得的結果是通過中國科學院計算技術研究所開發的漢語分詞工具和電子版的中國分類主題詞表這2個現有工具,利用計算機編程語言實現中文文獻的分詞、篩選統計,將分出的詞語記錄并加以統計詞頻,詞頻合適的詞被視為能代表文本主旨詞語,將其與主題詞表進行匹配,從而自動轉換成主題詞進行存儲.對分詞得到的關鍵詞進行主題詞匹配所用到的電子版中國分類主題詞表,存在加密的情況,所以在探討階段還需要人工干預,但是如果真正投入使用,與國家圖書館合作將其接口實現即可.
[1] 章洪流,徐偉,吳倩,等.關鍵詞標引常見問題探討[J].中國專利與發明,2008(8):66-67.ZHANG Hongliu,XU Wei,WU Qian,et al.Discussion on the problems of keyword indexing[J].China Invention&Patent,2008(8):66-67.
[2] 顧瀟華,姜亦強,崔濤.中文自動標引、全文檢索及搜索引擎三者關系的探討[J].圖書館學研究,2011(17):88-89.GU Xiaohua,JIANG Yiqiang,CUI Tao,et al.Research on the relationships among Chinese automatic indexing,fulltext retrieval and Chinese search engine[J].Research on Library Sience,2011(17):88-89.
[3] 常鵬,馬輝.高效的短文本主題詞抽取方法[J].計算機工程與應用,2011,47(20):126-127.CHANG Peng,MA Hui.Efficient Short texts keyword extraction method analysis[J].Computer Engineering and Applications,2011,47(20):126-127.
[4] 曹裕才.關鍵詞及其標引[J].醫教研究,1991,19(3):1-2.CAO Yucai.Keywords and indexing[J].Medical Teaching Research,1991,19(3):1-2.
[5] 劉華梅.基于情報檢索語言互操作技術的集成詞庫構建研究[D].南京:南京農業大學,2006.LIU Huamei.Research on construction of the integrated vocabulary based on interoperability technique of indexing languages[D].Nanjing:Nanjing Agricultural University,2006.
[6] 張琪玉.情報檢索全過程中概念與標識的對應轉換[J].圖書與情報,2002(2):33-34 ZHANG Qiyu.In the information retrieval process concept and identification of the corresponding transformation[J].Library and Information,2002(2):33-34.
[7] 仲云云,侯漢清,杜慧平.電子政務主題詞表自動構建研究[J].中國圖書館學報,2008,34(3):97-102.ZHONG Yunyun,HOU Hanqing,DU Huiping,et al.Research on thesauri for e-government which used computer-based automatic methods[J].Journal of Library Science in China,2008,34(3):97-102.
[8] 李綱,戴強斌.基于詞匯鏈的關鍵詞自動標引方法[J].情報、信息與共享,2011,141(3):67.LI Gang,DAI Qiangbin.Keywords automatic indexing based on lexical chains[J].Intelligence,Information&Sharing,2011,141(3):67.
[9] 程肖,陸蓓,諶志群.熱點主題詞提取方法研究[J].現代圖書情報技術,2010,198(10):43-48.CHENG Xiao,LU Bei,CHEN Zhiqun.Research on extraction of hot keywords[J].New Technology of Library and Information Service,2010,198(10):43-48.
[10] 張樹良,冷伏海.基于文獻的知識發現的應用進展研究[J].情報學報,2006,25(6):700-712.ZHANG Shuliang,LENG Fuhai.Research on the applicational development of literature-based knowledge discovery[J].Journal of the China Society for Scientific and Technical Information,2006,25(6):700-712.