電子文獻段落檢索算法性能評估研究

2015-05-08 15:35:24王睿曾斌陳抒

河南圖書館學刊 2015年4期

王睿+曾斌+陳抒

關鍵詞：數字圖書館；段落檢索；性能評估；語義檢索

摘要：文章利用目前已知的文件分段方式以及隱性語義檢索技術，開發了一個文件分段檢索系統，評估了文件結構分段、按文件人工語意分段以及取固定字數分段對段落檢索結果的影響。通過對研究結果進行分析統計，得出了這3種分段方式的適用范圍及優缺點。

中圖分類號：G250文獻標識碼：A文章編號：1003-1588（2015）04-0074-03

收稿日期：2015-03-10

作者簡介：王睿（1975—），海軍工程大學圖書館館員；曾斌（1970—），海軍工程大學管理工程系信息管理研究室主任；陳抒（1983—），海軍工程大學圖書館館員。1背景

隨著信息科技的進步，數字圖書館文獻資料數量隨之逐漸增加，而讀者所面對的信息也就越來越多。若缺少某些幫助我們搜索信息的技術，數據的搜索將會相當困難。為了解決這個問題，產生了信息檢索技術，同時也產生了許多不同的檢索方法。但現在大部分的檢索方法都沒有考慮到文件內部的結構。因此，讀者雖然找到了文件，但卻無法找到真正對讀者有意義的部分。如常用的模式匹配算法雖然可以對文件的一部分進行搜索，但在使用上有許多的限制，文件中必須含有和查詢條件完全符合的文字才會被選擇出來，而大部分的全文檢索技術忽略了文件的結構。理想中，一個能夠解決這種問題的系統應該是能和文件的結構相互配合的。如裝備維護的檢索系統，原始數據是各種不同裝備的維修條例，如雷達、升降裝置等，每一條例是檢索系統中的一個文件。但讀者在檢索時并不希望系統傳回整個條例文件，讀者希望的是找到相關的維修條文。如找和“控制板接口”相關的維護條文，讀者并不希望系統傳回整個該型雷達的維護手冊。在一般的文件中也可能有這樣的需求，如搜索“信息管理的定義”，讀者并不希望得到“信息管理導論”這樣的結果。甚至系統若傳回結果在某書的某章，可能對讀者來說范圍都太大了。最好是系統可以直接將定義“信息管理導論”的那一段文字直接找出，對讀者的意義會比較大。

因此，本研究希望能將全文檢索技術的應用范圍由“全文”拓展到文件的某一部分，使得搜索時可以找出文件中關系最大的一個“段落”，也就是提供分辨率較高的搜索方式。為了達成這個目的，全文檢索的技術必須修正以配合解決段落檢索的問題。為了要進行段落式的全文檢索，首先必須要探討如何將文件分為不同的段落，而又能保持段落之間的意義獨立。且利用段落檢索時檢索的單位增加許多，如何能在保障檢索正確性的同時，又能維持時間上可以為讀者所忍受，很可能必須修改全文檢索的算法。為此，筆者主要研究包括：①利用目前已知的文件分段方式以及隱性語義檢索技術，開發了文件分段系統。②研究這些分段方式對索引上的影響，探討分段是否真正對檢索有所幫助。

2文件段落檢索方法的分析

在目前的全文檢索環境中，存儲的許多文件是相當長的，常常在同一篇文章中包含了許多不同的主題。在這樣的情況下，搜尋一整篇文章變得沒有意義，這會造成文件的利用率大幅降低。反而將大文章分開成不同的段落，再加以索引更能接近讀者真正的需求[1]。

目前一般的分段方式可以歸類為三種：按文件結構分段[2]，按文件語意分段[3]以及取固定字數分段[4]。這三個方法各有其優缺點。

依文件原有的架構，如段、節等分段，一篇文章可以很自然地被分割成不同的部分。直覺上來說，這種方式是最有效率的方式，但這個假設在實際上并不一定正確。實際上，文件的概念在段與段之間是否能保持概念上的一致性，和作者寫文章的方式有很大的關系。如果作者將相同的概念分在許多的段落，或是將許多不同的概念加以整理，集合在同一段中，對查詢的效率都有負面的影響。

依文章的語意或主題，加以分析之后，將文章分為概念不同的段落。如 TextTiling[5]。它的原理是利用文件中用詞的相似度來將文件分為不同的部分。利用統計方式，文件的不同部分可以找出不同的“相關段”，也就是表達概念相同的段落。但實驗結果顯示，這種方式和依文件結構分段并沒有許多的改進。

依文件原有的段落或依文章所表達的語意分段兩種方式中，都假設文件中存在一個唯一的、符合查詢的信息架構。但對不同的查詢，分段的方式可以不同。因此，以上的兩種方式也許并不能符合所有的查詢條件。對這種問題的解決方式是在文件上開一個固定大小的查詢窗口，將分段的大小固定，并移動窗口的位置進行查詢。實驗結果顯示，利用這種方式查詢，精確度都有一定程度的進步。在某些實驗中，甚至精確度提升了20.7%。

王睿1，曾斌2，陳抒1：電子文獻段落檢索算法性能評估研究王睿1，曾斌2，陳抒1：電子文獻段落檢索算法性能評估研究3文件段落檢索系統的設計

本系統包含兩個部分。第一個部分為隱性語義檢索的文件檢索[6]。當文獻所表達的概念相同的時候，由于文獻作者可以選擇的字匯有限，因此概念相同的文章通常會有相似的字匯出現。隱性語義檢索利用數學上的奇異值分解將文件向量的維度縮小，去除某些因為字匯有限而產生的詞匯與詞匯之間的相關性。

圖1文件段落檢索系統架構圖段落檢索系統利用隱性語義檢索文件檢索的結果，利用其所產生的奇異值矩陣及經奇異值分解過程所得到的縮減后詞匯向量，經過無損壓縮算法[7-8]，計算各個文件段落的向量，并將這些向量與查詢條件所得向量加以比較。整個過程可以由圖1表示。

4查詢效能的評估

本研究從大學圖書館文獻庫中選取27個相關的文件段落，利用查詢條件在查詢結果中的出現排名作為評估的重點。在此評估當中最重要的是了解系統為何產生錯誤的決定以及如何改進。實驗重點關心的是原始文件的分段方式。不同的分段方式，影響讀者如何接受查詢出來的結果。如利用固定字數分段，系統極可能會將一個概念連貫的文章段落切成不同的段落，使讀者無法得到最好的結果。本研究將針對字數以及原始文件的結構進行分段，并將結果加以比較。此外，本實驗也將原始文件依照文件本身的意義，主觀地將文件切割成意義較為一致的段落。利用這些段落，不分段地進行查詢，以和本研究中的其他分段方式作為比較。

假設在A篇文件中，有B篇為相關文件。在經過系統處理查詢之后，檢索出C篇文件，其中有D篇相關。則：

召回率=DB

準確率=DC

在研究中固定召回率在某一水平，以計算的準確率作為比較的指標。

此外，在決定文件段落是否和查詢條件相關時，完全憑借的是實驗者的主觀認定，這是本實驗的一個缺陷。但是考慮到目前并沒有一個評估全文查詢系統的標準，況且，對于相同的查詢條件以及文件來源，很可能因為分段的方式不同，造成結果也不同，所以難以事先找出一個判定相關與否的標準。為此本研究只能通過實驗者本身的判定，決定檢索結果是否相關。

在不同分段方式下進行系統效能的評估，本實驗想要借此了解分段方式是否可以幫助檢索提高準確率。以下是本次實驗的結果（見圖2）。

圖2不同分段方式下的檢索績效由此實驗結果不難發現，固定長度的分段方式比人為分段的方式表現好，而人為分段比利用文件原有段落分段要好。為了更進一步驗證兩者之間的好壞關系，本研究利用T-檢定判定這些方式的好壞。

固定長度對文件段落：H0：固定長度法比文件段落法差。利用P值法，p = 2.66125×10-5，小于0.05。所以否定假設，也就是固定長度法比文件段落法好。

文件段落對人為分段：H0：人為分段法比文件段落法差。利用P值法，p = 5.42802×10-5，小于0.05。所以否定假設，也就是人為分段法比文件段落法好。

人為分段對固定長度：H0：固定長度法比人為分段法差。利用P值法，p = 4.57476×10-5，小于0.05。所以否定假設，也就是固定長度法比人為分段法好。

觀察上圖召回率與準確率的關系可以發現，在召回率較低（0.1～0.2）時，三種方式準確率的差距不會太大。但隨著召回率越來越高，利用文件段落分段與其他兩種分段方式的差距越來越大。這代表了在所有相關的文件段落當中，排名較高的部分所檢索出來的文件數目相差不多。但如果想要取得的相關文件越完整，所必須取得的總文件數也就越多，所花的代價也就越大。

對于這種情況，本研究的推斷是由于利用固定長度進行分段時，為了避免分段時分開意義相連的段落，將固定長度的段落窗口加以重疊。使用此法進行查詢，可能將真正的查詢目標斷成兩段以上，造成系統得以查出許多有意義的段落，但這些段落依照和真正的查詢目標的重疊程度而相關性隨之下降。換句話說，相關的段落與全部段落的數目比率比另兩者要高，造成在整個召回率曲線上，準確率隨之均勻下降。

而利用文件段落進行分段，則有著相反的效果。由于相關的段落并沒有被切開成為數段，造成真正相關的文件段落準確率很高，如同其他兩種方式一般。在召回率為0.1～0.2的范圍內，其實三種方式的準確率差距不大。但很明顯的是，利用文件本身段落作分段的準確率降低極快。這可以說文件段落可以較精確地接近文件作者如何區分自己所要表達意義的不同。因此，對一個查詢條件可以明確地找出含有這些意義的部分，但并不能提高系統認為排名較低的文件段落的排名。

在人為分段的部分，筆者發現這種分段的表現更好。但是在利用單一詞匯進行查詢時效果較差。因此，拖累了整體的表現。筆者認為這種方式比較適合隱性語義檢索進行概念檢索，尤其是在給定一段文字，在文獻庫中尋找相關文字段落的應用上更為適合。

5結語

本研究針對文件分段檢索的問題，利用隱性語義檢索技術，將可能出現的問題以及解決的方案進行探討。在文件分段方式方面，筆者發現，利用文件本身結構進行分段比較能夠接近作者對文件意義的表達。因此，利用文件本身結構進行分段效果較好。

參考文獻：

[1]王慧.基于Lucene語義檢索優化數字圖書館信息服務研究[J].科技情報開發與經濟， 2014（15）：120-122.

[2]Alejandro Molina，Juan-Manuel Torres-Moreno，Eric SanJuan.Discourse Segmentation for Sentence Compression[J].Advances in Artificial Intelligence Lecture Notes in Computer Science，2011（5）：316-327.

[3]Bing Wu，Chen Yan Zhang. Topic Research with Semantics[J].Advanced Materials Research，2013（2）：763-767.

[4]Jing Zou，Ilmari Pyykk.Enhanced oval window and blocked round window passages for middle–inner ear transportation of gadolinium in guinea pigs with a perforated round window membrane[J].European Archives of Oto-Rhino-Laryngology， 2013（11）：65-72.

[5]N.Swarna Jyothi，M. Sailaja.Enhanced TFIDF Algorithm for Text Categorization[J]. Asian Journal of Computer Science & Information Technology，2011（1）：25-34.

[6]董慧，唐敏.語義檢索在Web2.0環境下的應用探討[J].中國圖書館學報，2011（2）： 115-119.

[7]孫志飛.語義檢索在專利文獻檢索中的應用及改進[J].信息技術，2014（5）：127-129.

[8]張文萍，鄧仲華.基于查詢語法擴展的隱性語義關系查詢研究[J].情報雜志，2013（4）：99-101.

（編校：崔萌）

河南圖書館學刊2015年4期

河南圖書館學刊的其它文章: 論清末留日學生譯書活動的原因、內容及影響; 東北解放區工業文獻史料述略（1945.8—1949.10）; 試論民國時期圖書的修復; 日本侵華期間的河南新民藏書機構; 英國公共圖書館兒童服務的發展及啟示; MOOCS環境下高校圖書館的服務創新