楊榮芳
(遼寧葫蘆島92493部隊 125000)
在信息檢索的研究與實踐中一直存在的最主要的不足之處是系統的查全率總是有限的,即用戶只能檢索出部分與其查詢相關的文獻,而不可能檢索出全部相關的文獻[。其主要原因包括自然語言的二義性、用戶需求本身的動態性和模糊性、以及用戶對檢索和文獻集環境認知的局限性等。為使檢索系統更加有效,使檢索結果更好的滿足用戶查詢的要求,通常會采取各種方法對檢索結果對查詢結果進行再次處理,處理策略包括修改,擴展和完善,相關反饋就是被廣泛采用的方法之一[3-4]。
本文通過對實際過程中用戶的檢索行為進行分析,提出將利用用戶輸入關鍵詞組之間的關聯程度來實現用戶信息的相關性反饋,以期二者更大程度的融合,開發更適合于用戶的信息檢索系統。然后在具體“相關反饋”實踐中運用相關技術對WEB查詢系統做出相關優化,促進“相關性”與“相關反饋”的融合。
相關反饋技術基本運行機制擴展到WEB信息檢索領域,可以如下的表述:
對于任何一個檢索式Q,WEB知識源K中的知識可以分為不相關的與相關的兩類,令R為知識源中所有相關知識的集合,S為所有不相關的知識的集合,M為知識檢索系統采用的匹配函數,則檢索所得的知識集可以描述為 {K|M(Q,K) >K},其中T為給定的閥值。一個理想的檢索式Q0應該滿足如下條件:對于任何的K∈S,有M(Q0,K)≤T,對于任何的K∈R,M(Q0,K)>T。相關反饋技術就是要使檢索式逐步逼近Q。具體步驟如下:第一步:由用戶輸入初始檢索式Q1,得到檢索結果集K1={K1|M(Q,K1)>K1},第二步:用戶從K1中選擇出不相關的知識以及相關的知識反饋給系統,第三步:系統根據反饋結果,將相應的標引概念加入檢索式,或者去掉不相關的標引概念,形成新的檢索式Q2,并再次提交,如次反復,直到調整到可以接受的范圍。
相關反饋技術是動態學習用戶知識、建立用戶模型和充分表達用戶需求的一項重要實用技術。主題性相關最突出的優點,就是簡明性以及可操作性;但是目前的系統還無法把握人的主觀感覺[。那么主題性相關的態度就是唯一可行的做法。我們做如下一個假設:如果主題詞提取算法能體現用戶的相關性判斷直覺,那么用戶的相關性判斷就可以被描述,檢索系統的輸出就更加令人滿意,具體見下圖1。

圖1 人機交互模型
將相關行反饋技術應用于支使檢索領域,可以提高檢索的查全率和查準率,可以提高系統的智能化程度。但是將這項技術應用于中文知識化檢索系統的研究還很薄弱,因此本文提出下列的改進方法:
(1)建立系統原型,鼓勵開展知識檢索領域內的隔向高新技術的試驗。
(2)建立開放性的試驗數據庫,如中文詞庫、文檔庫等,為非商業性的研究提供便利。
(3)攝理同意的系統評價標準,對遠行系統和技術成果進行評估,選擇成熟的技術與商業應用相結合。
傳統的全文檢索技術基于關鍵詞匹配進行檢索,往往存在查不準、查不全、檢索質量不高的現象,特別是在網絡時代,利用關鍵詞匹配很難滿足人們檢索的要求。因此本文做如下改進:
(1)合理提高信息的結構化程度:在信息組織階段,這個措施對改善信息檢索的相關性有著非常大的幫助。
(2)普及并提高信息意識和獲取信息的技能:這樣做能夠有效地改善檢索結果,提高用戶相關性。
(3)完善相關度的算法。改善相關性的有效措施是對數量較大的檢索結果進行合理的排序。這是因為相關度的算法影響檢索結果文檔的排序。
(4)通過上下位詞典、主題詞典、相關同級詞典,形成一個概念網絡或知識體系,給予用戶智能知識提示,幫助用戶獲得最佳的檢索效果,最終改善信息檢索的相關性。
(5)智能檢索利同義詞典、用分詞詞典、同音詞典改善檢索的相關性。
相關性反饋時,假如數據庫中的關鍵詞連接已經生成一部分,例如“會議視頻”和“資料”已經相關聯,其中還有其他的關聯性。在此條件下,WEB檢索系統的實驗數據如下:

表1 查詢結果表
上面的表格可以看出,建立了有意義的關聯后,我們可以根據關聯的關鍵詞找到更多的符合用戶需求的搜索結果。下面將量化對比分析關聯后的檢索結果:
通過率:檢索到的相關文檔 / 庫中所有的相關文檔
準確率:檢索到的相關文檔 / 所有被檢索到的文檔
“通過率”與“準確率”雖然沒有必然的關系(從上面公式中可以看到),然而在大規模數據集合中,這兩個指標卻是相互制約的。由于“檢索策略”并不完美,希望更多相關的文檔被檢索到時,放寬“檢索策略”時,往往也會伴隨出現一些不相關的結果,從而使準確率受到影響。而希望去除檢索結果中的不相關文檔時,務必要將“檢索策略”定的更加嚴格,這樣也會使有一些相關的文檔不再能被檢索到,從而使召回率受到影響。凡是設計到大規模數據集合的檢索和選取,都涉及到“通過率”和“準確率”這兩個指標。而由于兩個指標相互制約,我們通常也會根據需要為“檢索策略”選擇一個合適的度,不能太嚴格也不能太松,尋求在通過率和準確率中間的一個平衡點。這個平衡點由具體需求決定。有無相關性準確率和通過率如下:

表2 無相關性的準確率和通過率

表3 有相關性的準確率和通過率
本文首先對相關性與相關反饋進行介紹,并對實際過程中用戶的檢索行為行進分析,提出將利用用戶輸入關鍵詞組之間的關聯程度來實現用戶信息的相關性反饋,以期二者更大程度的融合,開發更適合于用戶的信息檢索系統。
[1]莫祖英,信息檢索中的相關性,情報探索,2006;
[2]艾丹祥,張玉峰,相關反饋技術在知識檢索中的應用,情報科學,2003;
[3]劉紹翰,王箭,黃志球.改進的向量質心模型在實時信息檢索中的應用研究[J].計算機應用與軟件,2011,28(10):62-64,76
[4]石艷霞,信息檢索中“相關性”與相關反饋研究概述.晉圖學刊,2002;
[5]陸小輝,簡論信息檢索的相關性,科技文獻信息管理,2006;
[6]Bo Xu,Qing Guan,Ke Chen.Multi-Agent Coalition Formation Based on Quantum-behaved Particle Swarm Optimization [J].Journal of Information &Computational Science,2010,7(5):1059-1064
[7]夏詠梅.淺析信息檢索評價中相關性問題的內涵,情報雜志,2003;
[8]魯珂,趙繼東,丁正明,等.一種基于近鄰保留的相關反饋圖像檢索算法[J].計算機科學,2012,1(3):281-284
[9]王彪,高光來.基于界模型的真相關反饋信息檢索[J].東南大學學報:自然科學版,2010,40(2):301-306
[10]嚴華云,劉其平,肖良軍.信息檢索中的相關反饋技術綜述[J].計算機應用研究,2009,26(1):11-14
[11]周博,岑榮偉,劉奕群.一種基于文檔相似度的檢索結果重排序方法[J].中文信息學報,2010,24(3):19-23,36