摘 要:提出基于用戶查詢行為和查詢擴展的信息檢索模型,給出了設(shè)計思想及其算法和實現(xiàn)的關(guān)鍵技術(shù)。實驗結(jié)果表明,該模型能有效提高信息檢索性能,有很高的實際應(yīng)用價值和廣闊的前景。
關(guān)鍵詞:信息檢索; 查詢擴展; 關(guān)聯(lián)規(guī)則; 查詢行為
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2008)08-2345-04
Efficient model for information retrieval
HUANG Ming-xuan1, ZHANG Shi-chao2, 3
( 1.Dept. of Mathematics Computer Science,Guangxi College of Education, Nanning 530023, China;2. College of Computer Science, Guangxi Normal University, Guilin Guangxi 541004, China; 3.Faculty of Information Technology, University of Technology Sydney, Australia)
Abstract:This paper introduced a novel and efficient information retrieval model based on users’ query behaviors and query expansion. Expounded its design ideology and algorithm. The results of the experiment proposed model improves more precision than the traditional information retrieval methods.
Key words:information retrieval; query expansion; association rule; query behaviors
0 引言
Internet網(wǎng)絡(luò)的飛速發(fā)展致使Web信息急劇膨脹,如何高效、準確地從海量Web信息中尋找到更多所需的信息,一直是信息檢索領(lǐng)域中富有挑戰(zhàn)的課題。針對Web信息的特點,國內(nèi)外出現(xiàn)了許多Web信息檢索工具(即搜索引擎),如Google、百度、Yahoo等。它們在一定程度上緩解了人們檢索Web信息的困難,取得了可喜的成就。然而,現(xiàn)有的搜索引擎卻不能從根本上得到令用戶滿意的檢索結(jié)果。如對于一個查詢表達式,搜索引擎會產(chǎn)生幾十萬甚至更多的檢索結(jié)果,但其中無用的返回信息太多,人們不得不在這個龐大的結(jié)果中繼續(xù)“淘金”。造成這種局面的主要原因是:
a)目前的搜索引擎往往是基于關(guān)鍵詞機械式的字詞符號匹配檢索機制,是一種布爾檢索模型,無法避免信息過載和詞不匹配現(xiàn)象。信息過載的原因是因為海量的Web資源中,凡是包含關(guān)鍵詞的文檔,不管與用戶查詢是否相關(guān)都呈現(xiàn)給用戶;詞不匹配主要是因為查詢詞和文檔索引詞(即特征詞)形式上的差異導致在匹配過程中漏掉很多與查詢相關(guān)的文檔。
b)由于存在大量的同義詞和多義詞,同時用戶提交給搜索引擎的查詢詞又往往不盡規(guī)范,據(jù)統(tǒng)計,兩個人使用同樣的關(guān)鍵詞描述同一對象的概率小于20%[1]??梢姡脩舨樵兒蛯嶋H的檢索意圖以及查詢詞和文檔索引詞常存在較大差異,這就給目前的基于關(guān)鍵詞匹配的搜索引擎檢索系統(tǒng)帶來極大困難,經(jīng)常導致用戶查詢意圖與檢索結(jié)果之間的語義偏差,使檢索結(jié)果中返回的無用信息增多。
c)正如Jansen等學者[2]在對用戶提交給搜索引擎的查詢記錄進行調(diào)查分析的結(jié)果表明,用戶提交的查詢平均長度只有2. 21個檢索詞,而且只有小于4%的用戶的查詢大于6個檢索詞。可見,絕大部分用戶僅僅使用短查詢描述他們的查詢意圖。由于大部分檢索詞都具有歧義性(ambiguity),在使用短查詢檢索時,搜索引擎只能根據(jù)少量的查詢信息對所檢索的文檔作出相關(guān)性判斷,很難對所檢索的文檔作出準確和全面的相關(guān)性判斷,從而導致其檢索性能下降。
為了解決上述問題,改善和提高信息檢索系統(tǒng)的查全率和查準率,使用戶查詢時盡可能多地查到符合查詢意圖的信息,同時盡可能少地出現(xiàn)與查詢語義無關(guān)或者弱相關(guān)的信息,本文提出了一種新的信息檢索模型——基于用戶查詢行為和查詢擴展的信息檢索模型。該模型實行兩次檢索機制,第一次檢索是在不改變用戶查詢信息習慣的情況下,通過搜索引擎對原查詢進行初檢,根據(jù)用戶對初檢文檔的查詢行為(如瀏覽時間長短或者下載操作)判斷文檔與原查詢的相關(guān)性,提取相關(guān)的初檢文檔作為局部相關(guān)文檔集;第二次檢索是采用基于完全加權(quán)詞間關(guān)聯(lián)規(guī)則挖掘的相關(guān)反饋查詢擴展技術(shù)對原查詢進行擴展優(yōu)化,得到查詢擴展后的新查詢,再進行檢索,返回檢索結(jié)果給用戶。
本文提出的信息檢索新模型在檢索信息時能有效地將用戶查詢行為和查詢擴展結(jié)合起來,較傳統(tǒng)的信息檢索系統(tǒng)有以下優(yōu)點:
a)在不改變用戶查詢習慣的情況下,實時跟蹤用戶查詢行為,根據(jù)捕捉到的查詢行為進行文檔相關(guān)性判斷,為下一階段的查詢擴展作準備。
b)在模型中,實行了基于完全加權(quán)關(guān)聯(lián)規(guī)則挖掘的相關(guān)反饋查詢擴展技術(shù),獲得比較合理、更能反映原查詢語義的擴展詞;對原查詢進行擴展優(yōu)化,使檢索性能得到明顯的改善和提高,在查詢精度方面比沒有查詢擴展時提高了29.56%。
c)針對目前基于關(guān)鍵詞匹配機制的搜索引擎,本文提出的信息檢索模型具有很高的應(yīng)用價值和廣闊的前景。
1 相關(guān)研究
在信息檢索系統(tǒng)中使用查詢擴展是改善和提高其檢索性能的關(guān)鍵。查詢擴展指的是利用計算機多種技術(shù),以用戶原查詢?yōu)榛A(chǔ),把與原查詢相關(guān)的詞或者詞組添加到原查詢,得到比原查詢更長的新查詢,以彌補原查詢信息的不足。它的核心問題是如何設(shè)計和利用擴展詞的來源。傳統(tǒng)的查詢擴展技術(shù)主要有全局分析[3~5]、局部分析[6~8]以及基于用戶查詢?nèi)罩?sup>[9]和基于關(guān)聯(lián)規(guī)則挖掘的查詢擴展[10~12]。
基于局部分析的查詢擴展是目前應(yīng)用較廣的查詢擴展方法,它的缺陷在于強烈依賴初檢文檔的相關(guān)性以及對前列n篇文檔中n的選擇具有較強的敏感性。n的變化極易影響檢索性能,其最壞情況是如果初檢結(jié)果的前列文檔與原查詢的相關(guān)程度太低,則經(jīng)過查詢擴展后的檢索性能反而下降。針對這種缺陷,基于用戶相關(guān)反饋的查詢擴展被提出,避免了初檢前列文檔可能存在的不相關(guān)文檔。文獻[7]的研究實驗表明,基于用戶相關(guān)反饋的查詢擴展對檢索性能是有改善和提高的,其缺陷必須有用戶參與,需要用戶對初檢文檔進行相關(guān)性判斷,對那些與原查詢相關(guān)的文檔作標記增加了用戶負擔,尤其對于低級用戶很不方便。
另外,在現(xiàn)有的基于關(guān)聯(lián)規(guī)則挖掘的查詢擴展研究中,多數(shù)是從全局分析的角度進行,也有些是從局部分析的角度進行。然而,基于全局的方法要推廣到實際應(yīng)用層次在目前的技術(shù)環(huán)境下難度很大,因為全局分析下的文檔集必然會很大。由于頻繁項集的數(shù)量是隨著數(shù)據(jù)庫中數(shù)據(jù)項數(shù)目的增加呈指數(shù)增長的,在全局分析下的文本數(shù)據(jù)庫中數(shù)據(jù)項一般都有數(shù)千、甚至到數(shù)萬。因此,即使采取各種剪枝策略,要處理的候選項集和頻繁項集的數(shù)量還是非常多,致使挖掘詞間關(guān)聯(lián)規(guī)則的效率和時間無法讓用戶接受,而用戶查詢信息時都追求速度快、信息全而準。另一方面,現(xiàn)有的研究中很少重視關(guān)聯(lián)規(guī)則的挖掘技術(shù)及其質(zhì)量對查詢擴展檢索性能的影響,更沒有考慮在挖掘詞間關(guān)聯(lián)規(guī)則時其特征詞在不同的事務(wù)文檔記錄中往往有著不同的重要性而引入完全加權(quán)的項權(quán)重。
針對基于局部反饋和用戶相關(guān)反饋以及現(xiàn)有的基于關(guān)聯(lián)規(guī)則挖掘的查詢擴展中存在的不足,在本文的信息檢索模型中,將捕捉用戶查詢行為技術(shù)和基于完全加權(quán)關(guān)聯(lián)規(guī)則挖掘的相關(guān)反饋的查詢擴展作為該模型實現(xiàn)的關(guān)鍵技術(shù),通過捕捉用戶查詢行為自動獲取初檢結(jié)果中的相關(guān)文檔,組成局部相關(guān)文檔集,并進行完全加權(quán)詞間關(guān)聯(lián)規(guī)則挖掘。充分考慮特征詞項在數(shù)據(jù)庫里不同的事務(wù)文檔記錄中存在不同的重要性,引入了完全加權(quán)的項權(quán)值,使所獲得的擴展詞更加實際、合理,更準確地反映原查詢詞的語義。
2 基于用戶查詢行為和查詢擴展的信息檢索模型
2.1 設(shè)計思想
基于用戶查詢行為和查詢擴展的信息檢索模型的設(shè)計思想是:在不改變用戶查詢習慣的情況下,a)由搜索引擎對用戶查詢進行初檢,根據(jù)用戶瀏覽初檢文檔的查詢行為判斷該文檔是否與原查詢相關(guān),提取相關(guān)的文檔組成局部相關(guān)文檔集進行預處理,構(gòu)建基于向量空間模型的文本數(shù)據(jù)庫;b)運用完全加權(quán)關(guān)聯(lián)規(guī)則挖掘算法(AWARM)[13]對相關(guān)文檔進行詞間關(guān)聯(lián)規(guī)則挖掘,構(gòu)造規(guī)則庫,從庫中提取與原查詢相關(guān)的擴展詞添加到原查詢組成新查詢,實現(xiàn)查詢擴展;c)將擴展后的新查詢提交給搜索引擎進行第二次檢索,返回最終檢索結(jié)果給用戶。
2.2 信息檢索模型圖及其模塊功能
根據(jù)上述的設(shè)計思想,給出了如圖1所示的基于用戶查詢行為和查詢擴展的信息檢索模型。
該模型包括四個功能模塊:捕捉用戶瀏覽行為提取相關(guān)文檔模塊、中文語詞預處理模塊、完全加權(quán)關(guān)聯(lián)規(guī)則挖掘模塊和查詢擴展與構(gòu)建新查詢模塊;兩個數(shù)據(jù)庫,即初檢文檔數(shù)據(jù)庫和完全加權(quán)關(guān)聯(lián)規(guī)則庫。
a)捕捉用戶瀏覽行為提取相關(guān)文檔模塊,根據(jù)用戶對初檢文檔是否存在點擊瀏覽行為或者下載操作等查詢行為來判斷該文檔是否是用戶感興趣或者與用戶查詢相關(guān),提取相關(guān)的文檔組成局部相關(guān)文檔集。
b)中文語詞預處理模塊對從捕捉用戶查詢行為提取相關(guān)文檔模塊獲得的局部相關(guān)文檔集進行中文語詞切分、去掉停用詞等預處理,提取特征詞,構(gòu)建基于向量空間模型文本數(shù)據(jù)庫。
c)完全加權(quán)關(guān)聯(lián)規(guī)則挖掘模塊采用AWARM對從捕捉用戶查詢行為提取相關(guān)文檔模塊獲得的局部相關(guān)文檔集進行完全加權(quán)詞間關(guān)聯(lián)規(guī)則挖掘,將含有查詢項的關(guān)聯(lián)規(guī)則入庫。
d)查詢擴展與構(gòu)建新查詢模塊從關(guān)聯(lián)規(guī)則庫中提取與原查詢相關(guān)的后件作為擴展詞,計算擴展詞權(quán)重并排降序;按照排序結(jié)果選取前列m個擴展詞或者選取不低于擴展詞權(quán)值閾值的前列擴展詞添加到原查詢中組成新查詢,實現(xiàn)查詢擴展,將新查詢提交到搜索引擎進行第二次檢索;將最終檢索結(jié)果返回給用戶。
2.3 信息檢索模型中的關(guān)鍵技術(shù)
1)實時跟蹤用戶查詢行為判斷文檔相關(guān)性
一般來說,用戶在搜索引擎上查詢信息時,如果某篇文檔是用戶感興趣的,或者是用戶需要的,或者用戶覺得是和原查詢相關(guān)的,則用戶在這篇文檔上停留的時間會長些,甚至會有下載操作。根據(jù)這樣的事實,可以實時跟蹤用戶對初檢文檔的各種查詢行為來判斷文檔相關(guān)性。具體方法是:將用戶對初檢文檔的點擊瀏覽時間(browse_time)和下載操作(download)作為判斷文檔相關(guān)性的兩個參數(shù),規(guī)定一個點擊瀏覽時間閾值。如果某篇文檔被用戶點擊瀏覽的時間超過了這個閾值或者存在下載操作,則認為該篇文檔是用戶感興趣的,是與原查詢相關(guān)的,應(yīng)該提取出來組成相關(guān)文檔集,作為下一步查詢擴展的擴展詞來源。
2)檢索模型中的查詢擴展思想及其擴展詞權(quán)重計算
在向量空間模型[14]中,將文檔視為事務(wù),將語詞看做事務(wù)項,即特征詞項,就可以對基于向量空間模型的文本數(shù)據(jù)庫進行詞間關(guān)聯(lián)規(guī)則挖掘。本文檢索模型利用AWARM算法對初檢相關(guān)文檔集挖掘與原查詢詞相關(guān)的擴展詞,實現(xiàn)查詢擴展。查詢擴展的核心問題是尋找與原查詢最相關(guān)的擴展詞。針對這個特點,在挖掘規(guī)則時,只挖掘含有原查詢項的完全加權(quán)關(guān)聯(lián)規(guī)則。為此,在AWARM算法剪枝策略的基礎(chǔ)上增加了新的剪枝策略,即從候選2-項集起,將不含原查詢項的候選項集剪掉,只保留含有原查詢項的候選項集。這樣極大地減少了無用候選項集(即不含原查詢項的候選項集)的產(chǎn)生,提高了挖掘效率和查詢擴展的速度。
在本文的檢索模型中采用的查詢擴展思想是:利用AWARM對通過實時跟蹤用戶對初檢文檔的查詢行為獲得的局部相關(guān)文檔集進行完全加權(quán)關(guān)聯(lián)規(guī)則挖掘,提取含有原查詢項的完全加權(quán)關(guān)聯(lián)規(guī)則構(gòu)建規(guī)則庫。將以原查詢詞集合為前件的完全加權(quán)關(guān)聯(lián)規(guī)則后件部分作為擴展詞,根據(jù)所給的擴展詞權(quán)重計算方法計算其權(quán)值,添加到原查詢中組成新查詢,實現(xiàn)查詢擴展。
在查詢擴展中,原查詢項永遠是最重要的,擴展詞的重要性不會高于原查詢語詞。為此,在進行查詢擴展時,原查詢的各個查詢項權(quán)重設(shè)為2。擴展詞的權(quán)值(Wexp)計算方法如下:
Wexp=關(guān)聯(lián)規(guī)則中原查詢項個數(shù)/原查詢中所有查詢項總數(shù)×關(guān)聯(lián)規(guī)則置信度
3 基于用戶查詢行為和查詢擴展的信息檢索算法描述
算法:Information retrieval based on users’ query behaviors and query expansion(簡稱BBQEretrieval算法)
輸入:原查詢Q,awsup和awconf(最小完全加權(quán)支持度和置信度閾值),browseTIME(瀏覽時間閾值),download參數(shù)(是否存在下載操作)和interrelated _number(相關(guān)文檔數(shù)參數(shù))。
輸出:擴展后的檢索結(jié)果。
算法描述:
begin
a)first_Retried_Document=searchEngineRetrieval(Q);
//搜索引擎對用戶查詢Q初檢,返回初檢結(jié)果給用戶
b)interrelated_Document=CatchQueryBehaviors(first_Retried_Document,browseTIME, download, interrelated _number); /*捕捉用戶查詢行為提取初檢相關(guān)文檔,當interrelated_Document _number達到某個常數(shù)(如15或者20等,本文取15)時,轉(zhuǎn)入c)步,否則返回b)步*/
c)item-weighted_Association_Rules=AllWeightedARMining(interrelated_Document,awsup,awconf ); /*用AWARM對相關(guān)文檔集進行完全加權(quán)關(guān)聯(lián)規(guī)則挖掘,挖掘到(查詢項數(shù)+1)-頻繁項集, 提取與原查詢項相關(guān)的強規(guī)則構(gòu)建規(guī)則庫*/
d)expansionTerms=extractExpansionTerms(item-weighted_association_Rules, m);/* 從完全加權(quán)關(guān)聯(lián)規(guī)則中提取與原查詢相關(guān)的擴展詞,計算其權(quán)重并排降序, m為前列擴展詞個數(shù),本文m取30*/
e)qexp=q∪expansion_Terms; /* 將原查詢詞和擴展詞組合成新查詢qexp*/
f)second_retried_document=searchEngineRetrieval (qexp); //將新查詢提交給搜索引擎,進行第二次檢索
g)retrievaled_results_Output(second_Retried_Document);
//輸出最終的檢索結(jié)果給用戶
end
4 實驗設(shè)計及其結(jié)果分析
4.1 數(shù)據(jù)集和評測方法
由于搜索引擎的研究范圍很廣,在本文的實驗中不可能涉及到。本該在搜索引擎上對本文提出的信息檢索模型進行實驗的,現(xiàn)在改由傳統(tǒng)的基于向量空間模型的檢索系統(tǒng)完成。因此本實驗是個模擬實驗。為了測試本文提出的信息檢索模型的檢索性能,從網(wǎng)上下載了720篇論文作為原始測試文檔集;設(shè)計了10個實際的查詢 (Q1,Q2,…,Q10)作為查詢集供實驗用,在原始測試文檔集中通過人工檢索比較,獲得這10個查詢的相關(guān)文檔篇數(shù)。對原始測試文檔集經(jīng)過分詞、去掉停用詞等文檔預處理構(gòu)建基于向量空間模型的文本數(shù)據(jù)庫;對查詢集中的10個查詢也作類似的預處理,得到查詢向量形式。
本文采用的主要評測指標是MAP(mean of average precision)[15],它表示查詢集中每個查詢的平均準確率的算術(shù)平均值。查詢Q的平均準確率avgPrec(Q)根據(jù)如下式子計算:
avgPrec(Q)=(1/RQ)×∑rQi=1i/#docQ(i)(2)
其中:RQ為查詢Q在語料集中的相關(guān)文檔總數(shù); rQ為檢索系統(tǒng)針對查詢Q共檢索出的相關(guān)文檔數(shù):#docQ(i)表示檢索系統(tǒng)針對查詢Q在檢索結(jié)果中的第i篇相關(guān)文檔被檢出時總共被檢索出的文檔數(shù)。實驗中一些參數(shù)值設(shè)定如下:擴展詞數(shù)量設(shè)為30;interrelated_Document _number取15;挖掘時最小完全加權(quán)支持度和置信度閾值都設(shè)為0.01。
4.2 實驗結(jié)果及其分析
編寫了實驗源程序,將本文信息檢索模型的算法(BBQEretrieval算法)、基于局部上下文分析的查詢擴展[8]的檢索算法(LCAQEretrieval算法)和傳統(tǒng)向量空間模型檢索算法(TF*IDF算法)進行檢索性能比較。三種算法分別對所設(shè)計的10個查詢在相同的測試文檔集中進行檢索,統(tǒng)計這10個查詢的平均準確率(MAP),實驗結(jié)果如表1和圖2所示。表1中TF*IDF行表示不進行查詢擴展時的MAP(即初始檢索結(jié)果的檢索性能),其他兩行表示相應(yīng)檢索方法的平均準確率以及與TF*IDF相比時改進的百分比。
表1 檢索性能比較retrieval methodMAP(avgPrec(Q))TF*IDF0.573 9LCAQEretrieval0.620 3(+8.09%)BBQEretrieval0.743 6(+29.56%)從表1和圖2可以看出,在測試數(shù)據(jù)集上,與傳統(tǒng)向量空間模型相比,BBQEretrieval算法和LCAQEretrieval算法的檢索性能都有顯著的提高。然而相比而言,BBQEretrieval算法的平均準確率(即MAP)提高幅度最為明顯,比傳統(tǒng)的向量空間模型算法(TF*IDF)平均提高了29.56% ,比LCAQEretrieval算法的平均提高了19.88% 。實驗結(jié)果表明,本文所提出的信息檢索模型的檢索性能確實獲得了明顯的提高,比傳統(tǒng)的基于局部上下文分析的查詢擴展的檢索算法效果好。其主要原因是在本文檢索模型中,采用實時跟蹤用戶查詢行為判斷初檢文檔相關(guān)性的技術(shù)和基于完全加權(quán)詞間關(guān)聯(lián)規(guī)則挖掘的相關(guān)反饋查詢擴展等關(guān)鍵技術(shù),克服了傳統(tǒng)的信息檢索系統(tǒng)的不足,在不改變用戶查詢信息習慣的情況下,通過捕捉用戶點擊瀏覽行為獲得的局部初檢文檔集基本上都與原查詢相關(guān),或者是用戶感興趣的。另外,由于采用了完全加權(quán)詞間關(guān)聯(lián)規(guī)則挖掘的查詢擴展技術(shù),充分考慮了完全加權(quán)的項權(quán)值,使關(guān)聯(lián)規(guī)則和從中獲得的擴展詞更實際、合理,更能反映原查詢的語義信息,使得具有明顯歧義性的短查詢詞通過擴展詞可以達到消歧作用,同時還能檢索到原始短查詢中所不能檢索到的文檔,使信息檢索性能得到明顯的改善和提高。
5 結(jié)束語
本文針對現(xiàn)有Web信息檢索工具——搜索引擎存在的缺陷,提出了基于用戶查詢行為和查詢擴展的信息檢索模型。該模型實行兩次檢索機制,采用實時跟蹤用戶查詢行為判斷初檢文檔相關(guān)性的技術(shù)和基于完全加權(quán)詞間關(guān)聯(lián)規(guī)則挖掘的相關(guān)反饋查詢擴展等關(guān)鍵技術(shù),克服了傳統(tǒng)的信息檢索系統(tǒng)的不足。實驗結(jié)果表明該模型是有效的,與其他檢索算法比較,其檢索性能有了很大的提高和改善,對提高搜索引擎的檢索精度具有很好的應(yīng)用價值和廣闊的前景。
參考文獻:
[1]FUMAS G W, LANDAUER T K, GOMES L M, et al. The vocabulary problem in human-system communication [J].Communication of ACM, 1987, 30(11): 946-971.
[2]JANSEN B J, SPINK A, BATEMAN J, et al.Real life information retrieval: a study of user queries on the Web[J]. ACM SIGIR Forum, 1998, 32(1): 5-17.
[3]VOORHEES E M. The effectiveness and efficiency of agglomerative hierarchic clustering in document retrieval[D]. New York: Cornell University, 1986.
[4]FUMAS G W, DEEWESTER W, DUMAIS S T, et al. Information retrieval using a singular value decomposition model of latent semantic structure[C]// Proc of the 11th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York: ACM Press, 1988: 465-480.
[5]QIU Yong-gang, FREI H P. Concept based query expansion[C]// Proc of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 1993:160-169.
[6]ATTAR B, FRAENKEL A S. Local feedback in full-text retrieval systems [J]. Journal of the ACM, 1977,24(3): 397-417.
[7]HARMAN D. Relevance feedback revisited[C]// Proc of the 15th Annual International ACM SIGIR Conference on Research and Deve-lopment in Information Retrieval. New York: ACM Press, 1992:1-10.
[8]XU Jin-xi, CROFT W B. Query expansion using local and global document analysis[C]// Proc of the 19th Annual Internationcal ACM SIGIR Conference on Research and Development in Information Rtrievul. New York: ACM Press, 1996: 4-11.
[9]CUI Hang,WEN Ji-rong, NIE Jian-yun, et al.Query expansion by mining user logs[J]. IEEETrans on Knowledge and Data Engineering, 2003,15(4): 829-839.
[10]ZHANG Cheng-qi, QIN Zhen-xing, YAN Xiao-wei. Association-based segmentation for chinese-crossed query expansion[J].IEEE Intelligent Informatics Bulletin,2005,5(1):18-25.
[11]QIN Zhen-xing, LIULi, ZHANG Shi-chao. Mining term association rules for heuristic query construction[C]// Proc of the 8th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mi-ning. Berlin: Springer, 2004: 145-154.
[12]WEI Jie, QIN Zhen-xing, BRESSAN S, et al. Mining term association rules for automatic global query expansion: a case study with to-pic 202 from TREC4[C]// Proc of Americas Conference on Information Systems. 2000.
[13]黃名選,嚴小衛(wèi),張師超. 基于文本庫的完全加權(quán)詞間關(guān)聯(lián)規(guī)則挖掘算法[J].廣西師范大學學報:自然科學版,2007, 25(4): 24-27.
[14]SALTON G, WONG A, YANG C S.A vector space model for automatic indexing [J]. Communications of the ACM,1975,18(5):613-620.
[15]丁國棟, 白碩, 王斌. 一種基于局部共現(xiàn)的查詢擴展方法[J]. 中文信息學報,2006(3):118-127.
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文