999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于子主題選擇與三級分層結構的Web文本挖掘方法

2016-11-20 02:55:31史玉珍單冬紅
電信科學 2016年5期
關鍵詞:排序方法

史玉珍,單冬紅

(平頂山學院軟件學院,河南 平頂山 467000)

基于子主題選擇與三級分層結構的Web文本挖掘方法

史玉珍,單冬紅

(平頂山學院軟件學院,河南 平頂山 467000)

針對用戶和查詢之間的意圖差距導致的查詢模糊寬泛和數據稀疏問題,根據流行性和多樣性返回可能子主題的排名列表,利用子主題選擇與排序的分層結構進行Web文本挖掘。首先,在名詞性短語和可替代部分查詢的基礎上,使用簡單模式提取各種相關的短語作為候選子主題;然后,使用網頁文檔集合中的相關文檔構建候選子主題的三級層次結構;最后,綜合考慮流行性和多樣性,利用該結構和估計的流行度進行排序。實驗使用了NTCIR-9庫的100個日文查詢和來自TREC 2009庫的100個英文查詢以及網絡跟蹤多樣性任務,實驗結果驗證了本文方法可有效應用于各種搜索,對于高排名的子主題挖掘優于外部資源。

數據稀疏;文本挖掘;層次結構;多樣性;流行性

1 引言

智能設備的出現大大影響了網絡搜索環境,不同于PC時代,現在需要加強搜索服務,以獲得準確的搜索結果,因為當代用戶更傾向于在個人環境中簡化查詢。事實上,很多網絡查詢模糊不清,一些用戶無法選擇合適的關鍵詞進行搜索,也有些用戶省略了搜索所需的關鍵信息[1]。用戶意圖和查詢之間的差距導致了查詢結果模糊寬泛[2]。在模糊查詢[2]中,用戶獲取的結果可能與意圖完全不同;而對于寬泛查詢[3]來說,用戶獲取的結果不如預期的具體。雖然網絡搜索引擎已經提供查詢建議服務,幫助用戶探索和表達自己查詢所需的信息[4]。但是,查詢建議并沒有明確考慮建議查詢的流行性和多樣性,因此這方面的研究很有現實意義。

子主題挖掘與查詢建議緊密相關,這是因為子主題和查詢建議獲取的結果相似。通常情況下,建議使用查詢日志的查詢方法。將經常共同出現在相同搜索場景的查詢看作相關查詢[5],通過歷史點擊數據找到相似的查詢,這些相似的查詢通常共享大量的點擊網址[6]。并利用<查詢,點擊鏈接>二分圖內建議查詢之間的相似性分析來提高多樣 性[7]。

除了查詢日志外,也使用鏈接文本和外部資源[8],并將<鏈接文本,點擊鏈接>看作<查詢,點擊鏈接>,來彌補數據稀疏[9]。參考文獻[4]使用網絡文檔語料庫中的共生詞語,該方法建議包含原始查詢中靠前詞語的新查詢及靠后詞語的短語,但是,因為n元語法詞語,這些建議查詢可能是不完整的短語。

NTCIR-9子主題挖掘任務推動了中日兩種語言不同方法的發展。給中文(SougouT)和日文(ClueWeb09-JA)提供了網絡文檔集,但是只給中文查詢(SougouQ)提供了日志。為了獲取高水平性能,參與者使用網絡搜索引擎(如百度、谷歌和雅虎)的建議查詢和查詢日志[10,11]。然而,日文的子主題挖掘任務在只使用外部資源網絡文檔的情況下,才能獲得最佳性能。參考文獻[12]使用從網絡文檔中提取出來的鏈接和鏈接文本,并不依賴于任何其他資源。但是由于這些候選子主題必須與查詢匹配,會出現數據稀疏問題。

之前大多數的研究都依靠查詢日志來發現子主題,這樣會因為查詢日志中很少或不存在罕見的查詢主題而出現數據稀疏。此外,流行性和多樣性并不成比例。而好的子主題必須與給定查詢相關,同時需滿足高流行性和高多樣性。

為了解決這些問題,本文在相關文檔的基礎上通過候選子主題的簡單模式和分層結構來挖掘子主題。其主要貢獻如下:

·只使用網絡文檔集,而不是查詢日志和外部資源;

·為了找到各種各樣的相關候選子主題,盡可能多地從網絡文檔中提取“可理解”語句,這些語句通過簡單模式與原始查詢完全或部分匹配;

·本文的分層結構可以保持流行性和多樣性之間的平衡。

2 提出的方法

本文方法包括兩個步驟,如下所述。

(1)子主題提取

子主題提取是從網絡文檔中盡可能多地提取各式各樣的相關候選子主題。根據名詞短語和可部分替換的查詢創建簡單模式,然后用這些模式找到候選子主題,最后通過過濾,降低相似候選子主題的冗余度。

(2)子主題排序

子主題排序是在考慮多樣性和流行性之間平衡的基礎上將子主題排序。在相關文檔的基礎上,給提取出來的候選子主題創建分層結構,并根據結構和流行性對子主題進行排序。

2.1 簡單模式下的子主題提取

在開始階段中,最重要的事情是盡可能正確地提取各式各樣的候選子主題,一旦提取出不相關或不完整的短語作為候選子主題,在下一階段中將會受到這些錯誤的影響,即錯誤傳播。相反,如果在較高標準下提取候選子主題就會提高準確性,但也會出現一些問題,如數據稀疏、多樣性低等。因此本文在相對寬松的標準下提取候選子主題,假設這些子主題都包含原始查詢和至少一個使原始查詢更具體的名詞短語。根據這一假設,只考慮包含原始查詢的名詞短語,這些短語必須比原始查詢表述得更具體。由于名詞和真實查詢詞語之間的比例遠高于其他詞類[13],從名詞中提取出來的各式各樣的候選子主題可變為新查詢,對發現給定查詢隱藏的查詢意圖很有幫助。

從語法角度來說,短語的主導詞是決定句法類型的詞語,短語中其他詞稱為修飾詞。主導詞和修飾詞之間的關系對句法分析起到重要作用。將子主題的結構定義如下:

·名詞短語+可選的其他詞+查詢+可選的其他詞+名詞短語;

·查詢+可選的其他詞+名詞短語;

·名詞短語+可選的其他詞+查詢。

這些結構都包含距查詢最近的名詞短語,因此它們可以在不使用句法分析的情況下盡可能多地滿足主導詞—修飾詞之間的關系。為了提取合適的能滿足該結構的候選子主題,設計的簡單模式如下。

其中,“?”代表“0”或“1”,“+”代表“≥1”,* 代表“≥0”。

為了使該模式的實用性更強,對“(形容詞)?(名詞)”中名詞短語的形式進行了限制,對名詞以外的其他詞語進行設定。將模式1應用到查詢的前1 000個相關文檔中,由BM25模型[14]提取。因為該模式包含真實的短語和文檔中的完整查詢及名詞短語,所以發現的候選子主題都與之相關。比如,句子“我們提供糙米粥的飲食食譜”,如果查詢是“飲食”,使用模式1提取出來的候選子主題是“糙米粥的飲食食譜”。

如果查詢包含≥2個詞語,模式1并不足以將各種樣式的候選子主題提取完整,因為候選子主題和查詢之間的完整匹配減少。為了改善這一缺陷,在原始查詢中使用可部分替換的查詢qleft和qright進行部分查詢。首先連續刪除查詢的右邊詞語產生所有可能的左邊部分短語,針對每一個短語,提取前N位的相關文檔并與原始查詢比較。如果這些文檔與原始查詢有超過50%的相同度,那么該左邊部分短語就是可部分替換查詢qleft的候選。在包含文檔最多的候選中,選出最短的qleft來提高匹配的可能性。如果沒有包含超過50%相關文檔的候選短語,選取最長的短語qleft,因為這樣可以包含最多的查詢信息。同理,右邊部分查詢qright選取方法相似。所以每個原始查詢只有一個qleft和qright。用qleft和qright代替查詢,創建新的簡單模式如下:

值得注意的是,qright前面和qleft附近的名詞短語并沒有反映在模式中,因為可應用的名詞短語的范圍未知,使用新的模式從檢索文檔中提取不同短語,比如,句子“你必須注意飲食的副作用”。如果查詢的是“粥飲食”,用模式3找出的子主題為“粥飲食的副作用”。即使這些子主題并不是文檔中真實的短語,仍可以降低數據稀疏度,并提高多樣性。

為了降低冗余度,過濾相似的子主題。設snp是每一個子主題開始或末端的名詞短語“(形容詞)?(名詞)+”中的一組詞匯。如果有不少于兩個候選子主題有完全相同的snp,則認為它們相似,因為snp包含重要的關鍵詞,正是這些關鍵詞決定了每一個子主題的意義。所以將相似子主題的頻率信息合并,并選擇其中頻率最高的候選子主題,該頻率反映了用戶的喜好程度。比如,假設給定的查詢“粥飲食”有3個頻率較高的候選子主題:<“米粥的飲食食譜,”9>、<“米粥所有的飲食食譜,”9>和<“加米的粥飲食食譜,”7>。因為這些這些候選子主題有相同的snp{食譜,米},將頻率信息合并,如9+9+7=25,然后選擇“米粥的飲食食譜”。最后,如果候選子主題的頻率小于閾值(實驗設置為3),該候選子主題將被排除在外,因為在實際文檔中基本不出現。

2.2 使用子主題的分層結構排序

對于給定的查詢,若使用排序的方法,其候選子主題的數量十分有限,因為用戶并不想看到太多的子主題。然而,若僅依靠子主題的流行性來排序,大多數排序靠前的子主題極可能只包含一小部分的搜索意圖。相反,若僅依靠子主題的多樣性來排序,普通用戶可能對排序靠前的子主題并不感興趣,因為其流行性可能較低。因此,本文提出子主題的三級分層結構,獲取數量相對較小的子主題,但是這些子主題涵蓋了原始查詢各式各樣的搜索意圖。

將查詢的子主題組織成層級結構。如果查詢模糊不清,有不少于兩個子主題,會變成查詢(根部)的語句子輩(層級1),更具體的子主題是孫輩(層級2)。因為可能的查詢搜索意圖不斷縮小,層次結構的深度加深,由此可知高層級的子主題反映查詢更廣泛的搜索意圖,層級較低對應的范圍較窄。

相比低層級而言,少數層級較高的子主題包含了查詢全部的意圖。如果任一高層級子主題的搜索意圖不夠具體,其子節點(子主題)對涵蓋更具體的搜索意圖用途很大。然而,這種結構有時候會太具體,為了簡單起見,本文提出子主題的三層分層結構,如圖1所示。給定查詢為根,子節點為“主要子主題”,每一個葉節點為“次級子主題”。主要子主題對搜索意圖進行去歧化和具體化,也可能會選取一組主要子主題來滿足搜索意圖較高的多樣性。次級子主題更加具體,縮小了主要子主題搜索意圖的范圍,滿足了主要子主題搜索意圖的多樣性。

圖1 子主題的三級層次結構

為了創建所提出的分層結構,假設與給定查詢相關度較高的文檔代表了用戶所有可能的搜索意圖,文檔中候選子主題代表了一些搜索意圖。一個主要候選子主題必須滿足兩個條件。首先,能包含許多高相關文檔,從而反映較廣泛的搜索意圖。一般情況下每個相關文檔只有一個主要子主題。因此,包含主要子主題的一組相關文檔(如圖2中集合A)很少與包含其他子主題的其他集合重疊。而且,該文檔集可能包含一些子集 (如圖 2中集 A-1、A-2、A-1-1和A-1-2),從相應文檔集重疊的角度來看,主要子主題和次級子主題或其他子主題截然不同,主要子主題的文檔集比其他文檔集的清晰度更高。

本文提出了評分衡量(selection score,SS)法,這一參數核實候選子主題包含高相關文檔的數量以及相應的文檔集與其他的不同之處為:

其中,st是候選子主題,ST是從查詢排名前N的相關文檔中提取出來所有候選子主題的集合;D(st)是包含查詢排名前N的相關文檔中的st文檔集合;US是聯合文檔集,包含之前選出的主要子主題;USc是US集合的補集。

在上述SS測量中,將覆蓋率和清晰度因素加和,從而避免選擇偏見,為了包含新的高相關文檔(隱藏的搜索意圖),這些文檔并不包含在之前的主要子主題中。接著,再測量文檔集的清晰度,本文選擇了清晰度熵(distinctness entropy,DE)的方法[15]。

圖2 查詢“莫扎特”的相關文檔集

這里將傳統的文檔聚類問題轉換為短語排序問題。因為文檔聚類中存在差異巨大的文檔聚類,所以為了保證文檔聚類應用與所提出方法的各個步驟對應,在處理過程中添加了一些額外操作,即提取候選子主題,用子主題為聚類命名,并按照聚類間差異進行排序。

如前文所述,主要子主題和次級子主題分組都是相對較小的分組,用以滿足父節點的多樣性搜索意圖,在主要子主題和次級子主題之間存在著繼承的流行度。基于這些特點,本文給出了一種依賴于三級層次結構的子主題排序序列,用以平衡子主題的流行度和多樣性(如圖3所示)。首先對主要子主題進行排序,通過少量子主題實現高多樣性。然后選擇首次排序的主要子主題的次級子主題,須考慮該節點與父節點間的流行度以及此節點搜索意圖的多樣性。繼而,在下一次循環中對主要子主題排序后,按流行度對其次級子主題進行排序。此外,經排序的主要子主題和次級子主題數量小于目標數量時,其他子主題按照流行度排序,直接添加到經排序的子主題隊尾。算法1和算法2描述了子主題篩選和排序的過程。

圖3 子主題分組滿足父節點多樣性搜索意圖

算法1 子主題選擇

輸入:文檔集合R,和子主題候選集合ST

輸出:子主題順序列表L

算法2 子主題排序

輸入:給定的前N個相關文檔集HRquery,從HRquery提取的所有候選子主題集STall和子主題數量K

輸出:最終的子主題排列列表Lfinal

3 子主題流行度估算

在網絡搜索環境中,流行度與重要程度相關。因為如果消息是重要的,則表明有大量用戶對此感興趣。因此,本文通過關注子主題的重要性來估計它們的流行度。子主題重要性衡量基于的假設是:如果在給定查詢時,某一子主題是許多相關文檔的重要短語,那么它就具有高重要性。本文采用詞頻—逆向文檔頻率(TF-IDF)表示目標詞在文檔中的重要性。子主題(st)和查詢目標相關文檔集(Rquery)用于TF-IDF的完整語料庫。計算TF-IDF累加和與Rquery中的所有相關文檔作為st的重要性,計算方式如下:

其中,freq(st,doc)是文檔 st中 doc 的頻率。D(st,Rquery)表示Rquery中包含st的文檔集。

由于文檔比子主題包含更多的信息,如果在估計子主題流行度時,額外考慮相關文檔的重要性,將會得到區分度更高的子主題流行度。與查詢高相關的文檔包含更多關聯信息,即這些文檔對用戶查詢很重要。因此,假設流行度高的子主題能夠檢索到更重要的文檔,就可用文檔覆蓋率函數(DC)來檢測高相關子主題文檔覆蓋查詢隊列相關文檔的數量。

HRst和HRquery分別是st與查詢的前N個最高相關文檔集。DSst(doc)和 DSquery(doc)分別是兩者文檔經 BM 25 模型計算得到的排序評分。

權重值是子主題與相關文檔的關聯度,用來標記文檔的重要性和重要度評分。如果子主題與某文檔高度相關,則給該文檔的評分分配高權值。每個子主題的最終評分(Score)由STFIDF和DC的線性組合表示:

4 實驗及分析

4.1 實驗數據集及參數設置

為了進行實驗評估,本文挖掘了來自NTCIR-9庫的100個日文查詢和來自TREC 2009庫的100個英文查詢子主題和網絡跟蹤多樣性任務,在TREC中,每個查詢都有若干個子主題描述,用以描述其代表的搜索意圖。網絡跟蹤多樣性任務沒有提供關于搜索意圖的流行度信息。因此,評估人員手動將每個挖掘子主題歸類為同一意圖。如果兩個評估人員都認為某一子主題不能歸入同一類,則丟棄它。

給定的日文和英文查詢意圖平均評分為10.91和4.60。實驗僅使用日文文檔集ClueWeb09-JA和英文文檔集TREC的B類。實驗使用日文MeCab POS標簽和英文Stanford POS標簽,執行名詞短語劃分和識別,用PROP-x-y標志,其中,x 是語言參數,如“J(日文)”或“E(英文)”;y 是方案參數,如“PT”、“HR”、“DC”或“DCA”。基本方案 PT 使用了最簡單模式和 STFIDF (式 (3)),主要方案 HR、DC和DAC同時使用了簡單模式和子主題層次結構。為了評估流行度,HR僅使用了STFIDF,但是DC和DAC同時使用了STFIDF 和 DC(式(4))。評分中的 λ 設置為 0.5(式(5)),為了避免過度處理,限制最高相關文檔數量N為200。

4.2 結果和討論

表1~表3中的粗體表示所有方法中的最佳結果,灰色背景區域表示本文方法的結果;在0.01/0.05級的統計意義采用標識Q/q、A/a、B/b 區 分,分別表示基于基準BASE-J/E-QS、BASE-J/E-AC、BASE-J/E-BP 的改進結果。正如表中所示,在前10、20、30子主題搜索中,本文方法優于基準方法。本文的主要方案間的執行方式不一樣,并且基準只具有統計意義。D#-nDCG均值表示的日文意義概率(t-test,2-tailed)為 0.05、0.004 和 0.009(p<0.01);英 文 為0.019、0.003 和 0.004(p<0.05)。在日文和英文的前 10 個子主題中,D#-nDCG均值結果表明,HR、DC和DAC能夠使用少量(前10個)子主題覆蓋查詢的各種搜索意圖,并能夠適當地維護流行性和多樣性平衡。對兩種語言而言,與基準BASE-J-BP、BASE-E-QS 比 較 ,PROP-J-DCA和PROP-E-DC是最好的。當D#-nDCG@10時,本文最好的方法提高了9.96%和4.63%。

英文方面,通過使用DC,設置評分中的λ為0.5,得到最好的整體結果。均值D#-nDCG結果表明,當λ值介于0.1和0.7之間時,結果會更好(如圖4(b)所示),即子主題可從相關文檔的重要性中獲得合適的可區分流行度。然而,在日文子主題中,盡管DCA方案獲得了最好的結果,但與HR結果沒有顯著的不同,當λ值較大時,D#-nDCG均值減小(如圖 4(a)所示)。

表2 基準結果和本文方法對日英文排名前20個子主題的搜索結果

此外,日文查詢中的最好方法甚至優于EXT-AC,該方法使用了來自微軟內部網絡搜索平臺的外部網絡文檔。即通過使用附加的網絡文檔,本文方法可以更有效地利用有限的資源,并有可能獲得更高的性能。同時,因為DC和DCA更關注子主題的流行度,所以前10個子主題并沒有包含對多樣性影響很大的子主題。

表3 基準結果和本文方法對日英文排名前30個子主題的搜索結果

圖4 日文和英文結果的前K個子主題的D#-nDCG均值與評分λ值比較

在每種語言的前10、20、30個子主題中,D#-nDCG均值持續改進,這意味著在考慮流行度和多樣性平衡時,主要方案可以提取更多相關和多樣性的子主題。當與最好的基準BASE-J-BP/QS和 BASE-E-QS比較時,PROP-J-DCA和PROP-E-DC的 D#-nDCG@20/30均值分別改進了 11.10/10.89%和 6.75/6.31%。

英文方面,通過使用DC,設置評分中的 λ為 0.5,得到最好的整體結果。在前20、30個子主題中,DCA方法取得了比HR更好的效果。此外,基于各種λ值(從0.0到1.0,步長為 0.1),均值 D#-nDCG結果表明,當 λ 值介于0.1和0.7之間時,結果會更好(如圖5(b)所示),即子主題可從相關文檔的重要性中獲得合適的可區分流行度。然而,在日文子主題中,盡管DCA方案獲得了最好結果,但與HR結果沒有顯著的不同;在所有案例中,DC沒有比HR執行得更好。此外,當λ值較大時,D#-nDCG均值減小(如圖5(a)所示)。由于存在大量無用的術語,這導致了較低的查詢性能。

此外,在日文和英文查詢中,通過設置查詢的對應評分λ值,DCA方法分別取得了最好的和相對較好的搜索性能。然而,該方案僅考慮了子主題的表面信息,不足以決策更合適的DC和STFIDF的權重。深入分析評估結果可知:當相關文檔具有多個意圖時,DC方法更有優勢,而STFIDF適合于只有一個搜索意圖的文檔。為每個查詢檢查PROP-J-DC和PROPE-DC的D#-nDCG,發現許多查詢比PROP-J-HR性能高,卻比PROP-E-HR性能低。使用DC的查詢都獲得了高性能,在相關文檔中,會有兩個或多個具有不同搜索意圖的子主題以高頻率同時出現,但是其他查詢的子主題卻沒有遵循此模式。因此,通過給定更合適的DC權重和基于STFIDF來判斷相關文檔是否具有多個意圖,來獲得更好的子主題挖掘性能。

在前 10、20、30個子主題中,本文方法在 I-rec和D-nDCG均值中持續獲得良好性能。即本文方法按照子主題的相關度、流行性和多樣性來確保子主題的挖掘性能。與最好的基準比較,檢索日文時,I-rec@10、I-rec@20、I-rec@30、D-nDCG@10、D-nDCG@20 和 D-nDCG@30 均值獲得改善程度為 9.63%、13.07%、14.52%、10.30%、8.52%和5.76%;英文則為 8.84%、10.53%、10.26%、0.81%、2.67%和1.73%。綜上所述,在提取子主題階段,簡單模式是有用的,在查找各種相關子主題時也是有效的。在子主題排序階段,本文的層次結構在平衡流行度和多樣性方面有良好的效果,因為與其他方法相比,HR、DC和DCA的結果最佳。

5 結束語

本文提出了一種基于簡單模式的子主題挖掘方法和一種層次結構候選子主題,在日文和英文搜索中采用了網絡文檔。在提取子主題階段,各種相關候選子主題使用名詞短語和替代部分查詢的簡單模式。在子主題排序階段,構建候選子主題的三級層次結構,并用該結構和估計的流行度進行排序。在實驗中,在前10個子主題中,文中所提出方法性能均優于基準,甚至優于使用外部網絡文檔的方法。即本文方法只需少量維持流行度和多樣平衡的子主題便可覆蓋查詢的各種搜索意圖。在前20、30個子主題中,搜索結果穩步提升,這是因為提取的相關的和多樣性的子主題越來越多。

在今后研究中,仍有進一步改進的空間,例如精煉候選子主題,為每種語言設計合適的排序方法,將本文方法與資源開放型方法結合。此外,子主題的復雜評估也是一個重要問題,尤其是在平衡多樣性和流行度方面。

[1]唐曉波,肖璐.基于單句粒度的微博主題挖掘研究 [J].情報學報,2014,33(6):214-219.TANG X B,XIAO L.Research of micro-blog topics mining based on sentence granularity[J].Journal of the China Society for Scientific and TechnicalInformation, 2014, 33 (6):214-219.

[2]田宇辰.專業搜索引擎的無日志查詢推薦機制研究及實現[D].廣州:華南理工大學,2014.TIAN Y C.Research and implementation of non log query recommendation mechanism for professional search engine [D].Guangzhou:South China University of Technology,2014.

[3]李勝浩.基于MapReduce的Web文本挖掘系統的研究與實現[D].北京:北京郵電大學,2013.LI S H.Research and implementation of Web text mining system based on MapReduce [D].Beijing:Beijing University of Posts and Telecommunications,2013.

[4]BHATIA S,MAJUMDAR D,MITRA P.Query suggestions in theabsenceofquerylogs [C]/InternationalACM SIGIR Conference on Research & Development in Information Retrieval,July 24-28,2011,Beijing,China.NewYork:ACM Press,2011:795-804.

[5]HE J,HOLLINK V,DE VRIES A.Combining implicit and explicit topic representations for result diversification [C]/The 35th international ACM SIGIR conference on Research and development in information retrieval,August 12-16, 2012,Poreland, OR,USA.New York:ACM Press,2012:851-860.

[6]肖璐,唐曉波.基于句子成分的微博熱點主題挖掘模型研究[J].情報科學,2015,35(11):137-141.XIAO L,TANG X B.Research on micro-blog hot topic mining model based on sentence composition [J].Journal of the China Society for Scientific and Technical Information,2015,35(11):137-141.

[7]ZHU X,GUO J,CHENG X,et al.A unified framework for recommending diverse and relevant queries [C]/World Wide Web Conference Series,March 28-April 1,2011,Hyderabad,India.New York:ACM Press,2011:37-46.

[8] KIM S J,SHIN K Y,LEE J H.Hierarchical subtopic mining for topic annotation [C]/The 6th international workshop on exploiting semantic annotations in information retrieval,October 28,2013,San Francisco,CA,USA.New York:ACM Press,2013:49-52.

[9]劉少鵬,印鑒,歐陽佳,等.基于MB-HDP模型的微博主題挖掘[J].計算機學報,2015,42(7):1408-1419.LIU S P,YIN J,OU-YANG J,et al.Topic mining from microblogs based on MB-HDP model [J].Chinese Journal of Computers,2015,42(7):1408-1419.

[10]岑榮偉,劉奕群,張敏,等.基于日志挖掘的搜索引擎用戶行為分析[J].中文信息學報,2010,24(3):49-54.CEN R W,LIU Y Q,ZHANG M,et al.User behavior analysis of search engine based on log mining [J].Journal of Chinese Information Processing,2010,24(3):49-54.

[11]譚彩麗.基于主題相關博客的屬性挖掘模型設計 [D].北京:北京郵電大學,2011.TAN C L.Design of attribute mining model based on topic related blog [D].Beijing:Beijing University of Posts and Telecommunications,2011.

[12]DANG V,CROFT B W.Term level search result diversification[C]//International ACM SIGIR Conference on Research &Development in Information Retrieval,July 28-August 1,2013,Dublin,Ireland.New York:ACM Press,2013:603-612.

[13 曾依靈,許洪波,白碩.網絡文本主題詞的提取與組織研究[J].中文信息學報,2008,22(3):64-70.ZENG Y L,XU H B,BAI S.Research on the extraction and organization of Web text topic words [J].Journal of Chinese Information Processing,2008,22(3):64-70.

[14]劉德喜,萬常選,劉喜平,等.基于結點權重模型的XML片段檢索策略[J].計算機學報,2013,36(8):1729-1744.LIU D X,WAN C X,LIU X P,et al.XML fragment retrieval strategy based on node weight model [J].Chinese Journal of Computers,2013,36(8):1729-1744.

[15]劉志勇,耿新青.基于模糊聚類的文本挖掘算法 [J].計算機工程,2009,35(5):44-45.LIU Z Y,GENG X Q.Text mining algorithm based on fuzzy clustering[J].Computer Engineering,2009,35(5):44-45.

Web text mining method based on subtopic selection and three-level stratified structure

SHI Yuzhen,SHAN Donghong
School of Software,Pingdingshan University,Pingdingshan 467000,China

As the problem of fuzzy inquiry and data sparseness cased by intention gap between users and queries,according to the ranking list of possible subtopic from popularity and diversity,subtopic selection and sorting of stratified structure were used for web text mining.Firstly,on the basic of noun phrase and substitute of part query,a simple model was used to extract a variety of related phrases as candidate subtopic.Then,related documents of a web document collection were used to build three-level stratified structure of candidate subtopic.Finally,considering popularity and diversity,the stratified structure and estimated popularity were applied for sorting.Based on 100 Japanese queries from NTCIR-9 library,100 English queries from TREC 2009 library and network tracking diversity task,experiments verify that the proposed method can be effectively applied to a variety of search,and the proposed mining is better than external resources for high ranking subtopics.

data sparseness,text mining,stratified structure,diversity,popularity

Key Project of Science and Technology Department in Henan Province (No.142102210226)

TP391

A

10.11959/j.issn.1000-0801.2016142

2016-03-03;

2016-05-08

河南省科技廳科技重點攻關項目(No.142102210226)

史玉珍(1975-),女,平頂山學院副教授,主要從事Web數據挖掘、社團發現方面的研究工作。

單冬紅(1976-),女,平頂山學院副教授,主要從事數據挖掘方面的研究工作。

猜你喜歡
排序方法
排排序
排序不等式
恐怖排序
學習方法
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 五月天久久综合| 性网站在线观看| 亚洲中文字幕日产无码2021| 久久久受www免费人成| 2021天堂在线亚洲精品专区| 无码日韩精品91超碰| 亚洲人精品亚洲人成在线| 中文字幕在线免费看| 欧美亚洲日韩不卡在线在线观看| 日韩无码视频播放| 丝袜久久剧情精品国产| 怡春院欧美一区二区三区免费| 日本成人一区| 91视频青青草| 国产亚洲欧美日韩在线一区二区三区| 色呦呦手机在线精品| 欧美性天天| 午夜无码一区二区三区| 国产乱子伦视频在线播放| 欧美曰批视频免费播放免费| 欧美精品成人一区二区视频一| 色妞www精品视频一级下载| 日本不卡免费高清视频| 亚洲人成色在线观看| a在线观看免费| 91在线视频福利| 奇米影视狠狠精品7777| yy6080理论大片一级久久| 国产成人无码久久久久毛片| 亚洲综合18p| 国产日韩丝袜一二三区| 免费观看亚洲人成网站| 丰满人妻久久中文字幕| 国产高清精品在线91| 91成人在线观看| 老色鬼久久亚洲AV综合| 精品国产黑色丝袜高跟鞋| 国产美女无遮挡免费视频| 亚洲欧美国产五月天综合| 久久综合婷婷| 女人爽到高潮免费视频大全| 98超碰在线观看| 亚洲成人精品久久| 日韩中文字幕免费在线观看| 又粗又大又爽又紧免费视频| 乱人伦99久久| 91久久精品日日躁夜夜躁欧美| 亚洲性影院| 99久久国产综合精品2020| 午夜激情福利视频| 国产自在线拍| 国产日韩精品欧美一区喷| 国产青青草视频| 国产精品女在线观看| 日本一本正道综合久久dvd | 亚洲免费播放| 中文字幕亚洲电影| 免费国产在线精品一区| 久久人妻xunleige无码| 亚洲国产成熟视频在线多多| 香蕉国产精品视频| 国产精品亚洲精品爽爽| 亚洲九九视频| 久久青草热| 国产毛片高清一级国语| 亚洲综合网在线观看| 国产剧情国内精品原创| 国产男人天堂| 国产成人8x视频一区二区| 日韩天堂在线观看| 久久国产精品夜色| 在线99视频| 欧美日韩免费| 99在线视频免费| 国产一在线观看| 国产精品内射视频| 色婷婷成人网| 狂欢视频在线观看不卡| 亚洲精品中文字幕午夜| 91精品国产综合久久不国产大片| 国产在线欧美| 久久伊人色|