999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于概念聚類的Web數(shù)據(jù)挖掘搜索引擎的設(shè)計與實現(xiàn)

2015-05-30 10:48:04劉典型等
軟件工程 2015年5期
關(guān)鍵詞:搜索引擎數(shù)據(jù)挖掘

劉典型等

摘 要:針對Web數(shù)據(jù)挖掘的搜索過程,其準(zhǔn)確度很大程度取決于用戶輸入的關(guān)鍵詞的數(shù)量,以及搜索引擎對關(guān)鍵詞的語義的解析與用戶原意的吻合度,而搜索引擎對關(guān)鍵詞的解析,包括基于鏈接的聚類方法和基于概念的聚類方法。本文克服基于鏈接的聚類方法的缺陷,采用基于概念聚類的方法,從二分圖的概念和存儲方法入手,設(shè)計和實現(xiàn)了個性化的Web數(shù)據(jù)挖掘搜索引擎,并驗證了其優(yōu)越性。

關(guān)鍵詞:二分圖;鄰接矩陣;聚類;數(shù)據(jù)挖掘;搜索引擎

中圖分類號:TP311.1 文獻標(biāo)識碼:A

1 引言(Introduction)

眾所周知,關(guān)鍵詞數(shù)量越多,單個詞越能清晰表達查詢需求,搜索引擎就越能準(zhǔn)確計算網(wǎng)頁相關(guān)度,用戶就越能準(zhǔn)確得到所希望的查詢結(jié)果。然而絕大多數(shù)用戶在使用搜索引擎時,輸入的關(guān)鍵詞都少于三個,且很多情況下,關(guān)鍵詞不能正確表達用戶的查詢需求,使得查詢結(jié)果不盡如人意。本文采用概念聚類的方法,設(shè)計個性化搜索引擎,針對Web數(shù)據(jù)挖掘,能很大程度地提高搜索的準(zhǔn)確率。

聚類就是將一個對象的集合通過某種算法分成幾個類,分類后不同的類中的對象是不相似的,同一個類中的對象是相似的[1]。查詢聚類是為了將相似需求的查詢表達式聚為一類,從中選取關(guān)鍵詞個數(shù)較多的作為這一類需求的表達,這樣對查詢表達式進行擴充,從而提高搜索的準(zhǔn)確率[2]。

2 二分圖及其存儲(Bipartite graph and its storage)

設(shè)計中,聯(lián)合考慮關(guān)鍵詞和對應(yīng)文本,即根據(jù)關(guān)鍵詞所形成的詞簇信息對文本進行聚類,聚類過程的數(shù)據(jù)結(jié)構(gòu)定義如下:

定義1:設(shè)G=是一個無向圖,若存在V1∪V2=V,且V1∩V2=Φ使得E(V1,V2)=V1×V2,即E中每條邊的兩個端點都是一個屬于V1,另一個屬于V2,且對V1中任意x和V2中任意y,有一條邊e∈E,使e=(x,y),則稱G為完全二分圖。當(dāng)|V1|=m,|V2|=n時,G記為Km,n。

對G采用實現(xiàn)存儲,設(shè)eij為邊[i,j]的權(quán)值,則記

(1)

為G的鄰接矩陣。

3 聚類算法(Clustering algorithm)

使用中的很多搜索引擎在計算查詢關(guān)鍵詞與網(wǎng)頁的相關(guān)度時,是根據(jù)網(wǎng)頁內(nèi)包含關(guān)鍵詞的個數(shù)來定的,由于用戶輸入的關(guān)鍵詞比較短,且一般不超過三個,加上有的關(guān)鍵詞有歧義,而且由于網(wǎng)頁內(nèi)容的多樣性,導(dǎo)致查詢到的網(wǎng)頁與用戶的需求存在較大的差距。除了可以采用錨文本來對網(wǎng)頁內(nèi)容進行補充和描述的方法來提高查詢準(zhǔn)確率外,另一種有效的方法就是利用用戶的點擊率作為網(wǎng)頁內(nèi)容的補充了。從搜索引擎的日志中獲取的用戶點擊數(shù)據(jù)可以在一定程度上反應(yīng)關(guān)鍵詞與頁面之間聯(lián)系,可以作為相關(guān)度計算的加權(quán)參數(shù)。

基于二分圖的聚類算法有兩種:基于超鏈接的聚類算法和基于概念的聚類算法。基于超鏈接的算法中,每當(dāng)用戶點擊一個鏈接,就認(rèn)為該鏈接和關(guān)鍵詞是相關(guān)的,認(rèn)為只要兩個不同的關(guān)鍵詞有相同的鏈接就將兩個關(guān)鍵詞聚類在一起,這樣,由于關(guān)鍵詞的語義多樣性,很可能將語義不同的關(guān)鍵詞進行聚類,加上Internet上很少有相同的鏈接,兩個隨機關(guān)鍵詞被用戶選擇相同鏈接的概率僅為6.38*10-5,所以基于超鏈接的算法存在很大的缺陷[3]。

選擇采用基于概念的聚類算法,對于設(shè)計一個高準(zhǔn)確率的Web數(shù)據(jù)挖掘的個性化的搜索引擎系統(tǒng),能達到更好的效果。構(gòu)造概念聚類的二分圖模型如下:

把所有的查詢構(gòu)造成頂點向量集合Q,關(guān)鍵詞涉及的概念構(gòu)造成頂點向量集合C,關(guān)鍵詞與概念之間的關(guān)系構(gòu)造成邊集,即可得到概念聚類的二分圖模型如圖1所示。

例如當(dāng)關(guān)鍵詞為apple ipad、apple、apple iphone時,涉及的概念則包括ipad、fruit、iphone、product,構(gòu)造的概念二分圖如圖2所示。

conceptual clustering

根據(jù)二分圖,如果關(guān)鍵詞涉及的概念相互重疊得越多,則關(guān)鍵詞的相似度越高。設(shè)N(x)是節(jié)點x的鄰節(jié)點的集合,N(y)是節(jié)點y的鄰節(jié)點的集合,關(guān)鍵詞的相似度按如下公式計算:

(2)

由式(2)可以看出,兩個關(guān)鍵詞涉及的概念集的交集越大,則查詢的相似度越高。下面是構(gòu)造二分圖算法的偽代碼:

4 系統(tǒng)模塊設(shè)計(The system module design)

本系統(tǒng)的設(shè)計目的,是設(shè)計和實現(xiàn)一個為用戶提供使用搜索引擎的平臺,為用戶提供搜索界面,并將用戶輸入的關(guān)鍵詞提交給搜索引擎,再將搜索引擎的搜索結(jié)果反饋給用戶。整個交互過程的數(shù)據(jù)比如查詢關(guān)鍵詞、搜索結(jié)果、用戶點擊的鏈接等數(shù)據(jù)都由該中間件收集起來并存儲,為下一步的用戶建模、查詢聚類做準(zhǔn)備[4]。

系統(tǒng)由四個主要模塊組成:數(shù)據(jù)收集模塊、數(shù)據(jù)庫及管理模塊、用戶興趣模塊和查詢聚類模塊。系統(tǒng)流程分五步:數(shù)據(jù)收集、概念提取、用戶建模、查詢概念聚類、查詢優(yōu)化。系統(tǒng)各個模塊的劃分和模塊之間數(shù)據(jù)傳遞方向如圖3所示。

5 結(jié)論(Conclusion)

模擬五個用戶,分別按表1輸入查詢關(guān)鍵詞。其中第一二用戶輸入的關(guān)鍵詞相同,但第一用戶的興趣點是apple數(shù)碼產(chǎn)品,而第二用戶的興趣點是apple水果。

實驗聚類結(jié)果如表2。結(jié)果表明,第一二用戶雖然查詢關(guān)鍵詞相同,但由于興趣點不同而被分到不同的類型中。類型0中的查詢結(jié)果都與數(shù)碼產(chǎn)品相關(guān),而類型1中的結(jié)果都與水果相關(guān),說明聚類結(jié)果能較好地按概念區(qū)分關(guān)鍵詞。

實驗表明,當(dāng)聚類參數(shù)為0時,概念聚類的二分圖中,低相關(guān)度的關(guān)鍵詞被聚到一類,導(dǎo)致查準(zhǔn)率比鏈接聚類查準(zhǔn)率低;而當(dāng)聚類參數(shù)較大時,概念聚類的查準(zhǔn)率明顯高于鏈接聚類的查準(zhǔn)率,平衡保持在較高的范圍內(nèi)。

參考文獻(References)

[1] 吳湖,等.兩階段聯(lián)合聚類協(xié)同過濾算法[J].軟件學(xué)報,2010,

21(5):1042-1054.

[2] 馬恩穹.基于Web數(shù)據(jù)挖掘的個性化搜索引擎研究[D].南京

理工大學(xué),2012.

[3] Guandong Xu,Yanchun Zhang,LinLi.Web Content Mining[J].

Web Information Systems Engineering and Internet

Teehnologies,2011,6(2):65-69.

[4] 王和勇,等.基于聚類和改進距離的LLE方法在數(shù)據(jù)降維中的

應(yīng)用[J].計算機研究與發(fā)展,2006,43(8):1485-1490.

作者簡介:

劉典型(1973-),男,碩士,副教授.研究領(lǐng)域:軟件,網(wǎng)絡(luò)

技術(shù).

劉完芳(1972-),男,碩士,副教授.研究領(lǐng)域:數(shù)據(jù)庫.

鐘 鋼(1975-),男,本科,高級實驗師.研究領(lǐng)域:軟件

開發(fā).

猜你喜歡
搜索引擎數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
主站蜘蛛池模板: 国产亚洲美日韩AV中文字幕无码成人 | 国产熟女一级毛片| 成人欧美在线观看| 野花国产精品入口| 91精品综合| 亚洲第一中文字幕| 五月激激激综合网色播免费| 国产精品亚洲一区二区三区在线观看| 久久香蕉欧美精品| 亚洲综合激情另类专区| 成人在线观看一区| 欧美精品亚洲日韩a| 国产高清精品在线91| 91人妻在线视频| 国产精品九九视频| 国内精品伊人久久久久7777人| 免费精品一区二区h| 亚洲最大福利网站| 中国国语毛片免费观看视频| 亚洲欧美成人在线视频| 在线人成精品免费视频| 国产成人福利在线| 午夜在线不卡| 青青草原偷拍视频| 亚洲视频四区| 婷婷亚洲最大| 91在线中文| 亚洲色图欧美在线| 伊人成人在线| 亚洲一区二区三区香蕉| 亚洲精品欧美日本中文字幕| 亚洲日韩精品无码专区| 国产h视频免费观看| 午夜福利在线观看入口| 日日噜噜夜夜狠狠视频| 欧美激情第一欧美在线| 亚洲第一色视频| 国产福利影院在线观看| 91精品伊人久久大香线蕉| 亚洲动漫h| 久久精品66| 亚洲人成在线精品| 国产91视频观看| 国产成人久久综合777777麻豆| 久久男人视频| 四虎永久免费地址| 久久久久久尹人网香蕉| 国产一区二区免费播放| 国产黄网永久免费| 囯产av无码片毛片一级| 亚洲无线国产观看| 久久久久人妻一区精品| 亚洲最猛黑人xxxx黑人猛交 | 国产Av无码精品色午夜| 99久久国产自偷自偷免费一区| 日本一区高清| 在线观看91香蕉国产免费| 91免费在线看| 成人韩免费网站| 波多野结衣AV无码久久一区| 操美女免费网站| 中文字幕第4页| 亚洲国产成人精品青青草原| 亚洲国产精品无码AV| 亚洲首页在线观看| 色婷婷在线播放| 无码精品福利一区二区三区| 亚洲色图综合在线| 福利在线不卡| 免费国产高清视频| 国产精品视频第一专区| 色妞www精品视频一级下载| 中文字幕在线日本| 制服丝袜 91视频| 日韩av无码精品专区| 人妻免费无码不卡视频| 曰AV在线无码| 中日韩一区二区三区中文免费视频| 亚洲欧美日韩久久精品| 国产精品30p| 老色鬼久久亚洲AV综合| 91精品小视频|