999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種虛擬社區(qū)話題相關(guān)性算法的研究

2011-10-12 07:48:42李梅闞峻嶺汪貴生
銅陵學(xué)院學(xué)報(bào) 2011年1期
關(guān)鍵詞:實(shí)驗(yàn)模型

李梅 闞峻嶺 汪貴生

(1.安徽中醫(yī)學(xué)院,安徽合肥230031;2.銅陵學(xué)院,安徽銅陵244000)

一種虛擬社區(qū)話題相關(guān)性算法的研究

李梅1闞峻嶺1汪貴生2

(1.安徽中醫(yī)學(xué)院,安徽合肥230031;2.銅陵學(xué)院,安徽銅陵244000)

由于虛擬社區(qū)語言不規(guī)范,使用傳統(tǒng)的語義分析方法計(jì)算話題相關(guān)性時(shí)存在較高的不確定性。文章提出一種新的方法,依據(jù)主題的文檔結(jié)構(gòu)圖計(jì)算該主題的話題相關(guān)度,試驗(yàn)結(jié)果表明本文所提出的方法優(yōu)于傳統(tǒng)的語義分析方法,在一定程度上解決了計(jì)算話題相關(guān)性時(shí)出現(xiàn)的不確定性問題。

虛擬社區(qū);話題相關(guān)性;文檔結(jié)構(gòu)圖

虛擬社區(qū)(Virtual Community)研究的先驅(qū)Rheingold認(rèn)為虛擬社區(qū)是一種社會(huì)的集合體,它源自于網(wǎng)絡(luò)空間上有足夠的人、足夠的人類情感以及人際關(guān)系在網(wǎng)絡(luò)上長期發(fā)展,因此他將虛擬社區(qū)定義為“一群通過互聯(lián)網(wǎng)相互溝通所形成的群體,他們彼此之間有某種程度的認(rèn)識(shí)、會(huì)分享知識(shí)與信息、如同對(duì)待友人般彼此關(guān)懷”[1]。Hagel&Armsrtnog認(rèn)為虛擬社區(qū)的真正意義在于把人們聚集在一起,通過互聯(lián)網(wǎng)建立起互動(dòng)的基礎(chǔ),滿足人們的興趣、幻想、人際關(guān)系或交易等需求,而虛擬社區(qū)吸引人們的地方在于它為人們提供了一個(gè)自由交往的生動(dòng)環(huán)境,使人們能夠在社區(qū)里持續(xù)性的互動(dòng),并從互動(dòng)中創(chuàng)造出一種相互信賴和彼此了解的氣氛[2]。虛擬社區(qū)的形成為人們提供了一種新的交流方式、新的工作方式、新的購物方式甚至一種全新的生活方式,這種新的社會(huì)組織形式越來越顯著地影響著傳統(tǒng)社區(qū)中的每一個(gè)人。

隨著信息和網(wǎng)絡(luò)技術(shù)的發(fā)展,伴隨Web2.0的廣泛應(yīng)用,世界上虛擬社區(qū)的數(shù)量正以前所未有的速度增長,社區(qū)中的人員和話題的數(shù)量都在急劇增加,而社區(qū)中的數(shù)據(jù)又包含著大量與現(xiàn)實(shí)社會(huì)相關(guān)的信息。虛擬社區(qū)的快速發(fā)展為我們提供了許多值得研究的課題,這些研究涉及信息技術(shù)、經(jīng)濟(jì)學(xué)、管理學(xué)、心理學(xué)等各個(gè)方面。然而我國對(duì)虛擬社區(qū)研究只是對(duì)實(shí)踐起著基本的推動(dòng)作用,理論研究無論在深度上還是廣度上都相對(duì)滯后,因此對(duì)虛擬社區(qū)進(jìn)行研究和探索具有很大的現(xiàn)實(shí)意義[3]。其中對(duì)于虛擬社區(qū)中的信息分類是當(dāng)前研究的熱點(diǎn),本文結(jié)合文檔向量空間模型的理論,提出一種新的社區(qū)話題相關(guān)性計(jì)算方法,該方法優(yōu)于傳統(tǒng)的語義分析方法,在很大程度上解決了原有方法在計(jì)算話題相關(guān)性時(shí)所存在的不確定性。

1. 話題相關(guān)性的傳統(tǒng)計(jì)算方法

文檔向量空間模型[4](Vector Space Model,VSM)是一種使用向量表示文檔的方法。文檔中的詞稱作特征,文檔表示為由特征組成的向量空間中的一個(gè)特征矢量,表示成D(t1,W1;t2,W2;…;tN,WN),其中D為文檔,tk是第k個(gè)特征項(xiàng),Wk為特征項(xiàng)tk的權(quán)重,表示其在文檔D中的重要程度。令t1,t2,…tN為一個(gè)n維坐標(biāo)系,W1,W2,…,WN為相應(yīng)坐標(biāo)值,則D可以表示為n維空間中的一個(gè)向量。提取每類文檔的特征向量建立向量空間模型,文本轉(zhuǎn)化為向量形式并經(jīng)過特征提取以后,便很容易進(jìn)行分類挖掘了。雖然VSM模型不考慮語義信息并且部分丟失了文本中詞和詞的相互關(guān)聯(lián),但它簡(jiǎn)單易處理,并且對(duì)文本處理(主要是分類)可以得到很好的效果,是目前較常用的方法[5]。

兩個(gè)文檔D1和D2之間的相關(guān)程度用文本相似度Sim(D1,D2)來度量,當(dāng)文檔表示為向量空間模型時(shí),可以用向量間的夾角余弦值來表示:

在向量空間模型中,常采用TF-IDF算法[6][7]計(jì)算特征詞的權(quán)重,其基本公式為:Wik=tfik/dfk,其中tfik表示項(xiàng)tk在文本Di中的出現(xiàn)頻數(shù),dfk表示出現(xiàn)tk的文檔數(shù)目。

2. 話題相關(guān)性的文檔結(jié)構(gòu)分析方法

由于在虛擬社區(qū)中存在大量簡(jiǎn)短的對(duì)話,這類文本內(nèi)容用向量空間模型計(jì)算其相關(guān)性存在較大的不確定性。我們提出的只依據(jù)某話題下所有文章的回復(fù)結(jié)構(gòu)來計(jì)算該話題主題相關(guān)性,就可以很好的解決此問題。

2.1 文檔結(jié)構(gòu)圖的概念

2.1.1 文檔結(jié)構(gòu)圖

在虛擬社區(qū)中,一個(gè)話題通常包含一篇主題文章與同主題的回復(fù)文章,它們通過文章間的回復(fù)關(guān)系有機(jī)聯(lián)系在一起,構(gòu)成該話題的文檔結(jié)構(gòu)圖,如圖1所示。

圖1 話題的文檔結(jié)構(gòu)圖

2.1.2 文檔子樹

在計(jì)算話題的主題相關(guān)性之前,需要提出文檔子樹的概念,其構(gòu)造方法如下:

(1)對(duì)于第m層的第i個(gè)文檔Dmi,構(gòu)造其所屬的文檔子樹時(shí),首先根據(jù)文檔的回復(fù)關(guān)系找出文檔Dmi指向位于第0層的主題文檔的鏈路,如圖2(a)所示。

(2)將所有直接指向該鏈路中節(jié)點(diǎn)的節(jié)點(diǎn)添加進(jìn)來,構(gòu)成文檔Dmi所屬的文檔子樹。如圖2(b)所示。

這樣對(duì)于如圖1的文檔結(jié)構(gòu)圖,可以構(gòu)造出若干個(gè)如圖2所示的形如文檔Dmi的文檔子樹,圖中文檔Dmi由黑色實(shí)心節(jié)點(diǎn)表示。

圖2 構(gòu)造文檔Dmi的文檔子樹

2.1.3 文檔主題相關(guān)度傳遞因子

根據(jù)虛擬社區(qū)的實(shí)際,我們提出以下假設(shè):文檔Di在話題的文檔結(jié)構(gòu)圖中所屬的層次n越大,則該文檔Di的內(nèi)容偏離主題的概率越大。基于該假設(shè),可以認(rèn)為文檔主題相關(guān)度傳遞因子是文檔與其直接回復(fù)文檔之間主題相關(guān)的統(tǒng)計(jì)概率k(k∈[0,1])。

2.1.4 節(jié)點(diǎn)值的傳遞

我們將文檔結(jié)構(gòu)圖中的每個(gè)文檔視為一個(gè)節(jié)點(diǎn),并賦予其節(jié)點(diǎn)值。當(dāng)一個(gè)話題中只存在主題文檔而沒有回復(fù)文檔時(shí),該話題的主題相關(guān)度為1,該主題文檔的節(jié)點(diǎn)值為1。

當(dāng)文檔結(jié)構(gòu)圖中存在多個(gè)層次時(shí),節(jié)點(diǎn)值在層次間以主題相關(guān)度傳遞因子k進(jìn)行傳遞。對(duì)于第m層的第i個(gè)文檔Dmi,假設(shè)其節(jié)點(diǎn)值為ami,如果它被位于第m+1層的n個(gè)文檔直接回復(fù),那么這n個(gè)回復(fù)文檔的節(jié)點(diǎn)值均為(ami/n)*k,即文檔Dmi的節(jié)點(diǎn)值ami以概率k傳遞到下一層并被所有直接回復(fù)文檔均分。

2.2 主題相關(guān)度的計(jì)算方法

3. 系統(tǒng)的實(shí)驗(yàn)流程與實(shí)驗(yàn)結(jié)果分析

3.1 文檔結(jié)構(gòu)分析系統(tǒng)實(shí)驗(yàn)流程

文檔結(jié)構(gòu)分析系統(tǒng)的實(shí)驗(yàn)流程如圖3所示。

圖3 系統(tǒng)實(shí)驗(yàn)流程圖

3.2 實(shí)驗(yàn)結(jié)果分析

我們于2008年5月從水木社區(qū)WorldSoccer版下載了2000多篇文章,以此作為數(shù)據(jù)源,使用文檔結(jié)構(gòu)分析方法計(jì)算其主題相關(guān)度,部分實(shí)驗(yàn)結(jié)果如下:

表1 部分話題的主題相關(guān)度

在實(shí)驗(yàn)中,通過調(diào)整主題相關(guān)度傳遞因子k值發(fā)現(xiàn),當(dāng)k取值為0.8時(shí),系統(tǒng)得到的主題相關(guān)性數(shù)值與使用向量模型計(jì)算的結(jié)果相近。但在處理相同數(shù)量數(shù)據(jù)時(shí),系統(tǒng)效率明顯高于使用向量模型方法。

4. 結(jié)束語

本文以虛擬社區(qū)中話題相關(guān)性計(jì)算方法為主要研究對(duì)象,通過對(duì)已有話題相關(guān)性計(jì)算方法的分析和歸納,提出了根據(jù)某話題下所有文章的回復(fù)結(jié)構(gòu)來計(jì)算話題相關(guān)性的文檔結(jié)構(gòu)分析方法,并利用此方法對(duì)虛擬社區(qū)話題相關(guān)性進(jìn)行實(shí)驗(yàn)和計(jì)算,實(shí)驗(yàn)結(jié)果表明本文提出的方法明顯高于傳統(tǒng)的向量空間模型法。為進(jìn)一步深入研究虛擬社區(qū)成員的行為模式提供了必要的基礎(chǔ)。

[1]Rheingold H.Virtual Communit y:Homesteeding on the Elect ronic Frontier[Z].Reading Mass Addison-Wesley Inc,1993.

[2]Hagel,Johnand Armasrt rong,Arthur G.Net Gain:Expanding Markets Through Virtual Communities[M].Michinsey&Company Inc,1997.

[3]孫穎,毛波.基于數(shù)據(jù)挖掘技術(shù)的虛擬社區(qū)成員行為研究[J].計(jì)算機(jī)應(yīng)用,2003.1,23(1):50-53.

[4]G Salton,A Wong,C S Yang.A Vector Space Model for Automatic Indexing[C].Communications of the ACM,1975,18(11):603-620.

[5]陶秋香,喻金科,涂繼亮.基于向量空間模型的公文分類系統(tǒng)研究與實(shí)現(xiàn)[J].南昌航空大學(xué)學(xué)報(bào),2009.12,23(4):66-70.

[6]C.T.Yu,K.Lam,G.Salton.Term Weighting in Information Retrieval Using the Term Precision Model[J].Journal of the ACM(JACM),Jan.1982,29(1):152-170.

[7]唐果,陳宏剛.基于BBS熱點(diǎn)主題發(fā)現(xiàn)的文本聚類方法[J].計(jì)算機(jī)工程,2010.4,36(7):79-81.

A Topic Relevance Algorithm on Virtual Community

Li Mei1,Kan Jun-ling1,Wang Gui-sheng2
(1.Anhui university of Traditional Chinese Medicine,Hefei Anhui 230031,China;2.Tongling University,Tongling Anhui 244000,China)

When the method of semantic analysis is applied to the practice of approaching the topic relevance in the virtual community,a great deal of uncertainties would be brought by the substandard languages.The article presents a current approach to figure out the theme relevance based on the documentary structure diagram.It also separates itself from the traditional semantic analysis method and removes the uncertainties in working out the topic relevance.

virtual community;topic relevance;documentary structure diagram

TP301.6

A

1672-0547(2011)01-0089-02

2010-11-17

李梅(1973-),女,安徽合肥人,安徽中醫(yī)學(xué)院實(shí)驗(yàn)師。

猜你喜歡
實(shí)驗(yàn)模型
一半模型
記一次有趣的實(shí)驗(yàn)
微型實(shí)驗(yàn)里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
做個(gè)怪怪長實(shí)驗(yàn)
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 亚洲欧美日韩动漫| 九色视频一区| 国产免费人成视频网| 日韩亚洲综合在线| 欧美激情综合| 老司机午夜精品视频你懂的| 亚洲an第二区国产精品| 中文字幕乱码中文乱码51精品| 国产在线视频自拍| 男女男精品视频| 777午夜精品电影免费看| 日本一区二区不卡视频| 成人欧美日韩| 精品人妻无码中字系列| 成人亚洲天堂| 2021亚洲精品不卡a| 午夜欧美理论2019理论| 国产福利大秀91| 国产美女无遮挡免费视频网站| 无码丝袜人妻| 亚洲综合香蕉| 九九香蕉视频| 亚洲欧美成人综合| 激情视频综合网| 老司机久久精品视频| 亚洲美女高潮久久久久久久| 精品国产自在在线在线观看| 91麻豆精品视频| 亚洲国产午夜精华无码福利| 亚洲精品无码抽插日韩| 无码精品国产dvd在线观看9久| 国产青榴视频在线观看网站| 国产 日韩 欧美 第二页| 国产91久久久久久| 日韩A级毛片一区二区三区| 国产第三区| 欧美一级99在线观看国产| 亚洲最大福利网站| 久久精品中文无码资源站| 在线观看免费AV网| 91无码网站| 97国产成人无码精品久久久| 91无码人妻精品一区| jizz在线免费播放| 看你懂的巨臀中文字幕一区二区| 就去吻亚洲精品国产欧美| 欧美国产在线看| 亚洲va视频| 97国产精品视频人人做人人爱| 国产簧片免费在线播放| 91免费片| 99热这里只有精品免费国产| 日韩欧美中文| 午夜不卡视频| 国产精品区网红主播在线观看| 亚洲无码高清一区| 日韩在线观看网站| 亚洲自偷自拍另类小说| 日韩无码视频专区| 特级毛片免费视频| 中文字幕av一区二区三区欲色| 成年免费在线观看| 特级欧美视频aaaaaa| a毛片免费在线观看| 无码一区二区波多野结衣播放搜索 | 日韩精品亚洲人旧成在线| 福利一区在线| 精品国产电影久久九九| 97久久免费视频| 国产精品观看视频免费完整版| 久久99国产综合精品女同| 亚洲国产系列| 高清色本在线www| 91麻豆精品视频| 亚卅精品无码久久毛片乌克兰| 亚洲AV无码乱码在线观看裸奔 | 欧美中文字幕在线播放| 女人爽到高潮免费视频大全| 精品无码专区亚洲| 欧美19综合中文字幕| 丁香五月婷婷激情基地| 又爽又大又黄a级毛片在线视频|