999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種融合詞項關聯關系和統計信息的短文本建模方法

2016-11-08 08:33:44馬慧芳曾憲桃李曉紅
計算機應用與軟件 2016年10期
關鍵詞:語義文本方法

馬慧芳 曾憲桃 李曉紅 贠 寧

(西北師范大學計算機科學與工程學院 甘肅 蘭州 730070)

?

一種融合詞項關聯關系和統計信息的短文本建模方法

馬慧芳曾憲桃李曉紅贠寧

(西北師范大學計算機科學與工程學院甘肅 蘭州 730070)

傳統文本表示方法通常基于詞袋模型,而詞袋模型是基于文本中詞項之間是相互獨立的假設。最近也提出一些通過詞共現來獲取詞項之間關系的統計分析方法,卻忽略了詞項之間的隱含語義。為了解決傳統文本表示方法詞袋模型對文本語義的忽略問題,提出一種融合詞項關聯關系和統計信息的短文本建模方法。通過詞語之間的內聯及外聯關系耦合得到詞語關聯關系,充分挖掘了顯示和隱含的語義信息;同時以關聯關系作為初始詞語相似度,迭代計算詞語之間及文本之間的相似度,改善了短文本的表示。實驗證明,該方法顯著地提高了短文本聚類的性能。

內聯關系外聯關系詞語相似度文本相似度短文本相似度

0 引 言

近年來隨著社交網絡的興起,短信、微博等短文本形式的信息量急劇增長。短文本的出現給文本的研究也帶來了新的挑戰:首先,短文本篇幅短小,往往不能提供足夠的統計信息;其次,在社交網絡中,縮寫詞廣泛地使用,新單詞不斷地創建,這也給獲取短文本的語義信息帶來很大的挑戰。傳統的文本表示方法詞袋模型忽略文本詞語間的上下文聯系,將文本表示成一個空間向量VSM(VectorSpaceModel)[1],用TF-IDF(詞頻及逆文檔頻率)作為其權值,該方法在長文本的研究中取得了不錯的效果。但若將此方法簡單地運用在短文本上,得到的數據集矩陣往往出現高維稀疏的問題。

為了更多地獲取詞語間的語義信息,近年來提出了各種改進的方法,主要分為兩大類:一類是擴充短文本特征空間,代表性的工作包括基于統計分析挖掘語義信息的上下文向量模型[2,3];還有通過外部知識庫來加強短文本語義信息的,如使用Wordnet[4]、維基百科[5]等。這些方法僅僅簡單地考慮文本中詞語的共現關系,同時還存在外部知識庫與文本內容間不匹配的問題,也仍將忽略大量隱含的語義信息。另一類是通過關鍵詞技術來提煉短文本語義信息。有利用很少的詞提升短文本分類的方法[6],但是如何獲取關鍵詞卻是非常困難的。同時,雖然關鍵詞在語義上能精簡短文本表示,但從統計學的角度看,關鍵詞技術將短文本短小的特征進一步加劇,同樣不利于短文本模型的構建。

為了克服傳統文本模型的缺陷,本文在耦合詞項關系[7,8]及語義信息和統計分析相結合[9]的啟發下,提出一種融合詞項關聯關系和統計信息的短文本建模方法。具體地,首先利用詞語間內聯及外聯關系計算耦合關系作為初始詞語相似度;然后迭代計算詞語以及文本之間的相似度,直到其結果收斂為止;最后由詞語間相似度構造出相似性矩陣。本文方法不僅通過耦合關系充分挖掘文本詞語間的語義信息,同時迭代計算詞語之間以及文本之間的相似度,改善了短文本的表示。因此,構造的短文本模型能顯著提高短文本聚類的性能。流程如圖1所示。

圖1 程序流程

1 相關工作

1.1文本表示模型

文本集D通常被表示成D={d1,d2,…,dM},其中di表示文檔集中的一個文檔,并且每個文檔di都被表示成一個空間向量:

(1)

其中:ti是文檔集中出現的某個詞語,M是文本集D中的文本的總數,N是文本集D中所有不重復出現的單詞的總數。TF是詞頻,它是指單詞在給定文檔中出現的次數。IDF以出現某個單詞的文本數為參數來構建單詞的權重,可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取對數得到。公式如下:

(2)

其中:ni表示出現單詞ti的文檔數目。為了綜合考慮詞對單篇文檔的重要程度及其在整個文檔集中的區分能力,通常將TF和IDF綜合起來作為空間向量的權值。

文本集D就被表示成一個M×N維的矩陣W。W的行代表文本集D中的文檔,列代表文檔集中的詞項。

1.2關聯詞信息

傳統向量空間模型忽略詞語間的上下文關系,但是詞語間關系對充分挖掘文本蘊含的內容、擴充文本表示模型具有至關重要的作用。本文將關聯詞信息定義為兩種,如圖2所示。

圖2 關聯詞類型

圖中分別表示兩篇文檔,黑色點表示兩篇文檔中共有的詞項,實線框內表示關聯詞關系的兩種模式。左圖表示詞項在同一篇文檔中的關聯關系,稱之為詞語的內聯關系;右圖表示詞項在不同文檔中的關聯關系,稱為詞語的外聯關系。詳細的關聯關系定義如下:

定義1(內聯關系)若兩個詞語在同一篇文檔中共現,則這兩個詞語具有內聯關系,如圖3左部所示。

圖3 內聯及外聯關系示意圖

圖中詞ti和tk在d1中共現,tj和tk在d2中共現,因此ti和tk、tj和tk之間是有內聯關系的。根據Jaccard相似度[10]計算得出ti和tk的共現關系:

(3)

其中:ti、tk和tj都是文檔集中的某個詞項,i、j、k均小于N;W表示文本集D的矩陣,Wxi和Wxk分別代表詞ti和tk在文檔dx中的TF-IDF的權值。|H|表示集合H={x|(Wxi≠0)∪(Wxk≠0)}中的元素個數,如果集合H為空則CoR(ti,tk)=0。

為了得出實際需要的內聯關系,利用條件概率將共現關系規范化到[0,1]之間,公式如下:

(4)

定義2(外聯關系)在兩篇不同文檔中,若d1和d2中的詞與共有詞中的同一個詞共現,則這兩個詞具有外聯關系,如圖3右部所示。

圖中詞ti和詞tk在d1中共現,詞tj和詞tk在d2中共現,通過詞tk可以把詞ti和詞tj關聯起來。詞ti和詞tj通過關聯詞tk聯系的外聯關系定義如下:

R_IeR(ti,tj|tk)=min(IaR(ti,tk),IaR(tj,tk))

(5)

其中:IaR(ti,tk)和IaR(tj,tk)分別代表詞ti和詞tk、詞tj和詞tk的內聯關系。

考慮數據集中所有能將詞ti和詞tj聯系起來的關聯詞,求得詞ti和詞tj的最終外聯關系并將其規范化到[0,1]之間,公式如下:

(6)

其中:|L|是集合L={tk|(IaR(tk,ti)>0)∩(IaR(tk,tj)>0)}中的元素個數,如果L為空則定義IeR(ti,tj)=0。

2 文本相似度

2.1耦合詞項關系

上文中詞語間內聯關系表征兩個詞在同一篇文檔中的相關性大小,而詞語的外聯關系挖掘出兩個詞不在同一篇文檔中出現但可能相關的特性。所以,通過綜合詞語的內外聯關系,可以充分挖掘出詞語間全部的語義信息,得出耦合詞項關系(CR):

(7)

其中:α∈[0,1]是決定內聯關系權重的參數,IaR(ti,tj)和IeR(ti,tj)分別代表詞ti和詞tj的內聯和外聯關系。

詞語間初始相似度矩陣SCR(i,j)=CR(ti,tj),SCR(i,j)的值在0~1之間,0表明兩個詞之間是完全沒有關系的,1表示兩個詞是完全一樣的。SCR(i,j)的值越高,兩個詞之間的相似度越高。

2.2迭代計算詞項之間,文本之間的相似度

基于耦合詞項關系得出的詞語之間的相似度,對于文檔集中的任意兩個短文本片段d1和d2的相似度被定義成:

(8)

其中:

sim(wj,wk)=SCR(j,k)

同樣地,基于兩個短文本片段的相似度,可以重新定義兩個詞之間的相似度:

(9)

其中:

由上面的計算可以看出,如果兩個詞在多篇文檔中共現或者在相似的文檔中出現,則認為它們在概念上很相似。

前面的式(8)、式(9)中,Sjk由詞語之間的相似度得到,Tik則由文本片段之間的相似度得到。可以看出,文本之間的相似度和詞語之間的相似度是相互依賴并且循環計算的,因此文本之間相似度和詞語之間相似度的計算可以通過迭代算法來求解,迭代的函數定義如下:

sim(l)(d1,d2)=(1-λ)sim(l-1)(d1,d2)+

(10)

sim(l)(w1,w2)=(1-λ)sim(l-1)(w1,w2)+

(11)

其中:參數λ是阻尼系數,取值在 0~1之間,l表示第l次迭代計算,式(10)和式(11)中的λ可以取不同的值(在本文的實驗中為了簡便計算就取了相同的值,都為0.5)。

迭代計算詞語及文本相似度直到它們的值收斂。理論上是無法保證式(10)和式(11)是收斂的,因此在實際求解時,每次迭代后都把參數λ的值減少20%以加快迭代速度。

2.3構建相似性矩陣

(12)

(13)

(14)

由于每個詞和它本身肯定是相似的,因此上式中加號左邊的結果包含的所有元素都是非零的。此外,假設語料庫中至少存在兩個詞是相似的,這就可以保證加號右邊的結果是一個非零的矩陣。由于短文本片段中出現的所有詞都存在一定的語義相似性,所以文本向量中的元素都是非零的。因此,映射之后,每個短文本的空間向量都將不再那么稀疏。

(15)

其中:dnew是新來文本的空間向量,di是文本庫中已經存在的文本向量。

3 實 驗

3.1數據集

本部分實驗數據采用20個新聞組的共20 000篇短文本片段[11]。由于是網頁數據,所以首先對其進行去標簽處理,然后去除停用詞,最終得到實驗可用的數據。依據本文提出的方法對實驗數據進行建模,最后使用k-means[12]聚類算法和hardmo-VMF[9]算法對實驗數據進行聚類處理。其中k-means算法是聚類中最經典的方法,而hardmo-VMF是文獻[9]中使用的一種較為高效的算法,所以本文選取這兩種算法進行實驗。并且對照原始數據的類別屬性分析短文本模型的性能。

3.2評價指標

本文將采用三個指標來評價聚類的性能:純度(Purity)[13]、F值、歸一化互信息NMI(NormalizedmutualInformation)[14]。

(16)

其中:k表示k個聚類。

F值是綜合準確率(precision)和召回率(recall)的一個綜合評價指標,定義如下:

(17)

其中precision表示所有聚類中正確聚類的比例,recall表示所有相似文本中正確聚類的比例。

NMI是聚類與數據集標簽之間互信息和聚類與預先存在類別的熵值的平均值的比值:

(18)

其中C表示聚類的隨機變量,L表示數據集中預先存在類的隨機變量。I(C;L)是聚類與數據集標簽之間互信息:

(19)

H(C)和H(L)分別是C和L的信息熵值:

(20)

|Ci|、|lj|和|Ci|∩|lj|分別是簇Ci和類別lj的數量,以及Ci和lj中共同的文檔數。

上面的三個聚類指標的取值都規范化在[0,1]之間,并且可以發現其值都是越高越好。

3.3實驗結果及分析

實驗比較了關聯關系融合迭代計算方法(本文方法)與傳統的TF-IDF方法、文獻[7]耦合詞項關系(關聯關系)方法、文獻[8]中提出的TSemSim算法和文獻[9]中提出的迭代計算的方法。

其中TF-IDF方法是最經典的文本建模方法,忽略了詞項之間的語義信息;文獻[7]耦合詞項考慮詞語之間的內外聯關系,較充分地挖掘了短文本語義信息;文獻[8]在TF-IDF的基礎上結合語義信息,并對短文本集進行一定程度的降維處理;文獻[9]則是在Wordnet單詞網絡的基礎上求初始詞語相似度,再結合統計信息。

如表1和表2所示,是TF-IDF、關聯關系、TSemSim算法、迭代計算方法以及本文方法五種不同方法的聚類結果。分別統計出兩種不同的聚類算法在純度、F值、歸一化互信息上的實驗結果。

表1 k-means聚類算法結果

表2 hard mo-VMF聚類算法結果

從表1中可以看出,傳統的TF-IDF方法無論是在純度、F值、還是歸一化互信息上的實驗結果都明顯地低于其他方法。主要的原因在于詞頻及逆文檔頻率把文本詞語都假定為相互獨立的,僅僅簡單地考慮詞語在文檔中出現的頻率,此外也沒有添加其他任何信息,所以聚類的結果相對較差。接下來是關聯關系的方法,它在詞袋模型的基礎上考慮了文本詞語的內外聯關系,較充分地挖掘了短文本顯示的和隱含的語義信息,所以聚類的性能提升了,但還是要比其他三種方法的性能低。原因在于其他三種方法不僅考慮了短文本的語義信息,還或多或少地結合或者使用統計學的方法。雖然關聯關系較詞頻逆文檔的方法已經顯示出了一定的優越性,但該方法表示出的短文本仍然還存在文本矩陣高維稀疏的問題。

接下來分析另外三種方法的聚類結果。TSemSim算法和迭代計算方法的結果相近,但總體來說迭代計算的方法要比TSemSim算法的性能稍好一些。這是由于TSemSim算法雖然對文本集進行降維處理,使用了一定的統計學方法,但是迭代計算的方法通過迭代函數使得短文本的特征空間不再稀疏,這對短文本相似度的計算是非常有用的。而本文的方法在性能上要比其他方法都好,這是由于在語義挖掘方面使用詞項關系,將短文本的語義信息表示得較充分。同時融合迭代計算的統計信息,改善了短文本的特征空間,優化其表示。這樣在計算短文本相似性上能夠更加準確,自然地,聚類的性能得到了提高。

表2用hardmo-VMF聚類算法比較各種不同方法的性能。從表中可以看出,雖然各種方法在不同算法下的結果不一樣,但是三種不同方法的優劣性是不變的。這也可以看出本文方法在性能上的優勢。

總結來說,短文本由于其短小的固有特性,在對短文本的建模處理中,不僅要考慮短文本的語義,更需要使用統計學的方法解決短文本集矩陣高維稀疏的問題。本文提出的融合詞項關聯關系和統計信息的方法將兩者結合得較好,所以相對于其他方法表現出更好的性能。

接下來實驗驗證了α參數不同取值對本文方法的影響。

如圖4所示是參數α取不同值時,本文方法的短文本模型在三個不同聚類指標上的性能變化曲線圖。

圖4 α取值和本文方法的性能

α參數表征的是詞語關聯關系中內聯關系所占的權重。從圖中可以看到,三個不同評價指標的曲線走勢差不多都是先隨著α的增大而增大,然后隨著α的增大而減小。在α的某一個中間取值時會取得峰值。這說明內外聯關系的不同權重會對詞語間的關聯關系產生較大的影響。當α取值為0時,完全忽略了詞語的內聯關系,而當α取值為1時又完全忽略了詞語的外聯關系,所以在曲線的兩端都表現出短文本模型較差的性能。因此,選取合適的參數α對本文的短文本模型也顯得至關重要。

4 結 語

針對短文本研究帶來的一些挑戰,本文將詞項關聯關系和統計信息相結合用于短文本建模。方法主要分三步:首先由詞項之間的耦合關系求出初始詞語相似度,然后迭代計算詞語之間及短文本之間的相似度,最后構造相似性矩陣。實驗證明,本文的方法在短文本聚類的性能上明顯優于其他方法。

同時解決偶然詞共現情況對詞語內外聯關系的影響,以及如何決定內外聯關系在詞語關聯關系中各占的權重可以成為后續工作的研究點。

[1]GuptaV,LehalGS.Asurveyoftextminingtechniquesandapplications[J].JournalofEmergingTechnologiesinWebIntelligence,2009,1(1):60-76.

[2]BillhardtH,BorrajoD,MaojoV.Acontextvectormodelforinformationretrieval[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2002,53(3):236-249.

[3]KalogeratosA,LikasA.Textdocumentclusteringusingglobaltermcontextvectors[J].KnowledgeandInformationSystems,2012,31(3):455-474.

[4]HothoA,StaabS,StummeG.Wordnetimprovestextdocumentclustering[C]//ProceedingsoftheSemanticWebWorkshopatthe26thAnnualInternationalSpecialInterestGrouponInformationRetrieva(SIGIR)Conference,Toronto,Canada,2003.NewYork:AssociationforComputingMachinery,2003:541-544.

[5]HuJ,FangLJ,CaoY,etal.EnhancingtextclusteringbyleveragingWikipediasemantics[C]//Proceedingsofthe31stAnnualInternationalACMSpecialInterestGrouponInformationRetrieva(ACMSIGIR)ConferenceonResearchandDevelopmentinInformationRetrieval,Singapore,2008.NewYork:AssociationforComputingMachinery,2008:179-186.

[6]AixinSun.ShortTextClassificationUsingVeryFewWords[C]//Proceedingsofthe35thAnnualInternationalACMSpecialInterestGrouponInformationRetrieva(ACMSIGIR)ConferenceonResearchandDevelopmentinInformationRetrieval,Portland,Oregon,USA,2012.NewYork:AssociationforComputingMachinery,2012:1145-1146.

[7]ChengX,MiaoDQ,WangC,etal.CoupledTerm-TermRelationAnalysisforDocumentClustering[C]//Proceedingsofthe2013InternationalJointConferenceonNeuralNetworks,Dallas,TXUSA,2013:1-8.

[8] 黃承慧,印鑒,侯昉.一種結合詞項語義信息和TF-IDF方法的文本相似度量方法[J].計算機學報,2011,34(5):856-864.

[9]LiuWY,QuanXJ,FengM,etal.Ashorttextmodelingmethodcombiningsemanticandstatisticalinformation[J].InformationSciences,2010,180(20):4031-4041.

[10]BollegalaD,MatsuoY,IshizukaM.Measuringsemanticsimilaritybetweenwordsusingwebsearchengines[C]//Proceedingsofthe16thInternationalConferenceonWorldWideWeb(WWW2007),Banff,Canada.NewYork:ACM,2007:757-766.

[11]LangK.Newsweeder,Learningtofilternetnews[C]//ProceedingsoftheTwelfthInternationalConferenceonMachineLearning,TahoeCity,California,USA.USA:MorganKaufmann,1995:331-339.

[12]MacQueenJ.Somemethodsforclusteringandanalysisofmultivariateobservations[C]//ProceedingsofthefifthBerkeleySymposiumonMathematicalStatisticsandProbability,1967.Berkeley:UniversityofCaliforniaPress,1967,1:281-297.

[13]ZhaoY,KarypisG.Criterionfunctionsfordocumentclustering:Experimentsandanalysis[R].TechnicalreportUniversityofMinnesota,2001.

[14]AlexanderStrehl,JoydeepGhosh.Clusterensemblesaknowledgereuseframeworkforcombiningmultiplepartitions[J].JournalofMachineLearningResearch,2003,3(3):583-617.

ASHORTTEXTMODELLINGMETHODFUSINGCORRELATIONOFLEXICALITEMSANDSTATISTICINFORMATION

MaHuifangZengXiantaoLiXiaohongYunNing

(CollegeofComputerScienceandEngineering,NorthwestNormalUniversity,Lanzhou730070,Gangsu,China)

Traditionaltextrepresentationmethodsareusuallybasedonthemodelofbagofwords,whilethismodelisbasedontheassumptionthatthelexicalitemsareindependenteachotherinthetext.Recentlythestatisticalanalysismethodsarealsopresentedwhichobtaintherelationsbetweenlexicalitemsbywordco-occurrences,butignoretheimpliedsemanticsbetweenlexicalitems.Inordertoovercometheneglectingproblemofthebagofwordsmodeloftraditionaltextrepresentationmethodsontextsemantics,thispaperpresentsashorttextsmodellingmethodwhichfusesthelexicalitemscorrelationandthestatisticsinformation.Itobtainstermscorrelationthroughcouplingtheintra-relationandinter-relationbetweenterms,whichfullyinvestigatestheexplicitandimpliedsemanticinformation;meanwhileitemploysthecorrelationastheinitialtermssimilarity,anditerativelycalculatesthesimilaritiesbetweentermsandtexts,thusimprovestherepresentationoftheshorttext.Experimentsshowthatthismethodsignificantlyimprovestheperformanceofshorttextclustering.

Intra-relationInter-relationTermsimilarityTextsimilarityShorttextsimilarity

2015-05-18。國家自然科學基金項目(61363058,6116 3039);甘肅省自然科學基金青年科技基金項目(145RJZA232);中國科學院計算技術研究所智能信息處理重點實驗室開放基金項目(IIP2014-4)。馬慧芳,副教授,主研領域:人工智能,數據挖掘與機器學習。曾憲桃,本科生。李曉紅,講師。贠寧,本科生。

TP

ADOI:10.3969/j.issn.1000-386x.2016.10.007

猜你喜歡
語義文本方法
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产精品福利在线观看无码卡| 青青草原国产精品啪啪视频| 午夜国产精品视频| 91口爆吞精国产对白第三集| 日本亚洲最大的色成网站www| 成人精品午夜福利在线播放| 欧美激情视频二区| 青青青国产视频手机| 华人在线亚洲欧美精品| 国产成人你懂的在线观看| 四虎成人免费毛片| 国产精品免费p区| 91午夜福利在线观看| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产精品视频猛进猛出| 亚洲欧美日韩色图| 国产拍在线| 国产麻豆91网在线看| 欧美三級片黃色三級片黃色1| 久久窝窝国产精品午夜看片| 99久久精品免费看国产免费软件| 亚洲色无码专线精品观看| 国产精品手机在线播放| 四虎国产永久在线观看| 国产屁屁影院| 人妻精品久久无码区| 久久semm亚洲国产| 欧美日本在线观看| 国产第一色| 人妻免费无码不卡视频| 国产精品香蕉在线| 好吊妞欧美视频免费| 亚洲日本中文综合在线| 久久亚洲国产最新网站| 国产成人艳妇AA视频在线| 亚洲日韩精品伊甸| 午夜三级在线| 国产探花在线视频| 五月婷婷综合网| 亚洲天堂色色人体| 99在线观看国产| 国产粉嫩粉嫩的18在线播放91| lhav亚洲精品| 国产真实乱子伦精品视手机观看| 97国产成人无码精品久久久| 亚洲人成人无码www| 亚洲伊人电影| 久久香蕉国产线看观看精品蕉| 国产00高中生在线播放| 国产真实乱了在线播放| 国产va免费精品观看| 久久久久亚洲精品成人网| 久久国产精品77777| 女人18一级毛片免费观看| 精品久久久久无码| 人妻少妇久久久久久97人妻| 伊人久热这里只有精品视频99| 国产欧美日韩18| 成人综合在线观看| аⅴ资源中文在线天堂| 91视频区| 欧美日本视频在线观看| 亚洲一区二区黄色| 欧美激情福利| 人妻丰满熟妇av五码区| 日韩精品久久无码中文字幕色欲| 美女免费精品高清毛片在线视| 国产毛片不卡| 国产成人精品在线1区| 亚洲va在线观看| 亚洲精品波多野结衣| 欧美精品在线观看视频| 成人在线观看一区| 精品综合久久久久久97超人该| 亚洲二区视频| 第一区免费在线观看| 国产无套粉嫩白浆| 欧美第一页在线| 久草视频一区| 久久99国产综合精品1| 欧美精品啪啪一区二区三区| 久久不卡精品|