張 瑛,張婭婷
(湖南信息職業(yè)技術(shù)學(xué)院 計算機(jī)工程系,湖南 長沙 410200)
隨著網(wǎng)絡(luò)聊天室以及聊天工具的普及,以新聞報道為代表的長文本已經(jīng)不是人們獲得信息源的唯一途徑,博客、門戶網(wǎng)站的新聞影響力正在降低,而網(wǎng)絡(luò)論壇、微博、網(wǎng)絡(luò)社群等新興輿論載體異軍突起。文本會話抽取就是針對此類動態(tài)數(shù)據(jù),將屬于同一會話的不同消息文本組織在一起,為后續(xù)工作(如話題的檢測、網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)、熱點(diǎn)話題挖掘)奠定基礎(chǔ)。
相對于話題檢測與追蹤(Topic Detection and Tracking,TDT)中的基本概念,文本會話抽取中的相同術(shù)語被賦予了新的含義。
消息:會話討論的參與者一次發(fā)表的言論信息,有一個或多個句子構(gòu)成。如圖1所示,動態(tài)文本流中消息相互交織在一起,按序到達(dá)。
會話:由討論相關(guān)話題的一系列消息組成,起始于一個開始消息,跟隨相關(guān)的回復(fù)消息,并結(jié)束于一個結(jié)束消息。
話題:一個種子事件或活動,以及所有與之直接相關(guān)的事件或活動。在文本會話抽取研究中,一般認(rèn)為一個會話對應(yīng)一個話題,一個話題可以包含多個會話。
會話抽取:從動態(tài)交織的文本信息流中檢測出屬于同一會話的消息。
會話在有些研究中也被稱為線程,與操作系統(tǒng)中的線程的定義不同,文本會話中的線程是指一組相關(guān)的消息序列。同樣,會話抽取在有些研究中也稱為線程檢測。

與新聞報道的話題檢測和追蹤相比,動態(tài)文本會話抽取面臨更大的挑戰(zhàn),主要研究內(nèi)容有:
1)消息、會話模型
話題檢測與追蹤中的經(jīng)典模型,如向量空間模型、LDA(Latent Dirichlet Allocation)模型等。向量空間模型在會話抽取中運(yùn)用較多,但由于特征度量的限制并不明顯,生成模型LDA針對短文本有天然優(yōu)勢,但目前在文本會話抽取中的運(yùn)用較少。
2)模型特征信息度量
在向量空間模型中,TFIDF方法是針對靜態(tài)文本詞匯權(quán)重計算而設(shè)計的,直接用于動態(tài)文本會話流的權(quán)重計算存在很大不足。因而,找到更適合動態(tài)文本信息流的模型特征信息來表示詞匯權(quán)重顯得尤為重要。
3)語言學(xué)特征的利用
動態(tài)文本會話流中包含許多語言學(xué)信息,比如疑問句一般用陳述句回答。“再見”一般標(biāo)識會話的結(jié)束。充分利用這些語言學(xué)信息挖掘上下文之間的關(guān)聯(lián)對文本會話抽取具有十分重要的意義。
4)相似度的計算方法
相似度比較是決定兩個消息是否屬于同一會話的決定性因素,傳統(tǒng)余弦相似度方法對處理短文本非常不利,并且在動態(tài)文本會話中,時間上相隔越遠(yuǎn)的消息討論屬于同一會話的概率越小,因此,計算相似度時必須考慮時間因素。由此可見,找到合適的相似度計算方法是文本會話抽取的核心所在。
動態(tài)文本會話抽取對評測方法研究較少,大多數(shù)使用已有的方法,通常采用兩種,一種是信息檢索中準(zhǔn)確率、召回率以及F度量指標(biāo)。另一種則是TDT中的評測方法。
在信息檢索系統(tǒng)中,準(zhǔn)確率、召回率和F度量是經(jīng)典的評估檢索結(jié)果的度量指標(biāo)[1],并適用于評估聚類算法的性能。由于TDT與文本會話抽取歸根都屬于聚類的問題,從而采用TDT的評測標(biāo)準(zhǔn)作為文本會話抽取的評測標(biāo)準(zhǔn)有很大的參考價值。在此,只給出準(zhǔn)確率、召回率F度量的計算公式以及TDT中DET曲線的計算方法,詳細(xì)內(nèi)容參考文獻(xiàn)[2],這里不再詳述。

式中:nij為實際分類結(jié)果類j中分類正確的屬于人工標(biāo)注的類i的文檔數(shù)目;nj為實際分類結(jié)果類j的文檔數(shù)目;ni為人工標(biāo)注的類i的文檔數(shù)目;Cdet為系統(tǒng)的錯誤識別代價;Cmiss和Cfa分別是漏報和誤報的代價,通常根據(jù)應(yīng)用預(yù)先給定;Pmiss與Pfa分別是系統(tǒng)識別的漏報率和誤報率,可由實際輸出與標(biāo)準(zhǔn)答案的性對照結(jié)果計算得到;Ptarget是一個先驗的目標(biāo)出現(xiàn)率,表示關(guān)于某個話題的新網(wǎng)報道出現(xiàn)的可能性;Pnon-target=1-Ptarget。
文本會話抽取的各個研究方面雖然采用不同的模型或者算法,但其系統(tǒng)結(jié)構(gòu)仍存在內(nèi)在統(tǒng)一性。對文本會話系統(tǒng)結(jié)構(gòu)進(jìn)行抽象,提出文本會話抽取統(tǒng)一研究框架,如圖2所示。

從圖2可以看出,文本會話抽取系統(tǒng)首先對消息進(jìn)行預(yù)處理,去除噪聲。然后建立消息和會話模型,并充分利用消息的文本內(nèi)容信息和語言學(xué)特征,綜合得到相似度值,并將最終相似度與相似度閾值比較,判斷加入已有會話還是建立新會話。
接下來詳細(xì)分析、比較圖中幾個主要模塊的關(guān)鍵技術(shù)。
從圖2中可以看出,文本會話抽取統(tǒng)一研究框架中主要包括預(yù)處理、模型建立、相似度度量和相似度組織4個模塊,其關(guān)鍵技術(shù)分析如下。
文本會話抽取系統(tǒng)首先需要進(jìn)行預(yù)處理,且基于以下事實:1)動態(tài)文本消息不同于新聞報道,并不是每篇消息都在談?wù)撎囟ǖ脑掝},并且部分回復(fù)簡短不規(guī)則,存在拼寫和語法錯誤,因此產(chǎn)生一些干擾性的噪音文本;2)中文網(wǎng)絡(luò)聊天語言具有奇異性的特點(diǎn)[3],奇異性文本需要轉(zhuǎn)換成標(biāo)準(zhǔn)文本才能為后面各個模塊所用。
為此,文獻(xiàn)[4]提出了一種基于社會網(wǎng)絡(luò)的聊天數(shù)據(jù)噪聲過濾方法,通過分析聊天數(shù)據(jù)的時序關(guān)系,推斷出聊天用戶間的社會網(wǎng)絡(luò)關(guān)系,并根據(jù)用戶交流特點(diǎn)判斷并過濾噪聲。另外,在文本層次上的噪聲過濾主要有兩種解決方案,第一種方案可以設(shè)置閾值,將太短的文本過濾掉。另一種解決方案為短文本,只參與會話抽取的聚類,而沒有建立新會話的權(quán)限,從而保證了系統(tǒng)不至于因為噪聲問題產(chǎn)生太多的會話。
表示模型包括表示模型選取、特征度量以及模型本身的改進(jìn)等。
向量空間模型是目前最簡便高效的文本表示模型之一,作為TDT的主流表示模型,在會話抽取中應(yīng)用也頗為廣泛。向量特征的選取范圍通常是對消息詞集進(jìn)行停用詞過濾后的候選集合,其基本思想是:給定一自然語言文檔D=D(t1,w1;t2,w2;… ;tN,wN),其中ti是從文檔D中選出的特征項,wi是項的權(quán)重,1≤i≤N。這時可以把t1,t2,…,tN看成一個N維的坐標(biāo)系,而w1,w2,…,wN為相應(yīng)的坐標(biāo)值,因而D(w1,w2,…,wN)被看成是N維空間中的一個向量。
特征選取會直接影響使用該模型的系統(tǒng)性能。目前針對會話抽取模型的研究大都是在向量空間模型基礎(chǔ)上對特征度量的改進(jìn)。
傳統(tǒng)的特征度量包括TFIDF、TFIWF、信息互增益和熵等,其中TFIDF度量應(yīng)用最廣泛。如1.2節(jié)所述,傳統(tǒng)TFIDF值在文本會話抽取中存在很大局限性。文獻(xiàn)[5]運(yùn)用增量改變TF和DF值的方法,使特征度量值隨時間動態(tài)改變:dft(w)=dft-1(w)+dfCt(w),tft(d,w)=tft-1(d,w)+tfCt(d,w),有一定程度上提高了模型精度。文獻(xiàn)[6]提出了一種專門針對聊天數(shù)據(jù)的詞匯權(quán)重計算方法CDTF*IDF,通過分別計算詞匯在不同數(shù)據(jù)源中的權(quán)值并匯總,同時對重點(diǎn)詞匯提高權(quán)重等方式來計算聊天數(shù)據(jù)的詞匯權(quán)重。除了TFIDF度量外,文獻(xiàn)[7]提出通過知網(wǎng)抽取概念屬性,用CHI-MCOR方法構(gòu)建特征集合,文檔信息由出現(xiàn)頻率高的詞和出現(xiàn)頻率低但有重要意義的詞組成,從而避免了重要詞語被海量無用信息淹沒。
會話模型一般對應(yīng)于消息文檔模型。在傳統(tǒng)向量空間模型中,會話模型表示為各消息模型的向量和,所有消息文本對會話模型占有相同的權(quán)重。但動態(tài)文本會話對時間的敏感性使得在會話中新到來的消息對會話模型的貢獻(xiàn)更大。文獻(xiàn)[8]基于權(quán)重質(zhì)心的Single-Pass算法中線性衡量隨時間到來的消息的權(quán)重在話題檢測與追蹤的研究中,IBM提出動態(tài)改變話題項權(quán)重的方法,初始化IDF值為標(biāo)準(zhǔn)的與話題無關(guān)的IDF0,隨著文檔變化,IDF值不斷調(diào)整,從而動態(tài)改變話題中項的權(quán)重。這對基于向量空間模型的會話抽取也同樣適用。
相似度計算和表示模型關(guān)系密切,需要結(jié)合模型本身特點(diǎn)并充分利用表示模型的內(nèi)容。一般來講,會話相似度由兩部分組成,一是文本內(nèi)容相似度,二是語言學(xué)特征相似度。
1)文本內(nèi)容相似度
由于話題發(fā)現(xiàn)與追蹤中的相似度計算是針對新聞報道的內(nèi)容而進(jìn)行的研究,因而用于TDT中的相似度計算方式也同樣適用于會話抽取中的文本相似度計算。對于向量空間模型計算方法很多,如Okapi公式、Clarity公式、Hellinger、Tanimoto等,其中余弦相似度最常用,也最有效。如果采用概率模型表示文檔,如LDA,則常用KL(Kullback Leibler)相對熵來衡量主題之間的相似度。
2)語言學(xué)特征相似度
如上文所述,相鄰消息間的語言特征并不是隨機(jī)的,而是隱含某種隱形規(guī)則,這種隱含在上下文之間的關(guān)系用條件概率來標(biāo)識。文獻(xiàn)[8]引入了兩種參考指標(biāo):句式和人稱代詞。采用M.STF和M.STL表示消息開始句和結(jié)束句的類型。用M.PPF和M.PPL表示消息開始句和結(jié)束句的人稱代詞,從而前后消息的條件概率可以用P(T(Mi,Mi)|Mi.STL,Mi.STF)和 P(T(Mi,Mi)|Mi.PPL,Mi.PPF)表示,通過貝葉斯條件公式及訓(xùn)練集的最大似然估計得到兩個概率值,然后加權(quán)平均作為消息Mi和Mj的語言特征相似度。
3)最終相似度決定
消息文本最終相似度一般取決于上述兩種相似度度量。文獻(xiàn)[8]采用兩者平均值作為最終相似度,文獻(xiàn)[9]在此基礎(chǔ)上引入了權(quán)衡因子,通過調(diào)整權(quán)衡因子的大小可改變各相似度所占的比重。除此之外,文獻(xiàn)[5]提出了將用戶活動作為相似度的一部分,并基于社會網(wǎng)絡(luò)中的社區(qū)用戶模型提出了UF-ITUF模型,動態(tài)改變會話抽取系統(tǒng)中用戶活動的影響。文獻(xiàn)[8]在計算相似度時還考慮了姓名、內(nèi)容、時間、地點(diǎn)等實體要素。
不同于靜態(tài)的新聞報道,文本會話流具有動態(tài)性,隨著時間變化文檔不斷到來。K-means聚類算法等靜態(tài)聚類算法,由于其要事先制定聚類數(shù)目,并不適用于文本會話抽取。目前采用最多的是Single-Pass策略。文獻(xiàn)[8]提出了3種不同的Single-Pass策略,其中基于最鄰近距離的Sing-Pass策略中消息的分類算法類似于KNN。KNN算法在新會話的檢測中運(yùn)用廣泛,而從系統(tǒng)實現(xiàn)的角度講,通常采用相似度直接與閾值比較的策略。
除此之外,文獻(xiàn)[11]提出基于頻繁刺激的短文本聚類算法FTSDC和基于密度的短文本聚類算法DSDC,首先根據(jù)頻繁刺激進(jìn)行初始簇劃分,然后利用語義信息進(jìn)行簇優(yōu)化。DSDC使用語義信息來計算樣本距離,基于共享近鄰圖來進(jìn)行基本聚類,并通過數(shù)據(jù)抽樣和子圖劃分來實現(xiàn)并行聚類。
由于文本會話本身的特點(diǎn)和處理對象的特殊性,使得話題發(fā)現(xiàn)與追蹤中的許多經(jīng)典方法不如在原來領(lǐng)域中那么有效。與TDT相比較,文本會話的難點(diǎn)包括消息語言奇異性與標(biāo)準(zhǔn)語言的映射和表示模型的修正、相似度的度量等,這也是今后研究的重點(diǎn)內(nèi)容。
動態(tài)文本會話雖然與話題檢測和追蹤相比有很大的特殊性,但是都同屬于文本聚類問題。隨著網(wǎng)絡(luò)的普及和論壇、社區(qū)、微博的迅速發(fā)展,動態(tài)文本會話抽取技術(shù)的研究將得到越來越多的重視。到目前為止,國內(nèi)外的研究并不是很多,而且其研究方法大都是借鑒于話題檢測與追蹤中的方法,文本會話抽取技術(shù)要得到飛躍必須沖破傳統(tǒng)思想的禁錮,結(jié)合本身問題及處理對象的特點(diǎn),創(chuàng)造適合自己的模型。從應(yīng)用的角度來說,隨著文本會話研究的深入,其相關(guān)領(lǐng)域也受到越來越多的關(guān)注。動態(tài)文本會話系統(tǒng)將在會話抽取后的話題檢測、社區(qū)發(fā)現(xiàn)、基于話題的多文本摘要等方面體現(xiàn)其越來越重要的地位。
[1]WANG Lin,JIANG Minghu,LIAO Shasha,et al.Concept features extraction and text clustering analysis of neural networks based on cognitive mechanism[J].Concept Features Extraction and Text Clustering Analysis of Neural Networks Based on Cognitive Mechanism,2006,4113:235-246.
[2]XI W,LIND J,BRILL E.Learning effective ranking functions for newsgroup search[C]//Proc.SIGIR’04.Sheffield,UK:[s.n.],2004:394-401.
[3]夏云慶,黃錦輝,張普.中文網(wǎng)絡(luò)聊天語言的奇異性與動態(tài)性研究[J].中文信息學(xué)報,2007,21(3):83-91.
[4]高鵬,曹先彬.基于社會網(wǎng)絡(luò)的聊天數(shù)據(jù)噪聲過濾[J].計算機(jī)工程,2008,34(5):166-168.
[5]HONG Yu,ZHANG Yu,LIU Ting,et al.Topic detection and tracking rewiew[J].Journal of Chinese Information Processing,2007,21(6):71-87.
[6]李卓爾,胡運(yùn)發(fā).一種對BBS語料進(jìn)行話題提取的聚類算法[J].計算機(jī)應(yīng)用與軟件,2008(8):1-3.
[7]WANG Le,JIA Yan,CHEN Yingwen.Versation extraction in dynamic text message stream[J].Urnal of Computers,2008(10):86-93.
[8]ZHU Mingliang,HU Weiming,Wu Ou.Topic detection and tracking for threaded discussion communities[C]//Proc.the 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology.[S.l.]:IEEE Press,2008:77-83.
[9]SHEN Dou,YANG Qiang,SUN Jiantao,et al.Thread detection in dynamic text message streams[C]//Proc.the 29th annual international ACM SIGIR conference on Research and Development in Information Retrieval.New York,USA:[s.n.],2006:35-42.
[10]STENBACH M,KARYPIS G,KUMAR V.A comparison of document clustering techniques[EB/OL].[2011-01-02].http://rakaposhi.eas.asu.edu/cse494/notes/clustering-doccluster.pdf.
[11]王永恒.海量短語信息挖掘技術(shù)的研究與實現(xiàn)[D].長沙:國防科學(xué)技術(shù)大學(xué),2006.