999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA模型的博客垃圾評論發現

2011-06-14 02:33:26刁宇峰林鴻飛
中文信息學報 2011年1期
關鍵詞:特征情感信息

刁宇峰,楊 亮,林鴻飛

(大連理工大學 信息檢索研究室,遼寧 大連 116024)

1 引言

Blog的全名是Weblog,意思是“網絡日志”,是繼E-mail、BBS、IM之后出現的第四種網絡交流方式,是網絡時代的個人讀者文摘,是一種表達個人思想、網絡鏈接、內容的日志,按照時間順序排列,并且不斷更新的出版方式。簡言之,Blog就是以網絡作為載體,簡易、迅速、便捷地發布自己的心得,及時、有效、輕松地與他人進行交流,再集豐富多彩的個性化展示于一體的綜合性平臺。因此,與傳統的論壇(BBS)相比,Blog更能展示個性,更有針對性;與普通網頁相比,Blog又擁有更強大的互動功能。Blog信息的形式包括文本、圖片、音頻、視頻等多種媒體格式, Blog由博文和評論兩部分構成。

隨著整個互聯網業的迅速發展,作為一種新興事物,Blog正處于高速的發展時期,互聯網上的Blog數量一直在急劇的增長,Blog已經成為互聯網上一種重要的信息源。Blog賦予了數以百萬計人自由地發表言論的權利,因此,Blog評論信息數量龐大,并且具有多樣性,同時也會含有大量的垃圾評論(Opinion spam),會嚴重地干擾用戶的閱讀和使用。近年來,人們越來越熱衷于分析在線的評論信息及其極性,更希望在相關評論上搜集有用信息,因此,垃圾評論的發現也是愈加重要。

本文在這里主要討論在Blog領域中垃圾評論的信息。在現今,垃圾信息的研究已經成為一個重要的研究領域,比如說研究熱點垃圾網頁(Web spam)。在當今Blog大量信息下,由于經濟或宣傳等效應,Web spam是普遍存在的。Web spam[1]的目標是為了吸引人們瀏覽這些頁面,而采取若干手段使該網頁在搜索引擎中享有較高的排名。Web spam有諸多相關的因素,主要的有: 垃圾內容(Content spam)和垃圾鏈接(Link spam)[2]。Link spam是指在鏈接上存在垃圾信息,此鏈接并沒有指向真正的評論信息。Content spam試圖在目標網頁中添加與內容無關的詞,用以欺騙搜索引擎排名。而Opinion spam同Content spam類似,均是在內容上對信息進行分析處理,但是在Blog領域內,在評論中除了相關評論,還會存在與博文的主題毫不相關的其他評論信息,即為本文研究的Opinion spam。

Opinion spam的初步處理同垃圾郵件(E-mail spam)類似,對大多數用戶,Email spam大部分都是沒有主動訂閱的廣告、電子期刊等宣傳品,其基本特征是“不請自來”、帶有商業目的或者政治目的,實際上,垃圾郵件的大部分都是采用基于規則的方式進行處理[3]。在初步處理中,Opinion spam也可以采用該方法,但是對于剩余Opinion spam,需要尋找更有效的方法進行檢測發現。

在國內外,無論是工業界還是學術界,越來越多的研究者關注產品中的評論信息[4-5]。Liu等人首次調研產品評論中的垃圾信息,并提出行之有效的解決方法[6-7],要將Opinion spam分為三類: (1)非可信評論,(2)品牌效應評論,(3)無內容評論。對于第二、三類,主要是看作二值分類問題進行處理。他們通過研究Opinion spam信息固有的特點,發現充分能夠代表Opinion spam的特征,并用這些特征建立分類模型,識別垃圾評論。在這里,本文主要處理的是Blog領域的Opinion spam問題,與上述方法不同的是會考慮到Blog的博文信息。

本文對Blog中評論信息進行分析,發現主要有兩類Opinion spam: 顯式垃圾評論和隱式垃圾評論。針對上述兩種類型,本文分析Opinion spam的特點,在新浪博客語料集上,對于顯式垃圾評論,采取類似于處理垃圾郵件(Email spam)的處理方式[3],使用基于規則的方法進行識別。在此基礎上,對于隱式垃圾評論,本文采用LDA這種主題模型來發現主題信息,通過基于主題的特征選取和基于主題的檢索模型兩種方法,進而發現隱式垃圾評論,最終過濾Opinion spam,這樣能夠幫助人們將大量的Blog評論信息按話題相關程度進行組織,并將過濾后的評論呈現給用戶。

本文主要解決垃圾評論問題,具體方法在下面詳細介紹: 第2節主要介紹一些相關工作;第3節主要介紹本文的核心算法—基于LDA的垃圾評論發現,主要有基于主題的特征選取和基于主題的檢索模型兩種方法;第4節是實驗流程以及結果分析;最后,在第5節中總結工作并計劃下一步工作。

2 相關工作

2.1 情感詞匯本體

本文使用的外部資源是大連理工大學信息檢索實驗室的情感詞匯本體[8](以下簡稱情感本體),該情感本體將情感分為7大類20小類。情感詞匯本體通過一個三元組來描述:

Lexicon=(B,R,E)

其中B:表示詞匯的基本信息,主要包括編號、詞條,對應英文、詞性、錄入者和版本信息。R代表詞匯之間的同義關系,即表示該詞匯與哪些詞匯有同義的關系。E代表詞匯的情感信息,包括情感類別、情感強度、情感極性,是情感詞匯描述框架中比較重要的一部分。

情感本體的基本知識主要來源于現有的一些詞典和語義網絡。其中詞典包括《現代漢語分類詞典》、《漢語褒貶義詞語用法詞典》、《漢語形容詞用法詞典》、《中華成語大詞典》、《漢語熟語詞典》、《新世紀漢語新詞詞典》。語義知識網絡有《知網》和WordNet。另外還加入了《漢語情感系統中情感劃分的研究》中的部分詞匯。因此覆蓋面是比較全面的。

目前,該情感詞匯本體收錄情感詞匯共17 156個,為句子級、段落級和篇章級的情感計算提供了詞匯基礎和分析依據。

2.2 LDA模型基本思想

Latent Dirichlet Allocation(LDA)模型是Blei等在2003年提出的[9],屬于主題模型(Topic Models,是當前文本表示研究的主要范式)的一種。作為一種產生式模型,LDA模型已經成功的應用到文本分類,信息檢索等諸多文本相關的領域[1,3,9-13]。

圖1 LDA的圖模型表示形式

LDA是一個多層的產生式全概率生成模型,是典型的有向概率圖模型,是一種對文本數據的主題信息進行建模的方法[15],如圖1所示,包含詞、主題和文檔三層結構。給定一個文檔集合,LDA 將每個文檔表示為一個主題集合,每個主題是一個多項式分布,用來捕獲詞之間的相關信息。在LDA中,這些主題被所有文檔所共享;每個文檔有一個特定的主題比例。LDA由文檔層的參數(α,β)確定,α反映了文檔集中隱含主題間的相對強弱,β代表了所有隱含主題自身的概率分布。θ代表文檔中各隱含主題的比重,z表示文檔分配在每個詞上的隱含主題比重,w是文檔的詞向量表式。N為文檔集中文檔個數,Nd表示該文檔的詞總數。

LDA模型較之LSI/PLSI等模型有著突出的優點[14]: 首先LDA模型是全概率生成模型,因此具有清晰的內在結構,并且可以利用高效的概率推理算法進行計算;再者,LDA模型是通過無監督方法進行訓練的,與訓練樣本數量無關,因此更適合處理大規模文本語料。近幾年,LDA模型、LDA的擴展模型以及它們在自然語言和智能信息處理中的應用得到充分的重視和深入的研究[9-13],但還沒有人基于LDA發現垃圾評論,由于LDA可以挖掘隱含主題這種特性,本文將LDA模型應用到垃圾評論發現領域上,用來發現Blog中博文的主題信息,進而發現Blog中的垃圾評論。

3 垃圾評論的識別

本文在Blog領域內進行研究,主要考慮的是評論的文本信息,不涉及圖像的識別。針對Blog的評論和博文進行分析,并結合Blog固有的特點,本文將垃圾評論的類型總結為兩類。

第一類: 顯式垃圾評論。經分析,主要有三種類型,(1)廣告及鏈接等,(2)與評論無關的信息如大量隨機字符等,(3)重復評論。這類垃圾評論的分析與處理垃圾郵件類似,主要通過基于規則的方式進行發現。

第二類: 隱式垃圾評論,主要是與Blog中博文內容不相關的評論。這類垃圾評論不能依靠基于規則的方法發現,需要引入LDA模型,結合挖掘出的隱含主題信息進行隱式的分析,主要是通過基于主題的特征選取和基于主題的檢索模型兩種方法來發現。具體流程如下:

(1) 對所有評論,通過基于規則的方法,初步過濾顯式垃圾評論。

(2) 對剩余評論,需要發現隱式垃圾評論。這里主要采用基于主題的方法,引入LDA模型,對Blog的博文信息進行隱式分析,進而挖掘隱式主題信息,最后通過基于主題的特征選取和基于主題的檢索模型兩種方法發現隱式垃圾評論。

3.1 基于規則的垃圾評論識別

設置一些規則,只要符合這些規則的一條或幾條,則認為是顯式垃圾評論。這些規則通常有:

(1) 垃圾關鍵詞精確匹配:

在本文,通過分析語料,定義一些反映垃圾評論特征的關鍵詞或關鍵短語,如: “歡迎到我的博客來”、 “保證有你想要的”、“交流群”、“百度貼吧歡迎你”、“聯系電話”、 “歡迎咨詢”、“訂購熱線”、“24小時人工服務”、 “歡迎到我的博客一游”等明顯的垃圾詞語,當在評論中發現若干條關鍵詞或短語,則判斷為顯式垃圾評論。

(2) 重復評論發現:

本文發現,在同一博文或者不同博文之間,均會含有大量的同一評論者或者不同評論者發表的相似或者完全相同的評論,稱之為重復評論,也屬于顯式垃圾評論。對于重復評論的判斷,在這里,本文采用Jaccard Distance[16]的方法檢測重復評論。首先,對所有評論建立 2-gram語言模型,然后對兩個評論A,B,計算相似值J(A,B),具體公式如下:

(1)

此相似值越大,證明兩評論為重復評論的可能性越大。經過分析和計算,本文發現重復評論主要有四種類型,(1)不同的評論者對同一博文發表相同的評論,(2)不同評論者對不同博文的相同評論,(3)同一評論者對不同博文的相同評論以及(4)同一評論者對同一博文的相同評論。對上述四類相同評論,本文分析得到: 第一、四類評論是重復評論需要過濾掉,第二類是相關評論,而第三類評論可能是隱式垃圾評論,因此在下一步要著重檢測。

(3) 其他垃圾特征發現:

例如,評論中的文字較少,但卻含有大量的超級鏈接;評論中包含大量的隨機字符或者特殊字符等;非垃圾評論的字數量雖多但字體很小,而垃圾字體設置為正常字體等,這樣不但可以保證垃圾評論的視覺效果,又因為含有大量的相關評論,欺騙搜索引擎的搜索,并造成用戶的諸多不便,這些均判斷為顯式垃圾評論。

3.2 基于主題的垃圾評論識別

傳統的垃圾評論發現只是在基于規則的基礎上發現顯式垃圾評論,對于剩余評論,再進行簡單的特征選擇最后進行分類,從而發現隱式垃圾評論,是一個簡單的二值分類問題。與此不同,本文充分考慮到Blog博文的主題信息,提出基于主題的特征選擇和基于主題的檢索模型兩種方法。該算法基于以下的基本假設: (1)每類博文討論若干個主題,類間主題的相關程度低于類內主題;(2)一個具體博文討論的主題是該博文所屬的主題集合的子集。

3.2.1 基于主題的特征選擇方法

對于該方法的與評論相關的特征集合的構造,這里主要有四類信息: (1)評論的內容,(2)評論者,(3)博文作者以及(4)博文的內容。因此,特征集合主要由以上4類信息組成,具體如表1所示。

表1 特征集合

對于評論本身的內容,我們主要考慮評論中包含情感傾向的詞和評論的長短。本文從情感本體中提取表達較強的情感強度的情感詞,如“支持”、“同意”、“贊同”等,并從語料中提取Blog特有的表達情感的詞和短語,如“路過”、“留名”、“杯具”、“稀飯”、“板凳”、“頂一下”、“sofa”、“馬扎”等詞,共同建成本文所需的情感詞典。同時,評論的長度、時間都會對識別垃圾評論造成一定的影響,長評論的關注度相對較高,而早期發表的評論的關注相對也會較多,這些都是識別垃圾評論的標注。

對于評論者,在這里,主要考慮評論者本身的等級和評論者的訪問量,用以參考評論者的信譽度。

分析Blog的評論,本文發現評論中很多是對博文作者的評價,因此,博文作者以及和作者緊密相關的信息均作為特征。

Blog中的評論不僅可以針對博文作者,也可以是針對博文的內容。但是,由于博文的內容過于龐大而且繁雜,不能全部作為特征。在本文,對Blog的博文集合,使用LDA模型建模,抽取隱含的主題集合,將這個主題集合作為特征使用。

本文采用SVM方法進行分類[17]。

3.2.2 基于主題的檢索模型方法

由于采用基于主題的特征選取方法來發現垃圾評論需要標注和訓練,為了節省這種大規模訓練,本文受到文獻[15]中的方法啟發,采用概率檢索模型來發現垃圾評論,這種基于統計的無監督方法,無需訓練集,不用著重篩選特征集合。在這里,將評論和博文的問題看作是檢索問題。評論C假設為查詢串,博文B當作文檔,博文集合是文檔集合,在未引入主題信息前,計算博文產生該評論的概率,建立簡單的概率檢索模型[15]。公式如下:

(2)

其中,B為博文,C為B的評論集合中的一條,w是C中的一個詞,假定B中詞與詞之間相互獨立,P(C|B)為B產生C的概率,P(w|B)為w在B中出現的概率。

在該模型中,由于未考慮到博文的稀疏性以及詞之間隱含的主題信息,也沒有對P(w|B)這項進行平滑,該公式還有待改進,需要在該概率檢索模型中加入隱含的主題信息[15]。本文在上述概率檢索模型的基礎上,加入引入LDA模型后發現的隱含主題集合,用于進行平滑P(w|B),即主題檢索模型。與其他平滑模型不同,LDA模型建立一種全新的博文模型。與其他聚類模型不同,LDA模型將博文看作是包含多個主題的集合,而不只是單一主題集合。看作單一主題集合這種假設對于大規模博文語料來講過于局限,相反,LDA模型將博文看作多個主題集合并以不同比例進行區分,增強了靈活性。本文結合隱含的主題信息,共同建立主題檢索模型。具體公式如下:

其中,tB為博文B的主題集合,t為tB中的一個主題,λ為參數,p(w|t)為詞w在主題t中出現的概率,p(t|B)為主題t在博文B中出現的概率。

對Blog博文中的所有評論,均要計算P(C|B)建立主題檢索模型,然后若此概率值小于某一閾值,則判定為隱式垃圾評論,反之,為相關評論。

4 實驗流程及結果分析

4.1 語料來源及實驗流程

實驗的語料來自新浪博客下載的博文以及評論,作者為博客總人氣排行榜前10名,選取其中這些作者的部分博文共100篇博文(每人10篇),并從中選取評論共有5 980條,經標注,共發現垃圾評論1 282條。本文使用中科院的分詞工具ICTCLAS[18]。具體相關數據見表2。

表2 博客統計表

通過觀察語料,本文發現在新浪博客人氣排行榜上,對每個博文作者,都有數量不少的垃圾評論的存在。在人氣排名靠前的作者博文中,評論者和垃圾評論者均對其作者博文的關注度相對較高,反之,在人氣排名靠后的作者博文中,評論者和垃圾評論者均對其作者博文的關注度相對較低。經分析,本文得出以下Blog領域垃圾評論的分布規律: 在高點擊率的作者博文中,評論垃圾比例相對也較高;在低點擊率的作者博文中,評論垃圾比例相對較低。本文可以在該數據集上進行合理的驗證上述尋找垃圾評論的方法。

對于顯式垃圾評論,本文主要采用基于規則的方法進行判斷。在此基礎上,對于隱式垃圾評論,本文采取基于主題的特征選取和基于主題的檢索模型兩種方法進行實驗。

在基于主題的特征選取的方法中,本文主要是針對Blog博文和評論二者進行分析,篩選特征集合。具體的特征集合見表1。本文選取其中4 000條評論為訓練集,1 980條評論作為測試集。實驗具體流程如下:

(1) 從網上下載Blog語料,并人工鑒定每條評論是垃圾評論還是相關評論。

(2) 對所有的評論進行基于規則的初步過濾,判斷評論是顯式垃圾評論還是相關評論,并記錄可以得到結果的評論。

(3) 將搜集到的Blog特定用語導入分詞的擴展詞典,利用中國科學院的分詞完成博文和剩余的評論切分等預處理工作。

(4) 對于評論長度少于5個字符的評論,若包含本文建立的情感詞典中的詞或短語,認為是相關評論,否則,為隱式垃圾評論。

(5) 構建簡單特征集合和主題特征集合,進行對比實驗。

(6) 對于剩余評論,利用SVM在分類特征集上進行隱式垃圾、非垃圾分類。

(7) 評估結果的正確率和召回率。

在基于主題的檢索模型的方法中,要對于每條評論的詞或短語,需要統計該詞在博文中出現的概率,該詞在主題中出現的概率以及主題在博文中出現的概率,然后建立主題檢索模型。再通過公式(3),判斷評論是隱式垃圾評論還是相關評論。

建立LDA模型時,經分析,發現抽取的主題數量對結果的影響很大,而LDA模型使用交叉熵作為評價概率模型的性能指標之一,當此熵值越小時,LDA模型的性能越佳。如圖2所示,可以得到,當主題數目T等于110的時候,此時交叉熵最小,建立的LDA模型性能最佳。在LDA模型中,需要給出Dirichlet先驗(α,β),在本文,令α=50/T,β=0.01,T為主題數目(此為經驗值,多次實驗表明,這種取值在本實驗的語料集上有較好表現)。

圖2 LDA模型主題數目

4.2 實驗結果與分析

在單獨使用基于規則的方法時,共發現顯式垃圾評論872條,充分說明Blog評論中含有大量的廣告鏈接、重復評論等垃圾信息。

在此基礎上,對于隱式垃圾評論,本文使用基于主題的特征選取方法(特征集分別為簡單特征集和主題特征集兩種)和基于主題的檢索模型方法(主題檢索模型)進行實驗。在基于主題的特征選取方法中,本文與Liu等人在處理產品評論[6]中采用的處理垃圾評論的方法進行對比, Liu等將垃圾評論發現看作一個分類問題,特征集合主要由表1提到的情感詞典、評論長度以及評論者等級等組成,即為簡單特征集。而本文在此基礎上,引入了使用LDA模型后對博文進行抽取出的主題信息,即為主題特征集,具體見表1。在基于主題的檢索模型方法,本文主要按3.2.2介紹的主題檢索模型進行建模并判斷。

本文使用SVM-light分類器,3倍交叉驗證,結果具體見圖3。

圖3 垃圾評論的實驗結果

基于主題特征集的方法與基于簡單特征集方法對比,由圖3可以知道,各項指標都有所提升。這是因為主題特征集中加入了與博文相關的主題信息。例如: 該博文的作者是徐靜蕾,博文主要講述頭暈健康問題,有一條評論為“注意身體,千萬別暈”,使用LDA模型后,可以發現該評論是相關評論,而有一條評論為“我喜歡看《杜拉拉》”,此評論的主題為電影問題,與博文的主題頭暈健康問題無關,則本文判斷為垃圾評論,而用基于簡單特征集方法則不能判斷。

使用主題檢索模型方法的各項指標均高于基于簡單特征集的方法,主要原因在于判斷該評論的詞語在博文、主題,以及該主題出現的概率,而去掉重復評論之后,垃圾評論的詞語相對為低頻詞,使得垃圾評論的概率相對低于相關評論。例如: 該博文的作者是洪晃在Ilook,該博文主要介紹新西蘭之行,有一條評論為“新西蘭的云層也很厚哇,人類活動劇烈,天空污染越來越大”,經本文的主題檢索模型方法判斷,確實和博文同屬一個主題,判斷為相關評論,而又有一條評論為“人生可以沒有輝煌、沒有精彩,但不能沒有感恩的心!…”,此評論的主題是感恩,與博文主題不符,用該主題檢索模型方法判斷為垃圾評論。而簡單特征集中沒有這些主題信息,故不能正確判斷該評論。

基于主題的特征選取方法的各項指標均高于主題檢索模型方法,主要原因在于前者是有監督方法,有了人工標注的訓練集,相對準確,后者是無監督方法,是基于概率統計的方法,準確率等指標不如前者。由圖3可知,在沒有標注語料的前提下,本文使用基于主題檢索模型的方法也達到了較好的效果。

在隱式垃圾評論發現中,尚存在著一些暫時無法解決的難度較大的隱式情感評論問題無法識別。如“眾里尋他千百度,驀然回首,那人卻在燈火闌珊處”、“衣帶漸寬終不悔,為伊消得人憔悴”、“有一種花開叫綻放,有一種鼓勵叫贊揚,有一種激情叫釋放,有一種美麗叫善良”等諸如此句,使用本文的方法均不能判斷評論,需要加入更深層次的語法分析、語義消歧等方法進行情感分析,從而判斷評論是垃圾評論還是相關評論。

5 結束語與下一步工作

本文通過分析Blog垃圾評論的特點,主要將垃圾評論分為兩大類。對于第一類顯式垃圾評論,主要是用基于規則的方法進行識別。而對于第二類隱式垃圾評論,本文采用LDA模型來對博文抽取隱含主題信息,然后通過這些主題信息,使用基于主題的特征選取和基于主題的檢索模型兩種方法,進而發現垃圾評論,經實驗驗證,該方法是行之有效的。

在Blog這個開放性平臺,評論者可以自由地發表言論,很多評論都是由詩歌、散文等隱式表達情感構成的,需要通過更深層次的方法來挖掘其隱式含義,進而判斷與博文是否相關,最終判斷該評論是垃圾評論還是相關評論。這也是本文下一步需要解決的工作。目前,博客中的博文和評論在研究方面的語料還不夠豐富,因此,本文的語料是作者手工收集和整理,語料的豐富和校驗工作還需進一步進行,同時情感詞典也需要進一步完善,并且未進行情感詞強度的考慮。以上情況都有待作進一步細致的研究。

[1] C. Castillo, D. Donato, L. Becchetti, P. Boldi, S. Leonardi, M. Santini, S. Vigna. A Reference Collection for Web Spam[C]//ACM SIGIR Forum,2006,40(2):11-24.

[2] Dennis Fetterly, Mark Manasse,Marc Najork, Spam,Damn Spam, and Statistics Using Statistical Analysis to Locate Spam Web Pages[C]//Proceedings of the 7th International Workshop on the Web and Databases: colocated with ACM SIGMOD/PODS 2004,Paris, France,1-6.

[3] 潘文鋒.基于內容的垃圾郵件過濾研究[D].北京:中科院計算技術研究所,2004.

[4] M. Hu and B. Liu. Mining and Summarizing Customer Reviews[C]//Proceedings of the tenth International Conference on Knowledge Discovery and Data Mining(KDD2004), Seattle,WA,USA,2004:167-177.

[5] N. Jindal and B. Liu. Product Review Analysis [M]. Technical Report, The University of Illinois at Chicago, 2007.

[6] Nitin Jindal and Bing Liu,Opinion Spam and Analysis[C]//Proceedings of the International Conference on Web Search and Data Mining(WSDM2009), Palo Alto, California, USA,2009: 219-230.

[7] N. Jindal and B. Liu. Analyzing and Detecting Review Spam[C]//Proceedings of the 7th IEEE International Conference on Data Mining (ICDM 2007), Omaha, Nebraska, USA, 2007: 547-552.

[8] 徐琳宏, 林鴻飛, 潘宇,等. 情感詞匯本體的構造[J]. 情報學報, 2008, 27(2): 180-185.

[9] D. Blei, A. Ng, and M. Jordan. Latent Dirichlet Allocation [J]. Journal of Machine Learning Research, 2003, 3:993-1022.

[10] 李文波,孫樂, 黃瑞紅,馮遠勇,張大鯤.基于Label-based LDA模型的文本分類新算法[C]//第三屆全國信息檢索與內容安全學術會議,蘇州,2007.

[11] D. Blei and J. Lafferty, Correlated topic models[C]//Advances in Neural Information Processing Systems 18, MIT Press, Cambridge, MA. 2006.

[12] Qiaozhu Mei, Xu Ling,Matthew Wondra, Hang Su, ChengXiang Zhai, Topic Sentiment Mixture: Modeling Facets and Opinions in Web logs [C]//Proceedings of the 16th international conference on World Wide Web(WWW 2007), Banff, Alberta, Canada: 171-180.

[13] Yue Lu, Chengxiang Zhai. Opinion Integration Through Semi-supervised Topic Modeling[C]//Proceedings of the 17th International Conference on World Wide Web (WWW 2008),Beijing, China: 121-130.

[14] 曹娟,張勇東,李錦濤,唐勝.一種基于密度的自適應最優LDA模型選擇方法[J]. 計算機學報, 2008, 31(10):1780-1787.

[15] Xing Wei, W. B. Croft, LDA-based Document Models for Ad-hoc Retrieval[C]//Proceedings of the 29thSIGIR Conference, Seattle, Washington, USA,2006: 178-185.

[16] B. Liu. Web Data Mining: Exploring Hyperlinks, Contents and Usage Data [M]. Springer, 2007.

[17] Vapnik V., The Nature of Statistical Learning Theory [M]. New York; Springer,1995.

[18] 中科院分詞系統: http://ictclas.org[DB/OL].

猜你喜歡
特征情感信息
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
如何在情感中自我成長,保持獨立
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 日韩欧美中文字幕在线韩免费| 国产黄在线免费观看| 在线观看国产网址你懂的| 欧美国产综合色视频| 久久久久国产精品熟女影院| 欧美日本二区| V一区无码内射国产| 二级特黄绝大片免费视频大片| 色婷婷亚洲综合五月| 99精品国产自在现线观看| 国产十八禁在线观看免费| 最新午夜男女福利片视频| 97综合久久| 91精品免费高清在线| 国产在线日本| 熟女成人国产精品视频| 亚洲天堂网2014| 国产专区综合另类日韩一区| 人妻无码中文字幕第一区| 欧美精品在线看| 福利在线一区| 亚洲成人网在线观看| 国产福利小视频高清在线观看| 天天色天天综合| 这里只有精品在线| 欧美成人综合视频| 日韩久草视频| 无码一区18禁| 精品一区二区三区水蜜桃| 国产成人麻豆精品| 成年看免费观看视频拍拍| 中文字幕第4页| 亚洲精品第一页不卡| 99热精品久久| 日韩欧美一区在线观看| 成人免费视频一区二区三区| 99精品免费在线| 欧美成人在线免费| AV无码无在线观看免费| 国产高清在线丝袜精品一区| 国产99精品视频| 五月天综合网亚洲综合天堂网| 亚洲系列中文字幕一区二区| 999精品免费视频| 重口调教一区二区视频| 国产农村妇女精品一二区| 亚洲精品va| 欧美日韩在线亚洲国产人| 特级aaaaaaaaa毛片免费视频 | 免费在线看黄网址| 国产97视频在线观看| 欧美区一区| 精品国产网| 黄色三级网站免费| 在线免费亚洲无码视频| 亚洲综合经典在线一区二区| 国产成人免费手机在线观看视频 | 国产午夜人做人免费视频中文 | 成人欧美在线观看| 亚洲无码精彩视频在线观看| 毛片在线播放网址| 美女高潮全身流白浆福利区| 欧美激情成人网| 国产中文一区二区苍井空| 91精品视频播放| 国产成人精品亚洲日本对白优播| 国产主播喷水| 成人日韩精品| 久久人搡人人玩人妻精品| 多人乱p欧美在线观看| 国产女人综合久久精品视| 欧美日韩精品一区二区视频| 久久永久视频| 国产成人精品一区二区不卡| 日韩成人午夜| AⅤ色综合久久天堂AV色综合 | 国产一二三区视频| 欧美日本激情| 2021天堂在线亚洲精品专区| 在线色国产| 最新国产高清在线| 日韩精品一区二区三区视频免费看|