999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于協同迭代及動態詞庫擴展的文本情感傾向分類算法

2015-12-02 02:28:58鄭皎凌舒紅平
成都信息工程大學學報 2015年5期
關鍵詞:分類特征文本

文 俊, 鄭皎凌, 舒紅平

(成都信息工程大學軟件工程學院,四川成都610225)

0 引言

伴隨計算機技術和互聯網技術的蓬勃發展,網絡已經無可替代的成為人們發布信息和獲取信息的重要場所,可以說人們的工作、學習以及生活已經到了完全離不開互聯網的程度。尤其是隨著Web2.0技術的興起,人與人之間通過網絡交互更加頻繁了,不僅僅可以瀏覽信息,獲取信息,還可以很輕松簡便的發布信息。用戶通過網絡相互之間進行交流的方式,已成為互聯網的一種最流行的旋律,而這種形勢已經給互聯網帶來了海量的數據信息,挖掘出隱藏在這些海量數據中的有價值的信息是具有十分重要的社會意義和商業意義。但是面對如此龐大的數據信息,僅依靠人工對日益增長的海量數據的采集、處理、分析并預測顯然是不切實際的,因此,利用先進技術和工具來獲取其中有價值的信息成為人們的迫切需要。文本情感傾向分析研究正是在此背景下應運而生的,具有重要的研究意義。所謂情感分析[1-4],就是確定說話人或作者對某個特定主題的態度。其中,態度可以是他們的判斷或者評估,他們(演說、寫作時)的情緒狀態,或者有意(向受眾)傳遞的情感信息,在現有的網絡社交平臺里,如微博、論壇、Twitter、評論社區等,都含有大量的類似的信息數據。因此,情感分析的一個重要問題就是情感傾向性的判斷,即判斷作者的觀點是褒義的、積極的,還是貶義的、消極的,這類問題也被稱為情感分類。通過實驗發現,利用基于情感詞庫的文本情感傾向分類方法對文本情感傾向進行分類時,可能存在2個影響分類準確率的因素:(1)情感詞庫不夠豐富。目前已有的情感詞典(Hownet情感詞語集、臺灣大學NTUSD、中文情感詞匯本體庫等)涉及的領域行業比較廣泛,對某一領域行業來說,針對性不強;又或者說在跨領域應用[5]時,泛化能力不夠好。(2)切詞工具不夠準確。切詞工具如果不夠準確,會導致情感詞提取數量減少,包含情感信息量小。基于以上兩個原因的考慮,我們試圖尋找其他更行之有效的方法,一種既能對文本情感傾向進行分類并且還能擴展詞庫的算法。在進行多次數據統計并實驗分析后,發現某些單詞出現在某些類型文章中的頻率是不規則的,具有一定的傾向性并且其詞性分布集中,甚至可以說某些詞基本只出現在正面文章中或負面文章中。比如“腐敗”一詞,出現在正面情感文章中的概率遠小于出現在負面情感文章中的概率,根據這一規律,設計了一種基于協同迭代及動態詞庫擴展的文本情感傾向分類算法CACIDLE。

1 相關工作

文本傾向性分析研究始于國外,文本傾向性分析技術就是分析文本作者對某個事物或問題得立場、態度。是一個涵蓋了文本挖掘、信息檢索、機器學習、自然語言處理、概率統計學、語料庫語言學等的多學科綜合研究領域。在文本傾向性分析研究方面,從事該領域的國外科研工作者提出了很多經典且有效的技術方法,如支持向量機 SVM(support vector machine)[6],Boosting[7],kNN(k-nearest neighbors)[8]算法。在文獻[9],Hatzivassiloglown和 Makeown(1997)針對形容詞的語義傾向性展開研究,算法利用詞匯之間的連詞(and,or,but,either-or和 neither-nor等)訓練生成詞匯間的同義或反義傾向的連接圖,然后用聚類的方法將詞匯聚成褒義和貶義兩類,來預測具有主觀性的形容詞的傾向,其準確率達到了78.08%。Turney和Littham(2003)通過計算傾向性基準詞對與目標詞匯間相似度的方法識別詞匯語義傾向性。選擇褒義傾向比較強烈的詞匯,計算待定詞與每個基準詞的SO-PMI值來判定詞匯的傾向性,其準確率在包含形容詞、副詞、名詞、動詞的完整測試集上達到82.18%。相對于國外,中國在這方面的研究起步較晚,再加之中英文語言結構及中西方文化的差異,中文在表達個人感情方面比英文更為復雜、多樣化,給中文文本傾向性分析研究增加很大的難度。不過,隨著文本傾向性分析研究越來越受到專家和學者的關注,在該方向的研究也取得了不錯的成果。王建會等[10]提出一種基于互依賴和等效半徑、易更新的分類算法SECTILE,該算法計算復雜度低,擴展性能好,分類速度快,適用于大規模場合,有利于對大規模信息樣本進行實時在線的自動分類,提高查全率和查準率。葉強等[11]人在N-POS語言模型的基礎上利用卡方(CHI-square)統計方法提取中文主觀文本詞類組合模式,建立中文雙詞主觀情感詞類組合模式2-POS模型來自動地判斷中文語句的主觀性程度。實驗表明采用2-POS模型的分類器對主觀句的查準率和查全率接近目前英文同類研究的結果。潘宇等[12]提出一種基于語義極性分析的餐館評論挖掘方法,算法選取餐館相關信息作為特征,結合中文句子語法結構并以句子為單位來分析評論句的語義極性和極性強度,其分類準確率優于Baseline方法。杜偉夫等[13]提出一種新的情感詞匯語義傾向計算方法,算法利用多種詞語相似度構建詞語無向圖,再利用以“最小切分”為目標的目標函數對該圖進行劃分,并利用模擬退火算法進行求解。李壽山等[14]人具體研究4種不同的分類方法在中文情感分類上的應用,并且采用一種基于Stacking的組合分類方法,用以組合不同的分類方法。實驗結果表明組合方法在所有領域都能夠獲得比最好基分類方法更好的分類效果。周杰等[15]人選取不同的特征集、特征維度、權重計算方法和詞性等因素對網絡新聞評論進行分類測試,并對實驗結果進行分析比較。陶富民等[16]人構建了一個面向話題的新聞評論的情感特征提取框架,通過對那些熱門話題構造對應的情感特征表來達到改善情感分析的效果。

2 傾向特征挖掘

2.1 句子劃分

一篇普通的文本由一個或多個段落組成,每個段落由一句或多個句子組成,每一句子有多個詞組成。就文中算法以句子級為計算文本情感傾向性的最小單位,需要將文本內容劃分為句子集合。由于文本內容可能存在標點符號使用不規范的現象,因此將“。”,“.”,“。。”,“?”,“!”,“!!”,“!!!”,“~”,“……”作為一個句子的邊界符號。

2.2 特征詞性集合選取

目前,中科院發布的“漢語文本詞性標注標記集”文檔中,中文各類詞性大概總計有近百余種。通過多次實驗的測試,發現具有明顯傾向性的詞,其詞性主要集中分布在以下特征詞性集合中,將以下詞性集合選取作為特征詞提取的范圍,內容如表1所示。

表1 特征詞性集合信息

2.3 特征傾向詞庫構建

定義1 特征詞傾向頻率FR,將特征詞的文本情感傾向度的一個評判標準定義為特征詞傾向頻率。特征詞傾向頻率FR反映了特征詞出現在某一情感類型文本的可能性。特征詞傾向頻率FR的計算公式為

其中,posi表示特征詞在第i篇正面文本中的出現的次數;negi表示特征詞在第i篇負面文本中的出現的次數。

定義2 特征詞傾向差DIFF,將特征詞的文本情感傾向度的另一個評判標準定義為特征詞特征詞傾向差值。特征詞傾向差值DIFF同樣反映了特征詞出現在某一情感類型文本的可能性。特征詞傾向差值DIFF的計算公式為

其中,posi表示特征詞在第i篇正面文本中的出現的次數;negi表示特征詞在第i篇負面文本中的出現的次數。

獲取等量的正面情感和負面情感兩類文本作為語料,對照特征詞性集合(表1)提取特征詞,并按特征詞總出現次數降序排序,計算特征詞的文本情感傾向度的兩個評判標準(FR和DIFF),并按特征詞分類過程classifyWord(word)將特征詞分類,分別構建等量的正面特征傾向詞庫posLib和負面特征傾向詞庫negLib。特征詞分類過程描述如下:

算法1 classifyWord(word)

if(FR≥wordThd-pos& & DIFF≥diffThd)

將word從其他詞庫移除并加入posLib;return 1;

else if(FR≤wordThd-neg&&(-DIFF)≥diff-Thd)

將word從其他詞庫移除并加入negLib;return-1;

else

將word從其他詞庫移除并加入medLib;return 0;

其中,wordThd-pos為正面特征詞閾值,wordThd-neg為負面特征詞閾值,diffThd為差值閾值,中性特征傾向詞庫medLib。

2.4 簡單示例

為增加對傾向特征挖掘流程的理解,利用下面的例子來介紹。

從正負5篇文章提取的特征詞信息,如表2所示。

表2 文本特征信息

統計文本中所有特征詞的信息,如正負面詞頻、傾向頻率FR、傾向差值DIFF,并按總詞庫排序,詳細信息如表3所示。

表3 特征詞信息

從表3可以看出,“道德”和“搶救”的FR值都為0,然而DIFF值卻相差5;“安全”和“搶救”的DIFF值都為-1,然而FR值卻相差0.6;這說明單憑FR值或DIFF值來作為特征詞的分類標準可能會出現很大的誤差。所以將FR和DIFF相結合作共同作為為特征詞的分類標準更為合適,正如分詞算法1中所示。

3 CACIDLE算法描述與實現

本算法的核心思想來源于基于統計的分析方法,分類模式類似于基于情感詞典的語義計算分析方法。主要由文本協同迭代分類和動態詞庫擴展兩個部分構成。

3.1 文本協同迭代分類

文中算法以句子為最小單位,首先要通過特征句子分類過程classifySentence(sentence)將文本中的句子分類,再通過文本分類過程classifyText(text)將文本分類,再將文本中出現的所有新特征詞去重過濾,按照特征詞分類過程classifyWord(word)來重構特征傾向詞庫。經過多次這樣迭代的過程collaClassify(textList),當分類的準確度連續3次變化微小或者中性詞庫medLib中的詞連續3次不變化,即認為達到平衡狀態,則完成整個分類流程。具體幾個過程定義如下:

其中,sentenceThd為句子閾值,attributeList為表1的特征詞性集合。

算法3 classifyText(text)

其中,textList為待分類的文本集合,balanceState為平衡狀態布爾值。

3.2 動態詞庫擴展

由于擴展詞庫是基于某一次文本分類,對于某一特定的特征詞,在不同容量的分類文本的情況下,按照同一特征詞分類規則去分類此特征詞,結果可能不一致。毫無疑問,對于某一特定的特征詞,其正負傾向詞頻值隨文本容量的增加而增加。然而,其正負傾向詞頻值的增長率不一定隨文本容量的變大而增加,有可能保持不變甚至減小。比如,某些特征詞的正負詞頻值平均趨勢如圖1所示。

觀察圖1可知當文本容量在250~300的某一點k時,正負面詞頻曲線的斜率明顯改變了。當文本容量大于k值時,負面詞頻曲線的斜率變大,而正面詞頻曲線的斜率在減小。這說明k點可作為特征詞的正負面詞頻值的區分點。為了確保特征基礎詞庫中的每個新特征詞都具有較明顯的正負文本傾向性,取文本容量在250~300之間的多組正負詞頻對比值求平均值,將此平均值作為特征詞閾值來分類特征詞,以達到擴展特征詞庫的目的。為了保證下一次文本分類的準確性,當前文本分類結束后取等量且適宜(不大于200)的特征詞加入相應的特征傾向詞庫。

圖1 正負面詞頻值平均趨勢

3.3 CACIDLE算法實現

結合2.1和2.2兩個過程,CACIDLE算法的整個過程如下:

算法5 CACIDLE

輸入:文本閾值textThd,句子閾值 sentenceThd,正面特征詞閾值wordThd-pos,負面特征詞閾值wordThd-neg,差值閾值 diffThd,詞庫擴展閾值wordSizeThd。

輸出:文本分類結果及新特征傾向詞庫.

過程:

設balanceState=false;

while(!balanceState)

balanceState=collaClassify(textList);

將文本中的特征詞FR與DIFF按排序并取前wordSizeThd個詞分別加入特征傾向詞庫;

輸出結果;

分類結束。

4 實驗結果及分析

4.1 實驗數據

利用網絡爬蟲技術,從一些有名的網站模塊(如:鳳凰網的暖新聞模塊http://news.ifeng.com)爬取具有情感傾向的新聞文章文本,再經過人工篩選過濾并進行正面和負面標注,將其作為實驗的文本數據集。數據集的具體信息如表4所示。

表4 文本數據集具體信息

利用中科院中文切詞工具ICTCLAS將文本數據集切詞并進行詞性標注,選取其中1000篇文本(正面傾向和負面傾向各500篇)作為訓練數據集來構建基礎種子詞庫,最終提取了各500個特征詞到正面傾向詞庫和負面傾向詞庫。剩下的1000篇文本作為測試數據集。

4.2 實驗評價

使用的精確度(accuracy)為文本情感傾向的判斷標準,其基本定義公式為

其中,trueTextSize表示分類正確的文本數量,totalTextSize為總測試文檔數量。

4.3 總體結果比較

將測試數據集分別在K最近鄰、支持向量機SVM以及本文分類方法做了不同文本容量的多次十字交叉測試實驗,表5顯示了各方法的文本分類實驗的平均結果。

表5 各方法實驗平均結果

從表5可以看出,在多次不同文本測試數據集的實驗平均結果中,文中分類方法都優于其他兩種分類方法。從結果數據上來對比,文中分類方法的平均精確度為83.4%,比支持向量機SVM分類方法所得的平均精確度78.5%高出4.9%,比K最近鄰分類方法所得的平均精確度70.3%更高出13.1%,由此說明文中分類方法能提高中長文本的情感傾向分類的效果。

4.4 算法收斂性

算法是分類文本和特征詞兩者相互訓練的迭代過程,由分類文本提取更多新特征詞擴充基礎種子詞庫,反過來,由更大容量的基礎種子詞庫將更多的待分類文本進行更精確的分類。在進行迭代的過程中,將實驗結果趨于穩定的狀態作為迭代的結束條件,即算法收斂。通過多次實驗測試了算法的收斂性,圖2為表示本算法在不同容量的測試文本數據集的情況下,算法精度隨迭代次數的增加而變化的曲線。從圖2可以看出,迭代次數在10次左右時曲線就趨于穩定,能獲得一個比較優良的精確度。

圖2 算法收斂性

5 結束語

提出基于協同迭代及動態詞庫擴展的文本情感傾向分類算法CACIDLE,通過實驗結果證明了是一種有效的文本情感分類的方法,分類效果也比較令人滿意的,而且經過每一次文本分類,特征傾向詞庫的特征詞在不斷的豐富,這樣更有利于提高文本的分類效果和算法的時間效率(迭代次數減少)。當然,算法CACIDLE還有待提高的方面,如特征詞性集合的選取、擴展詞庫方法的優化以及分類效果的提高,這些都是接下來要進一步研究的重點。

[1] Sholom M Weiss,Nitin Indurkhya,Tong Zhang.預測性文本挖掘基礎[M].趙仲孟,候迪,譯.西安:西安交通大學出版社,2010.

[2] Liu B.Sentiment Analysis[C].Emerging Trends and Applications in Computer Science(ICETACS),2013 1st International Conference on-IEEE,2013:i.

[3] Singh V,Dubey S K.Opinion mining and analysis:A literature review[C].Confluence The Next Generation Information Technology Summit(Confluence),2014 5th International Conference IEEE,2014:232-239.

[4] 魏韋華,向陽,陳千.中文文本情感分析綜述[J].計算機應用,2011,31(12).

[5] 吳瓊,譚松波,徐洪波,等.基于隨機游走模型的跨領域傾向性分析研究[J].計算機研究與發展,2010,47(12):2123-1231.

[6] C J C Burges.A tutorial on support vector machines for pattern recognition[J].Data Mining and Knowledge Discovery,1988,2(2):955-974.

[7] R Schapire,Y Singer.BoosTexter:A booting-based system for text categorization[J].Machine Learning,2000,39(2/3):135-168.

[8] Y Dasarathy B V.Minimal consistent set(MCS)identification for optimal nearnest neighbor decision system terms design[J].IEEE Trans.on System Man Cybern,1944,24(3):511-517.

[9] 翁彧.網絡話題中的web文本挖掘技術[M].北京:中央名族大學出版社,2010.

[10] 王建會,王洪偉,申展,等.一種實用高效的文本分類算法[J].計算機研究與發展,2005,42(1):85-93.

[11] 葉強,張紫瓊,羅振雄.面向互聯網評論情感分析的中文主觀性自動判別方法研究[J].信息系統學報,2007,1(1):79-91.

[12] 潘宇,林鴻飛.基于語義極性分析的餐館評論挖掘[J]. 計算機工程,2008,34(17):1000-3428.

[13] 杜偉夫,譚松波,云曉春,等.一種新的情感詞匯語義傾向計算方法[J].計算機研究與發展,2009,46(10):1713-1720.

[14] 李壽山,黃居仁.基于Stacking組合分類方法的中文情感分類研究[J].中文信息學報,2010,24(5):56-61.

[15] 周杰,林琛,李弼程.基于機器學習的網絡新聞評論情感分類研究[J].計算機應用,2010,30(4):1011-1014.

[16] 陶富民,高軍,王騰蛟,等.面向話題的新聞評論的情感特[J].中文信息學報,2010,24(3):37-43.

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 精品无码专区亚洲| 手机永久AV在线播放| 91日本在线观看亚洲精品| 最新国产在线| 久久久噜噜噜久久中文字幕色伊伊 | 亚洲无码高清一区| 欧美特黄一级大黄录像| 自偷自拍三级全三级视频| 亚洲国产中文欧美在线人成大黄瓜| 日韩视频福利| 一区二区三区成人| 欧美日本在线播放| 91系列在线观看| 91精品免费久久久| 99ri精品视频在线观看播放| 蜜桃视频一区二区| 亚洲精品制服丝袜二区| 欧美亚洲国产精品久久蜜芽| 婷婷六月天激情| 欧美午夜在线播放| 国产精品亚洲一区二区三区在线观看 | 久久精品国产精品一区二区| 高清色本在线www| 无码专区在线观看| 国产精品欧美日本韩免费一区二区三区不卡 | 国产免费人成视频网| 色天天综合久久久久综合片| 国产69囗曝护士吞精在线视频| 亚洲无码视频喷水| 91九色国产porny| 一本大道无码高清| 呦系列视频一区二区三区| 欧美亚洲一区二区三区在线| 亚洲swag精品自拍一区| 71pao成人国产永久免费视频| 国产成人精品优优av| 好紧太爽了视频免费无码| 91精品人妻一区二区| 在线日韩日本国产亚洲| 成人永久免费A∨一级在线播放| 怡红院美国分院一区二区| 精品视频91| 秋霞午夜国产精品成人片| 亚洲开心婷婷中文字幕| 久久人人爽人人爽人人片aV东京热 | 日韩AV手机在线观看蜜芽| 国产美女在线免费观看| 亚洲视频在线观看免费视频| 午夜福利在线观看成人| 亚洲男人的天堂在线观看| 国产欧美日韩在线一区| 99精品视频在线观看免费播放| a级毛片网| 精品国产免费观看| 人妻丰满熟妇啪啪| 国产在线精品99一区不卡| 国产精品自在线天天看片| 欧美日韩高清| 国产97视频在线观看| 成人年鲁鲁在线观看视频| 欧美啪啪网| 久久免费看片| 欧洲欧美人成免费全部视频| 国产成人欧美| 不卡的在线视频免费观看| 白丝美女办公室高潮喷水视频| 91久久天天躁狠狠躁夜夜| 日韩资源站| 性做久久久久久久免费看| 97se亚洲综合不卡| 亚洲国产综合自在线另类| 91久久精品日日躁夜夜躁欧美| 日本人又色又爽的视频| 极品尤物av美乳在线观看| 亚洲欧美日韩精品专区| 无码中字出轨中文人妻中文中| 四虎成人精品| 99er精品视频| 美女被操黄色视频网站| 97青草最新免费精品视频| 日韩一区精品视频一区二区| 亚洲精品另类|