999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

三支決策在中文貼吧觀點句識別中的應用

2019-05-22 11:18:06王保敏王睿潘洪志楊帆
電腦知識與技術 2019年10期

王保敏 王睿 潘洪志 楊帆

摘要:信息傳播與交互隨著互聯網的發展變得日益普遍,網絡輿論的表達方式也日益多元。中文貼吧作為網絡輿論表達的重要通道,已逐漸成為網民反映自身情感需求的一個平臺,對其觀點進行識別進而判斷其情感傾向非常重要。根據三支決策理論對貼吧觀點進行識別,采用基于三支決策的貝葉斯分類器,給出了中文貼吧觀點句識別方法和主要步驟 ,取得了較好的識別效果。

關鍵詞: 三支決策;觀點句識別 ;貝葉斯分類;貼吧

中圖分類號:TP391 文獻標識碼:A

文章編號:1009-3044(2019)10-0164-03

開放科學(資源服務)標識碼(OSID):

1 概述

互聯網的快速發展吸引了越來越多的用戶,這一趨勢隨著移動互聯網興起更加明顯。針對某一事實或者觀點,這些用戶可以便捷的表達自己的情緒、態度和立場等,形成了海量的客觀或者主觀信息。中文貼吧作為個人情感表達的一個重要渠道,使得對同一個話題感興趣的用戶方便地展開交流,其主題內容廣泛,可以涵蓋社會、生活、教育等方面。作為用戶觀點表達和思想交流的網絡空間,對中文貼吧的觀點進行識別已經愈發受到重視。

中文貼吧觀點句識別是數據挖掘的子領域,其目的在于分析和判斷用戶對事物的觀點傾向。在不同主題貼吧的觀點句識別具有很強的實用性。如針對某一熱點時事,通過有效識別貼吧中的觀點句,可以實現對輿情的及時監測和有效引導,從而化解輿論危機,這對維護社會穩定促進事態向有益方向發展具有極其重要的現實意義。

2 三支決策基本思想

三支決策(Three-way Decision)是一種符合人類認知的決策模式。在實際決策過程中,對于掌握足夠信息的事物,立即做出接受或者拒絕的判斷;而對于哪些信息掌握不充分、認知不夠徹底的事物,則往往會推遲判斷。

3 中文貼吧的語言特征

與微博相比,微博發言具有嚴格的字數限制,體現觀點的語句表達較為集中,而貼吧發言語句較長,字詞較多,表達作者情感或觀點的句子較為稀疏分散。與新聞或者評論相比,新聞或評論的撰寫發表須符合特定的格式,文體較為集中統一,主旨明確,往往首尾句在很大程度上即表明了作者的態度和觀點,而貼吧的發言具有較大的隨意性,語言風格因人而異,反映帖子情感或觀點的語句甚至是隱藏起來的,即使是同一個詞語,在不同的語境或上下文環境下其情感傾向完全不同甚至是相反的,如“呵呵”,既可以表示贊同也可以表示戲謔。這一語言特點在新興網絡用語日益普遍的情況下尤為明顯。

因此,針對不同主題環境的貼吧,對觀點句的識別需結合其自身的語言特征,考慮到不同的領域觀點詞所表現出的不同的語義。

4 基于三支決策的中文貼吧觀點句識別

4.1 設計三支決策分類器

常見的機器學習算法(常規分類器)有樸素貝葉斯算法、最近鄰算法、支持向量機等,將三支決策與機器學習算法結合,形成了基于三支決策的相應算法分類器。由于樸素貝葉斯分類器具有穩定的分類效率、易于處理多分類任務、可分批進行增量訓練等優點,本文采用經拉普拉斯校準的樸素貝葉斯分類器。其基本思想是利用先驗概率和類條件概率估計帖子中句子x屬于觀點句集合C的概率,公式如下:

4.2 構建貼吧領域觀點詞庫

判斷貼吧中的語句是否屬于觀點句,實際上是一個二分類問題,由兩步組成:即訓練和預測。因此需要有一個訓練數據集。本文采用基于詞典和統計分析相結合的方法構建貼吧領域觀點詞庫。基本步驟如下:

1)對某一主題的貼吧,采用人工標注的方式,將其中的語句分成兩類,即觀點句和非觀點句。根據貼吧的語言特征,標注過程中,對可能反映觀點傾向的網絡用語或者符號如“??”“!!”“”“”等,需加以考慮。從觀點句集合中抽取主觀特征(能反映貼吧觀點的詞)作為候選領域觀點詞庫1。

2)采用文獻[3]的方法,將知網HowNet的情感詞典中正面情感詞、負面情感詞、正面評價詞、負面評價詞合并去重,得到候選領域觀點詞庫2。

3)將上述兩步得到的候選領域觀點詞庫1和候選領域觀點詞庫2合并去重,最終得到貼吧的領域觀點詞庫。

4.3 設定閾值

5 實例及結果

本文從某貼吧選取了一個主題為“非機動車撞上違停機動車該不該賠償”的部分回帖,對每個回帖的句子進行編碼,用id表示,首兩位數字表示回帖的編號,末兩位數字表示該回貼中句子的編號。經過文本預處理,將所有句子保存在一個文本文件中,同時構建出訓練樣本集和領域觀點詞庫。為便于說明原理,現從回帖中抽取6句已經標注的帖子作為訓練樣本集,選擇1句作為測試集。分詞后的結果如表1所示。

5 結論

本文給出了基于三支決策的中文貼吧觀點句識別的基本原理和步驟,分析了具體的計算過程。通過簡例表明,這一方法可以有效避免人為判斷的主觀性,如果在測試集數量足夠大的情況下,基于三至決策的識別方法能夠更好地提高識別的準確性。分類過程中,閾值的選取是關鍵,是值得深入研究的一個方面。

參考文獻:

[1] 杜麗萍,李曉戈,于根,等.基于互信息改進算法的新詞發現對中文分詞系統改進[J].北京大學學報:自然科學版,2016,52(1):35-40.

[2] 葛斌,李芳芳,郭絲路,等.基于知網的詞匯語義相似度計算方法研究[J].計算機應用研究,2010,27(9):3329-3333.

[3] 朱艷輝,田海龍,劉璟,等.基于三支決策的新聞情感關鍵句識別方法[J].山西大學學報:自然科學版,2015,38(4):595-600.

[4] 陳剛,劉秉權,吳巖.求三支決策最優閾值的新算法[J].計算機應用,2012,32(8):2212-2215.

[5] 杜麗萍,李曉戈,于根,等.基于互信息改進算法的新詞發現對中文分詞系統改進[J].北京大學學報:自然科學版,2006,52(1):35-40.

[6] 于洪,王國胤,李天瑞,等. 三支決策:復雜問題求解方法與實踐[M].北京:科學出版社,2016: 219-228.

【通聯編輯:謝媛媛】

主站蜘蛛池模板: 亚洲天堂啪啪| 91视频99| 在线欧美国产| 日韩在线成年视频人网站观看| 欧美激情综合一区二区| 国产永久在线视频| 国产一级无码不卡视频| 精品久久久久成人码免费动漫| 国产成人福利在线视老湿机| 在线观看91精品国产剧情免费| 亚洲浓毛av| 国产精品美女自慰喷水| 在线不卡免费视频| 97超碰精品成人国产| 欧美国产视频| 亚洲一级毛片在线播放| 99re在线观看视频| 在线观看亚洲天堂| 久久综合五月| 91久久性奴调教国产免费| 婷婷成人综合| 亚洲一区二区三区麻豆| 国产一区二区三区免费| 精品日韩亚洲欧美高清a | 欧美亚洲欧美| 国产精品视频观看裸模| 免费无码网站| 国产青青草视频| 国产成人精品视频一区二区电影| 一区二区三区四区在线| 不卡色老大久久综合网| 国产真实乱人视频| 天堂成人在线| 久久网欧美| 亚洲av无码成人专区| 人妻精品久久无码区| 精品国产成人av免费| 日韩 欧美 国产 精品 综合| 国产国拍精品视频免费看| 免费不卡视频| 日本一区二区三区精品视频| 国产免费a级片| 老熟妇喷水一区二区三区| 国产视频自拍一区| 国产三级成人| 不卡无码h在线观看| 欧美一级一级做性视频| 丝袜国产一区| 国产精品久久自在自线观看| 美女无遮挡免费视频网站| 国产日本一区二区三区| 99九九成人免费视频精品| 好紧好深好大乳无码中文字幕| 丁香五月激情图片| 激情五月婷婷综合网| 尤物在线观看乱码| 97se综合| 久久精品人人做人人爽电影蜜月 | 尤物特级无码毛片免费| 被公侵犯人妻少妇一区二区三区| 国产剧情一区二区| 国产亚洲精| 国产一区在线视频观看| 福利姬国产精品一区在线| 超碰免费91| 91视频日本| 久久精品人妻中文系列| 人妻丝袜无码视频| 麻豆国产精品一二三在线观看| 自拍偷拍欧美| 国产精品亚洲一区二区三区z| 无码中文字幕精品推荐| 色哟哟国产成人精品| 亚洲婷婷在线视频| 国产高清无码麻豆精品| 99热在线只有精品| 99久久国产自偷自偷免费一区| 国产00高中生在线播放| 亚洲人在线| 日本一区高清| 欧美国产综合视频| 国产精品无码AV片在线观看播放|