999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

V-隨機森林算法在微博無效評論識別中的應用

2019-07-08 02:23:41劉同娟姜珊
電腦知識與技術 2019年13期

劉同娟 姜珊

摘要:隨著互聯網的普及,人們利用網絡自由地發表言論。面對海量增長的網絡評論,有效、準確地對其分類具有重要的實際意義。在隨機森林基于決策樹進行分類的基礎上,在分類、迭代、投票過程中引進誤差函數。誤差函數在全局判斷過程中的作用是增加單個決策樹在分類過程中的受重視度,提升整個隨機森林模型的準確性,有效降低誤差。

關鍵詞:隨機森林;決策樹;誤差函數;全局判斷

中圖分類號:TP311 ? ? ?文獻標識碼:A

文章編號:1009-3044(2019)13-0023-03

Abstract: With the popularity of the Internet, people use the Internet to express their opinions freely. Faced with massive growth of Internet comment, it is of great practical significance to classify them effectively and accurately. In this paper, error function is introduced in the process of classification, iteration and voting based on decision tree classification of stochastic forests. The function of error function in the process of global judgment is to increase the importance of a single decision tree in the process of classification, improve the accuracy of the whole Stochastic Forest model, and effectively reduce the error.

Key words: random forest; decision tree; error function; global judgment

隨著互聯網的迅速普及和發展,出現了越來越多的網上用戶。人們利用網絡自由地發表言論。網絡上的言論內容復雜、多樣,數量龐大。不少非法分子利用網絡監管的漏洞,發布大量廣告信息、詐騙信息、色情迷信、黃色暴力等不健康的言論 [1] 。本文將上述類別的評論統稱為無效評論。

由于網絡環境的復雜性,不法分子常利用網絡監管的漏洞發布無效評論引導輿情走向、傳遞錯誤的價值觀[2]。唯有從根源入手,抑制無效評論的發布,才是解決問題的最好辦法。唯有此,才能幫助用戶更好地實現言論自由,維護網絡的正常運營,營造安全的網絡空間。

本文以微博評論文本作為主要研究對象,在隨機森林分類方法對短文本進行識別和分類的基礎上,主要利用改進后的V-隨機森林算法對其進行識別判斷。本文中提到的V-隨機森林算法,彌補了單一分類器結果的單一性和多分類器對結果的誤導影響,可以充分發揮各分類器的優勢。

1 理論研究

1.1 Bagging方法

Bagging方法[3],又稱自助聚集方法、套袋法,是一種從訓練集中隨機抽取部分樣本生成決策樹的方法。Bagging將決策樹組裝形成隨機森林,是將已有的分類或者回歸算法通過一定方式組合起來,形成一個性能更加強大的分類器。通過組合可以將弱分類器轉變形成強分類器,更準確地說這是一種分類算法的組裝方法。

Bagging算法的過程如下:

1) 從原始樣本集中抽取訓練集。每輪從原始樣本集中使用bootstrap[4]重采樣的方法,抽取n個訓練樣本,共進行k輪抽取,得到k個訓練集,訓練集間相互獨立。

2) 建立模型。根據需要分析的問題,選擇合適的算法模型(例如決策樹、感知器、回歸法等),每一個訓練集得到一個模型,共有k個訓練集,獲得k個模型。

3) 獲取結果。根據解決問題的不同有不同獲取結果的方式。對于分類問題,將獲得到的k個模型采用投票的方式得到分類結果;對于回歸問題,計算上述模型的均值作為最后的結果。

1.2 隨機森林

隨機森林(Random Forest,RF)[5]是以決策樹為基礎分類器的集成分類算法,是目前較為流行的數據分析工具。其可分析的領域較為廣泛,其中包括腦磁共振圖像分類[6]、電力系統短期負荷預測[7] 、洪水風險評價[8]等。

用隨機森林模型識別無效評論時,其結果是由n棵決策樹的分類結果以簡單投票的方法共同進行表決決定的,以“少數服從多數”的原則表決得到最終的分類結果。這樣獲取到的分類判別結果不只是單純依賴于某一棵分類樹。基于此,隨機森林比單純決策樹的識別準確性要高。

對于給定的數據集M,假設需要迭代的次數為N,隨機森林的算法步驟如下:

1.3 V-隨機森林

雖然隨機森林具有消除了過度擬合、分類性能好、分類性能好、應用廣泛的優點。但是面對像微博評論這樣,正負數據不平衡、數據噪聲大的問題,隨機森林的分類效果明也存在兩重隨機性,從而影響分類性能和準確性。針對正負數據不平衡的問題,改進后的隨機森林算法(V-隨機森林算法)的解決辦法是影響訓練數據集的分布抽取。即在訓練集階段賦予其一定的權值,在訓練集迭代生成決策樹階段,不斷更新訓練樣本的權值,權值代表樣本數據受重視的程度。不斷加大被錯分樣本的權值,使被錯分的樣本在下一輪迭代中具備更高的關注度。在投票階段,樣本的最終的分類結果由各分類器加權投票結果決定。這樣在一定程度上避免了訓練集樣本不平衡帶來的影響,提升準確率。

2 微博無效評論識別過程

2.1 預處理

微博評論數據本身是來自于網絡,故文本數據存在不規范性、用詞偏于口語化、內容表達不完善、錯別字、用詞網絡化等問題。上述問題都導致數據噪聲大,從而影響模型的識別準確率。

對微博評論進行預處理,在一定程度上規范文本數據的規范性,從而降低數據噪音。預處理主要包括錯別字糾正、字母大小寫統一轉換、繁體字轉為簡體、去除無效符號。

2.2 特征值提取

微博評論在內容方面提取的特征值主要包括:“評論長度”“電話號碼、網址、價格、日期類信息”“特殊符號比例”“無效關鍵詞”。

一條微博評論的文字一般在50個詞左右,無效評論的傳播者為了達到傳播某些內容的目的,字數上會盡可能得多。因此,無效評論長度一般較長,有效提取評論的長度有助于提升無效評論的識別。

廣告推銷類、色情服務類、詐騙類的評論中一般都具有某些特定性、顯著性的特征,如聯系方式、網址鏈接、商品價格、銀行賬號、日期等特殊信息。

部分無效評論為了可以不被系統識別出來,從而避免被過濾掉,會增加大量無效的符號。在識別無效評論中,其是具備明顯特征的。

無效評論主要包括廣告營銷、詐騙信息、色情迷信、黃色暴力等方面。在分類過程中,將無效評論劃分成不同類別,根據每個類別提取相應的特征值作為無效關鍵詞。

2.3 識別過程

基于V-隨機森林算法的微博無效評論分類模型如圖(2)。

3 總結

傳統的隨機森林是由若干個獨立同分布的決策樹構成的,結果是由決策樹簡單投票表決的。但是由于每棵決策樹的分類能力和準確率不同,會導致該分類器的性能下降。本文在原有隨機森林的基礎上,改進的V-隨機森林算法通過設置權重,在迭代過程中不斷更新,且最后的投票結果也是由加權投票決定的。改進的V-隨機森林算法在理論上具備更好的識別率和分類性能,該算法具有一定的研究和實用價值。

參考文獻:

[1] 許鑫,章成志,李雯靜.國內網絡輿情研究的回顧與展望[J]. 情報理論與實踐, 2009, 32(3): 115-120.

[2] 彭輝, 姚頡靖.我國政府應對網絡輿情的現狀及對策研究——基于33件網絡輿情典型案例分析 [J]. 北京交通大學學報(社會科學版), 2014, 13(3): 102-109.

[3] Breiman L, Friedman J, Olshen R, al et. Classification and RegressionTrees [M]. New York : Chapman&Hall, 1984.

[4] Efron B, Tibshirani R J. An introductin to the bootstrap[J]. Journal of Great Lakes Research, 1993, 20(1):1-6.

[5] Thongkam J, Xu G, Zhang Y. AdaBoost algorithm with random forests for predicting breast cancer survivability[C]. In:IEEE International Joint Conference on Neural Networks. IEEE, 2008:3062-3069

[6] 詹曙,姚堯,高賀. 基于隨機森林的腦磁共振圖像分類[J].電子測量與儀器學報,2013,27(11):1067-1072.

[7] 吳瀟雨,和敬涵,張沛,等.基于灰色投影改進隨機森林算法的電力系統短期負荷預測[J].電力系統自動化,2015,39(12):50-55.

[8] 賴成光,陳曉宏,趙仕威,王兆禮,吳旭樹.基于隨機森林的洪災風險評價模型及其應用[J].水利學報,2015,46(1):58-66.

[9] 尚文倩,黃厚寬,劉玉玲,等. 文本分類中基于基尼指數的特征選擇算法研究[J]. 機器學習和數據挖掘,2006,43(10): 1688-1694.

【通聯編輯:李雅琪】

主站蜘蛛池模板: 美美女高清毛片视频免费观看| 国产爽爽视频| 在线无码私拍| 欧美在线天堂| a亚洲天堂| 狠狠五月天中文字幕| 亚洲色欲色欲www在线观看| 美女亚洲一区| 天天做天天爱天天爽综合区| 色综合中文字幕| 亚洲AⅤ综合在线欧美一区| 在线免费看片a| 久久99热66这里只有精品一| jizz亚洲高清在线观看| av无码一区二区三区在线| 亚洲国产精品成人久久综合影院| 成人无码区免费视频网站蜜臀| 22sihu国产精品视频影视资讯| 久久久久亚洲精品成人网 | 国产又色又刺激高潮免费看| 久久国产精品电影| 精品少妇人妻一区二区| 久久人人妻人人爽人人卡片av| 在线国产资源| 日本一区二区三区精品视频| 亚洲一道AV无码午夜福利| 中文字幕亚洲乱码熟女1区2区| 农村乱人伦一区二区| 欧美、日韩、国产综合一区| 国产亚洲精品精品精品| 91麻豆精品视频| 99精品视频在线观看免费播放| 欧美激情视频二区| 久久a毛片| 午夜视频免费试看| 丁香六月综合网| 久久精品波多野结衣| 一级片免费网站| 欧美激情一区二区三区成人| 狠狠色香婷婷久久亚洲精品| 伊人色天堂| 日韩区欧美区| 久久香蕉国产线看观看式| 26uuu国产精品视频| 在线色国产| 日本午夜精品一本在线观看| 亚洲网综合| 亚洲视屏在线观看| 91 九色视频丝袜| 91视频免费观看网站| 欧美成人午夜视频免看| 欧美午夜在线观看| 日韩在线影院| 人妖无码第一页| 国产精品久久久久鬼色| 91久久国产成人免费观看| 欧美日在线观看| 无码内射在线| 亚洲婷婷丁香| 欧美一区中文字幕| 人妻免费无码不卡视频| 综合亚洲色图| 狠狠色狠狠色综合久久第一次| 伊人网址在线| 亚洲欧洲国产成人综合不卡| 国产毛片基地| 91成人免费观看| 日韩av电影一区二区三区四区| 91尤物国产尤物福利在线| 91av国产在线| 欧美日韩高清| 少妇精品网站| 91av国产在线| 91成人试看福利体验区| 国产精品内射视频| 亚洲精品国产日韩无码AV永久免费网| 四虎精品国产AV二区| 成人免费午夜视频| 欧美成人区| 欧美黑人欧美精品刺激| 国产精品无码AⅤ在线观看播放| 97国产成人无码精品久久久|