999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

V-隨機森林算法在微博無效評論識別中的應用

2019-07-08 02:23:41劉同娟姜珊
電腦知識與技術(shù) 2019年13期

劉同娟 姜珊

摘要:隨著互聯(lián)網(wǎng)的普及,人們利用網(wǎng)絡(luò)自由地發(fā)表言論。面對海量增長的網(wǎng)絡(luò)評論,有效、準確地對其分類具有重要的實際意義。在隨機森林基于決策樹進行分類的基礎(chǔ)上,在分類、迭代、投票過程中引進誤差函數(shù)。誤差函數(shù)在全局判斷過程中的作用是增加單個決策樹在分類過程中的受重視度,提升整個隨機森林模型的準確性,有效降低誤差。

關(guān)鍵詞:隨機森林;決策樹;誤差函數(shù);全局判斷

中圖分類號:TP311 ? ? ?文獻標識碼:A

文章編號:1009-3044(2019)13-0023-03

Abstract: With the popularity of the Internet, people use the Internet to express their opinions freely. Faced with massive growth of Internet comment, it is of great practical significance to classify them effectively and accurately. In this paper, error function is introduced in the process of classification, iteration and voting based on decision tree classification of stochastic forests. The function of error function in the process of global judgment is to increase the importance of a single decision tree in the process of classification, improve the accuracy of the whole Stochastic Forest model, and effectively reduce the error.

Key words: random forest; decision tree; error function; global judgment

隨著互聯(lián)網(wǎng)的迅速普及和發(fā)展,出現(xiàn)了越來越多的網(wǎng)上用戶。人們利用網(wǎng)絡(luò)自由地發(fā)表言論。網(wǎng)絡(luò)上的言論內(nèi)容復雜、多樣,數(shù)量龐大。不少非法分子利用網(wǎng)絡(luò)監(jiān)管的漏洞,發(fā)布大量廣告信息、詐騙信息、色情迷信、黃色暴力等不健康的言論 [1] 。本文將上述類別的評論統(tǒng)稱為無效評論。

由于網(wǎng)絡(luò)環(huán)境的復雜性,不法分子常利用網(wǎng)絡(luò)監(jiān)管的漏洞發(fā)布無效評論引導輿情走向、傳遞錯誤的價值觀[2]。唯有從根源入手,抑制無效評論的發(fā)布,才是解決問題的最好辦法。唯有此,才能幫助用戶更好地實現(xiàn)言論自由,維護網(wǎng)絡(luò)的正常運營,營造安全的網(wǎng)絡(luò)空間。

本文以微博評論文本作為主要研究對象,在隨機森林分類方法對短文本進行識別和分類的基礎(chǔ)上,主要利用改進后的V-隨機森林算法對其進行識別判斷。本文中提到的V-隨機森林算法,彌補了單一分類器結(jié)果的單一性和多分類器對結(jié)果的誤導影響,可以充分發(fā)揮各分類器的優(yōu)勢。

1 理論研究

1.1 Bagging方法

Bagging方法[3],又稱自助聚集方法、套袋法,是一種從訓練集中隨機抽取部分樣本生成決策樹的方法。Bagging將決策樹組裝形成隨機森林,是將已有的分類或者回歸算法通過一定方式組合起來,形成一個性能更加強大的分類器。通過組合可以將弱分類器轉(zhuǎn)變形成強分類器,更準確地說這是一種分類算法的組裝方法。

Bagging算法的過程如下:

1) 從原始樣本集中抽取訓練集。每輪從原始樣本集中使用bootstrap[4]重采樣的方法,抽取n個訓練樣本,共進行k輪抽取,得到k個訓練集,訓練集間相互獨立。

2) 建立模型。根據(jù)需要分析的問題,選擇合適的算法模型(例如決策樹、感知器、回歸法等),每一個訓練集得到一個模型,共有k個訓練集,獲得k個模型。

3) 獲取結(jié)果。根據(jù)解決問題的不同有不同獲取結(jié)果的方式。對于分類問題,將獲得到的k個模型采用投票的方式得到分類結(jié)果;對于回歸問題,計算上述模型的均值作為最后的結(jié)果。

1.2 隨機森林

隨機森林(Random Forest,RF)[5]是以決策樹為基礎(chǔ)分類器的集成分類算法,是目前較為流行的數(shù)據(jù)分析工具。其可分析的領(lǐng)域較為廣泛,其中包括腦磁共振圖像分類[6]、電力系統(tǒng)短期負荷預測[7] 、洪水風險評價[8]等。

用隨機森林模型識別無效評論時,其結(jié)果是由n棵決策樹的分類結(jié)果以簡單投票的方法共同進行表決決定的,以“少數(shù)服從多數(shù)”的原則表決得到最終的分類結(jié)果。這樣獲取到的分類判別結(jié)果不只是單純依賴于某一棵分類樹。基于此,隨機森林比單純決策樹的識別準確性要高。

對于給定的數(shù)據(jù)集M,假設(shè)需要迭代的次數(shù)為N,隨機森林的算法步驟如下:

1.3 V-隨機森林

雖然隨機森林具有消除了過度擬合、分類性能好、分類性能好、應用廣泛的優(yōu)點。但是面對像微博評論這樣,正負數(shù)據(jù)不平衡、數(shù)據(jù)噪聲大的問題,隨機森林的分類效果明也存在兩重隨機性,從而影響分類性能和準確性。針對正負數(shù)據(jù)不平衡的問題,改進后的隨機森林算法(V-隨機森林算法)的解決辦法是影響訓練數(shù)據(jù)集的分布抽取。即在訓練集階段賦予其一定的權(quán)值,在訓練集迭代生成決策樹階段,不斷更新訓練樣本的權(quán)值,權(quán)值代表樣本數(shù)據(jù)受重視的程度。不斷加大被錯分樣本的權(quán)值,使被錯分的樣本在下一輪迭代中具備更高的關(guān)注度。在投票階段,樣本的最終的分類結(jié)果由各分類器加權(quán)投票結(jié)果決定。這樣在一定程度上避免了訓練集樣本不平衡帶來的影響,提升準確率。

2 微博無效評論識別過程

2.1 預處理

微博評論數(shù)據(jù)本身是來自于網(wǎng)絡(luò),故文本數(shù)據(jù)存在不規(guī)范性、用詞偏于口語化、內(nèi)容表達不完善、錯別字、用詞網(wǎng)絡(luò)化等問題。上述問題都導致數(shù)據(jù)噪聲大,從而影響模型的識別準確率。

對微博評論進行預處理,在一定程度上規(guī)范文本數(shù)據(jù)的規(guī)范性,從而降低數(shù)據(jù)噪音。預處理主要包括錯別字糾正、字母大小寫統(tǒng)一轉(zhuǎn)換、繁體字轉(zhuǎn)為簡體、去除無效符號。

2.2 特征值提取

微博評論在內(nèi)容方面提取的特征值主要包括:“評論長度”“電話號碼、網(wǎng)址、價格、日期類信息”“特殊符號比例”“無效關(guān)鍵詞”。

一條微博評論的文字一般在50個詞左右,無效評論的傳播者為了達到傳播某些內(nèi)容的目的,字數(shù)上會盡可能得多。因此,無效評論長度一般較長,有效提取評論的長度有助于提升無效評論的識別。

廣告推銷類、色情服務類、詐騙類的評論中一般都具有某些特定性、顯著性的特征,如聯(lián)系方式、網(wǎng)址鏈接、商品價格、銀行賬號、日期等特殊信息。

部分無效評論為了可以不被系統(tǒng)識別出來,從而避免被過濾掉,會增加大量無效的符號。在識別無效評論中,其是具備明顯特征的。

無效評論主要包括廣告營銷、詐騙信息、色情迷信、黃色暴力等方面。在分類過程中,將無效評論劃分成不同類別,根據(jù)每個類別提取相應的特征值作為無效關(guān)鍵詞。

2.3 識別過程

基于V-隨機森林算法的微博無效評論分類模型如圖(2)。

3 總結(jié)

傳統(tǒng)的隨機森林是由若干個獨立同分布的決策樹構(gòu)成的,結(jié)果是由決策樹簡單投票表決的。但是由于每棵決策樹的分類能力和準確率不同,會導致該分類器的性能下降。本文在原有隨機森林的基礎(chǔ)上,改進的V-隨機森林算法通過設(shè)置權(quán)重,在迭代過程中不斷更新,且最后的投票結(jié)果也是由加權(quán)投票決定的。改進的V-隨機森林算法在理論上具備更好的識別率和分類性能,該算法具有一定的研究和實用價值。

參考文獻:

[1] 許鑫,章成志,李雯靜.國內(nèi)網(wǎng)絡(luò)輿情研究的回顧與展望[J]. 情報理論與實踐, 2009, 32(3): 115-120.

[2] 彭輝, 姚頡靖.我國政府應對網(wǎng)絡(luò)輿情的現(xiàn)狀及對策研究——基于33件網(wǎng)絡(luò)輿情典型案例分析 [J]. 北京交通大學學報(社會科學版), 2014, 13(3): 102-109.

[3] Breiman L, Friedman J, Olshen R, al et. Classification and RegressionTrees [M]. New York : Chapman&Hall, 1984.

[4] Efron B, Tibshirani R J. An introductin to the bootstrap[J]. Journal of Great Lakes Research, 1993, 20(1):1-6.

[5] Thongkam J, Xu G, Zhang Y. AdaBoost algorithm with random forests for predicting breast cancer survivability[C]. In:IEEE International Joint Conference on Neural Networks. IEEE, 2008:3062-3069

[6] 詹曙,姚堯,高賀. 基于隨機森林的腦磁共振圖像分類[J].電子測量與儀器學報,2013,27(11):1067-1072.

[7] 吳瀟雨,和敬涵,張沛,等.基于灰色投影改進隨機森林算法的電力系統(tǒng)短期負荷預測[J].電力系統(tǒng)自動化,2015,39(12):50-55.

[8] 賴成光,陳曉宏,趙仕威,王兆禮,吳旭樹.基于隨機森林的洪災風險評價模型及其應用[J].水利學報,2015,46(1):58-66.

[9] 尚文倩,黃厚寬,劉玉玲,等. 文本分類中基于基尼指數(shù)的特征選擇算法研究[J]. 機器學習和數(shù)據(jù)挖掘,2006,43(10): 1688-1694.

【通聯(lián)編輯:李雅琪】

主站蜘蛛池模板: 国模极品一区二区三区| 一级全黄毛片| 青青久久91| 日日摸夜夜爽无码| 福利在线免费视频| 精品国产自在在线在线观看| 精品久久久久久成人AV| 国产特级毛片| 国产综合日韩另类一区二区| 久久99精品久久久久纯品| 国产精品视频3p| 国产综合网站| 欧美日韩精品一区二区视频| 亚洲色图另类| 欧美天堂在线| 免费在线播放毛片| 色香蕉网站| 亚洲欧美另类专区| 男人的天堂久久精品激情| 中文字幕精品一区二区三区视频| 日本尹人综合香蕉在线观看| 波多野结衣AV无码久久一区| 久久亚洲国产视频| 在线观看无码av五月花| 久综合日韩| 日韩无码视频专区| 日韩一级二级三级| 免费啪啪网址| 免费亚洲成人| av一区二区三区高清久久| 日本在线视频免费| 国产国拍精品视频免费看| 精品久久综合1区2区3区激情| 亚洲天堂2014| 美美女高清毛片视频免费观看| 青青草一区| 久久亚洲高清国产| 毛片a级毛片免费观看免下载| 国产亚洲欧美在线中文bt天堂| 在线无码九区| 日韩高清中文字幕| 午夜福利免费视频| 99青青青精品视频在线| 久草美女视频| 国产精品99一区不卡| 亚洲欧美不卡中文字幕| 国产后式a一视频| 欧美精品亚洲精品日韩专区| 国产精品99久久久久久董美香| 在线综合亚洲欧美网站| 国产精品亚洲欧美日韩久久| 国产亚洲高清视频| 99久久精品美女高潮喷水| 国产亚洲精品在天天在线麻豆 | 亚洲看片网| 国产三区二区| 一级毛片免费高清视频| 欧美午夜视频在线| 国产99视频精品免费视频7| 91丝袜美腿高跟国产极品老师| 国产午夜无码片在线观看网站| 国产高潮视频在线观看| 国产精品久久自在自2021| 欧美一区二区人人喊爽| 国产jizzjizz视频| 日韩一二三区视频精品| 国产Av无码精品色午夜| 青青草综合网| 国产精品理论片| 国产精选小视频在线观看| 大乳丰满人妻中文字幕日本| 国产迷奸在线看| 国产成人综合在线观看| 亚洲天堂视频在线免费观看| 亚洲精品无码人妻无码| 五月婷婷伊人网| 99免费在线观看视频| 99精品国产自在现线观看| 午夜福利在线观看成人| 中文字幕在线日本| 亚洲无线观看| 麻豆AV网站免费进入|