郭文強(qiáng)



摘要:支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的新的、非常有效的機(jī)器學(xué)習(xí)方法。針對(duì)當(dāng)前網(wǎng)絡(luò)輿情研究發(fā)展的新需要,本文提出一種基于支持向量機(jī)(SVM)的網(wǎng)絡(luò)輿情信息采集、提取、識(shí)別、研判的方法,具有較好的泛化能力,在與神經(jīng)網(wǎng)絡(luò)方法的比較中,該方法表現(xiàn)出較低的漏檢率、誤檢率和較好的魯棒性,在網(wǎng)絡(luò)輿情研判領(lǐng)域有深入研究的價(jià)值和良好的應(yīng)用前景。
關(guān)鍵詞:支持向量機(jī);信息特征識(shí)別;網(wǎng)絡(luò)輿情
中圖分類號(hào):TP393.09 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)02-0119-02
1 引言
網(wǎng)絡(luò)輿情研判是有效掌控網(wǎng)絡(luò)、促進(jìn)社會(huì)主義和諧社會(huì)建設(shè)的重要手段[1]。當(dāng)前,信息處理領(lǐng)域內(nèi)的一個(gè)重要的研究方向是網(wǎng)絡(luò)輿情研判,它具有非常深遠(yuǎn)的實(shí)用價(jià)值。分類挖掘技術(shù)作為研究互聯(lián)網(wǎng)信息研究的一種新興統(tǒng)計(jì)學(xué)習(xí)理論,它能夠有效的從互聯(lián)網(wǎng)中獲取相關(guān)的輿情信息,通過分析后,最終達(dá)到監(jiān)控和預(yù)警的目的,對(duì)監(jiān)管部門管理和處置互聯(lián)網(wǎng)中的涉警輿情提供幫助[2-4]。本文將在計(jì)算動(dòng)詞理論聚類算法中引入支持向量機(jī)技術(shù),通過分析計(jì)算動(dòng)詞決策樹的趨勢(shì)后,來對(duì)互聯(lián)網(wǎng)信息進(jìn)行分類和挖掘,實(shí)現(xiàn)網(wǎng)絡(luò)中的輿情偵測(cè)、繼而探索輿情源頭、網(wǎng)絡(luò)輿情的接收者及特征,最終得到輿情在互聯(lián)網(wǎng)中的傳播方式,并對(duì)輿情帶來的影響進(jìn)行評(píng)估及其發(fā)展趨勢(shì)做出研判。
3 基于支持向量機(jī)技術(shù)的網(wǎng)絡(luò)輿情信息動(dòng)詞決策樹的趨勢(shì)分析
在互聯(lián)網(wǎng)分析中引入聚類分析,就是對(duì)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行歸類、分組、匯總,得出群體的聚類特征并形成屬性知識(shí)。而趨勢(shì)分析則是對(duì)前面會(huì)聯(lián)網(wǎng)數(shù)據(jù)聚類分析后所得到的屬性知識(shí)為研究對(duì)象,接著設(shè)計(jì)出解決此問題的決策樹,以揭示出問題發(fā)展的趨勢(shì),為預(yù)測(cè)和把握未來發(fā)展方向提供幫助。計(jì)算動(dòng)詞決策樹的過程是:首先從研究對(duì)象屬性類型的根節(jié)點(diǎn)選取,其次選取根節(jié)點(diǎn)的下一個(gè)葉子節(jié)點(diǎn)N,接著找到此節(jié)點(diǎn)N的最佳決策屬性,然后通過計(jì)算動(dòng)詞增益和計(jì)算動(dòng)詞熵來訓(xùn)練節(jié)點(diǎn),最后判斷是否把訓(xùn)練樣本進(jìn)行了最佳分類,得到就結(jié)束,否則繼續(xù)找最佳決策屬性。
4 基于支持向量機(jī)技術(shù)的網(wǎng)絡(luò)輿情研判方法
(1)在支持向量機(jī)技術(shù)的支持下,對(duì)新聞、論壇/BBS、博客、即時(shí)通信軟件等渠道傳播的網(wǎng)絡(luò)輿情進(jìn)行采集,運(yùn)用聚類分析、主題檢測(cè)與跟蹤、自動(dòng)摘要等定向分析技術(shù),可以得出網(wǎng)絡(luò)輿情傳播者的感情、想法、觀點(diǎn)、立場(chǎng)和意圖等主觀的特征表現(xiàn)。最終實(shí)現(xiàn)用關(guān)鍵字布控、語義分析來達(dá)到識(shí)別敏感話題的目的。(2)熱點(diǎn)話題、敏感話題瞄準(zhǔn)與追蹤。目前國(guó)內(nèi)外大多采用了文本聚類技術(shù)——文本關(guān)鍵字詞作為文本特征,分析新發(fā)表文章、貼子的話題是否與已有熱點(diǎn)或敏感主題相同,并對(duì)發(fā)表的話題和發(fā)信人發(fā)表的文章的觀點(diǎn)、傾向性進(jìn)行分析與統(tǒng)計(jì)。(3)研究發(fā)現(xiàn)當(dāng)前的網(wǎng)絡(luò)輿情的研判和預(yù)警效果并不理想。主要原因是缺乏統(tǒng)一全面的、全方位多層次的網(wǎng)絡(luò)輿情預(yù)警信息系統(tǒng),無法滿足當(dāng)前用戶所期望的需求;此外各大廠商之間缺乏合作和協(xié)調(diào),難以形成有效的合力。所以網(wǎng)絡(luò)輿情分析及研判技術(shù)還有更大的發(fā)展空間。(4)除市場(chǎng)環(huán)境及用戶需求沒有邊界等特殊因素外,怎樣將計(jì)算技術(shù)與處理內(nèi)容結(jié)合,怎樣設(shè)計(jì)具體的分析引擎和自動(dòng)信息采集,怎樣構(gòu)建輿情分析庫、屬性知識(shí)儲(chǔ)備庫,怎樣對(duì)收集的信息進(jìn)行與判斷、篩選和預(yù)處理形成格式化信息,怎樣加強(qiáng)專家與系統(tǒng)結(jié)合、人機(jī)結(jié)合來提升輿情判斷的準(zhǔn)確性等到都是當(dāng)前解決問題的最重要環(huán)節(jié)。
5 結(jié)語
支持向量機(jī)理論建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上,它作為一種新的機(jī)器學(xué)習(xí)方法,能夠依據(jù)有限的樣本信息,在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折中,在解決模式分類問題上具有近似最優(yōu),而且在沒有問題域相關(guān)知識(shí)屬性時(shí)所設(shè)計(jì)的機(jī)器依然具有較好的性能。文中提出一種基于支持向量機(jī)技術(shù)的網(wǎng)絡(luò)輿情研判方法,具有突出的小樣本學(xué)習(xí)方法,借助它強(qiáng)大的泛化能力,實(shí)現(xiàn)了高效的從訓(xùn)練樣本到預(yù)報(bào)樣本的“轉(zhuǎn)導(dǎo)推理”,在網(wǎng)絡(luò)輿情信息處理中具有良好的性能,即較低的誤檢率和漏檢率,這都充分表明了基于支持向量機(jī)技術(shù)對(duì)網(wǎng)絡(luò)輿情研判處理及相關(guān)問題有良好的應(yīng)用前景。
參考文獻(xiàn)
[1]李敏.互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].上海:復(fù)旦大學(xué),2009.
[2]王偉,許鑫.基于聚類的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)及分析[J].現(xiàn)代圖書情報(bào)技術(shù),2011(03):74-79.
[3]周黎明,邱均平.基于網(wǎng)絡(luò)的內(nèi)容分析法[J].情報(bào)學(xué)報(bào),2005(05):594-599.
[4]趙曙光.提高自媒體時(shí)代突發(fā)事件的輿論引導(dǎo)能力[J].政工研究動(dòng)態(tài),2012(15):22-24.
[5]Vapnik V著,張學(xué)工譯.統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[M].北京:清華大學(xué)出版社,2000.
[6]王國(guó)勝,鐘義信,支持向量機(jī)的若干新進(jìn)展[J].電子學(xué)報(bào),2001(10):1397-1400.
[7]劉江華,程君實(shí),陳佳品.支持向量機(jī)訓(xùn)練算法綜述[J].信息與控制,2002(1):45-50.