999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Single-Pass的軍事網絡輿情監控系統設計

2018-01-08 22:08:52趙曉楠馬晨辰
電子設計工程 2017年16期
關鍵詞:文本信息系統

趙曉楠,馬晨辰

(中國人民解放軍68303部隊 甘肅 武威733004)

基于Single-Pass的軍事網絡輿情監控系統設計

趙曉楠,馬晨辰

(中國人民解放軍68303部隊 甘肅 武威733004)

軍事網絡輿論導向是人們獲取軍事信息的主要來源,這些輿論信息將直接影響人們的判斷,甚至危害社會安全。本文基于軍事主題特點,對比常見的文本聚類算法,改進傳統的Single-Pass算法,設計適合軍事主題的網絡輿情監控系統,準確率和召回率都高于Single-Pass算法5個百分點以上,達到較好的效果,從而為相關部門制定決策提供可靠依據。

Single-Pass;軍事;文本聚類;網絡輿情監控

隨著互聯網技術的不斷發展,網絡上的信息越來越豐富,由于網絡的虛擬性和隱蔽性,人們更喜歡通過互聯網進行交流和發表各種意見。軍事作為特定的主題,更吸引著較多的軍事愛好者,他們通過網絡發表各類留言和評論,一些負面消極和不良輿論,嚴重地危害了社會穩定。由于網絡情報資料的開放性、及時性以及便捷性等特點,作為一種新的公開情報資料,越來越受到情報工作者的重視[1-3]。甚至有一些情報工作者將網絡輿情作為公開情報資料搜集的第一來源。

如何快速獲取國內外互聯網媒體中關于軍事事件的評論和觀點給相關部門帶來了極大困難。主題爬蟲技術和情感分析技術的結合使我們對特定領域的網絡輿情分析成為可能。通過對特定領域網絡輿情的分析,可以給相關決策部門提供決策支持,有效防止危害社會穩定的謠言傳播。

1 系統總體功能

軍事網絡輿情的特點包括突發性強、多元性強、控制難度大等特點。針對軍事網絡網絡輿情特點,本文設計利用網絡爬蟲技術、中文分詞技術、信息分析和處理技術、文本聚類和挖掘技術等的軍事網絡輿情監控系統,實現對互聯網相關輿情信息的自動采集,并對海量數據進行分析和監控,挖掘動態輿情信息,把握處理突發事件的最佳時機。軍事網絡輿情監控系統主要包括信息采集、輿情分析和輿情服務模塊,系統體系結構如圖1所示。信息采集主要是利用網絡爬蟲實現對網絡輿情信息的采集,并將網頁信息經過去重和去噪,生成干凈的文本信息,通過中文分析算法提取特征值,建立文本向量空間模型(VSM,Vector Space Model);輿情分析模塊是系統的核心部分,利用文本聚類發現熱點話題,并對話題進行情感傾向性分析,使人民掌握輿情趨勢;輿情服務是向相關人員提供輿情報告,通過掌握報告實現對突發事件的處理,并利用個性化定制,提供方便的輿情信息,給決策者制定決策提供可靠依據[4]。

圖1 系統體系結構

2 系統功能設計

2.1 輿情信息收集

輿情信息收集是利用網絡爬蟲從網頁中提取非結構化信息,并存入結構化數據庫中。依據相應爬行規則,網絡爬蟲通過網頁鏈接地址尋找網頁,從網站的某個頁面開始,讀取內容,分析頁面中的其它鏈接地址,然后通過這些新的鏈接地址繼續查找下一個網頁[5],如此循環,直到爬取所有頁面或達到系統預先設置的停止條件。最后將與主題相關的信息經處理后保存到系統數據庫中。

2.2 輿情信息處理

爬蟲爬取網頁后,要對網頁信息進行處理,主要包括網頁去“噪”、網頁去重、中文分詞及特征詞提取。通常網頁中包含大量的“噪聲”,主要是一些無用的廣告等,這些內容對系統沒有作用,但卻影響系統運行速度,并占據大量存儲空間,所以首先要對爬蟲爬取的網頁信息進行去“噪”,保留網頁鏈接、正文和標題。在本系統中,我們采用文檔對象模型(DOM,Document Object Model)來獲取網頁的正文和標題信息,首先構建DOM樹,然后從DOM樹上刪除節點的過濾器,獲得相應文本信息[6-8]。在網頁中,通常存在大量重復的鏈接,為避免網頁冗余,提高系統效率,還需去除重復的網頁。通過分析頁面提出網頁特征碼,根據特征碼區分相同或相似網頁。利用網頁特征碼索引網頁,建立檢索系統,并將特征碼存入檢索系統中。當爬取出新的網頁后,根據文檔特征碼進行判斷,相似度大于系統設定的閾值則認為是重復網頁,系統自動刪除。

經上述網頁處理后,將得到結構化的網頁信息,然后進行分詞處理。文中利用中科院自行研制的ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)進行分詞,去除停用詞后建立VSM。

2.3 輿情信息分析

話題發現和聚類是輿情監控系統的基礎,就是把描述同一話題和事件的網頁按一定序列聚合在一起,減少冗余和重復信息,給用戶提供方便[9-10]。話題發現流程如圖2所示。

圖2 話題自動發現流程

話題發現和聚類算法受信息本身被關注程度的影響,關注程度高,聚類效果就好,對話題的評估能力也強,從而更好的為網絡輿情監控系統提供可靠依據。常見的話題發現和聚類算法主要包括Single-Pass算法,基于文本劃分、層次、密度和網格的聚類算法。對上述五類算法進行比較,可得出以下結論,如表1所示。

表1 常見聚類算法的指標表現

由表1可知,在預知主題的情況下,Single-Pass算法更適合用于輿情話題發現和聚類,在實際應用中,此算法也是使用最廣泛的算法之一,其各項性能指標及聚類結果都得到開發者的認可。但由于其精度一般,并受文本輸入順序的影響較大,也制約著其聚類效果的提升。

文中對Single-Pass算法進行改進,以彌補其算法精度上的不足。首先是改進特征詞的選擇,在對網頁進行向量化時,只選擇具有實際意義的名詞和動詞表示向量,而不是對所有詞語都向量化;并加入網頁的標題表示向量,用網頁標題和正文的雙向兩表示法;在文本初步聚類時,每次處理一批文檔,而不是簡單的單個處理,這樣就可以有效避免Single-Pass對文本輸入順序的依賴性,完成初步聚類后,再進行偏離點的調整,直至滿足系統設置停止條件。

1)特征詞選擇

改進后的Single-Pass算法把網頁中去掉停用詞后的名詞、動詞作為特征詞,然后統計出這些詞的出現次數以及反文檔頻率。利用公式(1)計算得出特征詞權重,根據權重組合計算出文本相似度。

其中,Wi指第 i個特征詞的權重,TFi(t,d)指特征詞t出現在文檔d中的次數,N是網頁的文檔總數,DF(t)指網頁中含有特征詞t的網頁總數。在實際中,由于文本的復雜性,會使得文本向量中有較多的0項值,給計算帶來較大開銷,并使得文本相似度區分不明顯,本文對Single-Pass算法進行改進,文本輸入后,首先對其內容進行分詞,根據辭典辨識,將經過分詞后的每個詞語進行詞性標注;選取特征詞時,只選擇文本中的動詞和名詞(此步驟只需經過一個詞性判斷就能實現);然后統計動詞和名詞的詞頻,從而減少特征詞數量,降低運算量,減少開銷,同時也保存了文本內容的關鍵信息,避免了矩陣稀疏現象,也提高算法準確性。然后根據Single-Pass算法的步驟,統計特征詞頻率及反文檔頻率,利用TFIDF公式得到特征詞權重,然后計算相似度。本文采用空間夾角余弦公式實現對文本相似度的計算,如公式(2)。公式得到的數值都介于0~1之間,數值越接近1,就說明兩個文本相似度越高,它們被歸為同一話題的可能性就越大;反之,兩個文本越不相似,屬于同一話題的幾率就小。

2)雙向量表示

Single-Pass算法在選擇特征向量時只選擇文本正文,忽略了文本的標題。而文本標題卻涵蓋了文本的主要內容,網絡新聞和各類帖子更是如此,新聞和帖子的標題往往蘊含事件的主要內容。如果能較好的運用標題的這一屬性,從標題中得出事件的關鍵元素,并強調標題的作用,將能較好的促進文本聚類效果,從而改進常見文本聚類算法的不足。因此在本文中,我們選擇標題和正文雙向量表示法。在計算文本相似度時,標題和正文都參與運算。首先我們計算得出標題和主題的相似度,以及正文和主題的相似度;然后對標題和正文的相似度進行加權求和,并對標題中的關鍵詞賦予較高的權重。本文中,通過反復試驗,賦予標題特征詞權重0.75,正文特征詞權重0.25時,聚類效果較好。此方法加入了標題特征詞,無疑會增加運算,但由于標題的文字數量遠低于正文,所以對計算無較大影響,卻對話題發現和聚類精度有了較大改善。

3)偏離點調整

Single-Pass算法在處理文本時,根據文本輸入的順序,一個一個處理文本,在第一次讀取時就確定文本所屬的類簇,之后輸入的文本根據與前面文本的相似度劃分類簇,這就導致文本的輸入順序會很大程度上影響聚類結果。所以說,一個好的文本輸入順序會使文本有較好的聚類效果。但根據實際應用,文本的內容確定后,其聚類結果就應當確定,不應該受到輸入順序的影響。為了克服此類問題,本文在進行文本聚類時,一批一批的來處理,而不是單個的進行處理。由于每次加入新的文本后,會引起類歸屬的變化,在本改進算法中,允許類進行重選擇,稱為偏離點的調整。即當有新的文本加入話題后,此類內的所有話題重新計算相似度,看是否處于最相似的類中,若是,則不變動;若不是,就調整類簇,將此文本放入經處理后最接近的類簇中。這些調整會引起連鎖的反應,導致系統無法終止。因此,在本文中為了防止這種現象的發生,本文設定當有90%或者以上的文本處于最接近的類簇中時,將不再進行調整。根據大量的實驗驗證,此終止條件達到預期效果,令人滿意。

2.4 輿情服務

輿情服務是系統的輸出層,給用戶提供相關信息,包括輿情報告、郵件、用戶個性化定制和輿情信息發布等[11-13]。從而為用戶提供清晰、精確、快捷方便的網頁輿情信息服務功能,滿足用戶對信息的各種不同需求。

3 實驗與分析

實驗采用Single-Pass算法和改進的Single-Pass算法進行比較測試。實驗環境采用為Windows XP系統,1G以上內存機器,用VC 2010進行編譯。數據用以下6個關鍵字:教育、娛樂、汽車、經濟、軍事、體育。通過百度進行搜索,采用每個主題的前100條文檔,總共600條文檔進行聚類分析,故K=6。由于這兩類算法對初始聚類中心的依賴性都比較高(即初始聚類中心的選擇能較大程度地影響聚類結果),所以我們采用多次隨機選取聚類中心,多次重復運行,然后取平均值作為聚類算法性能的結果。實驗結果如表2和表3。

表2 Single-Pass算法結果

表3 改進的Single-Pass算法結果

比較上述兩表發現,在準確率方面,改進的Single-Pass只有經濟一項比原Single-Pass略低一點;在召回率方面,改進的Single-Pass只有汽車一項比原Single-Pass略低一點。除此之外,其它項無論在準確率還是召回率,改進的Single-Pass都比原Single-Pass效果要好。改進的Single-Pass算法的兩項數據均高于Single-Pass算法5個百分點以上。且改進的Single-Pass聚類算法比Single-Pass聚類算法在處理異常數據和噪聲數據方面更好。

4 結束語

網絡輿情預警的作用在于,盡早發現可能的危機苗頭,盡早判斷可能產生的危機走向和規模,盡早讓有關職能部門做好應對準備[14-15]。本系統預警能力較高,能夠及時從海量的互聯網信息中發現潛在的危機苗頭,并能準確預計輿情發生的時間差,從而為相關職能部門提供足夠的時間來做準備,為網絡輿情應對贏得寶貴時間,并將有效推進軍隊信息化建設進程。

[1]Agrawal D,BudakC,El Abbadi A,et al.Big Data in Online Social Networks:User Interaction Analysis to ModelUser Behavior in Social Networks[M].Databases in Networked Information Systems.Springer International Publishing,2014.

[2]張玉珠.基于內容相似性的論壇用戶社會網絡挖掘[J].通信技術,2013,46(253):57-59.

[3]張玉峰,王志芳.基于內容相似性的論壇用戶社會網絡挖掘[J].情報雜志,2010,29(8):125-130.

[4]何佳,周長勝,石顯鋒.網絡輿情監控系統的實現方法[J].鄭州大學學報:理學版,2010,42(1):82-85.

[5]張長利.面向特定領域的互聯網輿情分析技術研究[D].吉林:吉林大學,2011.

[6]Feng Cao,Zhenji Zhang.A model of ecological monitoring and response system for internet[J].International Journal of Multimedia and Ubiquitous Engineering,2014,9(5):373-390.

[7]劉恒文.基于網絡語義挖掘的輿情監測預警研究[D].武漢:武漢理工大學,2010.

[8]Jennifer Bachner,Kathy W.Hill.Advances in Public Opinion and Policy Attitudes Research[J].The Policy Studies Journal,2014,42(1):51-70.

[9]Feng Cao,Zhenji Zhang.A model of ecological monitoring and response system for internet[J].International Journal of Multimedia and Ubiquitous Engineering,2014,9(5):373-39.

[10]劉恒文.基于網絡語義挖掘的輿情監測預警研究[D].武漢:武漢理工大學,2010.

[11]殷風景.面向網絡輿情監控的熱點話題發現技術研究[D].北京:國防科學技術大學,2010.

[12]張春華.網絡輿情社會學的闡釋[M].北京:社會科學文獻出版社,2012.

[13]李金海,何有世,熊強.基于大數據技術的網絡輿情文本挖掘研究[J].情報雜志,2014,33(10):1-6.

[14]方星星,呂永強.基于改進的single-pass網絡輿情話題發現研究[J].計算機與數字工程,2014,42(7):1233-1237.

[15]高承實,陳越.網絡輿情幾個基本問題的探討[J].情報雜志,2011,30(11):52-56.

Design of network public opinion monitoring system in military based on Single-Pass

ZHAO Xiao-nan,MA Chen-chen
(Army Unit 68303,Wuwei 733004,China)

Military network public opinion is the main source of military information.These information will directly affect people's judgment,and even endanger social security.According to the characteristics of military,this paper compares common text clustering algorithms,and improves Single-Pass algorithm.Then design network public opinion monitoring system which is suitable for military.The accuracy and recall rate are above 5 percentage points than the Single-Pass,and so as to provide a reliable basis for the relevant departments to make decision.

Single-Pass; military; text clustering; network public opinion monitoring

TN957.52

A

1674-6236(2017)16-0117-04

2016-07-04稿件編號:201607025

趙曉楠(1986—),女,河南偃師人,碩士研究生,中級工程師。研究方向:人工智能與應用。

猜你喜歡
文本信息系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 又粗又硬又大又爽免费视频播放| 免费观看国产小粉嫩喷水| 欧美精品亚洲精品日韩专区va| 88av在线| 久久婷婷六月| 亚洲免费毛片| 久久久波多野结衣av一区二区| 999精品免费视频| 高清久久精品亚洲日韩Av| 全午夜免费一级毛片| 午夜影院a级片| 国产一级视频在线观看网站| 国产小视频在线高清播放| 亚洲乱码精品久久久久..| 亚洲va在线观看| 亚洲综合18p| 国产在线精彩视频二区| 91精品小视频| 亚洲嫩模喷白浆| 91精品国产综合久久不国产大片| 亚洲有码在线播放| 五月激情综合网| 国产高潮视频在线观看| 日韩一区二区在线电影| 免费无码又爽又黄又刺激网站| 日韩在线永久免费播放| 国产成人亚洲精品色欲AV | 黄色污网站在线观看| 国产一区二区三区免费观看| 91福利在线看| 国产精品美乳| 日韩精品高清自在线| 亚洲无码高清一区| 欧美亚洲日韩中文| 亚洲 欧美 日韩综合一区| 大乳丰满人妻中文字幕日本| 91精品综合| A级全黄试看30分钟小视频| 91精品国产自产在线观看| 久久这里只有精品66| 91福利免费视频| 亚洲婷婷丁香| 国产极品美女在线观看| 成人日韩精品| 日韩av资源在线| 91九色视频网| 成年人国产网站| 五月婷婷精品| 一级毛片免费高清视频| 亚洲中字无码AV电影在线观看| 亚洲无码在线午夜电影| 91精品国产麻豆国产自产在线| 亚洲AV成人一区国产精品| 99人妻碰碰碰久久久久禁片| 日本三级黄在线观看| 久久精品亚洲专区| 亚洲最猛黑人xxxx黑人猛交| 啊嗯不日本网站| 婷婷伊人五月| 99久久精品国产精品亚洲| 99无码熟妇丰满人妻啪啪| 性网站在线观看| 美女无遮挡免费视频网站| 国产成在线观看免费视频| www.狠狠| 亚洲综合久久成人AV| 国产国语一级毛片| 国产视频久久久久| 特黄日韩免费一区二区三区| 日本a级免费| 天天色天天综合网| 国产精品无码AV中文| 91丝袜乱伦| 亚洲乱亚洲乱妇24p| AV色爱天堂网| 精品午夜国产福利观看| 国产精品自在在线午夜区app| 被公侵犯人妻少妇一区二区三区| 幺女国产一级毛片| 日韩精品久久无码中文字幕色欲| 亚洲中文字幕无码mv| vvvv98国产成人综合青青|