999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

政府工作輿情監測系統的研究與實現

2016-08-08 08:21:08
微型電腦應用 2016年7期

何 健

?

政府工作輿情監測系統的研究與實現

何健

摘 要:隨著社交網絡和社會媒體等互聯網應用服務迅猛發展,越來越多的人通過互聯網發布信息和表達觀點,用戶的瀏覽、關注、轉發、評論等行為在互聯網空間留下了豐富的數字足跡,用戶的所言所行積累下了豐富的網絡大數據。利用網絡大數據,篩選出對政府工作的觀點信息,并對觀點進行傾向性分析,得出公眾對政府工作的真實態度,可以有效地了解民意,并且根據可靠反應來對政府工作進行相應的調整和改善,最終達到為政府提供有效準確信息,提高公眾對其滿意度。

關鍵詞:輿情監測;爬蟲系統;傾向性分析

0 引言

20世紀后半頁以來,計算機迅速發展并高度普及,隨之而來的是互聯網及其相關技術的迅猛發展。根據中國互聯網絡信息中心(CNNIC)發布的2015年度《中國互聯網絡發展狀況統計報告》[1]顯示,截至2015年6月,我國網民規模達6.68億,互聯網普及率為48.8%。隨著越來越多的人使用互聯網,大量的社區和群眾言論性的網站興起,越來越多的人開始通過網絡發表對政府工作和政府部門的言論。

利用信息化技術建立政府工作滿意度的輿情監測系統,政府部門可以清楚知道百姓對政府的意見和建議,了解哪些方面的工作做得很好,哪些方面還有不足,以便及時調整自己的治理方案,提高執政效率;同時,由于互聯網傳播的匿名性、即時性、互動性、海量性、廣泛性等特性,導致網絡上不可避免的經常會出現一些不良言論,也要對這些言論進行監督,防止惡意言論的散播。然而,網絡上的信息紛繁復雜,微博、論壇等可言論式的網站數不勝數,所以需要一個智能系統,能夠及時的獲取與政府相關的網絡輿情信息,能夠辨別出獲取到的輿情信息的褒貶情況,并以圖形化的形式立體、客觀的展示給政府。

1 相關工作和研究現狀

1.1 相關概念

網絡輿情,指的是一定的時間段內,人們對與自身利益相關事件發表的各種觀點、看法、建議的集中呈現,它是人們的認知、態度、情感和行為傾向的原初表露,可以是一種零散的,非體系化的東西,也不需要得到多數人認同,是多種不同意見的簡單集合。而所謂網絡輿情,則是借助互聯網這個載體產生并得到傳播的輿情。由于媒介是互聯網,其傳播具有匿名性、即時性、互動性、海量性、廣泛性等特征,網絡輿情比普通輿情更變幻莫測,也更容易朝不良的方向發展,所以更需要得到及時、有效的監控,使其向良性轉換。

輿情監測系統,通過整合互聯網信息采集技術、信息智能處理技術等對互聯網輿情信息進行跟蹤和監控的系統。監測系統首先需要對發表和傳播在互聯網上的新聞、專題、評論、論壇、主貼、回帖、博客、貼吧等多種信息進行數據采集[1]。然后,對獲得的所有信息,根據用戶設定的中心詞,針對重點關鍵詞和摘要,進行智能化分析和處理,分析其中的正反褒貶程度[2],從而對網絡上的各方面信息進行跟蹤和監測。在提取與事件相關的輿情信息后,通過各種語言分析算法,得出最終的輿情分析結果。輿情監測系統可以為政府機構、其他客戶決策層提供全面的網絡輿情動態,為用戶做出正確輿論引導,提供分析依據。

1.2 政府工作輿情監測研究現狀

互聯網越來越廣泛的普及,我國各級政府信息化意識大大提高,政府網站建設速度明顯加快,各級地方政府都擁有了自己的門戶網站,逐漸將大量的政府工作相關信息發布到網絡上,逐步提高政府職能部門的工作透明度,并主動采集的公眾意見,用戶可以在該網站上提出自己對政府工作的看法,同時可以查看到政府工作人員對自己言論的反饋信息。

這類網站雖然有采集公眾輿論的功能,但是有兩個明顯的缺陷:第一,百姓需要登陸到固定的網站才能發表意見;第二,發表言論的形式非常固定,百姓并不能百分百的自由發表言論。單單依靠這些網站,是不足以全面的采集百姓意見的。同時,如果有惡意言論,這類型的網站也基本不能監測到。所以,我們還需要另一種形式的網站進行更好的采集和監測,這就是輿情監測系統。

2 輿情監測系統設計

政府工作輿情監測系統是一個從互聯網數據挖掘、分析、生成報告的整體系統,系統運行過程涉及到大量數據的分析、處理和裝換。通過網頁爬蟲對互聯網大量信息進行獲取,并通過聚類技術和傾向性分析,歸納民眾對政府工作的觀點,最后由輿情匯報系統進行顯示。

系統的基本框架圖,如圖1所示:

圖1 大規模突發事件決策支持系統架構圖

圖1共分為3個模塊:輿情采集模塊、輿情分析模塊、輿情匯報模塊。

2.1 輿情采集模塊

數據采集處于輿情監測系統最基礎的部分,根據政府部門所提供的語料(例如:時間、地點、組織、人物、事件),利用網頁爬蟲技術,從主流的新聞、論壇、微博、社交網絡等關鍵領域的數據進行采集,獲取大量的互聯網輿論信息,作為分析監控的信息源。一般網頁存在廣告等不相關的大量數據,利用網頁去噪技術剔除網頁噪音。網頁的鏈接容易得到重復的URL地址,且不同的網頁可能收到的信息都是大同小異的,因此需要利用網頁去重技術,對網頁以及正文標題信息進行去重。

2.2 輿情分析模塊

對采集到的信息進行抽取分析歸納,分析出網民對該事件持有的態度和情緒,甚至得到對該事件的某個主題的態度和情緒。以便政府更好地獲悉群體對該事件的傾向,趨勢走向。

數據預處理:對采集到的信息進行預處理,如格式轉換、數據清理,數據統計。對于新聞評論,需要濾除無關信息,保存新聞的標題、出處、發布時間、內容、點擊次數、評論人、評論內容、評論數量等。對于論壇BBS,需要記錄帖子的標題、發言人、發布時間、內容、回帖內容、回帖數量等,最后形成格式化信息。條件允許時,可直接針對服務器的數據庫進行操作。

分類/聚類:通常,人們會從不同方面來評價一個事件。那么,事件的評價信息中就包含了多個評價主題。因此將采集下來的大量輿情信息進行自動分類管理,并通過智能分析組件,將文本內容相似的評論,聚合成不同的類別,并給出精確的類別主題詞[3],一方面有助于進一步的面向主題的傾向性分析,另一方面有助于把握網絡傳播的主題和趨勢。

面向主題的傾向性分析:傾向性分析是系統能夠對輿情信息闡述的觀點以及網民對該輿情信息發表的評論言辭進行褒貶傾向分析。聚類后得到不同主題的輿情信息,在此基礎上分析各類主題的傾向性狀況。因此,面向主題的傾向性分析是對事件各方面的特征都能給出一個綜合性的傾向性分析。

主題跟蹤及傳播鏈分析:針對某一個負面熱點話題的信息量、來源、轉載量、地域分布、信息發布者等相關元素進行跟蹤,并最終根據主題輿情的傳播路徑及熱點變化形成傳播鏈分析圖[4],展示信息最早從什么網站發出,由什么網站進行轉載,最終形成熱點輿情是在什么時間什么網站等。以便政府工作人員能有效找到發布源頭,及時制止惡意言論。

趨勢分析:在熱度分析、主題跟蹤及傳播鏈分析技術的基礎上,系統能夠對某個輿情事件進行長時間的跟蹤監控,并依據長時間分析的結果,輔以地理區域分布、網站類型分布,探測輿情的演變趨勢。

2.3 輿情匯報模塊

通過前面輿情分析和處理,系統已經得到了互聯網輿情文本的褒貶情感分析結果。數據匯報系統通過定量和定性的方式,為決策者呈現一份清晰、明確的以政府工作為中心的系統報告。

輿情預警先建立一系列敏感詞表,當分析后的輿情信息的敏感詞權重超過一定閥值后,系統自動觸發輿情預警機制。輿情預警方式有桌面預警、短信預警、郵件預警等提醒輿情分析人員。繼而引入人工干預,啟動政府應急方案。

決策者也可通過瀏覽器瀏覽,提供信息檢索功能,根據指定條件對熱點話題、傾向性進行查詢,并瀏覽信息的具體內容,提供決策支持。

3 輿情監測系統實現

3.1 信息采集模塊實現

輿情信息采集,主要運用網頁爬蟲,從主流的社交、新聞網站獲取大量互聯網輿論信息作為分析監控的信息源。

對于互聯網數據的固有訪問格式,為人們所熟知的URL (Uniform Resource Locator)統一資源定位。一般的訪問步驟是:通過DNS獲取相應域名的IP地址,連接相關端口(默認為80端口),獲取網頁信息,以固定字符串結束訪問。系統實現網頁爬蟲需要考慮兩個問題,首先是,網頁信息爬取不能像圖書館數目檢索那樣提前獲得一個所有URL的目錄,所以需要從已有的URL中獲取新的URL,并循環往復的進行下載。另一方面,網頁信息是不斷變換更新,這要求爬蟲根據一定的周期進行重復多次的爬取。

互聯網信息量太過巨大,需要使用一定的策略獲取重要性較高的頁面。目前主要有3種主流的網頁搜索策略:深度優先、廣度優先、最佳優先。輿情監測系統的信息抓取模塊采用了廣度優先搜索原則,即從起始網頁開始,抓取其中所有鏈接的網頁,然后從中選擇一個,繼續抓取該網頁中的所有鏈接頁面。據統計,互聯網的實際深度最大能達到17層,網頁之間四通八達,深度優先獲得的數據太大。另外,廣度優先策略有利于多個爬蟲并行爬取。

廣度優先策略的優點在于其設計和實現相對簡單,且這種策略的基本思想是:與種子在一定距離內的網頁重要度較高,符合實際。廣度優先策略還可以與網頁過濾技術結合,即先用廣度優先抓取一些網頁,再將其中與主題無關的過濾掉。

3.2 輿情分析模塊實現

對關注的主題(如人物、事件等)進行情感傾向性分析,即以主題為研究對象,從Web情感資源中找到與該主題相關的情感信息,進行傾向性分析。為了進行面向主題的傾向性分析,滿足情感傾向性分析的實際需求,本實驗從面向主題的領域情感詞典構建、面向主題的觀點檢索、面向主題的傾向性分析3方面開展研究。

3.2.1 面向主題的領域情感詞典構建

情感傾向性分析具有極強的領域依賴性,一方面是因為不同領域表達情感的用詞不同,另一方面是因為同一情感詞在不同領域可能情感不同;此外,不同領域常出現一些新詞表達。因此,建立面向主題的領域情感詞典對觀點分析至關重要。我們首先進行領域新詞發現,然后基于這些新詞確定情感詞,并基于通用情感詞典確定領域情感詞典的傾向性,從而建立面向主題的領域情感詞典。

(1)新詞發現

從語料出發,采用統計方法進行新詞、流行短語發現,不需要額外詞庫或者深層次語言學知識,具有廣泛的適用性。具體而言,我們首先基于語料構建后綴樹,并按一定閾值進行詞頻過濾,得到頻繁串集。然后對各個頻繁串分別計算左右條件信息熵、互信息、類短語單元幾率比及位置成詞概率等統計值。這些統計值分別從不同角度度量頻繁串的成詞概率,例如,左(右)條件信息熵反映頻繁串的左(右)鄰接字的混雜程度,混雜程度越高,表明是詞邊界可能性越大,因而頻繁串的成詞概率也越高。對于頻繁串 FRE_s中的字si,它的左字集為{a1,a2,…as},右字集為{b1,b2,…bt},則它的左、右條件信息熵分別計算如下:

其中N ∑Count aisi, M ∑Count sibi, Count(si) 是si出現次數。

(2)領域情感詞典構建

基于大規模語料和通用情感詞典,采用逐點互信息、馬爾科夫隨機行走和情感話題聯合模型等方法分別發現潛在情感詞,并對這幾個方法結果進行匯總,得到最終的領域情感詞典。利用馬爾科夫隨機行走過程,我們可以充分利用全局性詞關系信息,而不僅僅是候選詞跟種子詞的局部 PMI信息,來克服數據稀疏性問題,從而獲得更可靠準確的情感分值。利用逐點互信息構建詞關系圖,然后利用該圖上的馬爾科夫隨機行走過程,分別計算從候選詞到正、負面種子詞集的撞擊時間(Hitting Time),來估計它們的情感得分。根據情感分值,我們得到候選詞的語義傾向性及其可信度,我們按照可信度對候選情感詞進行排序,挑選排序靠前的加入情感詞典。

3.2.2 面向主題的觀點檢索

為進行面向主題的觀點分析,還需得到該主題相關的觀點語料,這就需要進行面向主題的觀點檢索。面向主題的觀點分析問題要求檢索回的文檔同時滿足兩項準則:(1)主題相關;(2)具有傾向性[5]。將這一問題分成主題識別、情感識別、主題與情感關聯這3個方面內容,并分別采用主題詞識別模型來識別主題,采用基于語料庫或者詞典的方法識別情感數據,采用基于規則或者模板的方法將主題與相應情感數據關聯。

3.2.3 面向主題的情感傾向性分析

通過面向主題的觀點檢索模型得到主題相關的Web情感資源后,需要一個對該主題相關情感數據進行傾向性分析的模型[6]。情感詞對文本的傾向性分析致關重要,因此可以利用構建的情感詞典來進行傾向性分析。我們利用主題相關文本與主題相關的情感詞典中褒義、貶義情感詞的加權關聯關系,來判斷目標主題文本的情感類別。

建立領域情感詞典后,我們得到一個正面情感詞集POS和一個負面情感詞集 NEG。然后,我們利用文本和詞的統計關系計算每個目標領域文本的情感分:

因此,根據情感分就能夠完成面向主題的傾向性分析。

4 總結

科技日新月異,計算機技術高速發展、互聯網信息高度繁榮。政府機構,肩負著維護社會安全穩定,維護社會秩序正常運行的歷史重任,這就要求我們政府機構,在新的時代背景下,必須要重視網絡輿情引導工作。避免或減輕網絡不良信息的蔓延和爆發,積極主動實施干預,使網絡輿情朝著利于社會穩定、社會團結的方向發展。積極主動的進行輿情監測,有利于合理疏導民意、樹立良好口碑、構建和諧社會、維護穩定大局。本文針對政府工作建立的輿情監測體系,實現對互聯網輿情信息的辨識監測,通過擴充情感詞詞庫、調整情感詞匯權重值、進行大量人工訓練等途徑對其進行優化,提高了情感識別的準確性。

參考文獻

[1] 謝國強, 藍立新. 基于Web的網絡爬蟲技術研究[J].科教文匯, 2008(42): 198?199.

[2] 劉楠. 面向微博短文本的情感分析研究[D]. 武漢大學, 2013.

[3] 龔靜, 李安民. 一種改進的k?means中文文本聚類算法[J].湖南工業大學學報, 2008(2): 52?54.

[4] 張其文, 李明. 文本主題的自動提取方法研究與實現[J].計算機工程與設計, 2006, 27(15): 2744-2746.

[5] Huang X, Croft W B. A unified relevance model for opinion retrieval[C]//Proceedings of the 18th ACM conference on Information and knowledge management.AC -M, 2009:947-956.

[6] 樊娜, 蔡皖東, 趙煜. 中文文本情感主題句分析與提取研究[J]. 計算機應用, 2009, 29(4): 1171-1173.

中圖分類號:TP311

文獻標志碼:A

文章編號:1007-757X(2016)07-0053-03

收稿日期:(2016.02.15)

作者簡介:何 健(1989-),女,復旦大學軟件學院,復旦大學公共績效與信息化研究中心,碩士研究生,研究方向:電子商務與電子政務,上海,201203

Research and Implementation of Government Work Public Opinion Monitoring System

He Jian
(Software School of Fudan University, Public Performance and Information Research Center, Fuan University, Shanghai 201203, China)

Abstract:With the rapid development of social network and social media websites, numerous users begin to delivery information and opinions on Internet. Huge Web data is accumulated, recording users’ behaviors and public opinions, e.g, comments, browsing behaviors, forwarding behaviors, and social relationships. Therefore, selecting the public views on a public policy, and then analyzing the sentimental orientation, can help to learn effective understanding of the public opinion, and to adjust and improve public policy according to the reliable reaction, in the end to provide the government with the purpose of effective information, and help improve public satisfaction.

Key words:Public Opinion Monitoring; Crawler System; Sentimental Orientation

主站蜘蛛池模板: a天堂视频在线| 国产91小视频在线观看| a级毛片一区二区免费视频| 亚洲一道AV无码午夜福利| 日韩小视频在线播放| 一本无码在线观看| 国产成人精品一区二区三在线观看| 国产浮力第一页永久地址| 亚洲视频二| 一级一毛片a级毛片| 亚洲欧美日韩视频一区| 国产亚洲欧美在线人成aaaa| 国产成人综合欧美精品久久| 亚洲日本韩在线观看| 亚洲视频影院| 成人亚洲视频| 69综合网| 亚洲V日韩V无码一区二区| 538国产视频| 亚洲欧州色色免费AV| 亚洲综合专区| 欧美三級片黃色三級片黃色1| 91av成人日本不卡三区| 欧美在线一二区| 在线欧美日韩国产| 中文字幕永久在线观看| 午夜小视频在线| 国产屁屁影院| 最新国产午夜精品视频成人| 青青草原国产一区二区| 欧美另类第一页| 精品欧美视频| 欧美日韩在线观看一区二区三区| 福利姬国产精品一区在线| 99尹人香蕉国产免费天天拍| 在线观看免费人成视频色快速| 精品色综合| 国产女人18水真多毛片18精品| AV不卡无码免费一区二区三区| 国产精品成| 欧美一级色视频| 国产成人亚洲精品无码电影| 国产粉嫩粉嫩的18在线播放91| 无码人中文字幕| 欧美精品综合视频一区二区| 无码中文字幕乱码免费2| 在线免费亚洲无码视频| 99在线视频网站| 91久久偷偷做嫩草影院电| 欲色天天综合网| 日韩在线永久免费播放| 亚洲综合经典在线一区二区| 无码aaa视频| 日韩高清一区 | 久久香蕉国产线看观看精品蕉| 26uuu国产精品视频| 日韩精品一区二区三区免费在线观看| 一级毛片免费的| 日本91视频| 2022国产无码在线| 日韩欧美综合在线制服| 欧美激情成人网| 一本大道视频精品人妻 | 国产午夜看片| 色噜噜在线观看| 最新亚洲人成网站在线观看| 在线观看国产黄色| 欧美区国产区| 韩国v欧美v亚洲v日本v| 欧美精品一二三区| 精品一区国产精品| 伊人五月丁香综合AⅤ| 激情無極限的亚洲一区免费| 久久久久亚洲AV成人人电影软件| 欧美性猛交一区二区三区| 亚洲欧美日韩中文字幕在线| 亚洲欧美另类日本| 亚洲天堂网站在线| 国产经典免费播放视频| 911亚洲精品| 91毛片网| 中文字幕第4页|