王晨妮 王宇晨 張超 劉藍靜



摘 ?要:針對目前熱點焦點問題更新頻率高,企業對自身輿情監測不到位的情況,設計開發出一套完整體系性的企業網絡輿情監測系統。該系統可針對企業的相關信息進行非結構化數據處理,同時利用情感分析及個性化處理技術,形成可視化的輿情分析報告,為企業分析預測自身輿情提供了完善的渠道。
關鍵詞:數據抓取;非結構化數據處理;輿情分析;監測
中圖分類號:TP391.7 ? ? ? 文獻標志碼:A 文章編號:2095-2945(2019)13-0038-03
Abstract: In view of the high update frequency of hot focus issues and the fact that enterprises are not in place to monitor their own public opinion, a complete and systematic enterprise network public opinion monitoring system is designed and developed. The system can deal with the unstructured data of the relevant information of the enterprise, and at the same time use the emotional analysis and personalized processing technology to form a visual public opinion analysis report, which provides a perfect channel for the enterprise to analyze and predict its own public opinion.
Keywords: data capture; unstructured data processing; public opinion analysis; monitoring
目前,許多企業在進行輿情把控時,未能做到有效處理輿情信息并針對輿情做出及時的應對對策。通常企業內部鮮有專門設立的應對輿情的部門,而是其媒體部門負責對企業輿情進行分析并對外給出有效的回答。在此基礎上,輿情分析系統成為了企業內部進行輿情應對的一大工具,其可幫助分析調研數據,給出統計結論,并根據分析結果給出具有一定參考性的預警預測,這在當今信息爆炸的時代背景下具有鮮明的商業可拓展性。而本文所述的研究具有更實際的意義,從技術層面對目前的輿情技術進行革新。網絡輿情形式多元化,信息量級十分龐大,且大多均為圖片、文段等非結構化的數據類型。目前市面上對非結構化數據的處理還較為薄弱,而本研究針對這一市場痛點,對文本處理的技術進行了深度優化,有效解決企業對輿情的情感判別問題。從而企業可以直觀地了解輿情情況,并針對系統分析得到的統計結果得出應對方案。
1 網絡輿情系統的相關技術
1.1 網絡爬蟲技術
在爬蟲算法的基礎上進行改進,主要包含網絡請求模塊、流程控制模塊、內容解析模塊和鏈接去重模塊。其中網絡請求模塊主要負責根據URL鏈接向服務器發送http請求,并獲取響應內容;流程控制模塊負責組織調度各個功能模塊和控制URL列表的爬取順序;內容解析模塊負責處理網絡請求獲得的響應,其中大部分響應為JSON格式的數據,本文采用BeautifulSoup庫對返回的響應進行解析;鏈接去重模塊主要負責對待爬取的URL進行選擇,去掉重復的URL,同時對解析之后的響應內容進行文本去重化處理。
本文使用Scrapy框架具體實現網絡爬蟲。Scrapy使用了Twisted異步網絡框架來處理網絡通訊,加快數據下載速度,并包含各種中間件接口,可以靈活地實現各種需求(圖1)。
1.2 非結構化文本數據挖掘技術
文本挖掘的主要目的是獲得文本的主要內容特征,如文本設計的主題、文本主題的類屬、文本內容的濃縮等。本系統采用互信息,信息增益,文本證據權和x2統計法等評價函數進行獨立評估,對每一個特征按照給定的權值大小進行排序,選擇最佳特征子集作為特征提取的結果[1]。
對于文本特征數高,特征相互關聯,冗余嚴重的特點,本系統采用基于支持向量機的文本分類技術[2]。
而在中文信息處理的過程中,分詞是中文信息處理從字符處理水平向語義處理水平邁進的關鍵,本系統主要采用基于詞典的分詞方法[5]。
基于Trie樹結構實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖(DAG),采用了動態規劃查找較大概率路徑, 找出基于詞頻的較大切分組合。對于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了Viterbi算法。
1.3 數據庫技術
數據庫存儲技術在網絡輿情監測系統中非常重要,在數據爬取和Web建站過程中都要用到數據庫。在數據庫中,數據一般以表的形式進行數據的存儲和管理。
1.4 Web建站技術
本文采用的MTV模式與傳統的MVC模式有所不同。MTV模式包括模型(Model)、模板(Template)和視圖(View),其中,模型同樣負責業務對象與數據庫的映射關系,模版負責如何把頁面展示,而視圖負責業務邏輯,并在適當時候調用模型和模版。在工作過程中,Django框架接收用戶的請求和參數后,通過正則表達式匹配URL,轉發給對應的視圖進行處理,視圖再調用模型處理數據,最后調用模版返回界面給瀏覽器。
2 系統關鍵模塊實現
結巴分詞改進:jieba分詞在處理中文文本分析是比較常用的工具,實現文本jieba分詞的常用流程是加載自定義詞典、獲取關鍵詞、去除停用詞、數據處理。jieba分詞自帶詞典,但是由于具體應用領域的不同,可能不能包括一些專業詞匯,會造成分詞結果不準確,本系統通過自定義詞典解決這一問題。改進專業詞匯識別準確率。獲取關鍵詞主要借助jieba.cut()和jieba.lcut()兩個函數完成,兩個函數生成的對象不同,前者生成字符串而后者生成list。Jieba分詞還提供了去除停用詞功能,去除停用詞后可以更精準的進行文本分析。停用詞詞表可以借鑒網上的中文停用詞詞表,需要加載本地停用詞表,然后針對不同的對象采用特定的方法進行停用詞去除。
本系統核心功能模塊使用Python實現,詞法分析接口可向用戶提供分詞、詞性標注等功能;能夠識別出文本串中的基本詞匯(分詞), 對這些詞匯的詞性進行識別標注。分別建立名詞、動詞、形容詞的詞典, 識別詞性后保存到詞典中, 記錄數量。
3 系統測試
3.1 核心功能測試
本系統分詞功能模塊的測試數據為摘自新浪新聞的25篇企業新聞,總字數為6683字,使用用戶詞典,通過計算準確率(Precision),召回率(Recall)和兩者的加權調和平均(F-Measure)來衡量模塊質量,計算方法詳見表5。
分詞部分結果如圖2。
3.2 測試環境使用結果
我們使用BosonNLP實現了對企業輿情的部分分析。上述新聞文本數據經過情感分析模塊處理后計算得到了相關負面系數,見圖3。
此外,我們還測試了文本關鍵詞提取的功能,該模塊可找出和目標企業相關性較強的關鍵詞以及新聞數據的主題詞,并實現對關鍵詞的自動加權。見圖4。
4 結束語
本系統基于非結構化數據處理實現的網絡輿情分析系統,通過對網絡上大量的非結構化信息的處理與分析,將雜亂無章的,冗余的、無意義的內容進行提取、分析從中獲取有意義的,有價值的內容。對各個領域的發展提供數據支持,針對各大企業對于網絡輿情獲取的需要,設計企業網絡輿情監測系統,針對網絡上不同的企業相關信息進行非結構化數據處理,同時利用情感分析及個性化處理技術,形成可視化的輿情分析,以便企業將輿情分析運用到生產實踐中。
參考文獻:
[1]李志堅.基于數據挖掘的文本分類算法[J].長春師范大學學報(自然科學版),2017,36(6):47-51,56.
[2]莊世芳,林世平,陳旭暉,等.基于概念集和粗集的中文Web文本挖掘特征提取的研究[J].福建電腦,2006(2):31-32.
[3]賴娟.基于數據挖掘的文本自動分類仿真研究[J].計算機仿真,2011,28(12):195-198.
[4]張脂平,林世平.Web文本挖掘中特征提取算法的分析及改進[J].福州大學學報(自然科學版),2004,32(z1):63-66.
[5]周程遠,朱敏,楊云.基于詞典的中文分詞算法研究[J].計算機與數字工程,2009,37(3):68-71,87.