陳 濤,劉世洪
(農業部農業信息服務技術重點實驗室中國農業科學院農業信息研究所,北京 100081)
面向農產品安全監測的互聯網輿情分析系統研究與應用
陳 濤,劉世洪*
(農業部農業信息服務技術重點實驗室中國農業科學院農業信息研究所,北京 100081)
圍繞農產品安全輿情監管要求,研發面向農產品安全監測的互聯網輿情分析系統。利用網絡爬蟲對互聯網農產品安全相關信息進行采集,利用中文分詞技術處理,設計適合農產品安全的聚類和分類算法進行分析,完成了農產品安全輿情分析的實時采集、智能處理和分析、熱點話題發現、輿情分類、可視化展示和個性化定制功能。該系統實現了農產品安全輿情信息的獲取、處理、分析和服務,系統的使用增強了農產品安全輿情監管力度,并為相關決策部門提供了科學依據。
農產品安全;互聯網輿情;輿情監管;輿情分析;信息系統
文獻著錄格式:陳濤,劉世洪.面向農產品安全監測的互聯網輿情分析系統研究與應用[J].浙江農業科學,2015,56(9):1464-1467.
DOI 10.16178/j.issn.0528-9017.20150941
隨著互聯網的快速發展,網民對網絡事件可隨時進行評論,這就誕生了一個新詞,“網絡輿情”。網絡的便捷提供了網民言論自由的機會,但同時帶來了網絡輿論監管的挑戰。根據中國互聯網絡信息中心2015年1月發布的《中國互聯網絡發展狀況統計報告》數據顯示,截至2014年12月,中國網民規模達6.49億,中國網民中農村網民占比27.5%,規模達1.78億[1]。近年來,輿論對于農產品質量安全問題的放大和炒作,大大增加了質量安全監管工作的難度,嚴重挫傷消費者信心,也給產業發展帶來嚴重損失,甚至引發毀滅性打擊,已成為影響社會和諧和經濟發展的重要因素,因而農產品質量安全輿情問題日益受到監督管理部門及有關領導、專家的重視[2]。2014年監測獲得的全部農產品質量安全輿情信息中,來自于網站的輿情信息數量首次超過50%,占比高達51.95%,互聯網已成為農產品質量安全輿情信息的主渠道[3]。當前,網絡輿情研究逐步擴大,但大部分的研究停留在理論上。在大數據時代,應該利用先進的計算機技術進行研究。最近中央提出的“互聯網+農業”為現代化農業發展帶來新的契機。因此,為增強農業信息化建設的需要,為滿足農產品安全監測的需求,作者開發了一套面向農產品安全監測的互聯網輿情分析系統。
1.1 系統概述
農產品安全輿情分析系統是以信息技術為基礎,以互聯網上農產品相關數據為信息源,利用計算機技術對采集的信息進行分析,最后以可視化的界面展示給用戶,以便快速做出決策。整個系統工作流程從信息的采集、信息處理和分析到輿情服務是具有生命周期的。從對網絡輿情信息的需求的產生開始,到輿情的規劃,通過技術手段到網絡輿情信息的采集、網絡輿情信息的分析、網絡輿情信息的服務、網絡輿情信息的預警,最后到部門領導的決策,整個生命周期是不斷循環的,且每個環節也是必不可少的。其流程如圖1所示。

圖1 農產品安全輿情分析系統的工作流程
1.2 系統架構設計
在農產品安全輿情分析系統中,整個系統應有嚴格的數據流和信息流的流動方向,以及各個層次之間的劃分和相互關聯??傮w設計是系統設計的核心部分,設計的好壞直接影響到系統未來的應用。因此,在設計時必須著眼于信息技術目前和未來的發展趨勢,在充分了解系統需求的基礎上,合理規劃系統的組織結構,定義好各個模塊之間的接口,使系統具備較好的靈活性和擴展性。農產品安全輿情分析系統是一個數據分析系統,也是一個應用業務系統,這么一個復雜的系統,其總體設計架構要合理完善。在綜合考慮系統建設的成本、需求和面向用戶對象的基礎上,提出了網絡輿情監測系統的總體架構(圖2)。

圖2 農產品安全輿情分析系統的總體架構
農產品安全輿情分析系統采用基于B/S架構的系統設計框架。通過瀏覽器進行信息的查詢和溝通,這種方式能更好地滿足政府部門、農產品企業和一般農戶的需求。通過對農產品安全輿情分析能夠及時挖掘農產品安全的輿論信息,從而采取有效的應對措施,提升政府、企業的品牌形象。
1.3 關鍵技術
1.3.1 農產品安全輿情信息抓取
信息采集的數據都是來自互聯網,采集的來源主要是各類網站。本系統是面向農產品安全的輿情監測,在信息采集來源方面面向農產品的網站,包括中國農產品信息網、農業部網、中國農業新聞網等網站,以及貼吧和博客等。采用開源搜索引擎Nutch進行數據抓取,Nutch是一個Java實現和平臺無關性的搜索引擎,提供了運行自己的搜索引擎所需的全部工具。作為一個研究平臺,Nutch有開放靈活的架構。用戶可定制個性化的搜索引擎[4]。
1.3.2 農產品安全輿情信息智能處理與分析
輿情信息的智能處理和分析技術是整個系統的核心的技術。農產品安全輿情數據采集后,通過網頁去噪、排重、中文分詞、特征提取和聚類分類分析,最后得出結果。在這個過程中采用中科院的分詞軟件ICTCLAS分詞[5]進行中文分詞處理,采用TF-IDF算法[6]進行特征提取,使用向量空間模型VSM[7-8],最后使用文本聚類和分類算法得出農產品安全的熱門話題,實現全過程的智能處理和分析。
1.3.3 農產品安全輿情服務
輿情信息服務是通過技術將分析的結果以可視化的方式展示給用戶。結合用戶的需求,系統以簡報形式呈現出日監測報告、周監測報告和月監測報告發布,也可對農產品安全專題全面而系統的報道。同時根據用戶的工作范圍或工作重點對信息源權限賦值,將其最關注的輿情展示出來供優先瀏覽及輿情分析。按照用戶關注的類別分類展示輿情,通過類別的選擇了解各類別輿情信息。
2.1 系統功能模塊劃分
根據農產品安全輿情分析系統的實際需求,本系統由4大功能模塊組成,即農產品安全輿情信息采集模塊、農產品安全輿情信息處理模塊、農產品安全輿情信息分析模塊和系統管理模塊。
2.2 系統功能模塊詳細設計
2.2.1 農產品安全輿情信息采集模塊
本模塊主要功能是負責輿情信息的采集。為了能夠在海量數據中抓取與農產品安全相關的輿情信息,需要構建一個針對農產品安全監測的爬蟲。本文采用Nutch開源搜索引擎作為農產品安全輿情信息采集的工具,主要是基于Nutch的二次開發。通過事先選取部分種子的URL列表,然后使用Nutch網絡爬蟲從種子URL列表爬取農產品安全的輿情信息,將得到的網頁信息進行數據清洗、網頁去噪、網頁內容文本提取等操作,將其作為數據源。Nutch中還可設置URL地址的黑白名單,來實現部分網站的精確爬取(圖3)。
2.2.2 農產品安全輿情信息處理模塊
信息處理模塊的主要功能是將采集模塊采集的信息進行初步處理,再將其存入數據庫,變成可進行輿情分析的數據,即信息處理模塊的結果作為輿情分析模塊的輸入信息。信息處理模塊主要包含頁面解析、網頁去噪、網頁排重、內容提取、中文分詞、特征提取、文本向量表示等過程。具體流程如圖4所示。

圖3 農產品安全輿情分析系統的信息采集模塊

圖4 農產品安全輿情分析系統的信息處理流程
2.2.3 農產品安全輿情信息分析模塊
農產品安全輿情信息分析模塊是系統的核心模塊,主要針對處理后的信息進行分析,包括農產品安全的熱點話題發現、農產品安全話題監測與追蹤、農產品安全敏感信息監測、農產品安全自動摘要等。在此基礎上,進行農產品的安全趨勢預測、安全輿情預警、安全輿情報表服務、安全輿情分類、安全專題追蹤、安全統計分析、安全高危輿情、安全輿情檢索和用戶個性化定制等,包含了農產品安全監測的各個方面,總體上能夠滿足用戶的農產品安全輿情監測需求。
2.2.4 系統管理模塊
輿情管理模塊包含兩部分,一是農產品安全輿情管理,包括輿情報告管理、輿情話題管理、輿情文檔管理等;二是輿情系統管理,設置系統的相關信息,包括系統權限管理、系統角色管理、系統字典管理等。輿情發布管理主要是輿情報告的生成,系統通過預先設置的統計報告生成模板,生成用戶所需的輿情報告。輿情話題管理主要是實現話題的增、刪、改操作。輿情系統管理主要是對系統的基本信息進行配置管理。主要包括用戶權限的管理、角色管理、用戶管理和系統配置信息管理等。
3.1 系統開發環境
農產品安全輿情分析系統軟件是在NET環境下采用C#語言進行開發,系統是基于B/S架構設計,用戶可以不受地域的限制和B/S架構的平臺無關性,可以隨時隨地進行查詢和瀏覽等。系統數據庫開發工具采用MySQL關系數據庫。
3.2 系統應用情況
農產品安全輿情分析系統通過一系列的對數據的處理,最終結果將以可視化的界面與用戶進行交互。目前,本系統部署在中國農業科學院農業信息所,利用信息所的平臺,包括大型的服務器、農產品安全預警方面專家和科研團隊,采集模塊可以全天候24 h進行農產品安全輿情采集,通過系統分析,結合專家和團隊的意見,實現農產品安全輿情全方位、多方面的監測。系統目前運行良好,具有一定的應用價值。
[1] 中國互聯網絡信息中心.第35次中國互聯網絡發展狀況統計報告[EB/OL].[2015-01].http://cnnic.cn/gywm/ xwzx/rdxw/2015/201502/W020150203456823090968.pdf.
[2] 郭林宇,戚亞梅,李艷,等.農產品質量安全網絡輿情監測工作的幾點思考[J].中國食物與營養,2012,18 (12):5-7.
[3] 崔建玲.2014年我國農產品質量安全輿情概況[J].農產品市場周刊,2015(8):22.
[4] 張彧.基于Nutch的農業信息垂直搜索引擎的研究與實現[D].北京:北京郵電大學,2013.
[5] 劉群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語詞法分析[J].計算機研究與發展,2004,41(8):1421-1429.
[6] 李海蓉.基于概念向量空間的文檔語義分類模型研究[J].圖書情報工作,2011,55(24):106-108.
[7] 田文穎.面向專業領域的文本特征提取技術研究[D].北京:國防科學技術大學,2009.
[8] 李祥洲,錢永忠,鄧玉,等.2014年農產品質量安全網絡輿情特征分析研究[J].農產品質量與安全,2015(1): 41-47.
(責任編輯:張瑞麟)
S 126;F 307.5
A
0528-9017(2015)09-1464-04
2015-04-17
中國農業科學院科技創新工程農業網絡創新基金項目
陳 濤(1989-),男,江西萍鄉人,在讀碩士,研究方向為信息管理和數據挖掘。E-mail:lotus.ct@hotmail.com。
劉世洪。E-mail:lotusct@16.com。