趙繼春等



摘要研究了農業信息處理和分析技術,開發了農業網站輿情熱點發現系統,實現農業相關類網站的網絡輿情分析,發現農業類相關網站的網絡輿情熱點,通過網絡信息的自動獲取、分類存取以及熱點發現,實現對農業網站輿情信息的熱點監測和熱點發現功能,為農業科研人員和管理者提供個性化的決策參考。
關鍵詞農業網站;網絡輿情;熱點發現與監測;個性化
中圖分類號S126文獻標識碼A文章編號0517-6611(2015)24-279-02
目前,農業類網站數量增長迅速,對于農業管理者和科研人員,農業熱點信息對于研究或者決策,具有重要的意義。而互聯網信息快速發展使得信息成幾何級數增加,網絡信息的處理就越來越困難,傳統的通過手工進行信息處理的方式已經不能夠應對大規模信息相應的要求[1]。因此有必要通過新的信息技術,對農業輿情進行監控和分析,滿足農業管理者和農業科研人員對信息的需求。對與農業相關的網站進行網絡輿情熱點信息發現,通過網絡信息的自動抓取、分類存取以及熱點發現,建立輿情熱點發現模型,實現網絡輿情信息的熱點監測和熱點發現功能。同時能夠實現熱點話題的追蹤,為掌握網絡中的思想動態做出正確的輿論引導提供分析依據,能夠為上級領導部門提供輿情分析報告。
目前,輿情信息的熱點發現研究較熱,受到了政府和科研管理人員的普遍關注,政府希望通過輿情信息熱點發現獲取網路中的思想動態,從而實現對于不良的輿情進行監控與疏導,解決網絡中存在的潛在危機。科研人員希望獲取一手研究資料,了解最新的熱點前沿動態,從而能夠指導自己的科研。目前的研究技術主要包括基于自然語言處理技術以及統計技術,涉及詞頻、分詞和數據挖掘等技術。針對快速發現熱點話題的問題,很多研究針對論壇系統進行了分類,運用多維向量表示實現了網絡中輿情熱點信息的發現與分析管理[2-4]。
輿情監測分析系統涉及的一些關鍵技術包括:網絡信息采集技術,主要包括網絡爬蟲技術等;信息預處理技術,主要包括網頁凈化預處理、文本表示、中文分詞、詞性標注、去停用詞、特征信息提取和特征降維等;文本應用的挖掘與信息處理技術,主要包括文本聚類、熱點自動發現、文本自動分類、文本傾向性分析等。針對熱點信息采集,可以應用網絡爬蟲技術,將大量的信息抽取存儲到本地數據庫,為研究提供數據支撐[5]。
1輿情熱點發現技術架構
目前,在輿情分析熱點研究方面影響力比較大的國際會議包括文本檢索會議(TREC)、情報檢索專業組會議(SIGIR)、文本檢測與跟蹤會議(TDT)等,這些會議展示了該領域最新的研究成果已經研究進展。筆者在閱讀大量相關文獻的基礎上,研究了網絡輿情分析所涉及的分詞、網絡爬蟲、聚類分析等關鍵技術,并對這些關鍵技術進行集成應用,構建農業類網站的輿情分析引擎[6]。
該研究的技術架構是首先進行輿情信息采集處理關鍵技術研究,對農業類相關的網站進行信息進行采集,獲取用戶的活躍話題,并對采集后的信息進行加工預處理,提取信息的特征。結合基礎數據信息,建立輿情熱點發現模型,最后開發農業網站輿情熱點發現系統。研究技術架構見圖1。
2系統關鍵技術研究與實現
2.1輿情信息采集系統研究
輿情信息采集模塊實現的功能是按特定主題抓取農業類網站的相關欄目信息,并將信息分類存儲到數據庫服務器中。信息采集的主要思路是,利用網絡爬蟲技術,根據網絡中的頁面地址,獲取網頁的頁面信息,根據正則表達式對信息進行處理,抽取到本地數據庫。最后,系統依據本地數據庫中抽取的信息,進行分析與處理。
2.2輿情信息的預處理方法研究
輿情信息的預處理主要是對原始數據進行去噪,去掉無效的應用數據,并且找到信息對應的特征項目,最后轉化為向量表示。輿情信息的數據預處理為分析系統提供了具有一定可靠度的數據,輿情信息預處理流程見圖2。
2.3熱點信息發現流程研究
網絡信息熱點信息發現由信息的預處理模塊、熱點信息發現模塊、用戶信息顯示控制模塊和綜合管理模塊組成,建立在基于抽取的網絡信息數據庫基礎上,主要實現對于熱點信息的分析與監控,網絡熱點信息發現實現框架見圖3。
熱點信息發現的流程見圖4。首先,應用分詞技術,對農業類的相關網站進行關鍵詞的提取,如果是互動的信息,則提取互動信息的特征,并將這些信息存儲到信息特征庫;然后,針對信息特征庫應用統計分析技術提取熱點特征信息,同時獲取信息對應的報文;最后,統計相關信息的分布。
3系統開發與實現
3.1開發語言與環境
在關鍵技術研究的基礎上,該研究開發了農業網站輿情熱點信息發現系統,充分考慮了系統的易用性和擴展性需求。采用Java程序設計語言進行開發,系統采用的應用數據庫的是Oracle11,開發的環境是MyEclipse,開發中間件采用的是Tomcat。
3.2系統主要功能模塊
數據采集對象主要是涉農互聯網網站和網頁,包含了對于正文內容的自動識別、文章去重與相似度分析、自動生成摘要和關鍵詞等多項中文語言處理技術。農業網站輿情熱點發現系統包括了輿情數據處理子系統、輿情分析子系統和輿情門戶應用子系統。輿情數據處理子系統是針對采集子系統采集的數據進行整理、處理。主要功能包括:輿情數據管理、門戶信息配置、簡報管理模塊等,可手動選擇信息生成簡報,對已生成的簡報提供可視化編輯界面。輿情分析子系統功能分為統計和分析兩部分。統計主要是對于輿情內容的統計,信息站點分布統計、時間統計、具有折線圖、柱狀圖、餅圖多種表現方式。輿情分析功能包括自動聚類、熱詞發現和事件發展趨勢分析。輿情門戶應用子系統是一個可定制的輿情展示、呈現平臺,平臺可以將輿情系統中收集到的信息、分析結果、生成的簡報,以圖文方式進行展現,提供給用戶瀏覽、下載。系統開發的原型頁面如圖5所示。
4結語
該研究給出了網絡輿情熱點信息發現所設計的技術和方法,并開發了農業網站輿情熱點發現系統。該系統的最大優點是采用靈活的處理的架構,真正實現分析和追蹤熱點信息。對農業相關類的網站進行網絡輿情熱點發現,通過農業網站信息的抓取采集,將數據存儲在本地數據庫,供系統
進行數據分析。該研究開發的網絡輿情熱點發現系統,包括了
輿情數據處理子系統、輿情分析子系統和輿情門戶應用子系統。用戶可以選定特定的時間段,能夠實現熱點信息排序功能,同時實現熱點信息的追蹤,提供熱點信息的分析依據,為農業管理部門和科研人員提供農業信息輿情分析報告。
參考文獻
[1] 蓋偉,王曉端.網絡輿情分析與監測研究[J].中小企業管理與科技,2014(11):126.
[2] 張文慧,張冉.基于中文分詞的農業信息檢索平臺設計[J].安徽農業科學,2011,39(20):12586-12587.
[3] 王娟.網絡輿情監控分析系統構建[J].長春理工大學學報,2007(4):201-203.
[4] 孟春艷.用于文本分類和文本聚類的特征抽取方法的研究[J].微計算機信息,2009(3):149-150.
[5] 顏建華,劉巖,傅黎犁,等.基于網絡的輿情分析系統及其應用研究[J].醫學信息學雜志,2011(8):10-14.
[6] 汪斌,張云偉,劉健,等.一種面向農業信息主題網絡爬蟲的設計[J].安徽農業科學,2009,37( 20):9699-9700.