999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Nutch與元搜索引擎技術的高校網絡輿情監測系統研究*

2014-04-29 00:44:03聶琰
計算機時代 2014年11期
關鍵詞:搜索引擎信息系統

聶琰

摘 要: 針對高校網絡輿情監測工作的不足,結合高校輿情信息的傳播特點,提出了在校園網范圍內基于Nutch搜索引擎技術進行信息檢索,在互聯網上采用元搜索引擎技術獲取相關信息的輿情監測系統構建方案。采用關鍵詞特征庫匹配方式自動進行網絡輿情監測,及時準確地發現網絡輿情信息;探討了高校對于網絡輿情的監測、分析、引導和反饋等環節的處理方法,從而形成完善的應對機制。

關鍵詞: 網絡輿情; Lucene; Nutch; 元搜索引擎; 信息檢索

中圖分類號:TP309.2 文獻標志碼:A 文章編號:1006-8228(2014)11-19-03

Research of public opinion monitoring system in campus network based on

Nutch and meta search engine technology

Nie Yan

(College of Science and Technology, Ningbo University, Ningbo, Zhejiang 315202, China)

Abstract: Aiming at the insufficient public opinion monitoring work, combined with transmission characteristics of public opinion information in colleges, the whole scheme of constructing public opinion monitoring system is presented. Information retrieval technology based on Nutch searching engine is applied to campus network. Information collection technology based on Meta search engine is used on the Internet. The keywords feature library matching is used for automatic experiment monitoring and the public opinion information is found timely and accurately. In addition, the dealing methods such as monitoring, analysis, guide and feedback are discussed to form perfect coping mechanisms.

Key words: public opinion; Lucene; Nutch; meta search engine; information retrieval

0 引言

高校師生是網絡利用率極高的一個群體,也是網絡輿情的主要生成力量和影響對象。高校網絡輿情的形成原因主要有三方面:一是由于國內外相關熱點問題的觸發,二是校內外突發事件的網上討論,三是與高校師生利益密切相關事情的網上訴求。近年來,由于社會上網絡輿情導致政府信任危機的事件不斷發生,高校也逐漸重視了網絡輿情突發事件的應對機制研究。同時,隨著公安部對網絡信息安全工作的逐步加強,高校利用自身技術優勢,自主構建輿情監測系統并建立一套完善的應對機制正逐漸成為高校網絡信息安全工作的重點。因此,在新形勢下,遭遇突發事件,高校如何能以最快的速度收集網絡上相關信息,跟蹤事態發展, 及時向有關部門通報,防范網絡不良輿情的快速擴散和演化,并建立相應的響應機制,實現對網絡輿情的有效管理與控制,使健康的網絡輿情成為維護高校穩定,推動社會文明發展的動力,已經成為當前亟需解決的重要課題。

高校的網絡輿情信息主要來自兩部分,一是內部獨立的校園網絡,二是外部開放的互聯網絡。隨著高校校園信息化建設的深入發展,校園網中網站、論壇、博客等平臺上信息資源數量呈指數級增長,僅依靠人工檢索和信息發布審核的方式無法有效實現對網絡輿情信息的監測,急需利用技術手段實現對海量網絡信息的挖掘與分析,快速匯總成輿情信息;互聯網上信息量十分巨大,通過垂直搜索引擎方式所獲取的與高校相關的信息往往存在查全率不高的缺陷。高校網絡輿情的監測,既要考慮信息采集的深度和廣度,又要提高系統的精度與準度;同時對于發現的輿情信息,要能夠做到快速定位,有效控制。本系統針對上述高校網絡輿情監測工作的不足,并結合網絡輿情傳播特點,提出了構建高校網絡輿情監測系統的整體方案,并探討高校面對網絡輿情在監測、分析、引導和反饋等環節的處理方法,從而形成完善的應對機制。

1 系統體系結構

高校網絡輿情監測系統主要包括三個功能模塊,分別是:校園網輿情信息采集模塊、互聯網輿情信息采集模塊、網絡輿情分析與預警模塊,體系結構如圖1所示。

圖1 高校網絡輿情檢測系統體系結構

由于高校對校園網絡具有較大的控制權限,一部分信息數據可利用各種信息發布系統的管理平臺與數據庫的訪問權限來獲取;另一部分可利用網絡爬蟲從網頁數據中獲取,系統基于Nutch搜索引擎技術對校園網內數據進行信息采集,采集的深度與廣度都達到了較好的效果。對于互聯網上的海量網絡信息,如果采用垂直搜索引擎進行數據采集,所獲取的數據質量不高,為此系統采用元搜索引擎技術來獲取互聯網信息,既提高了信息采集的針對性又擴大了采集范圍。此外,對于某些特定的互聯網網站,可以采取以上兩種方式相結合的監測方式,同時采用網絡爬蟲與元搜索引擎技術,來提高系統的監測精度。

網絡輿情分析與預警模塊采用關鍵詞特征庫匹配方式和機器學習算法自動進行網絡輿情監測,實現對輿情信息及時準確的發現,并與短信預警等系統接口實現對接,實現輿情信息的實時發送。

2 系統主要功能模塊

2.1 Nutch搜索引擎與校園網信息檢索

Nutch是一個開源的Java實現的Web搜索引擎,其在Lucene基礎上添加了網頁數據抓取功能,提供了構建搜索引擎所需的基本工具模塊,包括網絡爬蟲、文本分析、分詞工具、建立索引、搜索功能和結果過濾等。Lucene是一個高性能、可伸縮的信息搜索庫,可為Nutch提供了文本索引和搜索的API,也可為應用程序添加索引和搜索功能,通過Lucene的數據庫接口直接從數據庫中取出數據,用API 建立索引并提供搜索接口。利用Nutch搜索引擎作為校園網輿情信息采集工具,不但可以縮短開發周期,提高開發效率,而且通過其內部的接口和插件機制可以實現對校園網數據的高質量采集。網絡爬蟲模塊用來實現對校園網內網頁文件的信息采集;Lucene接口實現與各種異構數據庫的連接;利用Nutch的插件機制,采用POI插件和PDFBox插件來實現對Word、Excel、PDF等文檔的讀取。通過上述三種方式可以實現對校園網內多種異構數據源的信息采集。

2.2 元搜索引擎與互聯網信息采集

元搜索引擎是建立在獨立搜索引擎之上的搜索引擎。元搜索引擎沒有自己的爬蟲系統和索引系統,數據全部來自于不同的成員搜索引擎(例如 Baidu, Google, Bing等),元搜索引擎將用戶的搜索請求轉發給多個成員搜索引擎,對成員搜索引擎的查詢結果進行篩選與去重操作后返回給用戶。將元搜索引擎應用于系統可有效提高互聯網范圍內輿情信息采集的廣度、精度和速度。各獨立搜索引擎查詢接口的格式和編碼并不相同,首先要將元搜索引擎中的檢索條件轉換為各獨立成員搜索引擎能夠接受的格式,并通過各自的查詢接口提交,然后對獲得的HTML源文件格式的檢索結果進行分析、處理,如百度搜索引擎返回結果中所包含的em、href標簽,通過對上述標簽信息的解析與提取,可以獲得與之相對應的鏈接地址、網頁標題以及部分說明文字,將上述信息處理為結構化數據后存放到相應的數據庫中。再通過對不同獨立成員搜索引擎所獲取的輿情信息的鏈接地址和網頁標題等信息的對比和有效性檢測來實現結果的篩選和去重,然后將最終結果提交給Nutch的文檔分析與分詞模塊,建立索引。

2.3 文檔分析與中文分詞

信息檢索的基礎是文檔分析,而文檔分析在很大程度上依賴于分詞模塊對語言的處理。文檔分析是信息采集完成后的首要任務,Nutch中的文本分析模塊能夠完成對各異構文件中結構化標記語言的處理,得到純文本文件。Nutch自帶的CJK分詞模塊在中文分詞的效率和準確度上不能滿足實際需要。為此,在對比了JE分詞、Paoding分詞和ICTCLAS分詞等多款中文分詞模塊后,Paoding分詞由于其開源性和良好的分詞效果被本系統采用,并通過Nutch的插件機制集成到系統當中。其原理是Nutch中的抽象類Analyzer類實現了配置和插入中文分詞模塊的接口,該抽象類中定義了一個公有的抽象方法tokenStream(String fieldname,Reader reader)返回的類型是TokenStream。Paoding分詞的分詞類返回類型也是TokenStream,故只需將參數fieldName和reader作為Paoding分詞的輸入參數并將其結果返回給Analyzer類即可。

2.4 信息索引與檢索

系統為校園網和互聯網內的多個異構數據源分別建立了各自的索引文件,為有效整合索引文件,并將其作為統一的索引庫提供給輿情分析與預警模塊,需要對索引文件進行優化。索引優化其實是將多個索引文件合并成單個文件的過程,目的是減少索引文件的數量,并且能在搜索時減少讀取索引文件的時間。Nutch中的IndexWrite類提供了optimize方法實現該優化操作。索引優化完成后,利用Nutch中的MultiSearcher類可實現對優化后索引的統一檢索功能,檢索結果會以一種指定的順序合并起來。針對高校網絡輿情信息的特點,綜合考慮信息相關度,時效性和訪問量等因素后,系統采用了自定義的排序機制,Lucene的文本相關度公式作為信息檢索的主要排序依據,輔助以信息發布時間和訪問次數作為重要的排序因子,系統通過Lucene的激勵因子boost值來改變文檔得分,從而調整文檔的出現順序。

2.5 信息預警

系統采用關鍵詞特征庫匹配與機器學習算法相結合的方式對輿情信息進行預警。在對特征庫內的關鍵詞進行組合后,對輿情信息索引庫進行檢索,獲取與之相關的信息,再通過與數據庫中歷史記錄的比對得到最新發現的輿情信息。對新發現的輿情信息通過聚類算法對信息進行分類,從而獲得輿情信息的分析結果;系統提供了良好的人機交互接口與信息展示界面,預警信息通過短信接口發送給網絡輿情監測人員,做到輿情信息的及時發現、快速預警。

3 應對機制研究

高校網絡輿情除了要依靠技術手段進行防范與監測外,還要構建合理的網絡輿情應急響應組織的架構。網絡輿情突發性強、傳播速度快,因此高校必須整合各部門資源,成立專門的網絡輿情應急響應小組,其組織結構圖如圖2所示,由校領導直接擔任組長,以黨委宣傳部為核心,校辦、學工部和網絡中心為重要組成成員,其他部門密切配合,建立起一支高效的網絡輿情應急響應隊伍。網絡輿情事件一旦發生,應立即啟動應急預案,預案應包括信息收集、分析應對、部門聯動和引導反饋四個環節。各部門由網絡輿情應急響應小組統一領導,預案中的各環節可同時啟動,要實現技術手段與思想教育工作并重,防止事態擴大,力爭快速及時的化解輿情危機。

圖2 網絡輿情應急響應小組組織結構圖

4 結束語

通過對高校網絡輿情監測系統的研究,實現了基于Nutch與元搜索引擎技術的高校網絡輿情監測系統,解決了多數據源、異構信息檢索的難點;引入元搜索引擎技術,完成與源搜索引擎的對接,達到了較高的查全率;采用關鍵詞、敏感詞特征庫匹配與機器學習算法相結合的方式對采集信息進行分析處理,提高了系統的準確率,最終實現了高校網絡輿情信息的早發現,早預警,從而彌補了高校網絡輿情監測技術手段上的不足;通過對網絡輿情的自動采集、分析與預警替代了人工操作,提高了工作效率,并且能夠對輿情信息進行快速、準確的發現。目前該系統依靠關鍵詞匹配的方式進行輿情信息發現,并用聚類算法對發現的輿情信息進行分類,該方法對已知關鍵詞的輿情信息能夠取得較好的效果,但對未知關鍵詞的信息還無法實現有效監測,今后將進一步加強對這方面的研究。通過高校網絡輿情監測系統的部署和應對機制的構建,高校能夠從整體上實現對網絡輿情隱患的及早發現、快速響應、應急控制、主動疏導和反饋調整,促進了高校的穩定與和諧發展。

參考文獻:

[1] 羅剛.解密搜索引擎技術實戰Lucene &Java精華版[M].電子工業出

版社,2014.

[2] 王雪松.Lucene+Nutch搜索引擎[M].人民郵電出版社,2008.

[3] 邱哲,符滔滔,王雪松.開發自己的搜索引擎Lucene+Heritrix[M].人民

郵電出版社,2010.

[4] 費洪曉,莫天池,秦啟飛.社交網絡相關機制應用于搜索引擎的研究

綜述[J].計算技術與自動化,2014.1:1-9

[5] 董堅峰.基于Web挖掘的突發事件網絡輿情預警研究[J]. 現代情報,

2014.2:43-51

[6] 戴維民,劉軼.我國網絡輿情信息工作現狀及對策思考[J]. 圖書情報

工作,2014.1:24-29

[7] 樸辰熙.元搜索引擎的原理與革新[J].電子技術與軟件工程,

2013.23:34-34

[8] 李俊俊.中國高校網絡輿情探究[J].廣西民族師范學院學報,2014.1:

126-129

猜你喜歡
搜索引擎信息系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 国产无遮挡猛进猛出免费软件| 国产精品网曝门免费视频| 9966国产精品视频| 色哟哟国产精品一区二区| 免费A级毛片无码无遮挡| 亚洲欧洲日本在线| 国产精品私拍在线爆乳| 欧洲欧美人成免费全部视频| 亚洲无码视频一区二区三区| 亚洲乱码在线视频| 欧美日韩在线成人| 最新国产成人剧情在线播放| 亚洲色中色| 中文字幕色站| 免费无码又爽又黄又刺激网站| 国产成人无码Av在线播放无广告| 黄色网页在线观看| 91精品国产丝袜| 一本大道东京热无码av| 亚洲浓毛av| 伊人成人在线| 激情综合激情| 成人无码区免费视频网站蜜臀| 青青草原国产一区二区| 67194在线午夜亚洲| 国产精品国产主播在线观看| 亚洲精品视频网| 一级看片免费视频| 一区二区三区四区日韩| 国产视频a| 一区二区在线视频免费观看| 日韩乱码免费一区二区三区| 亚洲中文字幕在线一区播放| 国产农村妇女精品一二区| 国产精品真实对白精彩久久| 国产三级韩国三级理| av大片在线无码免费| 免费女人18毛片a级毛片视频| 久久综合色天堂av| 在线看国产精品| 五月婷婷综合网| 欧美成人一级| 亚洲综合狠狠| 国产交换配偶在线视频| 国产精品永久免费嫩草研究院| 无码中文字幕乱码免费2| 精品无码人妻一区二区| 中文字幕在线播放不卡| 欧美一区福利| 久久无码免费束人妻| 欧美区一区二区三| 欧美成人午夜在线全部免费| 尤物亚洲最大AV无码网站| 亚洲色图欧美在线| 久久香蕉国产线看观看式| 国产va免费精品观看| 午夜日b视频| 日韩毛片免费视频| 免费又黄又爽又猛大片午夜| 国产美女一级毛片| 亚洲成av人无码综合在线观看| 国产视频一二三区| 久久久久久久久久国产精品| 亚洲日本中文字幕乱码中文| аⅴ资源中文在线天堂| 亚洲av无码成人专区| 欧美综合一区二区三区| 日韩免费视频播播| 99精品一区二区免费视频| 亚洲欧美一区二区三区图片| 国产午夜不卡| 国产精品福利在线观看无码卡| 99久久精品免费看国产电影| 天堂va亚洲va欧美va国产| 久久国产乱子伦视频无卡顿| 97视频免费看| 亚洲国产精品人久久电影| 国产精品一区二区国产主播| 亚卅精品无码久久毛片乌克兰| 久久香蕉国产线看观看亚洲片| 在线看国产精品| 国产精品一区二区不卡的视频|