江蘇電信云計算中心趙勇
多源信息聚合技術在中國電信江蘇公司“輿情云”系統中的應用
江蘇電信云計算中心趙勇
隨著互聯網信息技術和移動通信技術的發展,互聯網媒體逐漸走進人們的日常生活。每個人既是互聯網信息的閱讀者,也是互聯網信息的提供者和傳播者。人們通過微博、論壇、博客等發表自己的看法、轉發自己關注的消息、關注熱點及自己關心的內容。由此,網絡輿論也隨之產生。
隨著政府對民生的關注以及企業對互聯網營銷的關注,人們越來越重視網絡輿論。開展互聯網輿情監測與分析,能夠幫助政府和企業在第一時間掌握網絡輿情動態、了解網情民意;第一時間發現可能引發危機的信息苗頭;幫助企業開展自身口碑監測、競爭信息、行業信息、產品調研、客戶調研等活動。
近幾年來,越來越多的政府和企業通過自建系統或購買云服務的方式,開展互聯網輿情監控。同時他們對輿情系統提供信息的實時性、準確性、易用性提出了越來越高的要求。但實際在使用各類監控系統時,卻面臨著重復信息過多的問題。特別是當重要事件發生時,許多新聞站點、論壇、微博都在講述同一事件,無數重復的內容反而淹沒了事件的本質。因此多源信息聚合顯得尤為重要。多源信息聚合可以將文本信息進行相似性智能判斷,并對同一事件進行聚合,能夠大大減少數據量,提高系統預警的準確性。
由中國電信江蘇云計算中心和北京上元信科技有限公司共同開發的中國電信江蘇公司“輿情云”系統,采用了大數據研發團隊開發的“多源信息聚合”技術。該技術采用了K-means聚類改進算法,以及由該團隊維護的龐大的主題詞典和分詞分類詞典等,并創造性將該算法與各類詞典結合起來,借助于中國電信強大云計算資源,既解決聚類準確性的問題,又解決了效率問題。系統經過在線測試,針對一個熱點地市一個月20萬左右條的數據,單條消息到達時,執行完一次聚類消耗的時間達到毫秒級別。并支持多源信息的聚合,即能夠將新聞、論壇、博客、微博、微信等不同來源的數據進行分類和統一聚類。
中國電信江蘇公司“輿情云”將“多源信息聚合”技術靈活地運用在系統中,解決了困擾輿情監控人員的多個問題。
重復信息過多問題。通過該技術,將講述同一事件的輿情信息聚合為一條數據,并給出重復條數,聚合后數據量能夠減少2/3。大大減少輿情監控人員查看信息的工作量,提高對重大事件的監控效率。
本地熱點事件統計問題。通過信息聚合,對出現次數最多的事件進行權重排序,統計出不同領域的熱點事件,及時發現可能造成擴散影響的輿情事件。
垃圾信息過濾問題。輿情信息具有時效性,當該事件首次出現時,可能具有較高價值,當成為熱點后,隨著時間推移,該消息價值可能降為0,而成為垃圾信息,此時可能利用聚合技術將該事件設置為垃圾信息,由系統自動進行過濾與屏蔽。
“多源信息聚合”技術不僅能夠使輿情數據量大大減少,而且隨著用戶使用時間越來越長,用戶提供給系統學習的材料也在增長,將會大大提高系統預警的準確性。因此,中國電信江蘇公司“輿情云”受到了用戶的廣泛認可,目前該系統為江蘇全省超過60個正式用戶、近百個試用用戶提供著輿情監測的云服務。這是中國電信江蘇公司在大數據研究上一個有力的嘗試,未來中國電信江蘇公司還將會在多個領域為客戶提供大數據挖掘服務。