陳濤 劉世洪



摘要:針對如何高效地發現農業輿情話題,提出了一種基于敘詞表的輿情話題發現算法。該算法首先基于《農業敘詞表》和綜合性詞表及網絡新詞構建敘詞詞典,作為中文分詞軟件的詞典;然后運用TF-IDF計算特征詞的權值,選取前P個特征詞表示文本,并基于敘詞間的關系計算詞語相似度;最后,以敘詞為節點構建無向圖,通過對無向圖聚類實現網絡熱點話題的發現。分析結果表明,該算法的最小識別代價為0.3534,算法運行效率相比傳統算法較高。
關鍵詞:敘詞表;農業輿情話題;語義相似度;無向圖;聚類
中圖分類號:S-058
文獻標識號:A
文章編號:1001-4942(2015)10-0112-04
隨著互聯網的不斷發展,各類網站已經成為大眾獲取信息的主要來源之一。網絡中許多重要信息常常被海量數據淹沒,因此,快速有效發現網絡熱點話題,已經成為輿情監控、情報競爭等領域的熱點。近年來,我國網民數量和農業網站數量不斷增加,互聯網涉農信息數量急劇膨脹,涉農網絡輿情呈幾何級數增長,因此,如何快速有效地發現話題,是非常有必要的。話題發現的研究主要起始于美國國防部高級研究計劃署(DARPA)支持的話題檢測與追蹤(Topic detection and track-ing,TDT)項目,該項目主要致力于新話題檢測和跟蹤方面的研究。隨著技術的不斷發展,國內外話題發現的相應研究成果不斷豐富起來。李恒訓等以主題詞為線索,采用多特征話題模型,實現了網絡熱點話題的發現。王巍等通過將報道內容之間的關聯關系層次化,并采用基于單遍聚類思想引入話題中心的策略,實現了熱點話題的發現。龍志祎等以特征詞為聚類對象,采用基于互信息的詞聚類算法產生熱點話題。在上述研究的基礎上,本研究提出一種基于敘詞表的農業輿情話題發現算法,定義話題的表示方法,通過文本信息提取特征詞,進而結合農業敘詞表進行特征詞與敘詞轉化,通過敘詞的等同、等級、相關關系對敘詞進行聚類構造話題樹,最終實現話題的發現。endprint