劉 娟,郝云強,尹雪雪
(山東醫學高等專科學校 山東 臨沂 276000)
網絡輿情信息挖掘是指借助相關信息處理技術,識別、提取輿情文本中的熱點詞匯、傾向性詞匯,為輿情引導工作提供依據的信息挖掘活動。借助挖掘活動配套關鍵技術,能夠增強信息挖掘質量,提高輿情工作效果,因此,應對關鍵技術予以深入分析,并總結出優質的技術應用方案,促進輿情工作水平的發展。
TFIDF權重計算法的應用常見于搜索引擎的信息挖掘,但在網絡輿情信息挖掘中,則一般用于信息檢索權重計算。其中,TFIDF中的TF代表詞頻、IDF代表反文檔頻率,由此可以看出,該項關鍵技術的主要思想為,若某一詞、字在某一篇文本中的詞頻較高,而在其他文章中出現頻率明顯減少,那么即可認為該字、詞,具備良好的區分能力,可以用于分類文章。基于此,在網絡輿情信息挖掘中,該項技術的應用原理為,利用統計的形式,評估某個字、詞,在一份網絡文件內容中的重要程度,以便于工作者識別該篇文本的輿情關鍵字、詞,實現網絡輿情信息的收集、提取,為輿情引導工作提供依據。在輿情信息挖掘中,TFIDF權重計算法會按照字詞出現的具體位置,來評估其的重要性,例如:在詞匯重要性評估中,該算法會認定標題、首尾處出現的詞匯,其重要性高于正文段落中出現的詞匯,以準確找出表現該文章輿情傾向的關鍵詞,達到輿情信息挖掘的目的。
在網絡輿情信息挖掘中,文本聚類法是一項常用的信息挖掘關鍵技術,其應用機理為,基于文本數據的不同特征,將文本群劃分為不同數據類型的小文本群,以達到數據挖掘的效果,使同類輿情內容、傾向的文本被歸納到一起,方便工作者全面了解網絡輿情狀態,促進輿情工作決策活動的準確開展。從本質上來說,該項技術的運行方式,類似于無監督的學習機,無需工作者對算法程序進行訓練,也不用提前標注文檔類別,因此,其在實際的信息挖掘應用中,呈現出了較高的靈活性與自動化水平,提高了網絡輿情信息挖掘效率。就目前來看,該算法的運行步驟為,首先,收集網絡輿情信息文檔。其次,采用詞頻統計、停用詞去除等方法,構建出所收集文檔的文本表示。第三,基于文本表示,結合對相似度的衡量,搭建聚類模型,對文本加以分類。第四,對分類結果進行驗證分析,得出最終的輿情信息聚類挖掘結果。
該技術是由中國科學院計算機技術研究所研發的,其運行主要依賴于ICTCLAS系統,該系統作為當前在網絡輿情信息挖掘中,應用比較廣泛的中分詞系統,使ICTCLAS分詞法逐漸成為了網絡輿情信息挖掘關鍵技術。其中,該技術的信息挖掘機理為,利用層疊型隱式馬爾科夫模型,對本文信息進行切分、標注、命名等操作,以達到詞匯識別的效果,為后續的深度挖掘奠定基礎。目前,已經有專家對該系統進行了測評,結果顯示,該系統的分詞準確率可達97.58%,分詞與標注處理速度可達534.5KB/S,由此可見,ICTCLAS分詞法具有良好的使用性能,有助于網絡輿情信息挖掘水平的提升。此外,該技術的應用系統,以及動態鏈接庫、概率詞典,都能在官網上找到免費下載鏈接,因此,基于該技術的信息挖掘工作成本也比較低。
在網絡輿情信息挖掘中,粗粒度情感傾向性分析技術主要用于文本的輿情傾向分析,相較于上述信息挖掘關鍵技術,該技術的挖掘層次更深。在此過程中,該技術的信息挖掘機理為使用語義角色標注對文本中的各個句子進行語義識別,得出句子中情感詞的布局狀態、句子與主題的關聯程度,最終得出文本的輿情情感傾向信息,實現信息挖掘。在此過程中,該技術會借助相應的算法與程序,將文本中所有的干擾句、客觀句進行篩除,然后針對剩下的句子,按照上述信息挖掘機理,進行逐句的輿情傾向分析,整合出整篇文本的輿情傾向狀態,幫助工作者快速地了解網絡輿情狀態,以便于其采取相應的輿情引導措施,來改善網絡輿情情況,凈化網絡輿論環境[1]。
細粒度情感傾向性分析技術也屬于一種網絡輿情傾向信息挖掘關鍵技術,該技術的信息挖掘程序為,首先,基于常規的領域,建立相應的領域特征庫,然后采用相似度計算的方法,結合現有同義詞資源,充實每個特征下的相關詞匯庫。若所提出領域非常規,那么則需要對基本特征類進行自定義,再對其配套詞匯庫,予以詞匯擴充。其次,以句子為單位,定位每個特征類的輿情傾向,再基于此,計算出文本信息中每句話的情感傾向值。最后,得出文本整體的情感傾向值,實現情感傾向的挖掘,實現對網絡輿情信息的深度挖掘。從整體上來看,該項技術的信息挖掘過程,相較于粗粒度情感傾向性分析技術更加復雜,但該技術能夠分析出更加精細的輿情信息,因此,現階段該技術的應用更為廣泛[2]。
綜上所述,增強信息挖掘技術應用效果,有助于網絡輿情工作的穩健推進。在網絡輿情方面,采取網絡輿情信息挖掘關鍵技術措施可以找準輿情關鍵詞、實現輿情信息分類、降低信息挖掘成本、提高輿情現狀掌握效率、精細化輿情傾向分析結果,從而確保網絡輿情工作得以順利達到預期效果。