曾寰 胡運全 李金忠 戴貞明 龍滿生
摘要:本文基于網絡評論觀點挖掘相關理論分析,對觀點挖掘的實現過程進行設計和分析,以期通過網絡評論觀點的挖掘,了解網絡用戶行為與觀點傾向,掌握網絡用戶觀點表達規律。
關鍵詞:網絡;評論觀點;挖掘
隨著互聯網時代的到來,信息與數量快速增長。在各種信息中,網絡評論觀點信息發揮著重要作用。通過對網絡評論觀點的挖掘,可為網絡輿情、電子商務等諸多領域帶來重要價值。[1]對網絡評論觀點進行挖掘,需依托大數據來展開,了解網絡用戶行為和觀點傾向。
1 針對網絡評論的觀點挖掘理論分析
網絡評論中的文字多表現出一定的主觀傾向,對網絡評論觀點態度進行挖掘,主要是從評論信息資源中對用戶觀點與態度加以提取,并通過容易理解的形式對其展現。[2]當前網絡評論的觀點挖掘,在任務上主要包括三點:一是主觀性分析,即對一個特定本文的客觀性進行判斷,明確其屬于客觀性,還是帶有主觀極性;二是極性分析,對主觀性的正面還是反面以及極性強度等信息進行分析;三是觀點總結,針對觀點信息加以整理與展示。對于本文來說,涉及的評論信息資源均為文本形式,因此,我們在觀點挖掘方面所涉及的主要為文字信息,如產品評論亦或者博客日記等,聲音、圖片等不在本文研究范疇中。
2 網絡評論挖掘實現的設計過程
2.1 對數據進行收集與處理
對網絡評論觀點挖掘進行研究,就必然會涉及評論語料集,因此需要先對數據進行收集,本研究用到的數據均源自網上。針對收集的初始數據,需給予篩選和清洗,對無用數據進行去除。網絡上的評論信息等,多以網頁形式存在,需將無用的網頁標記加以去除,使其轉化為結構化數據。
2.2 分詞與標準
在一個文檔中,多由句子和詞匯組成,計算機對于人類的語言當前并不能理解,針對整個無結構的文本,需對其進行轉化,使其成為結構化的數據形式。當前較為常用的方法為,使文本以詞匯為特征的向量集形式表示出來。該過程可由計算進行自動完成,即自動分詞。整個過程需基于信息處理需要,在文本的劃分上需根據分詞單位以特定規范加以劃分。在一個句子中,可能包含多種切分方式,為確保自動分詞的高效性,需對準確的分詞詞典進行建立,滯后基于語義分析對匹配算法及消岐算法加以建立,實現分詞目的。[3]然后進入詞性標準階段,該過程是針對切分得到的詞語,對相應的詞性進行標注。通常來說名詞與形容詞分別標注為n、a,動詞與連詞分別標注為v、c,對于副詞則標準為d 等,來使符號實現統一。在詞匯中,詞性為其重要語義特征之一,這一過程可以采用自動標注器來進行詞性標注。在文本表示中,分詞與標準僅為第一步過程,完成以上工作后即需對研究納入的文本內容進行處理。可對java 開發環境加以使用,同時可對中國科學院計算技術研究所研發出的漢語分詞類庫編寫分詞及標注程序做好評論文本內容方面的處理。通過分詞與標準,可得到新的涉及詞性標注的詞語集合數據。
2.3 對評論文本進行挖掘
該環節主要包括三點內容。首先是特征選擇方法,對于文本特征來說,主要指文本元數據,主要包括描述性特征與語義性特征,前者主要包括文本名稱、大小及日期等,后者主要包括文本標題、內容及作者等。雖然分詞能夠使文本機構化,但僅經過切分會得到龐大的數據,難以進行處理。因此,需要對文本數據特征加以確定,以此來排除無用詞語,將有用詞語留下。針對約簡選擇特征過程,多會對一個評價函數進行構造,對每個詞語的函數值進行計算,對達到閾值的詞語加以選擇,將其作為文本特征。[4]本文采用詞頻方法,基本思想在于對于低于詞頻率閾值的詞,均將其去掉,將剩余詞條作為特征保留下來。其次是數據表示方法,我們所選擇的數據類型均為文檔類,在數據的表示過程上,主要是將文檔通過選出的特征實施結構化表示。在常用的模型上,主要為布爾模型、布爾模型等,不管采用哪一種模式求出權值,在最終目的上均是為了使文本數據得到有效的表示,從而為進一步的文本挖掘方法的使用提供便利。再次是挖掘分析。主要通過關聯分析法對一些頻繁一起出現的特征詞進行分析,明確其關聯性與相互關系。然后采用文本分類器對文檔實施分類,通過無監督的聚類分析促使文本自動聚為幾類,繼而對文本潛在規律加以發現。在文本挖掘結果上,需以列表或圖形化形式加以展示,在結論分析基礎上得出有用的知識。
2.4 觀點識別和總結
在人們表達觀點的過程中,其對象主要為被評價事物及其特征,通過對自然語言處理技術的使用,在語義分析下,即可對評論文本中出現的特征進行挖掘。在評論觀點中,其特征多表現為極性詞及其對應的特征。根據每個句子,可通過在正面和反面極性數量方面的比較對句子的語義導向加以確定。在網絡觀點導向識別過程中,必須對否定詞重點考慮,如無“不”、“沒有”等否定詞,則多表示語義相反。[5]在將前面工作均完成后,可以將結果以圖表等直觀形式呈現出來,在比較分析下對不同物品及特征特點進行整理,在這一總結下,網絡評論中關于客戶的知識即可顯現出來,便于我們使用。網絡評論觀點挖掘,為近年來新興研究熱點,其以文本挖掘及Web挖掘為基礎,對計算機技術及自然語言處理技術等加以使用,開辟了數據挖掘領域新方向。不過,該方面的研究當前還處于起步階段,在應用范圍上還較為有限,仍需進一步研究。
參考文獻:
[1]于堯.網絡評論的規律與工作機制研究[J].課程教育研究,2018(6):7778.
[2]韓忠明,李夢琪,劉雯,等.網絡評論方面級觀點挖掘方法研究綜述[J].軟件學報,2018,(2):417441.
[3]陳巧紅,孫超紅,賈宇波.文本數據觀點挖掘技術綜述[J].工業控制計算機,2017,30(2):9495.
[4]高松,王洪偉,馮罡,等.面向在線評論的比較觀點挖掘研究綜述[J].現代圖書情報技術,2016,32(10):112.
[5]涂慧明.文本觀點挖掘和情感分析的研究[J].電腦知識與技術,2016,12(5):235237.
基金項目:吉安市社會科學研究項目(18GH113)
作者簡介:曾寰(1990),男,碩士,主要研究方向為數據挖掘;胡運全(1976),男,碩士,講師,主要研究領域為數據挖掘;李金忠(1976),男,碩士,副教授,主要研究領域為機器學習;戴貞明(1968),男,碩士,副教授,主要研究領域為機器學習;龍滿生(1977),男,博士,副教授,主要研究方向為圖像分析與虛擬仿真。