郭放



摘要:本文主要研究針對手機網絡評論的意見挖掘技術。為實現手機網絡評論的主題提取,本文首先構建了手機領域本體;在領域本體的基礎上,選取多個TF-IDF值作為閾值,每個閾值可構成一個簡單的分類器,利用集成的思想將訓練得到的單個分類器組合為最終的分類器,在此過程中獲得文本的主題。隨后對主題與手機相關的文本進行情感分析,利用FP-growth頻繁項集發現算法,創建一個手機領域相關的情感詞典,最終計算整體的好評率和差評率。
關鍵詞:意見挖掘;領域本體;主題提取;情感分析
中圖分類號:TP391.1 文獻標識碼:A 文章編號:1007-9416(2018)07-0111-04
1 綜述
網絡評論文本是消費者對相關產品的評價,包含正面或負面的情感傾向,反映出商品的外觀、功能性價比等信息。但這些網絡評論數量龐大、內容復雜、結構隨意,需要對它們進行整理并分類,以滿足不同群體和商家的需求。面對網絡上海量、復雜的評論文本,采用人工查詢和分類的方法顯然不符合實際,人們希望能有一種快速高效的方法對這些信息進行分類統計。
意見挖掘(Opinion mining)技術的出現滿足了這一要求[1]。根據Soo-Min Kim和Eduard Hovy提出的意見的定義,將意見描述為四元組:[Topic,Holder,Claim,Sentiment][2]。其中Topic表示意見評論的對象;Holder表示意見的發表者;Claim表示意見的內容;Sentiment表示意見的情感傾向。意見挖掘的過程就是識別網絡評論文本中以上四部分內容,分析意見主觀傾向性[3],過程可概括如下:(1)抓取網絡上的產品評論文本,輸入分詞器進行分詞,并過濾掉文本中的停用詞;……