吳杭鑫,張云華
(浙江理工大學 信息學院,杭州310018)
方面信息提取[1]是從給定原始文本中提取出表征實體、實體屬性或反映實體某一側面的信息。方面信息是方面情感的直接受體,一般為一個詞語或者短語。例如,在句子“今天的晚餐既美味又實惠”中,“美味”和“實惠”分別評價了晚餐的兩個不同側面,且賦予了正向的情感極性,所以可作為方面信息提取出來。
方面提取任務是方面級別情感分類任務的前提和基礎。近年來隨著互聯網的發展,越來越受到業界的關注。早期的研究人員主要采用基于語義特征的方法來訓練模型[2-4]。但此類模型的性能受人為定義特征的影響較大,相對費時、費力,且對于研究人員的操作能力與資源質量有著較強的依賴性。近期,性能表現較好的方面提取算法,主要以基于詞共現網絡和基于圖的方法為主[5-7]。
受上述方法的啟發,本文提出基于詞嵌入和自注意力機制的方面提取算法(World Embedding and Self-attention Model for Aspect Extraction,簡 稱WESM),主要工作如下:
(1)利用基于詞匯共現網絡的來進行方面提取,相較于傳統的主題模型,能夠有效克服短文本存在稀疏性等特點,可以發現一些不常見的主題。
(2)引入自注意力機制,解決由于長距離依賴問題而造成的上下文信息忽略問題,能夠充分捕捉詞的上下文語義信息。
(3)應用細粒度的汽車評論數據集及來自購物網站的抓取數據集,與當前主流相關算法進行了比較。實驗結果表明,所提出的WESM模型的性能優于相關工作,適合于方面提取任務。……