陳舒
摘要:通用型情感分析技術較為成熟,卻有一定的領域局限性。針對時下熱門的網絡訂餐平臺評論進行挖掘,引入搜狗細胞詞庫,修正錯別字,并對網絡術語和顏文字進行轉換,在通用HowNet情感詞庫的基礎上,自建網絡訂餐關聯邏輯詞庫,使用TF-IDF加權算法,最終構建出專屬網絡訂餐情感詞庫,提升了情感評分準確度,同時分析出網絡訂餐的主要屬性,并對此進行更深層次的意見挖掘。
關鍵詞:
網絡訂餐;情感分析;專屬詞庫;意見挖掘
DOIDOI:10.11907/rjdk.172637
中圖分類號:TP301
文獻標識碼:A 文章編號:1672-7800(2017)012-0033-03
Abstract:The universal sentiment analysis technology is more mature, but there are certain limitations of the field, this paper reviews the popular nowadays network ordering platform for mining, the introduction of Sogou cell thesaurus, correcting typos, and the network terminology and color text conversion, based on the general emotion lexicon HowNet, self built network ordering logic Association Thesaurus the use of Term frequency–inverse document frequency(TF-IDF)weighted algorithm, and finally construct the exclusive network ordering emotion lexicon, enhance the emotion score accuracy, at the same time analysis of the main attributes of the network order, and make deeper digging opinions.
Key Words:network ordering; sentiment analysis; thesaurus; opinion mining
0 引言
隨著都市生活節奏的加速和無現金交易的普及,產生了曾紅極一時的團購網站,還有如今的網絡訂餐平臺,人們的餐飲習慣也被潛移默化地改變著,從最初的自己做飯,到堂食,再到如今的外賣。最新數據顯示,僅2017年第二季度,我國外賣餐飲交易量就高達459.5億元。訂餐平臺可為客戶提供對商家滿意度的在線評分和在線評論功能。評分的高低可以給予潛在客戶一定參考,但是并不能讓這些客戶以及商家本身明確了解其優勢和不足。另外,大部分外賣依托第三方有償送餐平臺,如達達、蜂鳥等,送餐員服務良莠不齊,如果不能及時發現問題,勢必會給商家造成重大損失。餐飲作為第三產業,服務是其中的重要因素,而在線評論能有效體現出服務質量。依靠傳統的客服專員逐條審閱,已無法應對海量訂單,而日益成熟的情感分析技術[1],能夠很好地挖掘評論中的有效信息,幫助客戶和商家共建更好的網絡訂餐市場。然而,目前并沒有網絡訂餐專用的詞庫,僅依靠通用情感詞庫和飲食類詞庫進行分析[2],結果不夠理想,需要構建專屬情感詞庫。
1 數據特征分析
通過網絡蜘蛛對餓了么(www.ele.me)、美團外賣(waimai.meituan.com)兩個最熱門的外賣美食網站的評論進行抓取分析,評論主要針對以下7個方面,這7個屬性的積極或消極,對最后的情感值計算起到關鍵作用:①配送方面:配送快/慢,態度好/差,包裝完整/不完整;②菜品本身:口味合適/不合適,分量足/不足,新鮮/不新鮮,衛生/不衛生。同時,這7個屬性對商家而言也是最有價值的,所以需要進行更深層的意見挖掘。此外,評論呈現以下幾個特點:
(1)文本較短,錯別字頻繁。個別網站開設評論激勵機制[3],但大部分會選擇外賣的人,并不愿意多花精力去認真評論。
(2)偏愛網絡術語和顏文字。熱衷外賣美食的人群,日常多與互聯網密不可分,語言習慣勢必受到一定影響,尤其在表達強烈情感時,更喜歡頻繁使用網絡術語和顏文字,例如:表達消極情感的“我勒個去”、“( ̄へ ̄)”,表達積極情感的“種草”、“(*^▽^*)”等,而這些十分重要的信號,并沒有體現在情感詞庫中。
(3)通用情感詞庫不適用。一些詞語如“頭發”、“蟑螂”等食品中的常見異物,本身在通用情感詞庫中沒有情感傾向,但在評論中出現,則間接表達了極大的消極情感,在邏輯上和網絡訂餐評論有著強關聯,而其它一些不出現或很少出現在網絡訂餐領域的詞匯,則變成了噪聲。
統計數據顯示,網絡訂餐的主力為80和90后,而80和90后中超過75%的人群使用搜狗輸入法,所以考慮將搜狗細胞詞庫引入本文模型。
2 專屬情感詞庫構建
本文基于統計學原理,利用TF-IDF(Term Frequency–Inverse Document Frequency)加權算法構建專屬情感詞庫的流程如圖1所示。
TF-IDF算法的主要思想是:如果某個詞在一類文本中出現頻率較高,但在其它類型文本中不出現或很少出現,則認為此詞具有良好的分類能力[4]。
(1)考慮到個人對顏文字和網絡術語的不同偏愛,這些新詞出現的頻率成分散狀,為了避免因詞匯低頻出現錯誤的過濾,首先利用搜狗細胞詞庫中的“顏文字”(詞條共600個)和“網絡術語”(詞條共489個)對原評論進行轉換,例如圖2所示的這些顏文字均轉為“高興”一詞,并且為了加強情感,轉換后的詞重復出現一次,即圖2顏文字最終轉為“高興高興”出現在原評論,以此實現最簡單的加權。
(2)Hownet通用情感詞庫中,添加搜狗細胞詞庫中的“飲食大全”詞庫(詞條共6 918個)。
(3)添加搜狗細胞詞庫中的“常見錯別詞和短語”詞庫(詞條共466個),對評論中的錯別字進行修正。
(4)使用TF-IDF算法進行自動分類,區分通用情感詞和專屬情感詞,并對專屬情感詞庫多進行一輪手工篩選。
(5)建立網絡訂餐邏輯關聯詞庫,并添加至專屬情感庫中。
3 邏輯關聯詞庫構建
參考曾淑琴、吳揚揚[5]“基于Hownet的詞語相關度計算模型”文章中的算法,在Hownet的基礎上,對外賣評論中的同義詞和邏輯關聯詞進行擴展,其中,與前文提出的重要屬性相關的詞,舉例如下:①配送快:飛快、神速、熱乎、燙;②配送慢:龜速、催促、坨了、冷冰冰;③分量足:好撐、吃不完;④包裝不完整:漏、摔爛、到處都是。
衛生與否的屬性除了依靠同義詞判斷外,很大程度取決于是否吃出異物。因此利用網絡蜘蛛[6-7]腳本對評論中關鍵詞“吃出”后緊隨的詞語進行抓取,并人工篩除,得出常見的異物名詞如下:頭發、蟲子、蒼蠅、鐵絲、指甲、老鼠屎、避孕套等。
4 重要屬性意見挖掘
將與上文7個重要屬性相關的同義詞和邏輯關聯詞均替換為相對應的屬性情況,例如,出現上文中提出的“異物”名詞,則直接替換為“不衛生”。
統計這些關鍵詞出現的次數,可反映廣大用戶的真實導向,呈現給商家即可,例如,本地某連鎖飲食店的統計數據是:配送快(167)/慢(18),態度好(194)/差(0),包裝完整(27)/不完整(16),口味合適(82)/不合適(2),分量足(55)/不足(7),新鮮(76)/不新鮮(9),衛生(58)/不衛生(1)。
5 評論情感值計算
除7個重要屬性外,評論中還包含了不少外賣專屬情感詞,如果按照積極情感詞出現+1和消極詞-1進行統計,可以計算出近似的情感值。但是這種不考慮句式的計算是不妥當的,按照中文表達習慣,轉折句在表述相同內容的情感詞時,傳遞出來的情感值更強,而總結句表示對一段文字的歸納,反映了最直接的情感。因此,在情感值計算中,這兩種句式都應該賦予更大權重[8-10]。
常見的句式主要有兩種:轉折和總結。代表性關鍵詞如表1所示。
7 不足與展望
然而,本文設計依舊存在一些不能被順利分類的情況:
(1)評論中存在方言,表達強烈情感的詞則無法被挖掘出來。
(2)形如:“真!他!媽!難!吃!”或者“好吃到飛”這樣的句式,在分詞分句過程中存在一些問題,也不能繼續進行正確的情感分類。
此外,在對重要屬性的意見挖掘中,雖然可以統計出頻繁出現的菜品名稱,但無法較好地關聯到是否為針對某道菜品的評論,這些將在接下來的研究中繼續細化。
參考文獻:
[1] 魏韡,向陽,陳千.中文文本情感分析綜述[J].計算機應用,2011,31(12):3321-3323.
[2] 葉強,張紫瓊,羅振雄.面向互聯網評論情感分析的中文主觀性自動判別方法研究[J].信息系統學報,2007(1):79-91.
[3] 李勝宇,高俊波,許莉莉.面向酒店評論的情感分析模型[J].計算機系統應用,2017,26(1):227-231.
[4] 申劍博.改進的TF-IDF中文本特征詞加權算法研究[J].軟件導刊,2015(4):67-69.
[5] 曾淑琴,吳揚揚.基于HowNet的詞語相關度計算模型[J].微型機與應用,2012,31(8):77-80.
[6] 周德懋,李舟軍.高性能網絡爬蟲:研究綜述[J].計算機科學,2009,36(8):26-29.
[7] 楊定中,趙剛,王泰.網絡爬蟲在Web信息搜索與數據挖掘中應用[J].計算機工程與設計,2009,30(24):5658-5662.
[8] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學報,2010,21(8):1834-1848.
[9] 周立柱,賀宇凱,王建勇.情感分析研究綜述[J]. 計算機應用, 2008, 28(11):2725-2728.
[10] 李方濤.基于產品評論的情感分析研究[D].北京:清華大學,2011.
(責任編輯:黃 健)