毛雪芬
摘? ? 要: 隨著信息技術的發展,互聯網上由用戶產生并帶有情感傾向的信息顯著增加。對產品評論進行語料標注并進行文本傾向性分析,能夠幫助用戶快速地獲取和理解所需要的信息。如何保證人工標注語料的質量,是語料工作中無法忽視的問題。基于抽取出的兩位標注者對汽車評論文本和美妝評論文本各自標注的800句語料數據,旨在通過比較標注一致性,求證以下三點并探究原因:在語料標注的過程中不斷細化標注規范對提升標注一致性是否有顯著作用;相同的標注規范用于不同領域,標注一致性是否有明顯差異;不同的標注規范對同類評論文本的標注一致性是否有明顯影響。
關鍵詞: 產品評論? ? 語料標注? ? 一致性? ? 文本傾向性
1.引言
隨著互聯網的快速普及與發展,用戶開始主動參與信息的發布,帶有情感傾向的信息大量涌現。對這些信息中用戶所持的看法、觀點、態度或評論進行挖掘,從而得到該看法或評論是屬于對該事物的積極或消極意見,即文本傾向性分析[1],又叫情感分析。
目前,文本傾向性分析按照文本處理類別的不同,可分為基于新聞評論和產品評論的兩類情感分析。產品評論類情感分析是以Web上用戶發表的產品評論為挖掘對象,從大量的文本數據中發現關于產品的功能和性能的評論信息的過程。[2]其中,對情感信息的抽取是情感分析中最基礎的任務,主要是抽取包含情感傾向的主觀評論中有價值的信息元素,如評論對象、情感傾向、情感詞等。[3]對這些情感信息進行人工標注是情感信息抽取中不可或缺的一環,同時標注的語料也為計算機提取文本特征進行機器學習提供了數據。如何保證人工標注語料的質量,則是語料標注工作中無法忽視的問題。對多位標注者標注的語料進行標注一致性分析,是語料標注過程中評價語料質量的重要指標。
基于汽車評論文本和美妝評論文本的情感分析是產品在線跟蹤與質量評論的一個實例,也是文本傾向性分析的實際運用。通過收集用戶對汽車或美妝產品的使用反饋,抽取非結構化的評論文本中的對象、屬性、情感單元,獲得用戶對汽車或美妝的傾向性評論,不僅方便生產、銷售廠商進行針對性的改進,而且可以為潛在的消費者提供真實的評論信息作為參考,還可以構建相關領域的情感詞典,實現文本傾向性的自動分析。
基于兩位標注者對汽車評論文本和美妝評論文本各自標注的800句語料,本文旨在通過比較兩位標注者之間的標注一致性,從而求證以下三點并探究原因:在語料標注的過程中不斷細化標注規范對提升標注一致性是否有顯著作用;相同的標注規范對不同領域進行標注一致性是否有明顯差異;不同的標注規范對同類評論文本的標注一致性是否有明顯影響。
2.語料標注
2.1標注平臺
本文選取了汽車評論文本和美妝評論文本的語料。每位標注者在人工標注平臺(http://106.15.336.135:8080/Annotation/)上都擁有自己的用戶名和ID。標注者的標注任務就是從標注平臺自動切分的句子中抽取出評價三元組,評價三元組的內容是對象、屬性、極值,對象由對象位置和標簽構成,屬性由屬性位置和標簽構成,極值由極性位置和極性構成。其中,人工標注平臺會給出“對象”標簽和“屬性”標簽的相應標簽的下拉選項,標注者在標注時根據需要進行選擇即可。在標注過程中,如遇到平臺所給標簽以外的“對象”或“屬性”,標注者可以與其他標注者達成一致后,在標注平臺上增加“對象”標簽。同理,當標注者認為某對象標簽不必要時,也可與其他標注者商量后在平臺上進行刪減。情感極值則需要標注者對文本的情感傾向進行判斷。目前的文本情感通常分為兩類(正面、反面)或三類(正面、反面和中立)。其中正面類別是指主題中持有積極的態度和立場;負面類別是指文本中持有消極的態度和立場;中立類別是指文本中持中立態度和立場。[4]本次語料標注的情感極值采用三類,分別以-1/0/1代表負面、中立或正面。
2.2標注過程及語料選擇
汽車評論文本和美妝評論文本中的語料,由標注者A和標注者B分別進行標注。標注過程如下(圖1):第一部分,在標注規范1中,選取汽車語料中的1202-1400句進行標注,標注者進行商討后對汽車語料中的2201-2400句進行標注。第二部分,參照這一規范對美妝語料進行1-200句的標注。第三部分,運用標注規范2,對汽車語料中的1-200句重新進行標注。為了便于說明,分別對這些數據簡要命名:汽車1201-1400(1);汽車2201-2400(1);美妝1-200(1);汽車1-200(2)。
根據上述提取出的標注語料,對其進行標注一致性分析,旨在印證以下幾點,并進行原因探究:
(1)在語料標注的過程中不斷細化標注規范對提升標注一致性是否有顯著作用;
(2)相同的標注規范應用于不同領域,標注一致性是否有明顯差異;
(3)不同的標注規范對同類評論文本的標注一致性是否有明顯影響。
在上述公式中,Pa是指一致性概率,其中A是標注者A和標注者B標注一致的次數,N是標注對象的總次數;Pe是指期望值,其中M是目標詞w的標記個數,Cj是標注者A和標注者B標注為標記j的次數之和。上述公式能夠比較實際觀測值和期望值的差異,能夠計算兩位標注者之間的吻合率,從而評價標注者的標注一致性。Kappa值是語料庫質量的重要指標,通過比較標注一致性可以更好地反映標注質量。
計算標注一致性的過程:首先從標注系統后臺提取出標注者A和標注者B針對汽車評論文本和美妝評論文本中同一文本的標注語料,本文主要對評價三元組中的“對象”、“屬性”、“極值”三個標簽分別進行Kappa值的計算,從而對比標注者A和標注者B的標注一致性。需要說明的是,提取出的標注語料中,有些句子不僅僅會有一個評價三元組,還會有多個評價三元組。比如“發動機和變速箱不錯”,涉及到了兩個對象“發動機”和“變速箱”,需要增加一個“對象”,則導致評價三元組的個數變多。針對同一文本,標注者標注的評價三元組個數和順序會存在不一致,從而影響統計。例如:
(1)能裝? 能? 跑? 的? 汽車
標注者A<汽車:汽車,動力:,1:能跑>
標注者A<汽車:汽車,空間:,1:能裝>
標注者B<汽車:汽車,動力:,1:能跑>
標注者B<汽車:汽車,空間:,1:能裝>
(2)操控? 很? 有? 質感? 指向? 精準
標注者A<汽車:操控,操控:指向,1:精準>
標注者B<方向盤:,操控:指向,1:精準>
標注者B<方向盤:操控,舒適性:質感,1:有>
為了便于計算Kappa值,對于這類評價三元組不一致的的句子采取人工校對的方式。本文采取的方法是,對于(1)這種評價三元組個數相同前后順序不同的句子(簡稱為“多對多”),進行人工手動校對,使之順序上對齊,方便統計;對于(2)這種評價三元組標注個數本就不同的句子(簡稱為“一對多”),手動調整前后順序,一旦對象、屬性、極性有一組匹配,則即算作一致。同時補充出標注者A未標注的那欄,賦予空值進行對齊。這樣就有了可對比的數據?;诒疚闹饕芯繉ο蟆傩?、極性的標注一致性,語料規模相對較少,并且這類句子只是少數,所以這種方法是可行的。在所提取的800句標注語料中,出現評價三元組“多對多”、“一對多”現象的句子個數分布如下:
本文只對“對象”、“屬性”、“極性”進行標注一致性分析,“對象位置”、“屬性位置”、“極性位置”因為對評論文本的情感單元長度和判斷差別較大等因素未進行一致性計算。以汽車評論文本的對象標簽為例。以下是汽車1-200(1)中出現的所有對象:
如此,求出汽車1-200(1)中標注者A和標注者B的“對象”標簽的Kappa值。以此類推,分別求出汽車1201-1400(1)、汽車2201-2400(1)、美妝1-200(1)、汽車1-200(2)四份語料數據的對象、屬性、極性的標注一致性。
4.標注一致性統計結果
通過上述公式進行Kappa值計算,汽車1201-1400(1)、汽車2201-2400(1)、美妝1-200(1)、汽車1-200(2)四份語料的對象、屬性、極性的標注一致性,圖表如下:
從上述圖表中可以看出總體的標注一致性趨勢。四份標注語料中,對象的標注一致性較高于屬性和極性,而屬性的標注一致性最差。這符合我們的心理預期。實體是獨立存在的,屬性是附屬于實體之上的特征,實體與屬性的關系是“一對多”的關系。實體較好判斷,屬性的判斷則較為模糊。比如“電動座椅和自動空調可能會更好一點”中,對象“座椅”和“空調”顯而易見,而“電動”和“自動”是指“配置”屬性還是“設計”屬性,標注者則難以達成一致。又比如“懸掛太硬”中,“太硬”指的是懸掛的“操控”屬性還是“舒適性”屬性,由于每個人的認知理解不同,也會有所分歧。諸如此類的問題還有很多。除此之外,還有一類文本,如“這個價位的買suv能買多大的空間呢?”、“作為一款落地75w的豪華品牌suv沒有具備與價格相匹配的豪華感”。這些句子都包含了多種屬性,可以解讀出“價格高”、“空間小”、“外觀不豪華”等互有聯系的多重含義,容易干擾標注者,在標注過程中標注者難以避免地會依據自己的主觀理解和傾向進行標注。
極性標注一致性介于對象和屬性之間,標注過程中的極性判斷會出現正面、負面、中立和沒有極性四種情況。正面的文本容易做出極性判斷,而后三者則容易有分歧。例如“發動機還是會給推你背的”、“自動擋油門調教前段非常肉”中的“推你背”和“肉”是負面還是正面;“懸掛很硬”是好還是壞;“座椅舒適性湊合吧”是負面還是中立態度;“后備箱不是電動門”是中性還是沒有極性,等等。這些都影響了極性的標注一致性。
5.標注一致性問題分析
下面通過上述統計數據,對下面的觀點進行印證分析:
(1)在語料標注的過程中不斷細化標注規范對提升標注一致性是否有顯著作用。
選取同一標注規范框架下,汽車評論文本中的1201-1400(1)和2201-2400(1)進行對比。從圖4可以看出,標注者通過討論,細化規范,汽車2201-2400(1)的對象、屬性的標注一致性均有穩步提高,并且對象的標注一致性提高較大,Kappa值相比于汽車1201-1400(1)的0.730提高到了0.810。
這在我們的預期之中。產品領域的語料標注,必然會受到某一領域的限制。經過對標注規范的不斷細化,標注規范趨于穩定,標注者對汽車領域也有了深入的了解,尤其對相應的實體對象更為熟悉。所以提升較大。相比對象和屬性的提高,汽車2201-2400(1)在極性上卻低于汽車1201-1400(1)。分析語料發現,汽車2201-2400(1)的文本中出現了很多評論文本,如“不追求極速也就不愿意多花10多萬去買一個發動機”、“霧燈也不是標配”、“平時幫拉的物品也可以用在后排座椅上折疊起來”、“車身也用了不少輕量化材料”等句子,造成標注者在“中立”和“沒有極性”上有所分歧。
(2)相同的標注規范應用于不同領域,標注一致性是否有明顯差異。
汽車1201-1400(1)語料標注后,標注者針對相關問題進行討論,對規范進行細化,再進行汽車2201-2400(1)的標注。之后用此規范對美妝評論文本中的前兩百句進行了語料標注。所以選取汽車2201-2400(1)和美妝1-200(1)進行標注一致性對比較為合理。通過比較數據發現,美妝的對象一致性比較高,但屬性和極性的Kappa值卻較汽車均有所下降。
美妝評論文本的對象一致性較高的原因,可以從表3中得以解釋。從表中可看出,汽車評論文本的對象較為分散,而美妝使用高頻的對象標簽僅有“*”、“洗發乳|洗發露”和“面膜”三個,出現次數分別是“109”,“23”,“10”。美妝中的對象類型不僅較為固定,而且對象也較為細化。
美妝的屬性及極性標注一致性結果出乎意料。因為美妝評論文本中句子切分更為細碎,句長短小,相較汽車中的句子要簡單許多,按照預期,標注一致性應該有所提高。重新對語料進行分析,可能有以下原因:美妝屬性標簽的重合性較多,比如“明年雙十一再來你家/雙十一的力度太大了/劃算到爆”,是選“價格”屬性還是“優惠活動”屬性,而這種句子在語料中所占比重較大。
反觀極性,從圖6中可以看出,汽車領域和美妝領域極性類別分布差距大,可見人們在不同領域側重的情感極性不同。比如在美妝領域,有55%是正面評價,而在汽車領域僅有27%;汽車評論文本中,非評價文本過半(58%),而美妝領域僅有34%。上文提到,正面評價較容易判斷,而其他三類則容易有分歧,這應該是造成美妝語料中極性降低的原因之一。除此之外,各個領域有其自身的特點。例如汽車領域的“肉”、“頓挫”、“推背”這些詞,需要在標注中慢慢熟識汽車領域的相關知識,才能對這些特定詞語進行正確的判斷,如“肉”說的是車的哪個方面,所表的態度是好還是不好等。美妝評論文本的“蒼蠅腿”、“卡粉”、“控油”等詞也是如此。這里不排除美妝因為是剛開始進行前兩百句標注對其不夠熟悉而導致的一致性下降。
當然,在美妝1-200(1)中還存在系統匹配的文本不一致情況,共有4例,如:標注者A的語料是“清揚水潤去屑洗后更滋潤”,而標注者B的語料是“一直都在用清揚很不錯”。這種情況也有可能造成美妝1-200(1)標注一致性不如預期理想。
(3)不同的標注規范對同類評論文本的標注一致性是否有明顯影響。
選取汽車2201-2400(1)和汽車1-200(2)進行標注一致性對比。數據表明,相比使用規范1標注的2201-2400,使用標注規范2標注的汽車1-200在對象、屬性、極性一致性均有所提高。其中對象標簽的一致性提高較顯著,屬性和極性提高不明顯。
對這一結果的分析要結合兩份標注規范的內容來進行:
①盡管對象一致性提高明顯,然而新的標注規范只涉及一條具體的規定:對象標簽中的“汽車”可以作為任何汽車評價文本的對象,默認只有在其他實體沒有出現或者語料中提到的實體只有“汽車”的情況下,才將“汽車”作為語料實體。除了這一影響因素之外,對象標注一致性大幅提高的唯一解釋就是標注者對標注流程及要點理解趨于穩定。
②在極性上,標注規范1是以直接態度詞(心理動詞)優先,而標注規范2以具體評論詞優先。建議類文本(“要是車身再長一點就好了”)兩者同樣給定“-1”的極性值。理論上這兩處改變對于極性值并沒有影響(除非有反語,但在標注的過程中還未遇到)。唯一有影響的就是對非評價文本的處理。規范1只標注其中的對象和屬性,規范2將其視為評價文本,所以極性也標。極性一致性有所提高,除了這一影響因素外,同上。
③標注規范2對屬性標注作了新的調整,但主要是規定屬性位置的標簽:“后背/座椅/靠背/角度/實在/不敢/恭維”,這里的屬性標簽是舒適性,句子中推斷出舒適性的詞是“靠背角度”。針對屬性標簽,標注規范2規定要盡可能選擇具體的屬性標簽。如:座椅/太/窄。屬性標簽可以是空間、設計,則選擇更具體的“空間”。這是屬性一致性有所提高的原因,然而數據上看,屬性沒有得到預期上的大幅提高,這也反面證明了這一條規定的難以實施性。因為屬性的類別本身就有所交叉較為模糊,哪一個是更具體的屬性也存在爭議。
在本次印證中,可見新的標注規范有利于語料標注一致性的提高,但想要有顯著的作用,還需要針對對象、屬性、極性有更為詳盡的規范。盡管本文沒有對對象位置、屬性位置、極性位置進行標注一致性測試,但可以預測,在新的標注規范下,標注一致性會有大幅提升。
6.總結
通過對汽車1201-1400(1)、汽車2201-2400(1)、美妝1-200(1)、汽車1-200(2)這四份語料進行“對象”、“屬性”、“極性”標注一致性統計分析,可以得出,在標注一致性上對象>極性>屬性;與此同時,本文印證,在語料標注的過程中通過互相討論,不斷細化標注規范對提升標注一致性有顯著作用;相同的標注規范對不同領域的標注一致性有所影響,但影響不大;不同的標注規范對同類評論文本提升標注一致性有作用,作用也不顯著。
本文還存在以下局限性:(1)由于時間原因,收集的汽車評論文本語料和美妝評論文本語料規模較小。所以下一步需要加大標注力度,形成一定規模的輿情標注語料庫;(2)語料選取并不是在同一文本上反復標注進行對比,所以會受到很多因素的干擾。(3)由于不同標注者對不同產品領域的熟悉程度以及語言本身的理解多樣性使得在準確率控制方面存在一定的難度。(4)本文只對汽車評論文本和美妝評論文本的對象、屬性、標簽進行標注一致性分析,未考慮這三者位置的標注一致性,容易影響所得結論的正確性和合理性;除此之外,還有一些因素會導致不一致。比如系統分配的文本存在不一致,比如實際標注了但在系統中卻沒有顯示,出現“null”的情況。又比如標注者標注后沒有進行檢查,系統中顯示的分詞和詞性忘記修改,并且會存在手誤點錯或者自身標注語句的前后規范不一致的情況。這就需要標注平臺、標注者、標注規范的三方協調才能最終提高標注一致性。
參考文獻
[1]魏志生.情感分析及其在產品評論中的應用研究[D].南京:南京大學,2012.
[2]施國良,石峰.基于文本挖掘的不同購物網站商品評論一致性研究[J].現代圖書情報技術,2011:64-68.
[3]曲春燕,關毅,楊錦鋒,趙永杰,劉雅欣.中文電子病歷命名實體對象標注語料庫構建[J].高技術通訊,2015,25(2):143-150.
[4]黃世維.互聯網信息情感傾向性的研究與實現[D].西安:西安電子科技大學,2012.
[5]魏慧玲.文本感分析在產品評論中的應用研究[D].北京:北京交通大學,2014.
[6]田園.評論價一致性對于產品屬性感知的影響[D].南京:南京大學,2017.
[7]張虎.漢語語料庫詞性標注一致性檢查及自動校對方法研究[D].太原:山西大學,2005.
[8]王娜娜.評論文本情感傾向性分析技術研究[D].北京:北京交通大學,2017.
[9]羅亞平.面向網絡輿情的中文評論文本情感傾向分析研究[D].大連:東北財經大學,2010.