999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征觀點對的中文領域情感詞典構建研究

2025-07-19 00:00:00王召義薛晨杰張麗媛
荊楚理工學院學報 2025年3期
關鍵詞:語義特征情感

中圖分類號:TP391.1 文獻標志碼:A 文章編號:1008-4657(2025)03-0039-13

情感詞典是文本情感分析的重要支撐資源。目前,中文通用情感詞典主要有臺灣大學中文情感極性詞典(NTUSD)[1]、清華大學李軍中文褒貶義詞典(TSING)[2]、知網情感詞典(HowNet)和大連理工大學中文情感詞匯本體庫(DUTIR)[3]等。NTUSD、TSING和HowNet都是默認情感詞的情感極性是不變的,把情感詞分為褒義詞、貶義詞或正向詞、負向詞[4]。這種詞典結構不僅混淆了文本情感分析和情感詞情感分析的涵義,還忽略了詞語的語義環境和上下文約束關系,注定不能適應新環境下的情感分析任務[5]。新環境下的文本內容尤其是電子商務平臺的產品評論具有很強的領域性和上下文語義約束關系,使用通用情感詞典對其進行情感分析,可能會造成嚴重的語義歧義及情感信息誤判[6]。相對而言,DUTIR在情感詞的情感極性上做了改進,不僅把情感詞的主要情感分類標出,還為部分情感詞添加了輔助情感分類,一定程度上解決了一個情感詞可能對應多個情感分類的問題[7]。但是仍然存在通用情感詞典面臨的關鍵問題:如何辨別和區分受領域或上下文約束關系影響的情感詞。有些情感詞的情感極性是因領域而異的[8]149,如果忽略領域特性進行情感分析任務,會導致情感詞的情感極性與實際應用場景不符,從而影響情感分析結果的準確性和可靠性。在中文詞匯中,有很多具有多義性、模糊性的情感詞,這些詞在不同的領域中有著不同的含義和情感極性[9,同樣不同領域所包含的情感詞也不盡相同,因而在領域內構建領域情感詞典是十分必要的[10]。同時,為了提高情感分析在特定領域的準確性和有效性,也迫切需要開發和使用領域情感詞典。

一、文獻綜述

由于領域情感詞典具有領域專屬性、覆蓋廣泛性的特征,因此,構建領域情感詞典通常需要依賴于領域語料庫。通過對特定領域語料庫的分析,可以準確識別和提取具有明顯情感色彩的詞匯,用以構建情感詞典。詞語共現關系、詞向量技術和上下文約束關系是基于語料庫構建情感詞典常用的技術和方法。

詞語共現關系指的是在文本中多個詞語同時出現的頻率和方式,這種共現關系可以揭示詞語之間的語義關聯或者語法關系,也可以幫助理解它們在文本中的語境和語義。Wang等[11]在標記有不同情感極性的語料庫中,利用改進的IF-IDF算法通過考慮詞語在語料庫中的重要性及其在語料庫中不同詞性的分布來計算詞語的情感。Zhao等[12]先構建情感種子詞集,并以在文本中的重要程度進行排序,再使用SO-PMI算法不斷擴展情感種子詞集,并不斷調整擴展詞集的重要領域,再結合由DUTIR和HowNet情感詞典形成的基礎情感詞典,構建高等教育領域情感詞典。WangY等[13]構建了一個細粒度種子情感詞典,將圖傳播方法應用于同義詞集來擴展細粒度種子情感詞典,再使用基于神經網絡的多信息融合方法不斷擴充情感詞典。Ren等[14]提出了一種基于多維特征的監督學習詞典構建算法,通過使用LightGBM模型對候選關鍵詞進行二元分類及過濾,并根據關鍵詞與其類別的點互信息值來擴展電動汽車拆卸領域詞典。蔣昊達等[15]通過整合TF-IDF算法和LAD算法去識別和提取候選領域情感詞,結合SO-PMI算法和BERT模型判斷候選領域情感詞的情感極性,從而構建領域情感詞典。

詞向量是用于表示詞語的向量化技術,它將每個詞語映射到一個高維向量空間中,使得詞語之間的語義關系可以通過向量之間的幾何距離來捕捉。張璞等[6]使用Word2Vec詞向量選取與種子詞相似度高或與種子詞具有連詞關系的詞語作為候選情感詞,利用種子詞和候選情感詞之間的相似度構建語義關聯圖,并應用標簽傳播算法計算情感詞的極性,最終構建情感詞典。葉霞等[17]采用CBOW詞向量模型和依存句法關系抽取情感詞,結合改進的SO-PMI算法來判斷情感詞的情感極性。胡家珩等[18]利用詞向量技術將文本信息映射到向量空間,使用通用情感詞典識別文本信息中的情感詞,建立深度神經網絡分類器識別情感詞的情感極性,從而構建金融領域情感詞典。蔣翠清等[19]選取HowNet情感詞典作為種子,先后使用PMI和Word2Vec算法識別汽車評論中的新詞情感極性,根據集成規則綜合考慮兩種算法的輸出結果,以此判定情感詞的情感極性。陳俊等[20]先利用詞向量進行語義相似度判斷并擴充“情緒對”,再采用R-SOPMI算法以“情緒對\"進行情感詞典調整,并結合統計概率特征對模糊詞分類,最終構建領域情感詞典。

同一個詞語在不同的句子中可能具有不同的語義或情感色彩,這取決于它所處的上下文約束關系。這種關系能夠幫助我們更準確地識別和分析文本中的信息,特別是在情感分析、語義理解等任務中起著關鍵作用。Ding等[21]把情感詞及其修飾的屬性作為一個整體來表達上下文約束關系,以便更準確地理解情感表達的語境和語義。Qiu等[22]使用雙向傳播法來表達上下文約束關系,利用情感詞與其修飾的主題或產品特征之間的關系,以及情感詞和產品特征本身之間的關系,采用依存樹關系來提取新的情感詞,同時以基于上下文證據的極性賦值方法為新發現的情感詞賦予極性。 LuY[23? 先提取候選情感詞并與相關屬性進行匹配,再捕捉基于詞典、語義關系和語言規則的情感得分為約束條件,最后以線性規劃最優化整合不同類型的信息,從而更準確地推斷文本中表達的情感極性。Lek等[24]通過依存句法關系提取屬性詞及其對應的情感詞,把提取的(屬性,情感詞)集根據屬性集進行聚類,利用WordNet把情感詞和屬性詞的近義詞進行合并,最后根據情感詞所屬的屬性和領域賦予其極性,自動構建一個依賴于屬性和領域的情感詞典。郗亞輝[25利用情感詞間的點互信息和上下文約束關系,使用基于約束的標簽傳播算法構造基本情感詞典;再根據情感沖突的頻率來識別領域相關情感詞,并根據其上下文約束關系以及修飾的特征完善領域情感詞典。Li等[26]利用PULeaming方法從語料庫中提取情感詞語,并結合候選詞語的上下文信息構建圖模型,最終使用標簽傳播算法確定候選詞語的情感極性。

基于詞語共現關系和詞向量關系的情感詞典構建方法,都是圍繞情感詞來開展工作的。這些方法簡單易實現,但也容易出現部分詞語由于共現頻率不夠而無法判斷情感極性的問題,以及情感詞典質量很大程度上依賴情感種子集的問題,從而影響情感詞典的完整性和有效性[15]。對于產品評論而言,情感信息經常以詞語組合的形式出現,通常情感詞及其修飾對象會同時出現,此時只考慮情感詞是不夠的,這會產生情感詞在特定領域的情感語義不明確的問題[2]?;谏舷挛募s束關系的情感詞典構建方法,不僅注重情感詞的識別和提取,還關注情感詞在特定語境下的相互關系。這類方法主要以提?。▽傩?,情感詞)為核心開展情感詞典構建工作。但是在產品評論中,情感詞不僅修飾產品的屬性,還修飾產品本身或屬性下的某一特征。情感詞修飾的對象不同,情感極性不一定相同,反之亦然。例如在評價咖啡店的環境舒適度時,“舒適\"是一個正面詞匯,表示環境優雅、氛圍寧靜;當涉及到咖啡的味道特征時,“舒適\"可能變成負面詞匯,意味著咖啡的口感太輕或者缺乏挑戰性。因此,在構建情感詞典時,應綜合考慮情感詞及其修飾的對象,把它們當作一個整體進行識別和提取。

通過對現有情感詞典構建方法的綜述可以發現,雖然這些方法在情感詞識別方面取得了一定的進展,但依然存在一些不足。基于詞語共現關系的技術雖然能夠捕捉局部語義關聯,卻容易忽略那些雖然低頻但具有重要情感意義的詞匯;詞向量技術通過大規模語料訓練提升了對語義相似度的識別能力,但對特定領域語境的敏感度不足;上下文約束關系模型雖然在復雜語境中表現良好,但由于算法復雜度高,限制了其在大規模應用中的普及。此外現有研究在處理同義詞情感極性差異、上下文情感一致性以及低頻詞匯識別方面仍顯不足。Wang 等[1]的改進IF-IDF算法在提升識別準確性的同時,難以有效區分同義詞的情感差異;Zhao等[12]擴展了情感種子集,但由于對上下文語境的考慮不足,容易出現情感判斷偏差;Ren等[14]的多維特征監督學習盡管提升了情感詞典的領域專屬性,但在處理情感詞與屬性依存關系時仍有待改進。為應對這些局限,本文提出了一種結合依存句法規則和(屬性,情感詞)對的中文領域情感詞典構建方法。該方法首先設計出情感詞典的數學結構模型,隨后通過依存句法規則識別并提取情感詞與實體、屬性及特征之間的關系,借助成熟的產品特征庫逐步實現模型的實際應用。相比現有方法,依存句法能更有效地捕捉詞匯間的依存結構,解決低頻情感詞的識別問題,并提升情感詞與屬性之間關系的準確度,從而在產品評論等情感分析領域具備更廣泛的適用性和更高的分析精度。

二、中文領域情感詞典結構設計

深度分析產品評論的特征或規律,有利于情感詞典的結構設計。例如評論: ① 這款手機的價格雖然有點高,但是性能非常穩定,絕對物有所值; ② 攝像頭的像素很高,拍出來的照片清晰逼真,非常滿意; ③ 手機外觀時尚,手感很好,很適合日常使用; ④ 電池續航能力超乎想象,一天使用下來還有很多電量剩余; ⑤ 屏幕顯示效果非常出色,色彩鮮艷,觀影體驗極佳。這條評論涉及了手機的不同屬性,例如價格、攝像頭像素、外觀、電池續航和屏幕顯示效果,并且包含了消費者的情感極性,有些是正面的評價,有些是負面的評價。由此發現,產品評論是由兩部分組成:一是評價對象,包括實體、屬性及特征;一是評價觀點,通過情感詞表達對評價對象的情感極性。而且這兩個部分總是同時出現在句子中,否則不能完整地表達消費者的語義及情感。

定義1:情感觀點是一個三元組 (e,a,s) 。其中 e 是實體, a 是 e 的一個屬性 Δ,s 是對 a 或 e 的情感表達[8]18義2:情感表達是一個三元組 (w,o,p) 。其中, w 是情感詞, o 是情感極性, p 是情感強度[8]16。

定義3:中文領域情感詞典必須同時包含情感觀點和情感表達兩部分內容,其數學結構為一個五元組 (e,a,w,o,p) 模型,其中 e 表示實體, a 表示實體的屬性, w 表示情感詞, o 是情感極性, p 是情感強度。當實體明確時,可以略去 e ,中文領域情感詞典數學結構模型調整為 (a,w,o,p) 。

把實體、屬性、情感詞等整合到一個結構化的詞典中,以五元組模型的形式存儲,能夠更清晰地表達不同實體或屬性下的情感信息。通過這種方式構建中文領域情感詞典,能夠更有效地捕捉和理解不同領域下實體或屬性的情感表達,更精確地進行情感分析和語義理解。

三、中文領域情感詞典結構實現

(一)三元組的理論構建

1.(e,a) 集合的構建。設實體集合記為 ,屬性集合表達式為 A={a1a2…am} ,則(實

體,屬性)集合 EA 為:

其中, eaij 表示第i個實體的第j個屬性 i=1,2,…n,j=1,2,…,miomi 表示第i個實體的屬性總數,均是大于等于1的正整數且不一定相等。

2.(a,c) 集合的構建。設實體屬性 at(t=1,2,…,m) 包含若干個評價特征,記為 ,則(屬性,特征)集合 ac 為:

其中, acij 表示第i個屬性的第j個評價特征, i=1,2,…m,j=1,2,…,lio 表示第i個屬性的評價特征總數,均是大于等于1的正整數且不一定相等。

3.(c,w) 集合的構建。設評價特征 ch(h=1,2,…,lt) 搭配的情感詞集合為 ,則(特征,情感詞)集合 為:

其中, cwij 表示第 i 個特征的第j個情感詞, i=1,2,…lt,j=1,2,…,kio k 表示第i個特征的情感詞總數,均是大于等于1的正整數且不一定相等。

4.(a,c) 集合的構建。屬性 at(t=1,2,…,m) 共包含 個情感詞,則 at 的情感詞集合記為 。那么,某個實體的三元組 (e,a,w) 可以表示為:

其中,重點關注 (a,w) 集合,即(屬性,情感詞)集合aw為:

awij 表示第 i(i=1,2,…,m) 個屬性與對應情感詞集合的第 (j=1,2,…,zt) 個情感詞組成的(屬性,情感詞)詞對,即 awij=(ai,wj) 。

綜上所述,三元組 (e,a,w) 的理論構建中有一個中介集合一評價特征 εc ,它在整個設計過程中起到承上啟下的作用,是解決問題的關鍵點。我們把 (c,w) 集合中的元素 cwij 叫作特征觀點對,即 cwij=(ci,wj) 。特征觀點對的形式通常是由一個實體或屬性作為特征,另一個描述性的情感詞作為觀點的表達。

(二)三元組的構建實現

三元組的構建首先要解決的是特征觀點對的抽取問題。本文對周知[28]等設計的特征觀點對抽取方法進行了如下改進: ① 調整了依存關系的抽取規則,依存關系由5種調整為6種,抽取規則由12種調整為13種; ② 調整了依存關系組合,依存關系組合由6種調整為9種,并對組合結果進行了優化,以特征觀點對的形式輸出結果; ③ 精簡了特征觀點對的過濾規則,過濾規則由4種減少為3種。通過對特征觀點對的抽取、完善和過濾三個步驟獲取目標特征觀點對。

1.特征觀點對的抽取。本文采用哈爾濱工業大學的LTP4.2工具[29]進行依存句法分析,共可提取出14種依存關系。依據依存關系中必須出現特征觀點對,篩選這些依存關系,僅保留SBV、VOB、ATT、ADV、CMP和COO六種依存關系,并輔以從屬詞和支配詞的詞性,得到表1的抽取規則。

表1依存關系的抽取規則
備注:依存關系 (w1,w2) 代表: Δw1 是從屬詞, Δw2 是支配詞,依存關系有向弧由支配詞指向從屬詞。

① 主謂關系(SBV)規則:主語和謂語之間的直接關聯。主語通常是具有情感的實體,謂語通常是表達情感的動詞或形容詞,當兩者之間存在SBV關系時,往往表明主語對特征或對象持有某種觀點或態度。因此,當特征詞 αc 與情感詞 w 之間存在SBV關系時,能提取特征觀點對 (c,w) 。為減少冗余信息干擾,限定主語詞性為名詞 Π(n) 或動詞 Π(ΠV) ,謂語詞性為形容詞(a)或動詞。SBV有三種抽取結果 (n,a) 、(n,v)、 (ν,a) 。

② 動賓關系(VOB)規則:動詞與其賓語之間的關系。動詞是表達情感或態度的關鍵詞,賓語是需要被評價或描述的對象或屬性,當兩者之間存在VOB關系時,表明動詞對賓語進行了評價或描述。因此,當特征詞 c 與情感詞 w 之間存在VOB關系,能提取特征觀點對 (c,w) 。為減少冗余信息干擾,限定謂語詞性為動詞,賓語詞性為名詞或形容詞或動詞。VOB有三種抽取結果 (v,n),(v,v),(v,a) 。

③ 定中關系(ATT)規則:修飾性的定語與被修飾的中心詞之間的關系。作為定語的情感詞用來描述或修飾特征詞,通常表達了特征詞的情感屬性或態度,就形成了定中關系,與特征觀點對的形式一致。因此,當情感詞 w 是定語、修飾或描述特征詞 c 時,能提取特征觀點對 (c,w) 。為減少冗余信息干擾,限定定語詞性為動詞或名詞或形容詞,被修飾語為名詞。ATT有三種抽取結果 (v,n),(n,n),(a,n),

④ 動補關系(CMP)規則:涉及到動詞和其補語之間的關系,通常是指動詞后跟隨的動作或狀態的補充信息。動詞通常指需要被描述或評價的動作或狀態,情感詞作為動詞的補足語,用來修飾或補充特征詞所表達的動作或狀態,反映了特征詞的情感屬性。因此,當情感詞 w 作為動詞補足語時,與特征詞 Ψc 能構成二元組 (c,w) 。

⑤ 并列關系(COO)規則[30]:涉及到特征詞和情感詞在句子中的并列結構關系。如果特征詞 c1 和 c2 并列出現在評論中,并且兩者存在COO關系,而 c1 與情感詞 w 又存在某種句法關系,則認為 c2 與情感詞 w 也有這種關系,從而提取特征觀點對 (c1,w) 和 (c2,w) ;如果情感詞 w1 和 w2 并列出現在評論中,并且兩者存在COO關系,而 w1 與特征詞 c 又存在某種句法關系,則認為 w2 與特征詞 Ψc 也有這種關系,從而提取特征觀點對 (c,w1) 和 (c,w2) 。

⑥ 狀中關系(ADV)規則:形容詞作為狀語修飾動詞的關系。動詞表示動作或狀態的行為主體,形容詞用來描述動詞所表達的動作或狀態的情感屬性。形容詞作為情感詞修飾作為特征詞的動詞,表示動作或狀態的情感。根據狀中關系規則,如果特征詞 Ψc 是動詞,情感詞 w 是形容詞并且修飾特征詞,且兩者之間存在ADV關系,能抽取特征觀點對 (c,w) 。

2.特征觀點對的完善。為了使特征觀點對盡可能的準確和全面,將部分依存關系進行組合,形成新的提取規則,以獲得語義更加完整、觀點更加明確的特征觀點對。

①ATT+SBV 規則:解決復合評價對象被拆開的問題,尤其是復合評價對象之間表現為ATT關系的情況。如果w1, Δw2 之間為AAT關系,且w2為支配詞,w1為從屬詞,同時在由 w2,w3 組成的SBV關系中, Δw2 是從屬詞, w3 是支配詞,則有 ATT(w1,w2)+SBV(w2,w3)=ATT+SBV(w1,w2,w3), 。 ATT+SBV 關系組合可以更全面地理解文本中的復合評價對象的情感意義。

②SBV+ADV 規則:解決SBV中支配詞的修飾問題,SBV關系中支配詞(通常是動詞)往往需要被修飾以準確表達情感,而ADV關系恰恰能捕捉到這種修飾關系。如果 wl,w2 之間為SBV關系,且w1是從屬詞, w2 是支配詞,同時在由 w2,w3 組成的ADV關系中, Δw3 從屬詞, w2 為支配詞,則有 SBV(w1,w2)+ 關系組合要比單個組合更能明確和突出用戶觀點的強度。另外, ①+② 可以形成一個新的組合 ATT+SBV+ADV ,用來解決 ② 的評價對象被拆開的問題。

③SBV+VOB 規則:解決SBV中謂語動詞的完整性問題,即把\"主-謂-賓\"完整的語義結構,分成了語義不完整的搭配結構\"主-謂\"\"謂-賓”。如果 w1,w2 之間為SBV關系,且w1是從屬詞, w2 是支配詞,同時在由 w2,w3 組成的VOB關系中, w3 為從屬詞, w2 為支配詞,則有SBV (w1,w2)+VOB (w3,w2)= SBV+VOB(w1,w2,w3) 。 SBV+VOB 關系組合可以獲取具有完整語義的有效特征觀點對。另外, ①+③ 可以形成一個新的組合 ATT+SBV+VOB ,用來解決 ③ 的評價對象被拆開的問題。

④SBV+CMP 規則:解決謂語動詞的完整語義可能需要結合動詞的補充語義或修飾語才能準確表達的問題。如果 wl,w2 之間為SBV關系,且w1是從屬詞, Δw2 是支配詞,同時在由 w2,w3 組成的CMP關系中, Δw3 為從屬詞, w2 為支配詞,則有 SBV(w1,w2)+CMP(w3,w2)=SBV+CMP(w1,w2,w3), 。 SBV+CMP 關系組合可以獲取更加明確且完整語義的特征觀點對。

⑤CMP+VOB 規則:解決謂語動詞的賓語和補語問題,謂語動詞的賓語和補語往往需要一起分析才能準確表達動作的完整語義。如果 w1,w2 之間為CMP關系,且w1是從屬詞, w2 是支配詞,同時在由w2,w3組成的VOB關系中, Δw3 為從屬詞, Δw2 為支配詞,則有 CMP(w1,w2)+VOB(w3,w2)=CMP+VOB (w2,w3,w1) 。

⑥SBV+COO :解決并列的主語和謂語的問題,更全面地理解和抽取文本中并列的情感表達或特征描述。如果 w1,w2 之間為SBV關系,且w1是從屬詞, Δw2 是支配詞,同時在由 w2,w3 組成的COO關系中, w3 為從屬詞, Δw2 為支配詞,則有 SBV(w1,w2)+COO(w3,w2)=SBV+COO{(w1,w2)(w1,w3)} ;如果w1,w2之間為SBV關系,且w1是從屬詞, w2 是支配詞,同時在由w1,w3組成的COO關系中, Δw3 為從屬詞,w1為支配詞,則有 SBV(w1,w2)+COO(w3,w1)=SBV+COO{(w1,w2)(w3,w2)}const,

在構建情感詞典時,只考慮情感詞的極性,至于否定詞及副詞都是否定或加強情感詞極性的,所以不予考慮,故把特征觀點對作為依存關系組合的最終輸出結果(如表2所示)。

表2依存關系組合抽取規則及輸出結果
續表2

3.特征觀點對的過濾。為了過濾掉符合以上抽取規則但又無實際意義的特征觀點對,需要將特征觀點對與產品特征庫中的特征進行匹配,以提高特征觀點對的抽取準確率。由表2可知,特征觀點對(c,w )的特征詞 c 存在復合詞 (c1+c2) ,因此,特征觀點對的過濾遵循下面三個規則:

規則1:若 Ψc 是產品特征庫中的詞匯,即為產品特征庫中的評價特征,則保留當前特征觀點對,否則先把 Ψc 分為 c1 和 c2 兩個詞,再執行規則2;

規則2:若 c1 是產品特征庫中的詞匯,則保留當前特征觀點對,否則執行規則3;

規則3:若 c2 是產品特征庫中的詞匯,則保留當前特征觀點對,否則剔除當前特征觀點對

特征觀點對的過濾工作完成后,把特征觀點對按照評價特征所屬實體屬性進行分類整理,最終得到(e,a,w) 三元組。

(三)三元組 (w,o,p) 的構建實現

從某實體的屬性 ai 的情感詞集合里選取 2ki 個情感極性較明顯的詞作為種子集,其中正向情感詞ki 個,記為 POS ,負向情感詞 ki 個,記為 NEG 。

定義4:令 ?Lai={(w1,o1)(w2,o2)…(w2ki,o2ki)} 表示屬性 ai 已知情感極性的種子集, o2ki 表示情感詞 w2ki 的情感極性,且 2kii 前 ki 項為正向情感種子集,后 ki 項為負向情感種子集;令 表示屬性 ai 未知情感極性的情感詞集合。

定義5:令wordi是屬性 ai 的 Ui 中的一個情感詞,wordi與屬性 ai 的正負種子集的相似度計算公式分別為:

式中: POSj 與 NEGj 為第 j 個正向種子情感詞與第 j 個負向種子情感詞。

由此,wordi情感強度值 p=S+-S- 。當 pgt;0 時,表示wordi的情感極性為正向,添加入情感詞典;當(2號 plt;0 時,表示wordi的情感極性為負向,添加入情感詞典;當 p=0 時,表示wordi為中性詞,不添加人情感詞典。

最后,以情感詞為紐帶,把三元組 (e,a,w) 和 (w,o,p) 進行有機組合,得到中文領域情感詞典數學結構五元組 (e,a,w,o,p) 模型。具體而言,根據定義 1,(e,a,w) 表示實體 e 、屬性 Δa 和情感詞 w 之間的關系;根據定義 2,(w,o,p) 則體現情感詞 w 情感極性 σo 和情感強度 p 之間的關聯。先通過分析特定實體及其屬性,識別出與之相關的情感詞,形成第一個三元組 (e,a,w) ;再對該情感詞進行情感極性和強度的分析,構建第二個三元組 (w,o,p) ;最后將兩個三元組中的情感詞 w 作為連接點,合并為一個完整的五元組模型 (e,a,w,o,p) 。這種有機組合方法不僅豐富了情感詞典的內容,增強了情感分析的細粒度和準確性,而且為特定領域的情感信息挖掘提供了堅實的理論基礎和數據支持。

四、實驗研究

(一)實驗準備

從京東平臺采集電腦、手機和攝影攝像三大領域共計95072條產品評論作為實驗數據源,實驗數據

源詳細信息見表3。根據實驗要求,先對實驗數據源進行分句、分詞、詞性標注、依存句法分析等處理,后構造五元組 (e,a,w,o,p) 模型,從而構建領域情感詞典。其中,提取出特征觀點對中的情感詞,組成實驗情感詞庫。

表3數據源信息

使用混淆矩陣對實驗結果進行評估,混淆矩陣評價體系包含三級指標體系(如圖1所示)。

圖1混淆矩陣

一級指標體系包含如下指標:

TP(TruePositive):實際為正向,并且被預測為正向的數量;

TN(TrueNegative):實際為負向,并且被預測為負向的數量;

FP(FalsePositive):實際為負例,但被錯誤預測為正向的數量;

FN(FalseNegative):實際為正例,但被錯誤預測為負向的數量。

TP 值與TN值的數量越多,FP值與FN值的數量越少,實驗結果的精度就越高。二級指標包括精確率(Precision)和召回率(Recall),把單純的數量結果轉變為百分比,更加便于分析比較。

精確率:在預測為正的結果中,預測對的數量所占的比重,即: P=TP/(TP+FP) 。

召回率:在所有真實值是正的結果中,預測對的數量所占比重,即: R=TP/(TP+FN),

考慮到情感詞典可能無法覆蓋所有情感詞匯的情況,尤其是情感詞典無法預測到的正向情感詞匯會對召回率產生影響,修正后的召回率計算公式為: R=TP/(TP+FN+NW) 。

為了綜合考慮實驗結果的精確性和完整性,利用精確率和召回率可得到混淆矩陣的三級指標F-Measure。F-Measure是精確率和召回率的調和平均數,計算公式如下:

當 α=1 參數時,就是最常見的評估指標 F1 。當F1值接近1時,表示模型在精確性和完整性上都表現良好;當F1值接近0時,表示模型在某一方面或兩個方面上表現不佳[31]。

(二)實驗分析

1.實驗1:評估情感詞典的完整性和精確性

實驗目標:評估情感詞典在情感詞的情感極性判定任務中的完整性和精確性,確保情感詞典能夠有效地捕捉文本中的情感詞及情感極性。

(1)評估情感詞典的完整性

隨機從實驗情感詞庫中選擇3257個電腦情感詞、3624個手機情感詞和3705個數碼相機情感詞作為實驗情感詞集。人工分為三個小組,每個小組由1名教師、2名學生組成。三個小組獨立完成人工標注分類后,根據集成規則綜合考慮三個小組的結果,以此判定情感詞的情感極性,得到標準的人工標注情感詞集。分別使用領域情感詞典、HowNet和NTUSD匹配實驗情感詞集,以此評估情感詞典的完整性(詳見表4)。

表4人工標注分類集及詞典匹配結果

說明:HowNet表示HowNet詞典識別出的情感詞數,NTUSD表示NTUSD詞典識別出的情感詞數,NW表既不在HowNet中也不在NTUSD中的情感詞數,領域情感詞典表示領域情感詞典識別出的情感詞數。

從表4的數據來看,HowNet和NTUSD的情感詞平均覆蓋率僅為 22.35% 和 30.05% ,無法識別出的情感詞很多,而領域情感詞典的平均覆蓋率為 86.58% 。說明HowNet和NTUSD在領域情感分析任務中的適用性受到顯著限制,無法涵蓋或捕捉特定領域中的情感詞。這種情況可以由產品評論的特點、領域性和新興詞匯等因素來解釋。產品評論中常常會出現一些非傳統的詞匯或短語,這些詞匯可能并未包含在通用情感詞典中;不同的產品領域有其特定的術語和表達方式,而HowNet和NTUSD主要基于標準詞匯資源構建,對特定領域內的情感詞匯理解有限;隨著社會文化的變遷,新詞匯不斷涌現,情感詞匯的使用也可能會隨之變化。在這樣的新環境下,通用情感詞典已不再是應對特定領域情感分析挑戰的有效工具了。

(2)評估情感詞典的精確性

把HowNet、NTUSD 和領域情感詞典對實驗情感詞集的判定結果與人工標注情感詞集進行比較分析,以評估情感詞典的精確性(詳見表5)。

表5實驗1評估數據

從表5的數據來看,HowNet和NTUSD的精確率基本都在 90% 以上,有著較好的情感極性判定效果,但是召回率卻比較低。精確率高的原因可能是:HowNet和NTUSD包含了大量常見且情感極性明顯的詞匯,這些詞匯在多種語境下都有明確的情感極性,不容易產生歧義或混淆,以致在文本中出現這些詞匯時,可以較為精確地判斷其情感極性,從而有較高的準確率。召回率低的原因可能是:HowNet 和NTUSD無法覆蓋所有領域、特定語境或者新興詞匯的情感詞,導致在某些情況下無法識別到存在的情感極性;同時有些情感詞受到語境、文化背景或者特定領域知識的影響產生了新的語義或情感,HowNet和NTUSD無法適應這種變化,因此在特定情境下的召回率較低。例如,表4顯示HowNet和NTUSD都有很多NW詞沒有匹配到,直接導致覆蓋率低,而這些NW詞又都有明確的情感極性,召回率低就在情理之中了。

領域情感詞典的精確率也都在 90% 左右,表明它在判斷情感詞的情感極性上具有較好的效果。領域情感詞典包含了涉及領域的情感詞匯和情感表達,考慮了領域的語境和上下文約束關系,能夠更好地理解和識別情感詞的背景和含義,進而提高了情感詞的判斷精確率。領域情感詞典的召回率均在 80% 以上,比HowNet和NTUSD的召回率高,表明領域情感詞典能夠更全面地識別到情感詞。領域情感詞典在構建過程中充分考慮了領域語境和上下文約束關系,能夠更好地適應領域中情感詞的多樣性和復雜性,從而提高了情感詞的識別和召回能力。

綜合評估情感詞典的精確率和召回率,HowNet和NTUSD的高精確率、低召回率,表明它們能夠在判斷情感詞的情感極性時有較少誤判,但會漏掉一些情感詞,所以它們的F1值相對較低,綜合性能不佳。領域情感詞典在精確率和召回率兩個方面都有出色的表現,高精確率和高召回率說明它能夠在特定領域內準確識別情感詞,不僅能夠避免誤判,也能夠較為全面地覆蓋特定領域的情感詞。因此領域情感詞典的F1值較高,綜合性能較好,在領域情感分析任務中更為可靠、有效和專業。

2.實驗2:評估情感詞典的情感分析性能

實驗目標;基于情感詞典提取的情感特征,可以用于訓練機器學習或深度學習模型,從而進行文本情感分類,用于判斷文本的整體情感傾向。

首先,從語料庫中篩選出電腦、手機、數碼相機的產品評論各1000條作為實驗評論集,三個小組獨立完成人工標注后,根據集成規則綜合考慮三個小組的結果,以此確定實驗評論集的情感分類,得到人工標注評論集。

其次,分別把HowNet、NTUSD 和領域情感詞典作為劉玉林等[32]設計的情感分析方法的詞典庫,對實驗評論集進行情感分析。

最后,以人工標注評論集為評價標準,對比分析HowNet、NTUSD和領域情感詞典的分析結果(詳見表6)。

表6實驗2評估數據

從表6的數據來看,HowNet和NTUSD在精確率上表現相似,都在 80% 一 82% 之間,而領域情感詞典的精確率都在 85% 以上,這說明情感詞典普遍能夠準確標注文本情感類別,不論是通用(HowNet、NTUSD)的情感詞典還是專業的領域情感詞典,但在特定領域內進行情感分析任務,領域情感詞典的精確性會更高一些。HowNet在召回率方面略優于NTUSD,這是因為HowNet有著更為細致的情感分類結構,它不僅有正面情感詞和負面情感詞,還有正面評價詞和負面評價詞,這使得HowNet能夠更全面地捕捉和分類文本中的各種情感。領域情感詞典的召回率都高于HowNet和NTUSD,再次證明領域情感詞典更能識別和區分受領域或上下文影響的情感詞,也進一步強化了其在特定領域情感分析任務中的適用性和有效性。綜合評估情感詞典的情感分析性能,領域情感詞典在三個領域都表現出色,其F1值顯著高于通用情感詞典(HowNet和NTUSD),能夠更精準地識別和分類文本中的情感表達,這也反映了領域情感詞典在特定領域情感分析任務中的專業性和有效性。

3.實驗3:領域情感詞典構建方法對比實驗實驗目標:評估和比較不同方法在構建領域情感詞典方面的效果和性能。

選擇電腦、手機兩個領域各30000條產品評論,其中25000條用于訓練,5000條用于測試(實驗結果見表7)。

表7實驗3結果

從表7的數據來看,本文方法在兩個領域均有出色的表現:一方面在電腦領域,本文方法獲得了高精確度和高 F1值,展示出其對電腦領域情感表達的準確捕捉能力;另一方面在手機領域,本文方法同樣有優異的表現,特別是在召回率和F1值方面顯著領先于其他方法,表明其在捕捉手機領域特定情感表達的高效性和全面性。相比之下,其他方法在不同領域的表現存在一定差異,但有一個共同特點—精準率高、召回率低。這意味著這些方法能夠準確地識別情感詞匯,但可能錯過了一些情感表達或出現了錯誤分類的情況。綜上所述,本文方法在電腦和手機領域情感詞典構建任務中展示出了穩定且優越的性能,為情感分析任務的準確性和實際應用效果提供了可靠的解決方案。

五、結束語

本文通過分析通用情感詞典的特點,發現它們在領域文本情感分析中存在一定的局限性,尤其是在處理電子商務平臺等具有特定領域語境的文本。因此,本文提出了一種新的中文領域情感詞典構建方法,該方法設計了一個由實體、屬性、情感詞、情感傾向和情感強度構成的五元組模型,并使用依存句法技術實現了五元組模型的應用,以特征觀點對為基礎構建了領域情感詞典。實驗證明,領域情感詞典不僅能夠更準確地捕捉情感語義信息,還能夠適用于不同領域的情感分析任務。

領域情感詞典具有三大優勢: ① 能夠更精確地捕捉語義信息中的情感細微變化,提高情感分析的準確性和細粒度性; ② 由于領域情感詞典的結構設計考慮了實體和屬性的特定關系,因此可以針對不同領域建立定制的情感詞典,提高情感分析在特定領域的適用性和有效性; ③ 情感詞、情感傾向和情感強度的結合使得情感分析不再局限于簡單的情感分類,還可以對情感的具體程度進行更深入地分析,增強了情感分析的表達力和解釋性。

當然,領域情感詞典也會有一些缺點: ① 盡管五元組模型可以適應不同領域,但建立的領域情感詞典仍然具有一定的領域依賴性,需要針對具體領域進行調整和優化,否則可能導致情感分析效果下降;② 隨著領域知識和語言使用的變化,情感詞典的更新和演化是一個持續的挑戰,特別是當涉及到新興詞匯、新的情感表達方式或者文化變遷時,領域情感詞典的更新會面臨一定的困難。

未來的研究可以進一步探索如何結合深度學習和大數據分析技術,提高領域情感詞典的自動構建能力和自動擴展能力。此外,還可以考慮如何在其他語種環境下推廣和驗證所提出的領域情感詞典構建方法,以應對全球化信息交流的需求。

參考文獻:

[1]Lun-WeiKuandHsin-Hsi Chen.Miningopinionsfromtheweb:Beyondrelevanceretrieval[J].JounalofAmericanSocietyfor Information Scienceand TechnologySpecial Issueon ining Web Resources forEnhancing Information Retrieval,207,58 (12) :1838-1850.

[2]LiJ,SunMExperimentalstudyonsentimentclasificationofChinesereviewusing machineleaming technques[C//In

ternational Conference on Natural Language Processing and Knowledge Engineering.IEEE,2O07:393-400.

[3]徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構造[J].情報學報,2008,27(2):180-185.

[4]楊小平,張中夏,王良,等.基于Word2Vec 的情感詞典自動構建與優化[J].計算機科學,2017,44(1):42-47,74.

[5]李永帥,王黎明,柴玉梅,等.基于雙向LSTM 的動態情感詞典構建方法研究[J].小型微型計算機系統,2019,40(3):503- 509.

[6]Loughran T,McdonaldB.WhenisaliabilitynotaliabilityTextualanalysis,dictionaries,and1O-Ks[J].JouralofFinance, 2011,66(1):35-65.

[7]易劍波.基于文本挖掘的電商用戶評論分析與系統實現[D].南京:東南大學,2017.

[8]劉兵.情感分析——挖掘觀點、情感和情緒[M].北京:機械工業出版社,2018.

[9]李壽山,李逸薇,黃居仁,等.基于雙語信息和標簽傳播算法的中文情感詞典構建方法[J].中文信息學報,2013,27(6): 75-81.

[10]He Y,LinC,aniAutomaticallyextractng pariteaingtoicsforcoss-ominsentimntcalsificationC/Prdingsofthe49thAnnual Meetingof theAssociationfor ComputationalLinguistics.S.1.]:Asociation forComputational Linguitics,2011:123-131.

[11]Wang Y,YinF,LiuJ,etalAutomaticconstructionofdomainsentimentlexiconforsemanticdisambiguation[J]ultidia Tools and Applications,2020(79):22355-22373.

[12]Zhao C,Zhang P,LiuJ,etal.Research on domain emotiondictionaryconstructionmethod basedonimprovedSO-PMI algorithm[C/roceedingsoftheO215thInternational ConferenceonNaturalLanguageProcessingand InformationRetrieval, 2021:18-23.

[13]Wang Y,HuangG,LiM,etalAutomaticallyonstructingafingrainedentimentlexiconforsntimentanalysis[J]Cognitive Computation,2023,15(1):254-271.

[14]Ren W,ZhangH,ChenM.Amethodofdomain dictionaryconstructionforelectric vehiclesdisassembly[J].Entropy,2,24 (3):363.

[15]蔣昊達,趙春蕾,陳瀚,等.基于改進TF-IDF與BERT的領域情感詞典構建方法[J].計算機科學,2024,51(S1):162-170.

[16]張璞,王俊霞,王英豪.基于標簽傳播的情感詞典構建方法[J].計算機工程,2018,44(5):168-173.

[17]葉霞,曹軍博,許飛翔,等.中文領域情感詞典自適應學習方法[J].計算機工程與設計,2020,41(8):2231-2237.

[18]胡家珩,岑詠華,吳承堯.基于深度學習的領域情感詞典自動構建——以金融領域為例[J].數據分析與知識發現, 2018,2(10):95-102.

[19]蔣翠清,郭軼博,劉堯.基于中文社交媒體文本的領域情感詞典構建方法研究[J].數據分析與知識發現,2019,3(2): 98-107.

[20]陳俊,席寧麗,李佳敏,等.融合 Skip-gram與R-SOPMI 的教育領域情感詞典構建[J].應用科學學報,2023,41(5): 870-880.

[21]Ding X,LiuB,YuPS.Aholisticlexicon-basedaproachtoopinionmining[C/Proceedingsofthe8 InteationalCoference on Web Search and Data Mining,2008:231-240.

[22]Qiu G,LiuB,BuJ,etal.Expanding domain sentiment lexiconthrough double propagationC]//Twenty-first Interational Joint Conference on Artificial Intelligence,2009.

[23]LuY,Castellnos M,Dayal U,etal.Automaticconstructionofacontext-awaresentimentlexicon:Anoptimizationapproach [C]//Proceedings of the 20th International Conference on World Wide Web,2011:347-356.

[24]Lek H H,PooD C C.Sentix:Anaspectand domainsensitivesentiment lexicon[C]/2o12 IEEE24th International Conference on Tools with Artificial Intelligence.IEEE,2012(1):261-268.

[25]郗亞輝.產品評論中領域情感詞典的構建[J].中文信息學報,2016,30(5):136-144.

[26]Li C,Yan X,Xu G,et al.Khmersentiment lexiconbasedonPUlearning andLabel propagationalgorithm[J].ACMTransactions on Asian and Low-Resource Language Information Processing,2O23,22(3):1-18.

[27]王召義,陳應紅,周海燕,等.中文領域情感詞典構建研究[J].情報探索,2020(11):48-56.

[28]周知,方正東.融合依存句法與產品特征庫的用戶觀點識別研究[J].情報理論與實踐,2021,44(7):111-117.

[29]Wanxiang Che,YunlongFeng,LiboQin,etal.N-LTP:AnOpen-sourceneurallanguage technologyplatformforChinee]/ In Procedings ofthe 2O21 Conferenceon Empirical Methods in NaturalLanguage Processing:System Demonstrations,2021: 42-49.

Construction Research of Chinese Domain-Specific Sentiment Lexicon Based on Feature-Opinion Pairs

WANG Zhaoyi 1,2 ,CHONG Choy Yoke 2 ,XUE Chenjie 1,2 ,ZHANG Liyuan !1 (1.Anhui Business Collge Faculty of E-commerce,Wuhu,Anhui 241002,China; 2.Multimedia University Faculty of Management,Cyberjaya,Selangor 631OO,Malaysia)

Abstract:Purpose:Toaddress theissueof generalsentimentdictionariesfailing toaccuratelydisceranddifferentiatesentimentinformationinspecificproductdomainsorcontextual environments,therebyreducing semanticambiguityandmisinterpretationofentimentinformation.Method:AnovelapproachforconstructingaChinesedomain-specificsentimentdictionaryispro posed.This metoddesignsastructuralmodelthatencompassesntities,aributes,sentimentwords,entimentorientatios,and sentiment intensities.The modelisconstructedusingdependencyparsingtechniques,withdomainspecificsentimentdictionaries builtuponcoreelementfeature-pinionpairs.Results:Theconstructeddomain-specificsentimentdictionarydemonstratesahigher accuracyincapturingsntimentsemanticinformationandisapplicabletosentimentanalysis tasksacrossvariousdomains.Conclusion:Themethodforconstructingdomain-specificsentimentdictionariescaneffctivelyenhancetheacuracyofsentimentanalysis,particularly in product reviews that exhibit domain-specificity and contextual constraints.

Key Words:Domain-specific sentiment lexicon;Feature-opinionpair;Entity atribute;Sentiment words;Dependency syntax rules

[責任編輯:陳麗華]

猜你喜歡
語義特征情感
如何在情感中自我成長,保持獨立
語言與語義
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
如何在情感中自我成長,保持獨立
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: vvvv98国产成人综合青青| 成人毛片在线播放| 亚洲国产清纯| 99精品高清在线播放| 9966国产精品视频| 99久久精品免费视频| 国产微拍一区二区三区四区| 久久久久九九精品影院| 在线看片国产| 亚洲有码在线播放| 欧美第二区| 四虎亚洲国产成人久久精品| 亚洲中文字幕日产无码2021| 亚洲欧美成人在线视频| 欧美午夜小视频| 亚洲午夜福利在线| 国产精品久久精品| 99re免费视频| 99九九成人免费视频精品 | 精品午夜国产福利观看| 国产91视频免费| 欧美黄网站免费观看| 制服丝袜一区| 国产一级妓女av网站| 制服丝袜一区| 国产精品午夜福利麻豆| 亚洲综合精品第一页| 国产精品香蕉在线| 久久久久夜色精品波多野结衣| 日本免费一级视频| 国产成人艳妇AA视频在线| 2024av在线无码中文最新| 亚洲欧美成人在线视频| 99精品免费欧美成人小视频| 在线免费亚洲无码视频| 狠狠做深爱婷婷久久一区| 热99re99首页精品亚洲五月天| 99精品在线看| 欧美成a人片在线观看| 国产色婷婷视频在线观看| 玩两个丰满老熟女久久网| 日韩精品毛片人妻AV不卡| 精品国产自在现线看久久| 国产精品女主播| 91精品专区国产盗摄| 亚洲,国产,日韩,综合一区| 国产污视频在线观看| 中文字幕一区二区人妻电影| A级毛片高清免费视频就| 国产精品页| 亚洲成A人V欧美综合| 欧美a在线视频| 久热这里只有精品6| 久久国产V一级毛多内射| 成人欧美在线观看| 亚洲国产成人在线| 国内精品久久久久久久久久影视 | 国产精品天干天干在线观看| 一区二区日韩国产精久久| 国产欧美专区在线观看| 亚洲欧美日韩综合二区三区| 国产www网站| 亚洲国产天堂久久综合226114| 国产剧情国内精品原创| 久久一级电影| 亚洲欧洲日本在线| 国产资源站| 日本影院一区| 亚洲中文字幕无码爆乳| 婷婷六月综合网| 婷婷综合在线观看丁香| 成人免费网站在线观看| 91综合色区亚洲熟妇p| 无码国内精品人妻少妇蜜桃视频| 国产手机在线小视频免费观看| 午夜精品福利影院| 亚洲午夜久久久精品电影院| 亚洲色大成网站www国产| 国产欧美日韩视频怡春院| a级毛片视频免费观看| 久久综合亚洲色一区二区三区| 亚洲免费黄色网|