基于目標域自適應SVM 分類器的微博情緒分類

2021-11-26 06:52:08郝笑弘薛保菊

工程數學學報 2021年5期

郝笑弘, 薛保菊

(山西水利職業(yè)技術學院，太原 030032)

1 引言

隨著社交媒體的快速發(fā)展和普及，人們越來越多地在該類平臺上討論觀點和抒發(fā)情緒.在我國，新浪微博、搜狐微博、網易微博等大眾平臺的博文數量巨大，在社交媒體中影響甚巨.這些微博或博文成為匯集用戶意見和反饋的“金礦”，在社交媒體交叉領域中引發(fā)的研究熱點日益增長[1,2].

在微博的相關研究中，情緒分析得到的關注度最高，大部分當前方法可分為兩類[3]：基于特征的方法和基于實例的方法.基于特征的方法旨在構建能夠降低域間差異的特征表示；基于實例的方法主要對領域的訓練數據進行采樣和權重調整，以完成目標領域中的情緒分類.

在基于特征的方法中，文獻[4]利用相鄰句子的連接詞，采用KNN 和SVM 算法微博中的句子進行情緒分析，獲得對應的情緒標簽，將獲得的情緒標簽和連接詞轉化為關聯(lián)規(guī)則項集，也就是將兩種基礎分類器結合為一個整體.文獻[5]通過對新浪微博文進行情感信息方面的分析與研究，提出一種基于情緒知識的非監(jiān)督情感分類方法，該方法對微博文本的情感極性分類具有較好效果.在基于實例的方法中，文獻[6]提出了一種加權框架，該框架會去除了“誤導性”實例，粗略估計目標域中的實例分布.文獻[7]以情緒因子中的常用情緒詞和情緒短語為基礎構建情緒詞典，并針對特殊的情緒表達形式，結合標點符號和表情符號在情緒分析中的功能，建立情緒規(guī)則庫.通過對情緒詞典和情緒規(guī)則的匹配和計算，實現(xiàn)微博情緒的識別和分類.文獻[8]在主客觀分類基礎上，利用遷移學習方法對H7N9 微博主觀語料文本進行情感分類，并對結果進行情緒分類，是一種遷移學習方法.另外，利用詞頻-相關頻率[9]作為特征權重計算方法時，也可以得到較好的情緒分類性能.

本文研究了用于視頻概念檢測[10]的基于模型的自適應SVM 方法(MASVM)，并對一組域依賴策略和域獨立策略進行了比較.基于模型的方法使得本文能夠將現(xiàn)有模型直接適應到新的目標領域數據.本文進行了一系列實驗，最大限度使用從通用領域語料庫中訓練出的基礎分類器，通過領域適應，將5 個情緒分類上的分類誤差最小化，這5 個分類分別為：憤怒、厭惡、快樂、驚訝和悲傷.實驗結果表明，提出的自適應SVM 分類器的性能顯著優(yōu)于域外分類器，并且具備與域內分類器相當的性能.

2 數據集的建立

本文使用了兩個數據集：源域數據集和目標域數據集，并對域適應進行實驗.采用的源域數據集為文獻[11]所建立的通用領域微博語料庫，使用了話題標簽和情緒符(與6 種情緒相關：憤怒、厭惡、恐懼、快樂、驚訝和悲傷)通過遠程監(jiān)督生成目標域數據集，該數據集由一組與博物館相關的微博組成.本文從含有人工注釋的集合中采集了3750 條微博作為一個子集.本文還加入了額外兩個注釋選項：

1) 無代碼，表示該微博不傳達任何情緒；

2) 不相關，表示該微博與本文研究的無任何關聯(lián).

注釋者在沒有選擇“無代碼”或“不相關”的情況下，可為一條微博選擇多種情緒；否則將不能選擇其他選項.在需要注釋的3750 條微博中，3080 條微博上至少有兩名注釋者達成共識(82.1%).本文使用這3080 條微博的集合作為分類器評價的目標域數據集.

表1 給出了情感注釋的分布，可以觀察到分類占比顯著不均衡，在微博中“快樂”占30.4%，其他情緒比例極低.不包含情緒的微博數量也相當多(41.6%).一個直觀的解釋是，微博用戶趨向于表達自己對于博物館體驗的正面和欣賞的情緒，并回避作出負面的評論.這一點也可以從博物館數據情緒分布與通用領域源數據的對比(表2)中發(fā)現(xiàn).

表1 目標數據情緒分類

表2 源領域和目標領域的數據分布比較

本文使用了KL 散度方法[12]表示兩個文本數據間的差異，代表著處理數據稀疏度問題的回退平滑方法.這個回退方法通過對不在給定詞匯表中的術語引入了一個正則化系數和一個非常小的閾值概率，將概率分布總和保持為1，并允許在整個詞匯表上進行操作.由于本文的源域數據中包含的微博數量遠大于目標域數據，因此，對源領域數據進行了隨機次采樣，并確保兩個數據集中詞匯規(guī)模相近，以避免偏倚.

在計算KL-散度前，移除了連接詞、用戶提及、URL 鏈接和轉發(fā)符號.最后，將每個數據集隨機分割為10 個子集，并計算每對子集間的域內和域間的對稱KL-散度(KLD).

表3 給出了計算出的KL 散度均值，其中，源域內的KL 散度均值KLD(D′src‖Dsrc)為2.378，目標域內KL 散度均值KLD(D′tar‖Dtar)為2.210，源域與目標域間的KL 散度KLD(Dsrc‖Dtar)為4.830.KLD 值越大表明差異越大，由于兩個數據集之間的KL 散度是域內KL 散度數值的兩倍.這表明兩個領域中的數據分布存在顯著差異，由此證明了領域適應的必要性.

表3 領域內和跨領域KL 散度數值

3 提出的方法

另外，在情緒分類之前，本文應用了一組預處理技術，包括將URL 鏈接替換為字符串“URL”，將用戶提及替換為“@USERID”，并移除了主題標簽符號“#”、表情符號和縮寫.

3.1 基礎分類器

本文方法中，源域數據生成的三組特征對基礎分類器進行訓練，這三組特征分別為：

1) N 元語法(N-gram)； 2) 詞匯表特征； 3) 詞嵌入特征.

N 元語法模型一直被用于NLP 的任務處理.本文將過濾掉連接詞后的1-2-3 grams 作為N-gram 特征，從9 個微博特定和通用的辭典中構建32 個詞匯表特征.每個詞匯表提供了一個情緒數值得分，或者提供類別，一個類別對應于一種特定的情緒或者一種強(弱)的正面(負面)情緒.

使用詞嵌入特征來表示詞語或概念的上下文背景，能夠有效提升情緒分類的性能.因此，本文使用文獻[13]提出的情緒特定方法以獲得的一個詞語嵌入集合.

3.2 分類器自適應

其中

通過比較式(5)和一個標準SVM 模型提出的分類器自適應模型將基礎分類器預測出的標簽添加到目標域上作為額外特征.這說明了標量B平衡了原始特征和額外特征的貢獻.

4 實驗結果和評價

4.1 對比方法介紹及配置

基準方法與本文方法列舉如下：

1) BASE：基礎分類器，使用一個或多個特征集合，使用SVM 的LIBSVM 實現(xiàn)[15]基礎分類器的構建；

2) TARG[10]：在70%的目標域標簽數據上進行遷移學習模型的訓練和調整.完全從目標域訓練，因此可考慮為基準性能的上界；

3) AGGR[8]：在所有源域數據和70%的目標域標簽數據上，訓練的遷移學習聚合模型；

4) ENSE[4]：將基礎分類器結合為一個整體，如文獻[4]方法將KNN 和SVM 兩個基礎分類器結合為一個整體；

5) MASVM：本文所提域自適應模型，使用所有特征集合訓練獲得1 個基礎分類器(即MASVM-1 模型)，或者使用3 個獨立的基礎分類器形成一個組合體，且這3 個分類器各自通過一組特征訓練(即MASVM-3 模型).之所以選擇兩個不同的模型，是因為大部分案例中，從多個基礎分類器進行適應的模型性能優(yōu)于單個基礎分類器的模型，即使兩種場景中使用了相同的特征依然如此，這一定程度上體現(xiàn)了多分類器方法的優(yōu)勢.

本文所有實驗在Intel i7 雙核處理器@2.49GHz，8GB 內存的個人電腦上的Matlab 2014b 平臺上運行.為了更好地比較實驗結果，本文將上述方法均在30%的相同目標域標簽數據上進行測試.此外，所有特征在本文的源域數據上執(zhí)行了域內交叉驗證和評價.本文在所有方法中使用了RBF 核函，使用默認的γ參數取值[0.1,1]較優(yōu)，參數C取1,3 和10.對于所有方法在相同的參數值集合上進行了交叉驗證的網格搜索，以優(yōu)化參數.這確保了本文MASVM 方法與其他方法的可比性.

4.2 實驗結果

模型的性能比較如表4 所示，其中，P代表分類精度，R代表查全率，F(xiàn)1 代表F1 測度.模型被分入了3 個類別：

1) 域內無自適應方法，即BASE 和TARG 模型，TARG 為性能評價的上限；

2) 域自適應基準，即AGGR 和ENSE；

3) 本文提出的方法MASVM.

從表4 可以看出，“快樂”之外的情緒分類性能在得分方面均低于50，其中一些結果甚至為0.這是由于表1 和表2 中所給出的這些情緒分類不平衡所致.

由于被注釋為“厭惡”的微博數量非常少，本文將“厭惡”情緒從部分實驗評價中略去.如表4 所示，其他所有方法的性能均顯著優(yōu)于BASE 模型，這表明了域自適應的重要性.除了MASVM-3 模型對“憤怒”情緒得分較低外，本文所提MASVM 模型始終優(yōu)于AGGR 和ENSE 模型，同時表現(xiàn)出了與上界基準TRAG 相似的性能.從表4 中還可看到，TARG 的性能優(yōu)于聚合模型AGGR，這意味著域知識無法通過簡單的對兩個域的聚合數據進行建模，以進行有效傳遞.與TARG 不同的是，所提MASVM 模型能夠利用較大且平衡的源域數據；與AGGR 不同的是，本文MASVM 模型還能夠對每個基礎分類器的貢獻進行調整.

表4 模型的性能比較(%)

在進行模型比較時，本文發(fā)現(xiàn)大部分案例中，從多個基礎分類器進行自適應的模型性能優(yōu)于單個基礎分類器的自適應模型，即使在兩種場景中使用相同的特征依然如此.這說明多分類器自適應方法的優(yōu)勢，其主要原因是多分類器形式實現(xiàn)了每個基礎分類器的最大化利用.

MASVM-1 和MASVM-3 模型使用30%的目標域數據進行訓練以及參數優(yōu)化.這一點在“快樂”情緒的實驗結果中更加明顯，因為該情緒有著足夠數量的目標域實例，且受分類不平衡問題的影響很小.這表明本文提出的MASVM 模型能夠利用少量的目標域標簽數據，有效獲得跨不同領域所傳遞的知識.

本文比較了每個模型方法在相同數據訓練集的計算時間方面的效率.該計算過程包括自適應訓練、相同參數值集合上的網格搜索、以及最終測試階段.各方法的總計算時間如表5 所示，由表可知，與其他域外策略(特別是AGGR)相比，所提MASVM 模型的訓練更加高效.在MASVM 模型中，MASVM-1 模型所需的訓練時間最少，因為其僅使用一個基礎分類器進行自適應訓練.

表5 各方法的總計算時間

4.3 自適應訓練采樣率的影響

在本文框架下，自適應分類器旨在最大限度降低目標域標簽樣本上的分類誤差以及與基礎分類器的距離，從而在偏差和方差之間實現(xiàn)更好的權衡.本節(jié)將評價對于“快樂”情緒，目標域標簽數據的不同比例對于總體分類性能的影響.圖1 給出了每個MASVM 模型在不同的自適應訓練采樣規(guī)模上的正則化F1得分，其中采樣規(guī)模的范圍為總體目標域數據的10%至70%(留存相同的30%作為測試數據)，成本因子C等于1,3 和10.

圖1 本文方法的性能和計算時間對比

從圖中可看到，相對于計算時間成本的線性增長，每個模型得到的F1得分近似呈現(xiàn)對數(log2)形式的增長.因此，當自適應采樣比例從50%提升到70%時，雖然分類性能出現(xiàn)了合理增長，但訓練此類模型的效率變低了，且要求更多的數據.當在模型的有效性和效率之間進行權衡時，如MASVM-1 模型和MASVM-3 模型那樣，將30%的目標域標簽數據用于分類器自適應是較為合理的.自適應訓練采樣比例的選擇應該以持有的測試數據為基礎，如：1000 條目標域標簽微博足以有效進行自適應訓練，可分類3000-4000 條測試微博.

5 結論與展望

本文提出了一種基于模型的自適應SVM 方法用于跨領域情緒分類，并將其與一組域依賴和域獨立的策略進行了比較.實驗結果表明，所提方法的性能優(yōu)于域外基礎模型和域自適應方法，表現(xiàn)出了與域內上界模型相近的性能.此外，與其他自適應策略相比，提出的方法計算效率更高.未來，本文將研究基于特征的深度學習方法，用于微博的跨主題情緒分類，并分析使其運行靈活高效的可能性.