基于微博文本的用戶人格分析模型研究

2020-01-05 07:00:06舒曉敏馬曉寧

軟件導刊 2020年11期

舒曉敏　馬曉寧

摘要：傳統的微博用戶人格分析將人格分為五類，但未考慮人格類別之間潛在的關聯性。為此基于多標簽集成分類方法（RAkEL）進行改進，構建RAkEL-PA模型。RAkEL-PA模型使用標簽集合中不同的隨機子集訓練相應的Label Powerset（LP）分類器，然后集成所有分類結果作為最終分類結果。在微博用戶文本消息數據上進行實驗，結果表明，RAkEL-PA模型的兩個不同策略對用戶人格分類準確率較高。RAkEL-PA模型充分考慮多個人格之間的相關性，以提高用戶人格分類魯棒性。

關鍵詞：大五人格;人格分析;多標簽學習;RAkEL-PA;微博文本

DOI：10. 11907/rjdk. 201356?????????????????????????????????????? 開放科學（資源服務）標識碼（OSID）：

中圖分類號：TP303 ??? 文獻標識碼：A?????? 文章編號：1672-7800（2020）011-0025-04

Research on User Personality Analysis Model Based on Weibo Text

SHU Xiao-min，MA Xiao-ning

（College of Computer Science and Technology， Civil Aviation University of China， Tianjin 300300， China）

Abstract：Traditional personality analysis of Weibo users divides personality into five categories without considering the potential correlation among personality categories. The multi-label ensemble classification method （RAkEL） is improved to construct the RAkEL-PA model. The RAkEL-PA model uses different random subsets in the label set to train the corresponding Label Powerset （LP） classifier， and then ensembles all the classification results as the final classification result. The effectiveness of RAkEL-PA in personality analysis has been verified experimentally on Weibo users text messages. The experimental results show that the accuracies of the two different strategies of RAkEL-PA are higher for user personality classification. RAkEL-PA fully considers the correlation between multiple personalities and improves the robustness of user personality classification.

Key Words： big-five personality; personality analysis; multi-label learning; RAkEL-PA; Weibo text

0 引言

心理學把個體人格研究與社交網絡結合，用社交網絡中用戶行為數據對用戶人格進行分析與預測[1]，如工作績效預測[2]、青少年網絡成癮誘因分析[3]、抑郁癥預測[4]、人格與情緒表達關系[5]等，價值巨大。

文獻[6]統計地理位置、發布頻率等移動互聯網用戶特征，將人格分類看作三分類和五分類問題實驗;文獻[6，7，8]分別采用新浪微博、Facebook、Twitter和YouTube數據集進行人格識別;文獻[9，10]采用二進制粒子群算法和半監督算法建立社交網絡用戶人格分析模型;文獻[11]將人格分類問題轉化為二分類問題;Rosen等[12]針對用戶個體網站內容分析用戶人格;Ross等 [13]通過研究用戶數據得出外向型與組成成員個數關系密切。

以上方法都是將五維人格看作不相干任務執行，而事實上五個維度之間有一定關聯[1，6-8，11，14]。本文通過對多標簽集成方法—隨機k標簽集（Random k-LabELsets，RAkEL）[10]進行改進，構建基于微博文本的RAkEL-PA（RAkEL-Personality Analysis）模型，綜合考慮五維人格相關性，彌補前人工作的空白。

1 研究流程

人格模型泛指大五人格模型（Big-Five Model），包括外向性（Extraversion，E）、神經質（Neuroticism，N）、宜人性（Agreeableness，A）、責任型（Conscientiousness，C）和開放性（Openness，O）五個維度[1]。

本文研究流程：①獲取數據：在微博上發放大五人格量表問卷，志愿者填寫問卷以及微博userID，采用userID通過爬蟲獲取志愿者微博文本數據;②特征提取：從微博文本中提取與人格相關度高的特征，創建人格分析模型的特征屬性;③建立模型：構建RAkEL-PA模型;④評估模型：采用分類準確率Accuracy和損失函數Hammingloss兩個指標進行評估。

2 RAkEL-PA模型構建

2.1 數據獲取

2.1.1 獲取用戶五維人格得分

在問卷星網站上制作大五人格量表[1]作為調查問卷。制作5個分量表，每個分量表包括5個選項（非常不符合、不太符合、不確定、比較符合、非常符合）12個題目，分別記2、4、6、8和10分，其中有題目反向計分，滿分為100分。將問卷發放到微博，志愿者填寫問卷，根據得分標注用戶五維人格標簽。

2.1.2 微博用戶數據獲取及數據預處理

利用userID使用Python語言編寫微博爬蟲程序，爬取用戶3個月微博文本數據。刪除僅含圖片、表情等無用數據。

2.2 特征提取

本文使用CCPL開發的中文心理分析系統TextMind[14]，產生已驗證的76個微博文本特征[14]，如表1所示。另外，表情符號更能反應用戶情緒，所以本文統計微博消息中含有的表情符號，并統計每條消息的影響力，如表2所示。

由于特征量化為數值后差異巨大，必須對其先歸一化[11]。將每個特征進行[0，1]區間歸一化，如公式（1）所示。

其中，[f]和[f*]分別為文本特征的原始值和歸一化值，[fmin]和[fmax]分別為所有用戶相應特征的最小值和最大值。

2.3 RAkEL-PA模型構建

2.3.1 多標簽分類方法

多標簽學習方法主要有算法自適應和問題轉換方法兩種[15]。前者主要包括支持向量機[7]和多標簽[k]近鄰算法（ML-kNN）[16];后者主要有Binary Relevance（BR）[5]和Label Powerset（LP）。

2.3.2 基于微博文本的RAkEL-PA模型構建

LP方法優點是考慮標簽相關性，但也存在不足[17]，因此將大量標簽的集合隨機分成很多小的標簽集，采用LP為每個小標簽集訓練多標簽分類器，將所有LP分類器決策集成得到RAkEL的最后結果。本文基于微博文本的用戶人格分析模型，構建基于人格分析的不相交子集策略RAkELd-PA和基于人格分析的重疊子集策略RAkELo-PA。

確定RAkELd-PA標簽集[k]的大小，將標簽集合[L]隨機分成[m=Mk]個不相交的[k]標簽集[Rj]，[j=1，2…m]。用LP學習[m]個多標簽分類器[hj]，[j=1，2…m]。每個分類器[hj]學習一個單標簽分類任務，包含訓練集中所有[Rj]的子集類值。該策略中不同標簽集中的標簽不相交，所以標簽數越多性能越好[18]。

RAkELd-PA模型訓練過程和分類過程分別如圖1和圖2所示。

RAkELo-PA中[Lk]表示[L]中所有不同[k]標簽集的集合。[Lk]大小由二項式系數[Lk=Mk]決定。與RAkELd-PA不同的是，已知標簽集[k]的大小以及期望的分類器數量[m≤Lk]，RAkELo-PA通過從[Lk]隨機采樣選擇[m]個[k]標簽集[Ri]，[i=1，2…m]。當[mk>M]時標簽集會重疊。

在RAkELo-PA模型上訓練過程和分類過程分別如圖3和圖4所示。

3 實驗

3.1 實驗數據集和特征提取

本文共收到258份問卷，經過篩選（如：每個問題答案相同）得到有效問卷169份。使用爬蟲得到用戶在微博上的文本消息。利用文心軟件提取文本特征，如表1和表2所示，并進行歸一化處理。標簽數[M]為人格的五個維度。因此標簽集界限是[25]=32，而實際標簽集數量范圍為此邊界的5%～44%[17]。本文標注的標簽集中有8種標簽集出現次數最多，將集中60%的數據作為訓練集，其余作為測試集。

3.2 模型評價指標

本文使用分類準確度Accuracy（A）和Hammingloss（H）評估多標簽分類效果。

用[D]表示一個多標簽數據集，[D]表示樣本個數，[xi]表示第[i]個樣本，[yi？L]表示[xi]的標簽集，[i=1，2…D]。本文通過學習一個多標簽分類器[h]預測實例[xi]的標簽集[zi]，即[zi=h（xi）]。

分類準確度（A）[18]定義如下：

3.3 實驗結果與分析

3.3.1 RAkELd-PA模型實驗結果分析

在RAkELd-PA實驗中，標簽集[k]取2、3和4。[k]值不同模型數[m]也不同。

如圖5所示：k=2時，模型的A值最高;k=3和k=4時，A值略低于k=2時，而LP的A值保持不變。原因是同時具有兩種人格特質的人較多。隨著[k]值增大，[m]變小，參與訓練的分類器個數變少，導致RAkELd-PA性能變差。

如圖6所示：k=2時，模型H值最小;k=3和k=4時，H值略高，可見隨著[k]值增大，H值也在變大，而LP的H值不變。該模型的H最大值和LP的H值接近，說明隨著[k]值接近M，模型性能與LP性能相當。

3.3.2 RAkELo-PA模型實驗結果分析

RAkELo-PA模型使用[k]（2～4）的所有有意義值進行實驗。在k=2和k=3時，[m]范圍為1～10，k=4時，[m]范圍為1～5。RAkELo-PA模型的分類決策計算方式采用多數投票規則。

如圖7所示：①k=2（同時具有兩種人格特質）時，A值在m=8時最高，與文獻[9]得出的結論一致，即A和C、C和E、C和O、O和E分別具有很強的相關性;②k=3時，A值在m=8時最高，文獻[11]也表明，C、A、E，E、C、O，O、A、C分別有強相關性;③k=4時，A值在m=4時最高，與k=2和k=3相比，同時具有4種人格特質的人相對較少，所以A值略低于k=2和k=3時的A值，而LP的A值不隨[m]和[k]的改變而改變。

如圖8所示：隨著[m]值增大，模型的H值在減小。k=2，m=7、8、9時，H值最小;k=3，m=8時，H值最小;k=4，m=3時，H值最小。LP分類器的H值不隨[m]和[k]的改變而改變。可以看出，模型的H值均比LP小，說明該模型性能比LP好。

4 結語

針對傳統人格分析方法未考慮五個人格維度之間的潛在相關性導致個體人格分類準確率較低問題，提出RAkEL的改進模型RAkEL-PA實現個體人格分類。實驗結果表明，具有雙重人格特質和三重人格特質的人較多，說明五維人格之間存在依賴性。該模型考慮了五維人格之間的相關性，提高了微博用戶人格分類的準確率，從而驗證了RAkEL-PA模型對人格分類的有效性。后續考慮獲取更多微博用戶數據，在更大數據集上進行實驗，以進一步驗證該模型的有效性。

參考文獻：

[1] 張磊，陳貞翔，楊波. 社交網絡用戶的人格分析與預測[J]. 計算機學報，2014，37（8）：1877-1894.

[2] JUDGE T A， ZAPATA C P. The person–situation debate revisited： effect of situation strength and trait activation on the validity of the big five personality traits in predicting job performance[J].? Academy of Management Journal， 2015， 58（4）： 1149-1179.

[3] ZHOU Y， LI D， LI X， et al. Big five personality and adolescent internet addiction： the mediating role of coping style[J].? Addictive behaviors， 2017， 64（8）： 42-48.

[4] ALLEN T A， CAREY B E， MCBRIDE C， et al. Big five aspects of personality interact to predict depression[J].? Journal of? personality， 2018， 86（4）： 714-725.

[5] 劉真亦.? 不同人格傾向微博用戶的情緒表達分析[D]. 杭州：浙江大學，2019.

[6] 孫啟翔. 基于移動互聯網社交行為的用戶性格分析和預測[D]. 北京：北京理工大學，2016.

[7] FARNADI G，SITARAMAN G，SUSHMITA S，et al. Computational personality recognition in social media[J]. User Modeling and User-Adapted Interaction， 2016， 26（2-3）： 109-142.

[8] 楊潔. 基于用戶情感和網絡關系分析的人格預測模型[D]. 上海：東華大學，2016.

[9] 毛雨. 基于社交網絡的用戶人格分析研究與實現[D]. 北京：北京郵電大學，2019.

[10] 鄭赫慈. 網絡空間中人格分析的研究與實現[D]. 北京：北京郵電大學，2019.

[11] XUE D， HONG Z， GUO S， et al. Personality recognition on social media with label distribution learning[J].? IEEE Access， 2017， 5（142）： 13478-13488.

[12] ROSEN P A， KLUEMEPER D H. The impact of the big five personality traits on the acceptance of social networking website[C]. AMCIS 2008 proceedings： AMCIS， 2008： 223-229.

[13] ROSS C， ORR E S， SISIC M， et al. Personality and motivations associated with facebook use [J].? Computers in Human Behavior， 2009， 25（2）： 578-586.

[14] LIMA A C E S， DE CASTRO L N.? A multi-label， semi-supervised classification approach applied to personality prediction in social media[J].? Neural Networks， 2014， 58（12）： 122-130.

[15] BAI S， HAO B， LI A， et al. Predicting big five personality traits of microblog users[C]. Proceedings of the 2013 IEEE/WIC/ACM International Joint Conferences on Web Intelligence （WI） and Intelligent Agent Technologies （IAT）-Volume 01. IEEE Computer Society， 2013： 501-508.

[16] ZHANG M L， ZHOU Z H.? ML-KNN： a lazy learning approach to multi-label learning[J].? Pattern Recognition， 2007， 40（7）： 2038-2048.

[17] TSOUMAKAS G，KATAKIS I， VLAHAVAS I.? Random k-labelsets for multilabel classification[J].? IEEE Transactions on Knowledge & Data Engineering， 2011， 23（7）： 1079-1089.

[18] TSOUMAKAS G， VLAHAVAS I. Random k-labelsets： an ensemble method for multilabel classification[C]. European conference on machine learning， Springer， Berlin， Heidelberg， 2007： 406-417.

（責任編輯：杜能鋼）

收稿日期：2020-04-11

基金項目：中央高校基本科研業務費專項資金項目（3122014C018）;中國民航大學科研啟動基金項目（09QD02X）

作者簡介：舒曉敏（1992-），女，中國民航大學計算機科學與技術學院碩士研究生，研究方向為輿情分析、文本分析、機器學習;馬曉寧（1979-），男，博士，中國民航大學計算機科學與技術學院副教授、碩士生導師，研究方向為信息安全、網絡輿情分析、機器學習、文本分析。本文通訊作者：舒曉敏。

軟件導刊2020年11期

軟件導刊的其它文章: 細胞神經網絡聯想記憶安全存儲研究綜述; 民航訂座需求預測算法綜述; 基于CiteSpace的計算機視覺領域研究熱點與前沿分析; 項目驅動的Python課程教學研究; 新工科人才創新創業能力培養實踐與研究; 圖像處理與分析課程工程碩士教學案例庫設計