999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞向量方法的微博用戶抑郁預測

2017-06-05 16:39:08方振宇
電子技術與軟件工程 2017年7期

摘 要 常用的抑郁檢測方法都是采用的傳統的情感分析的方法,比如情感詞匯的統計,用戶微博情感的極性計算以及聚類分析等。這些方法采用的都是人為的定義特征的方法,需要花費大量的時間定義以及處理特征,同時還需要進行特征的降維和簡化等工作。為了自動學習出用戶的特征,本文采用了word2vec訓練詞向量的方法來構建用戶的向量表示。由于詞向量包含了一定的語義信息,在此基礎上構建的用戶向量則涵蓋了用戶的微博文檔信息。本文利用構建好的用戶向量進行了用戶的抑郁分類實驗,結果表明本文提出的方法可以應用于抑郁的分類與檢測。

【關鍵詞】word2vec 詞向量 用戶向量 抑郁檢測

1 引言

世界衛生組織目前指出,在2020年到來之際抑郁癥的發病率將僅次于缺血性心臟病,成為世界上第二大嚴重的流行疾病。抑郁癥心理障礙對人們造成的影響十分巨大,患有抑郁的人群注意力學習能力會相應的下降,工作的效率會大大減小,這極大的影響了這群人的生活。在世界前十種致殘或使人喪失勞動能力的主要疾病中有五種是精神疾病,其中抑郁癥名列第一給社會帶來巨大的危害。

目前抑郁癥的檢測主要是基于問卷調查的方式,醫院或者心理檢測機構向參與心理調查的用戶發放調研問卷。基于心理測評表的方法能夠很好的預測用戶是否有心理障礙的跡象,針對心理自評表的得分基本可以判斷用戶是否有抑郁癥等心理障礙。但是這種方法只適用于一對一的調查檢測,大規模的采用這種問卷調查方式進行人群普查將消耗大量的人力物力。

作為中國的的社交網絡工具,微博是中國最熱門的個人及媒體發布信息的平臺之一。由于微博是個人用戶分享心情,發表看法以及與他人互動的平臺,個人用戶的微博包含了大量的用戶個人信息以及情感動態,獲取并對這些微博內容進行分析可以進行個人情感的挖掘,深度挖掘這些內容為分析個人用戶的情感提供了可能。

本文通過獲取具有心理障礙以及沒有心理障礙人的微博數據,對這些數據進行格式的清洗,去除不需要的信息如符號,表情,標點等,獲取到文本信息進行詞向量的訓練,并在此基礎上構建用戶向量用于分類器的實現。

2 詞向量簡介

word2vec是google發布的通過訓練詞匯得到詞向量的一款開源工具。word2vec采用的是分布式表示的詞向量方法。根據給定的分此后的語料庫,word2vec可以使用神經網絡模型將詞語表示成向量的形式。主要思想是根據每個詞具有不同的詞頻特性,使用Huffman編碼方式對詞語進行編碼。編碼的方法是根據不同的詞頻采用不同的編碼。詞頻越高的詞語,其訓練時隱藏層數目越少。詞頻相差不多的的詞匯在訓練時隱藏層采用相同的激活方式。采用這種方法可以有效的減少模型計算的復雜度。

Word2vec包括兩種訓練模型,分別是CBOW和Skip-gram。

如圖1,CBOW模型采用周圍的詞對中心詞進行預測,中間為求和層。這種方法是Mikolov將原始的NNLM的神經網絡訓練模型經過改造后的到的一種模型。其中,最下一層是句子上下文詞匯,中間層是對上下文詞匯進行匯總去預測中間詞匯。

圖2為skip-gram模型,輸入為詞的獨熱向量形式,隱藏層對輸入進行了抽象處理,輸出層節點的數目和目標詞周圍詞對應。最終由softmax計算得到詞的預測概率。

3 詞向量的訓練

3.1 數據獲取

本文通過編寫爬蟲的方法,獲取了443個患有抑郁癥的用戶數據以及477個沒有抑郁的用戶的數據。由于是采用詞向量的方法進行試驗所以本文去除了與文字無關的符號。采用正則匹配的方式過濾掉無用的信息,最后針對文本進行分詞處理,得到一個微博文本的分詞庫。

為了保證詞向量訓練的效果,要將分詞庫中的停用詞去掉。常見中文停用詞包括“的”,“得”,“么”等助詞,同時也包括“和”,“與”,“以及”等連接詞。同時也包括逗號,句號等標點符號。

訓練過程中,word2vec根據不同參數的值來改變訓練的方法以及詞向量的表示大小以及采樣大小等。word2vec的具體參數如圖3所示。

其中time表示訓練的總共時間,train后面為訓練文件即輸入的處理后的分詞文件。Dir為文件所在地址。output為訓練后的詞向量文件,一般保存為bin格式。cbow表示是否采用cbow模型訓練,默認為skip-gram模型。兩種模型有不同的優勢,cbow訓練速度快,skip-gram對于罕見詞匯有更好的表示。Size表示詞向量的維度大小,window表示訓練詞向量時上下文相關詞匯的數值,word2vec會根據這個數值來掃描當前詞匯的上下詞匯,詞匯的數值反映了得到詞向量的語義包含的上下文詞匯數目。hs和negative是訓練網絡中的采樣方法表示,1表示選用,0表示不選用。Sample參數是采樣過程中設置的大小,這個要根據語料集的大小來決定采樣的數值。min-count參數是最低頻率的表示,一個詞語的頻率小于設定的閾值系統將屏蔽該詞匯。本文為了得到用戶微博中所有的詞向量的表示,將頻率設置為1。Binary參數指的是輸出的向量文件的編碼格式,word2vec采用的是二進制的詞向量編碼,一般設置為1。

4 基于TF-IDF的用戶向量表示

由于微博用戶的微博信息由微博文本數據以及個人信息數據組成。本文在構建微博用戶的用戶向量時考慮到這一點,將文本數據的向量以及個人信息的向量結合在一起作為最終的用戶向量表示。

4.1 個人信息向量

個人信息數據包含用戶的個人年齡,性別,個人的粉絲數目,關注數目以及總共的點贊數和轉發評論數等。這些數據是體現個人在微博上的社交情況,同時也反映了一些用戶的性格特征。個人信息數據組成的向量用Vi表示。Vi包含了個人信息的相關特征,本文制訂了15個用戶信息特征,所以Vi是一組15維的向量。

由于最終獲得的詞向量的值在0到1之間,所以要把個人信息向量歸一化到0到1之間。歸一化的公式如下:

4.2 用戶文檔向量

本文采用加權詞向量的方式獲得用戶的文檔向量,由于詞向量包含了上下文的語義信息,由詞向量獲得的用戶文檔向量則包含了整個用戶微博的語義信息。在這個加權過程中會存在一定的詞的語義的損失,但是大部分的信息都被保存下來了。所以用戶的文檔向量可以抽象的表示用戶的微博內容信息。本文采用TF-IDF方法對詞向量進行加權。

其中ni表示詞語i出現的總次數,除以該用戶微博中所有詞的次數之和得到詞i的詞頻表示。

(3)式表示了詞語的文檔間頻率。N為總的文檔數,mi為詞語i出現過的文檔數。為了防止出現詞語出現次數為0導致分母為0的情況出現,本文在分母中加了數值1。

基于上面的式子,用戶的文檔向量可以表示為:

其中Ei為詞i對應的詞向量表示,N為詞的個數。根據上面得到的用戶的文檔向量以及個人信息向量,本文得到了用戶向量Ui的表示。Ui={Di,Vi}。括號內為連接的操作。

5 實驗與分析

本文使用三層神經網絡作為分類器進行用戶的分類。分類的輸入為用戶的用戶向量。本文共獲取了68.4萬的微博數據作為詞向量的訓練文本。Word2vec參數上本文設置了批處理大小為128,上下文詞數為3,以及頻率過濾數目為1.對于不同維度的詞向量以及不同訓練方法的訓練出來的詞向量,本文給出了對應的結果。

本文從微博上獲取了920個用戶的信息,其中443個為有抑郁的用戶,477個為沒有抑郁的用戶。本文采用精確率,召回率以及F1值作為實驗的驗證標準。其中,采用十折交叉的方式遍歷所有的樣本,獲取十次的預測結果的均值作為本文最終的實驗結果,即平均精確率,平均召回率以及平均F1值。本文最終采用F1值作為實驗的綜合考量。實驗結果如表1所示。

從表1中可以看出,CBOW相比于skip-gram的效果更好,CBOW模型的F1值普遍高于用Skip-gram,這是因為在小規模數據集上,CBOW方法訓練的詞向量具有更好的表現效果。在詞向量50維的時候,CBOW獲得了最好的F1值81.501%。實驗結果表明,本文提出的使用詞向量構建用戶文檔語義的方法是正確的。CBOW方法的各維度詞向量分類精確率均在80%左右,說明該方法構建的用戶向量模型是可以用于抑郁預測的,且有較好的實踐效果。

6 結論

本文提出了使用加權詞向量的方法構建用戶向量的方法,并使用用戶向量作為用戶的抽象表示。實驗結果表明,本文提出的方法有著比較好的效果。在此基礎上可以進行進一步的擴展研究,比如用深度學習的方法對詞向量進行順序的編碼以獲得詞的次序信息。同時利用詞向量的聚類特性,可以對用戶進行聚類的分析與研究。總而言之,詞向量對于抑郁檢測的研究有著很大的幫助。在此基礎上可以挖掘出新的方法與模型用于社交網絡的抑郁檢測研究。

參考文獻

[1]王睿,黃樹明.抑郁癥發病機制研究進展[J].醫學研究生學報,2014(12):1332-1336.

[2]付菁文,林凡凱,喬瑾淵,等.抑郁癥發生的病理生理研究進展[J].生命科學儀器,2015(01):12-16.

[3]劉芳宜,朱麗明,方秀才,等.三種不同心理測評量表對功能性消化不良患者焦慮、抑郁狀態的評估[J].胃腸病學,2012,17(02):106-109.

[4]Lai S,Liu K,He S,et al.How to Generate a Good Word Embedding[J]. IEEE Intelligent Systems,2015, 31(06):5-14.

[5]Salton G,Buckley C.Buckley,C.:Term-Weighting Approaches in Automatic Text Retrieval.Information Processing & Management24(05),513-523[J].Information Processing & Management,1988,24(05):513-523.

作者簡介

方振宇(1992-),男,安徽省銅陵市人。

作者單位

合肥工業大學計算機與信息學院 安徽省合肥市 230009

主站蜘蛛池模板: 国产又爽又黄无遮挡免费观看| 激情视频综合网| 日韩精品成人在线| 国内精品免费| JIZZ亚洲国产| 刘亦菲一区二区在线观看| 久久国产精品嫖妓| 国产精品自拍露脸视频| 高清无码一本到东京热| 97av视频在线观看| 欧美人在线一区二区三区| 国产精品不卡永久免费| 91尤物国产尤物福利在线| 在线免费不卡视频| 久久久久国产一区二区| 日韩成人在线视频| 好吊色国产欧美日韩免费观看| 精品国产成人三级在线观看| 成年女人18毛片毛片免费| 欧洲免费精品视频在线| 亚洲精品无码在线播放网站| 欧美在线国产| 国产在线八区| 久久久久亚洲AV成人人电影软件 | 免费 国产 无码久久久| 欧美综合成人| 蜜桃视频一区二区三区| 亚洲第一成网站| 亚洲欧美成人影院| 最新亚洲av女人的天堂| 久久国产乱子| 国产精品视频第一专区| 久久www视频| 国产精品第一区| 一级看片免费视频| 亚洲首页在线观看| 国产黄色爱视频| 国产精品无码久久久久久| 亚洲欧美日韩天堂| 久久综合干| 欧美一级黄色影院| 九九精品在线观看| 亚洲成A人V欧美综合天堂| 日本欧美成人免费| 日韩精品成人在线| 99中文字幕亚洲一区二区| 国产精品第一区在线观看| 国产鲁鲁视频在线观看| 免费女人18毛片a级毛片视频| 久久综合色天堂av| 成人福利在线免费观看| 日韩在线网址| 久久婷婷五月综合97色| 精品国产成人国产在线| 在线看片免费人成视久网下载| 国产日产欧美精品| 国产精品极品美女自在线| 精品久久国产综合精麻豆| 国产成人亚洲无码淙合青草| 国产精品视频猛进猛出| 免费国产一级 片内射老| 国产三级国产精品国产普男人| 国产亚洲欧美在线视频| 亚洲VA中文字幕| 亚洲天堂视频网站| 久久国产拍爱| 亚洲天天更新| 国产另类乱子伦精品免费女| 久久久91人妻无码精品蜜桃HD| 久久午夜夜伦鲁鲁片不卡| 国产视频a| 91外围女在线观看| 欧美国产日韩在线| 第一页亚洲| 2021亚洲精品不卡a| 国产大片喷水在线在线视频| 久久网欧美| 欧美日韩精品一区二区在线线| 制服丝袜 91视频| 亚洲欧美日韩天堂| 亚洲黄色视频在线观看一区| 国产精品刺激对白在线 |