999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于抑郁癥患者微博平臺數據的文本語義挖掘與情感分析

2023-10-31 11:40:00范文蓉
軟件導刊 2023年10期
關鍵詞:詞匯特征文本

范文蓉,劉 峰

(南京郵電大學 教育科學與技術學院,江蘇 南京 210023)

0 引言

據世界衛生組織統計,中國抑郁癥患者數量已高達9 000 萬,并且有逐年上升的趨勢,然而最新抑郁癥調查報告顯示,我國抑郁癥的治療率仍然不到10%[1]。究其原因,我國對于心理問題的社會支持薄弱使得抑郁癥患者的病恥感強烈,導致其更傾向于隱瞞病情而非主動尋求治療。微博作為中國活躍人數較多的社交媒體平臺,其保護用戶隱私的平臺特性為現實世界中的沉默群體提供了隱秘的傾訴途徑,其中抑郁癥患者也更傾向于在網絡世界中表達自己的情感[2]。因此,挖掘并分析蘊含在微博文本中的有效信息能夠為人類心理和行為研究開辟更廣闊的空間。

1 相關研究

在現代社會,網絡是人們獲取和發布信息最快捷的途徑,而人們在網絡上的活動必然會留下許多數據,尤其是許多人經常在社交媒體上發布文字、圖像以及視頻記錄生活,這些數據可以在一定程度上反映用戶的行為習慣和情緒狀態,對其進行挖掘分析可以對用戶的身心健康狀態進行監測。近年來,基于社交媒體的心理學研究逐年增多,信息科學與心理學的交叉融合越來越深入[3]。由社交媒體中提取的數據可被用于識別和預測抑郁癥患者,進而為其提供專業的診療指導,而如何通過社交媒體數據準確提取出抑郁癥患者的特征,將其用于訓練識別模型并提高檢測準確率是亟需突破的難題。

近年來,國內提取數據特征的方法不斷完善。例如,曹奔等[4]將主題模型應用于心理學文本分析,用于探索心理咨詢和社交媒體上人們的語言內容,進而對發布者的人格進行準確預測;林靖怡等[5]通過爬取抑郁用戶和非抑郁用戶的基本信息及微博內容,從中選擇相關信息構建特征向量,通過XGBoost 算法構建分類模型,得到預測抑郁癥的準確率為 91%,召回率為 59%;龔競秋等[6]從微博樹洞賬號“走飯”的154 萬人次評論數據中提取出292 581 個用戶的微博號,對其空間分布特征進行可視化表達,發現經濟發達地區人群的抑郁情況比經濟欠發達地區嚴重;查國清等[7]基于Word2vec 詞嵌入模型形成抑郁關鍵詞表,進而判斷被測微博是否表達出抑郁傾向,該法大大減少了專家標注工作量,提高了標注效率。國外使用的語言和社交媒體與國內不同,因此構建出的文本特征與情感詞典有顯著差異,但檢測技術大致相同。例如,Jung 等[8]提煉出青少年抑郁癥本體和術語,提供了相關語義基礎,但缺少反映抑郁癥的情感詞語;Martínez-Casta?o 等[9]提出一個用于實時處理社交媒體數據的可擴展平臺,實現了抑郁癥患者的早期監測;Chiong 等[10]提出一種基于社交媒體文本的通用抑郁癥檢測模型,該模型采用兩個標記的公開Twitter 抑郁癥數據集進行訓練,即使測試數據集不包含抑郁癥和診斷等特定關鍵詞,該方法也能通過社交媒體文本有效檢測抑郁癥。

國內外針對社交媒體中抑郁癥患者檢測的研究尚處于初始階段,構建文本特征與情感詞典的方法正在探索當中。目前使用的很多檢測技術為機器學習算法,存在較多缺陷,導致抑郁癥患者的很多潛在語言和行為特征尚未被充分挖掘。此外,隨著時代的發展變化,模型需要被持續調整訓練以適應社交平臺中不斷更新的語句表述方式。

從社交媒體文本中提取有效信息需要文本數據挖掘和文本情感分析兩個步驟。其中,文本數據挖掘將生活中非結構化但有價值的信息整理成結構化數據,以便從中提取細枝末節的語義和規律,大大降低了人工操作成本[11],具體分為選取數據來源選取、數據清洗及預處理、文本語義挖掘、可視化分析4 個步驟。近年來,主題模型作為一種非監督的聚類方法在文本數據挖掘領域得到廣泛應用[12],其能夠發現文檔—詞語之間所蘊含的潛在語義關系(即主題),將文檔看作一組主題的混合分布,而主題又是詞語的概率分布,從而有效提高了文本信息處理效率,因此本文選擇隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型作為主要的語義挖掘工具。文本情感分析即對文本蘊含的情感信息進行抽取、分類、檢索與歸納[13],情感詞典的構建在情感分析任務中發揮著越來越重要的作用,其可以基于詞語的語義傾向判斷其所在文本的語義傾向,是包含情感詞詞性、極性和強度的詞表[14]。抑郁癥患者在微博平臺中的傾訴欲比現實世界中更旺盛,其微博文本提供了大量蘊含情感的詞匯。然而,由于中文的多變性以及語義的多重性,中文分詞難度較大,國內的情感分析研究暫落后于國外。近年來,中文情感詞典也在不斷訓練建設當中,如知網發布的情感分析用詞語集、臺灣大學發布的中文情感極性詞典、清華大學李軍教授發布的中文褒貶義詞典等為中文情感分析提供了可靠的數據來源,但以上情感詞典存在領域適應性差以及情感詞類別單一的問題。相比之下,大連理工大學林鴻飛教授指導完成的中文情感詞匯本體庫的情感劃分十分細致,更適用于社交媒體情感分析[15]。由于微博文本的情緒較為豐富,不只局限于正、負兩個極端方向,應對其蘊含的情緒強弱進行判別,本文選擇中文情感詞匯本體庫作為情感詞典。

本文通過采集微博平臺中的大量相關數據,運用文本語義挖掘與情感分析技術提取抑郁癥患者的特征,對其平臺形象、認知特征、行為特征及情感特征進行辨析與界定,以期感知抑郁癥患者的真實處境,為在社交媒體中識別潛在的抑郁癥患者提供新的途徑。

2 研究方法

2.1 數據來源

微博平臺中的#抑郁癥#超級話題將許多抑郁癥患者聚集在一起,從中篩選符合要求的發帖用戶較為高效,具體步驟如下:①選取微博發布數量在100 條以上的用戶;②進入用戶首頁觀察其發帖習慣及正文內容,確定該用戶是否為抑郁癥患者;③優先選取在抑郁癥超話發帖量較多的用戶,審查網頁信息獲取用戶id。經過篩選,最終選取樣本總人數52 人,男女比例為9∶43,其中公開顯示年齡的有22人,16人在18-25歲區間,4人在25-30歲區間,2人在30-35 歲區間。用戶個人信息在一定程度上反映出女性、高中生、大學生3個群體患抑郁癥的比例更高。

2.2 數據獲取與預處理

2.2.1 數據獲取

目前,獲取數據的主要途徑為網絡爬蟲,通過執行被設定好的要求自動獲取網頁數據程序或腳本,該技術在互聯網搜索及數據分析領域被廣泛使用[16]。

圖1 為數據抓取流程。對于爬取微博數據這一任務而言,微博手機端比網頁結構更易于獲取URL 地址,然后使用擁有多種解析庫的BeautifulSoup 庫對網頁進行解析。為簡化獲取的網頁數據,方便后續文本數據分析,通過正則表達式檢索并替換掉無用文本,然后將數據存儲為CSV文件格式。

Fig.1 Data capturing process圖1 數據抓取流程

使用爬蟲技術選取每個用戶從2018 年發布至今的原創微博數據,共獲得微博7 750 條。原創微博中仍然存在一些與本文主題無關的微博信息,如新年讓紅包飛活動、過年抽福卡活動、明星打榜活動、投票內容以及其他平臺的分享鏈接等,并不能反映抑郁癥患者特征,因此對相關微博正文內容進行刪除。數據清洗后最終獲取有效微博4 979條,表1為某樣本用戶的部分微博內容展示。

Table 1 Partial Weibo content display of a sample user表1 某樣本用戶的部分微博內容展示

2.2.2 數據預處理

由于每個用戶的微博文本表述存在個人風格差異,在進行數據分析前首先要對最終獲取到的微博正文內容進行清洗與預處理,具體操作如下:①首先去除英文、數字及關鍵詞“抑郁癥”;②采用Python 語言中的jieba 分詞算法將長語句分為單個詞語;③刪除標點符號;④刪除停用詞,如語氣助詞(啊、呀、了、么等),副詞(極其、十分、非常等),介詞(的、地等),連接詞(雖然、因為、即使等)之類自身無明確意義的詞匯;⑤對固有名詞進行統一定義,從而構建研究所用的自定義詞群表。例如將“爸”“媽”“母親”“父親”等替換為“父母”;將“曲唑酮”等抗抑郁藥替換為“藥物”;將“醫院”“門診”等替換為“醫院”;將“林俊杰”等明星名字替換為“偶像”。

2.3 文本語義挖掘

2.3.1 高詞頻分析

某個詞語出現的頻率越高,表示用戶越受其影響。因此,本文基于已經清洗和預處理過的CSV 文件,在Python中調用分詞和詞頻分析功能,將出現頻率排名前50 位的特征詞從高到低按照字體大小顯示,結果見圖2。

Fig.2 Word frequency statistics圖2 詞頻統計

可以看出,出現頻次最高的詞匯依次為“感情”“藥物”“父母”“吃”“感覺”“世界”“希望”“偶像”“睡”“死”等,其中“感情”一詞的出現頻率多達653 次,體現了抑郁癥患者情緒易波動的特點;“父母”一詞的高頻出現反映其是抑郁癥患者十分關注的對象;“藥物”“吃”“睡”“死”的高頻出現體現了抑郁癥患者吃藥、暴食、嗜睡、有自殺傾向的日常行為特征;“感覺”“世界”的高頻出現體現抑郁癥患者對人生哲學的思考;“希望”的高頻出現反映出抑郁癥患者對恢復健康、回歸正常生活的向往。

2.3.2 主題模型分析

為提高文本特征詞的準確性,本文采用LDA 主題模型以無監督學習的方式對抑郁癥患者微博文本的隱含語義結構進行聚類統計。LDA 主題模型認為文檔由主題構成,而主題由詞項構成,其目標為得到文檔中主題的分布概率以及主題中詞項的分布概率。使用經驗設定法確定主題數K=5,α=10,β=0.01,模型構建完成后采用LDAvis 可視化包進行如圖3所示的可視化展示[17]。

Fig.3 LDA model visualization圖3 LDA模型可視化

圖3 中左側聚類形成的各個主題范圍圓圈較分散,沒有重合的地方,表明此次聚類的結果較顯著,可信度較高;右側則顯示了構成某一主題的高頻詞合集,具體映射如表2 所示。根據主題高頻詞的主要表達內容其將分為人生思考、生活狀態、抑郁癥治療、正面情感表達和負面情感宣泄5 類,與前文高詞頻分析結果基本一致,其中正負向情感的表達仍需進一步研究。

Table 2 LDA model theme-word specific mapping表2 LDA模型主題—詞具體映射

3 抑郁癥患者情感分析

3.1 情感詞典構建

中文情感詞匯本體庫中的詞匯共分為7 大類21 小類,從詞語詞性、情感類別、情感強度及極性等多角度對情感詞匯進行了描述,詞匯格式如表3所示。

Table 3 Format of emotional vocabulary表3 情感詞匯格式

在該詞匯庫中補充具有微博文本特征的情感詞語,構成本文所需情感辭典,以提高對微博平臺文本情感分析的精確度。將“樂”“好”歸為積極情感傾向,將“怒”“哀”“懼”“惡”“驚”歸為消極情感傾向,具體情感詞匯分類如表4所示。

Table 4 Classification of emotional vocabulary表4 情感詞匯分類

3.2 情感分析流程

情感分析流程見圖4,具體步驟為:①將情感詞典中的詞匯按照類別整理成列表形式;②將經過分詞處理的微博詞語與情感詞匯進行匹配,定位情感詞;③載入否定詞,對情感詞前有否定詞或雙層否定詞的詞匯進行修正;④確認情感類別所屬并計算每條微博的情感程度。

Fig.4 Emotional analysis process圖4 情感分析流程

3.3 情感分析結果

3.3.1 情感詞頻

為直觀了解微博平臺抑郁癥患者的情感傾向,分別對積極、消極傾向的情感詞匯進行詞頻統計,以詞云圖的形式展示,結果見圖5。圖中展示了抑郁癥人群常用于表達積極、消極的40 個情感詞匯,字體越大表示提及次數越多。

Fig.5 Vocabulary frequency of positive and negative emotions圖5 積極、消極情感詞匯詞頻

對積極情感詞匯進行深入分析,發現“希望”“喜歡”“快樂”“朋友”“堅持”等詞匯出現頻率較高,反映了抑郁癥患者對美好生活的向往。社會普遍對抑郁癥患者存在偏見,認為他們是危險人群,但通過情感分析發現他們的精神世界并不全是抑郁灰暗的,也有許多積極信念的支撐,其無時無刻不處于努力自救的狀態,也非常渴望被親人或朋友救贖。因此,適當的情感關懷是治療抑郁癥的有效方法之一。

對負向情感詞匯進行深入分析,發現“難受”“討厭”“痛苦”“害怕”“抑郁”等詞匯的出現頻率較高,反映出抑郁癥患者情緒不穩定,時常處于低落狀態。現代生活節奏較快,學業、工作、感情等多方面壓力導致人們經常會有焦慮、悲傷等負面情緒,如不能及時有效調節疏導,可能會導致或加重抑郁癥,這在微博平臺中體現為用戶對消極情感詞匯的頻繁使用。

3.3.2 基于時間序列的情感變化

以中文情感詞匯本體庫中情感詞的強度得分為依據,基于時間序列對抑郁癥患者的情感強度變化進行分析,結果見圖6。其中,橫坐標表示一天中的24 h,縱坐標表示平每位抑郁癥患者發布的微博文本中所有情感詞匯的平均傾向程度,黑色折線表示一天中患者表達消極情感程度的變化趨勢,灰色折線表示一天中患者表達積極情感程度的變化趨勢。

Fig.6 Emotional intensity changes based on time series圖6 基于時間序列的情感強度變化

可以看出,在同一時間區間內抑郁癥患者的消極情感表達一直強于積極情感表達,且兩種情感表達強度變化趨勢基本一致。抑郁癥患者在夜晚21 點到凌晨1 點期間的消極情感詞匯表達程度顯著增加,并在24 點左右達到一天中的高峰值,強度達白天消極情緒表達的6 倍以上。本應屬于正常人群休息和睡眠的時間卻成為抑郁癥患者爆發式宣泄消極情緒的時刻,嚴重影響其日常生活質量和工作學習效率。

3.3.3 消極情緒強度占比

為深入了解抑郁癥患者的消極情緒表達情況,選擇類別和程度兩個指標進一步全面分析。以情感詞強度得分為依據,對文本數據進行怒、惡、驚、懼、哀五大類消極情緒的細致分析,并以雷達圖呈現,結果見圖7。

Fig.7 Proportion of intensity of five types of negative emotions圖7 5類消極情緒強度占比

可以看出,微博平臺抑郁癥患者的5 類消極情緒強度有所差異,強度最高的為“惡”,代表性詞匯為難受、討厭、抑郁、惡心、焦慮等,其次為“哀”,代表性詞匯為難過、痛苦、對不起、傷害、孤獨等;再次為“懼”,“怒”和“驚”則較少出現。“惡”“哀”“懼”3 種主要消極情緒的具體高頻詞匯及其頻次如表5 所示。情感分析結果提示抑郁癥患者通常持有悲觀的人生態度以及消沉的情感取向。

Table 5 Three main high-frequency vocabulary and frequency of negative emotions表5 3種主要消極情緒高頻詞匯及其頻次

4 微博平臺抑郁癥患者主要特征

輕度抑郁癥主要表現為情緒低落、經常性失眠、食欲下降,嚴重時會有自我傷害甚至自殺傾向。因此,在網絡社交平臺中,抑郁癥患者的言語、行為、認知等模式與正常人群有明顯差異,且包含除臨床癥狀之外的其他信息。因此,本文根據微博文本數據挖掘與情感分析結果,從4 個維度總結提煉出社交平臺中抑郁癥患者的主要特征,以期提高該類人群的識別準確度,具體特征如圖8所示。

Fig.8 Main characteristics of depression patients on Weibo platform圖8 微博平臺抑郁癥患者主要特征

4.1 平臺形象特征

從性別角度來看,女性抑郁癥患者人數多于男性,這與女性普遍更加關注情感狀態相符合;從年齡角度來看,年齡在18-25 歲的抑郁癥患者居多,即高中生、大學生兩個群體患抑郁癥的比例更高,符合原生家庭是抑郁癥主要誘發因素之一的認知;從發博時間來看,抑郁癥患者更傾向于在夜晚宣泄負面情緒,與患者經常失眠的癥狀相符合。

4.2 認知特征

抑郁癥患者情緒長期低落,內心極度缺乏自信和安全感,害怕真實的自己會被別人笑話或傷害,不敢向別人表達自己內心的真實想法和感受,有回避正常社交的情況存在,因此具有隱匿性的微博平臺成為他們的傾訴途徑。LDA 模型聚類的第一個主題“人生思考”和高頻詞匯“無聊”“世界”“生活”“意義”等反映了該群體對真實世界的感受。此外,微博平臺中抑郁癥患者的自我價值感較低,在認知方面常常自我否定,嚴重者會表達出自殺傾向。患者往往從事日常活動便已十分困難,更不要說完成復雜工作,因此經常自覺能力低下,處處不如他人。本文抓取的“累”“活著”“死”等高頻詞匯充分體現了抑郁癥患者容易缺乏自信,對自我持有消極態度,并時常出現輕生念頭。

4.3 行為特征

本文數據顯示絕大多數抑郁癥患者存在睡眠障礙,并伴隨暴食行為特征。入睡困難主要表現為患者入睡前思緒繁雜、輾轉反側,同時會有悲觀、消極的念頭,導致睡眠質量非常差。“睡”“晚安”“睡不著”“夢”“晚上”“安眠藥”這些高頻詞匯體現出抑郁癥患者睡眠障礙的行為特征。少部分抑郁癥患者會出現暴飲暴食現象,這與微博文本中反復提及的“吃”字相呼應。短時間內大量強迫性進食的行為會增加人體攝入的脂肪量,導致神經中樞陷入休眠狀態,進而加重抑郁癥。

抑郁癥患者的生活不盡如意,但并沒有放棄尋求治療的機會。LDA 模型聚類的第5 個主題和“藥物”“醫生”“醫院”等高頻詞表明看醫生吃藥是他們日常生活經常做的事情,其中“藥物”一詞被提及358 次。此外,“朋友”“走”“音樂”等詞在微博文本中被高頻提及,可以看出抑郁癥患者也會向朋友傾訴煩惱、無聊時外出散步、煩心時聽聽音樂,以平復心情、舒緩不穩定的情緒。

4.4 情感特征

抑郁癥患者的情緒波動較大且常處于悲觀消極的狀態,詞匯提及率第一的“感情”及消極情緒“惡”“哀”“懼”等高頻詞匯證實了這一情感特征。根據對微博平臺抑郁癥患者的情感分析可知,消極情緒中“惡”類的最高頻詞匯為“難受”,“哀”類中除與“難受”相接近的“難過”外,“痛苦”一詞的出現頻率也很高。這兩類情緒即微博平臺抑郁癥患者的主要情感特征。

5 結語

本文基于微博平臺真實數據,采用數據挖掘和情感分析方法從4 個維度總結提煉了抑郁癥患者的主要特征,為社交平臺中抑郁癥人群的識別提供了參考依據。今后擬從以下兩個方面繼續開展研究:①針對沒有抑郁傾向與有抑郁傾向兩種人群的社交媒體平臺信息進行分析,比較其語言、行為特征,提取形成對照表,利用深度學習算法訓練抑郁癥患者識別模型。該模型可通過導入社交媒體平臺數據與抑郁癥患者數據進行對比,進而得到相似度,通過相似度判斷該用戶是否患有抑郁癥及其程度。該方法可幫助尋找潛在的抑郁癥患者,對不愿就醫、無法就醫的抑郁癥患者提供醫療幫助;②傳統的抑郁癥自測量表存在一定局限性,由社交平臺挖掘出的抑郁癥患者新特征可為量表的全面性和科學性進行補充和完善。

猜你喜歡
詞匯特征文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
如何表達“特征”
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 午夜福利无码一区二区| 18黑白丝水手服自慰喷水网站| 亚洲天堂视频在线免费观看| 一本色道久久88| 久久婷婷色综合老司机| 久久精品无码一区二区国产区| 国产99视频在线| 日韩精品中文字幕一区三区| 欧美精品1区2区| 中美日韩在线网免费毛片视频| 婷婷午夜天| www.亚洲色图.com| 成人一级免费视频| 亚洲 欧美 中文 AⅤ在线视频| 波多野结衣一区二区三区AV| 精品一区二区无码av| 成人午夜网址| 热99re99首页精品亚洲五月天| 亚洲中文字幕手机在线第一页| 亚洲天堂网站在线| 欧美精品一区在线看| 婷婷丁香在线观看| 欧美一区二区人人喊爽| 国产精品偷伦在线观看| 国产一区二区三区免费观看| 免费人成视网站在线不卡| 欧美精品v| 国产精品人成在线播放| 中文字幕自拍偷拍| 国产91精品久久| 色视频国产| 99精品伊人久久久大香线蕉 | 欧美午夜在线视频| 午夜老司机永久免费看片| 国产精品久久久免费视频| 国产一二三区在线| 亚洲Av综合日韩精品久久久| 伊人久久青草青青综合| 成人第一页| 日韩在线视频网站| 亚洲精品无码AV电影在线播放| 黄色网页在线观看| 久久国产精品国产自线拍| 亚洲色图在线观看| 亚洲一区波多野结衣二区三区| 97se亚洲综合| 午夜精品国产自在| 久久亚洲国产视频| 久久免费观看视频| 呦视频在线一区二区三区| 72种姿势欧美久久久久大黄蕉| 欧美精品xx| 91福利一区二区三区| 日本91视频| 丁香五月亚洲综合在线 | 色婷婷电影网| 美女一区二区在线观看| 成人无码一区二区三区视频在线观看| 99无码中文字幕视频| 高h视频在线| 日韩国产亚洲一区二区在线观看| 成人国产精品一级毛片天堂| 国产乱人乱偷精品视频a人人澡 | 国产福利免费观看| 成人年鲁鲁在线观看视频| 欧美日韩国产在线观看一区二区三区| 在线无码九区| 国产亚洲欧美在线中文bt天堂 | 亚洲欧美不卡中文字幕| 57pao国产成视频免费播放| 免费一级大毛片a一观看不卡| 国产高潮流白浆视频| 国产第四页| 黄色网站在线观看无码| 美女一级免费毛片| 中文字幕一区二区人妻电影| 黄色国产在线| 婷婷色一二三区波多野衣| 日本免费高清一区| 国内a级毛片| 久草视频中文| 九九香蕉视频|