999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

心理健康狀態(tài)的情感分類與預測研究

2025-03-02 00:00:00劉青趙姝琪康宇文海洋
電腦知識與技術 2025年1期
關鍵詞:機器學習心理健康

摘要:心理健康問題是當今社會廣泛關注的熱點話題,隨著人工智能的不斷發(fā)展,機器學習技術為心理健康狀態(tài)的檢測提供了新的手段。該研究基于Kaggle平臺的心理健康數據集,開展情感分類研究,分別采用樸素貝葉斯、隨機森林、邏輯回歸和神經網絡算法構建了4種多分類模型。結果表明,隨機森林模型的分類正確率最高,達到89.86%,神經網絡次之,為88.90%。同時,通過比較4種模型在各個類別下的查準率、查全率和F1值發(fā)現(xiàn),隨機森林作為一種集成學習方法,在各類評價指標中均表現(xiàn)突出,在三個類別中的F1值分別為0.94、0.87和0.88。通過構建分類模型,有助于識別和分析心理健康相關的情感狀態(tài),為心理健康的早期預防和發(fā)現(xiàn)提供有效支持。

關鍵詞:心理健康;情感分類;機器學習

中圖分類號:C913.9 文獻標識碼:A

文章編號:1009-3044(2025)01-0019-04 開放科學(資源服務) 標識碼(OSID) :

0 引言

據世界衛(wèi)生組織(WHO) 統(tǒng)計,全球約有10億人受到精神障礙的困擾,且每40秒就有一人因自殺失去生命[1]。因此,重視心理健康的早期預防和干預顯得尤為重要。在心理健康領域,傳統(tǒng)的評估方法往往依賴于臨床訪談和問卷調查,雖然有效,但由于時間成本和主觀因素的影響,常常難以全面捕捉個體的心理狀態(tài)。近年來,科技的迅猛發(fā)展,尤其是機器學習和文本挖掘技術的進步,使得分析個體言論中所蘊含的情感狀態(tài)成為可能。特別是在社交媒體和在線交流日益普及的背景下,用戶的言論和情感表達成為研究的寶貴數據源。通過對這些數據的挖掘和分析,不僅可以及時發(fā)現(xiàn)心理健康問題,還能有效追蹤其發(fā)展趨勢,為專業(yè)人士提供重要的參考。

本文旨在構建一個有效的多分類模型,利用多種機器學習算法分析個體的心理健康狀態(tài),通過對不同模型性能的比較和分析,實現(xiàn)準確的識別和分類。本研究采用樸素貝葉斯、隨機森林、邏輯回歸以及神經網絡等多種算法,分析其在分類任務中的表現(xiàn),為心理健康檢測提供有效方法和重要參考依據。這一研究不僅有助于豐富該領域的技術應用,還能夠為后續(xù)的干預和治療方案制定提供科學依據,從而推動心理健康事業(yè)的發(fā)展。

1 數據處理與分析

本研究的數據選自Kaggle平臺的心理健康狀態(tài)的部分數據集,該數據集包含個人評論和類別標簽兩部分。本文選擇了具有代表性的三個類別“( Normal(0) 、Depression(1) 、Suicidal(2) ”) 的數據進行后續(xù)建模,部分數據內容如表1所示,包括評論(Statement) 及對應的類別標簽(Status) 。

對數據進行預處理,進行了如下操作,以確保文本的規(guī)范化,減少噪聲,提高后續(xù)模型的準確性。首先,文本中英文的大小寫差異通常不會影響詞語的實際含義,但會被模型視為不同的詞匯,因此將所有英文字母轉為小寫;其次,數字和標點符號在文本處理任務中并不提供直接的語義信息,為了簡化數據,刪除所有文本中的數字和標點符號;由于英文中的部分詞匯,如with、at、of等詞在文本語義中沒有實際含義,且出現(xiàn)的頻率較高,這些詞匯被稱為“停用詞”,為了提高文本的分類效率,本研究采用NLTK庫中的英文停用詞表來去除這些停用詞。

此外,由于三個類別“Normal(0) 、Depression(1) 、Suicidal(2) ”的樣本數分別為16 351、15 404和10 653,數據類別存在分布不均衡問題,為了避免模型偏向于某個類別,故對數據集進行了重采樣。采用上采樣的方式,隨機復制增加少數類別的樣本,使其數量增加到與多數類別樣本相同的數目。通過使用sklearn.utils.resample函數,對少數類樣本進行了上采樣,最終每個類別的樣本數均為16 343 個。訓練集包含36 771個樣本,約占總樣本數的75%,測試集樣本數為12 258個,通過這一處理,有助于提升模型的泛化能力,減少因類別不均衡而導致的預測偏差。

詞云圖是一個常用的文本數據可視化工具,將文本信息以圖形化形式展現(xiàn),使得復雜的文本數據能夠被更為直觀地理解。本研究分別繪制了三個類別的詞云圖,如圖1所示,從圖中可以看出,不同類別的詞云圖存在明顯的差異。對于Normal這一類別,包含了大量與日常生活相關的詞匯,如work、love等,而De?pression這一類別則多出現(xiàn)help、depression等相對消極、困擾的詞匯,Suicide則出現(xiàn)die、kill等更加極端的詞匯。通過詞云圖,不同類別文本的核心詞匯得以直觀呈現(xiàn),為后續(xù)的文本分類提供了重要的參考信息。

采用TF-IDF對預處理后的數據進行特征處理,該算法基本思想是通過某個詞的詞頻和出現(xiàn)過的文檔頻來衡量一個詞在文檔中的權重,其計算方式如下:

式中:nd,w 表示詞w 在文檔d 中出現(xiàn)的次數,Σwnd,w表示文檔 d 中出現(xiàn)的總詞數,| D|表示文檔總數,| w ∈ d |表示包含詞w的文檔數。

2 算法簡介

本文使用樸素貝葉斯、隨機森林、多分類的邏輯回歸以及神經網絡4種算法分別對心理健康狀態(tài)進行分類,下面對這4種算法進行簡要介紹。

2.1 樸素貝葉斯

樸素貝葉斯分類算法是一種基于貝葉斯定理的監(jiān)督學習算法,所謂“樸素”,是假設了樣本的每個特征之間相互獨立[2]。設每個樣本都是由m 維特征構成的向量,共有k 個類別c1 ,c2 ,...,ck,對于任意樣本x =(x1 ,x2 ,...,xm ),求解出最大后驗概率所對應的類別。根據貝葉斯公式和獨立性假設,后驗概率公式如下:

count (xj,ci )是類別為i且包含特征xj的文檔數。

2.2 隨機森林

隨機森林是采用并行的方式,通過組合多個決策樹,集成一個強學習器的模型[3],作為一種典型的Bag?ging算法,為了保證各棵樹之間的獨立性,隨機森林通常采用了隨機的有放回的抽取樣本、隨機的選擇k個特征以及對選取的特征進行隨機分割的方式實現(xiàn)構建不同的決策樹。與決策樹相比,其結果不易過擬合。步驟如下:

1) 使用自助抽樣,從訓練集D 中抽取T 個大小為n的數據集Dt;

2) 對于不同的數據子集Dt,從m 個特征中隨機選擇k 個特征,使用決策樹模型學習得到一個弱學習器ht (x);

3) 對T 棵樹進行集成,得到最終的分類器:H(x) = vote ({h } ) t (x) Tt = 1 。

2.3 邏輯回歸

邏輯回歸是一種常用的二分類模型,通過引入激活函數來解決分類問題。設對于任意樣本x,其類別標簽取值為y ∈ { 0,1 },采用Sigmoid 函數作為激活函數,公式如下:

它將線性函數的值域R 映射到(0,1) 之間,標簽y = 1的概率為:

則標簽y = 0的概率為:

其負log似然損失函數為:

J (w)=-y ln(P( y=1| x))-(1-y )ln(1-P( y=1| x)) (9)

由于本文解決的任務是三分類問題,故將二分類的邏輯回歸推廣到多分類邏輯回歸。設共有k 個類別,分別為c1 ,c2 ,...,ck,采用Softmax函數預測屬于類別c 的概率,即:

引入類別y 的獨熱編碼向量為yc = I (y = c),則多分類模型的負log似然損失函數為:

2.4 神經網絡

神經網絡是當前最熱門的機器學習技術之一,其已廣泛應用于計算機視覺、自然語言處理等眾多領域[4]。前饋神經網絡(MLP、FNN)是最常見的一種網絡結構,分為輸入層、隱藏層和輸出層,通過逐層傳遞得到最終結果[5]。可將該過程視為一個非線性復合映射,首先將輸入樣本x 作為第一層的輸入a(0 ) = x,通過如下方式進行信息傳播:

z(l) = W (l) a(l - 1) + b(l) (12)

a(l) = f (z(l) ) (13)

式中:W (l) 表示第l 層的權重矩陣,b(l) 表示第l 層的偏置項,a(l) 作為第l 層的輸出,f 表示激活函數。下文將采用兩層隱藏層的神經網絡,每層有50個神經元,激活函數為ReLU函數,以實現(xiàn)心理健康狀態(tài)的多分類任務。

3 實驗結果

本研究采用多項式樸素貝葉斯(MNB) 、隨機森林(RF) 、多分類邏輯回歸(LR) 以及神經網絡(MLP) 構建了4 種模型,其正確率分別為78.85%、89.86%、84.68% 和88.80%。對于多項式樸素貝葉斯,盡管該算法計算效率較高,但其性能會受到特征獨立性假設的限制,因此在處理復雜的文本數據時,往往無法捕捉到更深層次的特征關系,導致其正確率較低。邏輯回歸雖然其結果優(yōu)于多項式樸素貝葉斯,但在處理非線性問題時表現(xiàn)欠佳。神經網絡具備強大的非線性建模能力,其分類正確率較高,但在超參數調整和訓練過程中存在過擬合的風險,在本次實驗中其表現(xiàn)略遜于隨機森林。隨機森林作為一種集成學習方法,能夠自動處理特征之間的非線性關系,因此在分類任務中表現(xiàn)出色,并且對異常值和噪聲具有較強的魯棒性,這使得其正確率最高,達到89.86%。

表2展示了4種模型在各個類別下的查準率、查全率和F1值。從結果可以看出,4種模型對第一個類別“( Normal”) 的分類效果最好,各模型在該類別上可能學習到了更充分的特征信息,具有較高的查準率和查全率;對于其他類別,各模型的表現(xiàn)則存在一定差異。隨機森林和神經網絡在多個類別上的F1值均較高,且優(yōu)于樸素貝葉斯和邏輯回歸,展現(xiàn)出良好的分類效果。

此外,本研究繪制了4種模型的ROC曲線圖,每幅圖展示了三個類別各自的ROC曲線以及基于宏平均的ROC曲線,同時計算了AUC值(ROC曲線下方的面積) 。ROC曲線越靠近左上角,表明模型效果越好,說明在不同的分類閾值下,模型具有良好的敏感性表現(xiàn)。通過分析可以發(fā)現(xiàn),隨機森林模型在單個類別及整體上均表現(xiàn)出較強的分類能力,其宏平均AUC值最高,達到0.98,這表明隨機森林能夠很好地區(qū)分各個類別。這得益于其集成學習的特點,使其在處理復雜特征時表現(xiàn)更為穩(wěn)健。神經網絡次之,其宏平均AUC 值為0.96,顯示出了神經網絡在處理文本復雜特征問題中的優(yōu)勢。樸素貝葉斯和邏輯回歸的宏平均AUC值均為0.95,在各個類別的識別能力上存在差異。

同時,在隨機森林模型中,本研究繪制了特征重要性柱狀圖,展示了對分類任務貢獻最大的前8個詞匯,依次為:depression、feel、cannot、die、life等。這些詞匯在模型分類過程中起到了關鍵作用,其重要性越高,對模型的預測結果影響越顯著。例如,depression 一詞明確指向負面的情感狀態(tài),在文本分類中,該詞匯的頻繁出現(xiàn)通常能反映個體的心理健康狀態(tài),因此在分類模型中被賦予較高的特征重要性;cannot表達了一種無力感,通常出現(xiàn)在描述失落感的句子中,是心理健康狀態(tài)的重要指示因素,模型通過這一特征可以有效識別出相關文本。這一結果與之前的詞云圖分析相近,進一步驗證了這些詞匯在區(qū)分不同心理健康狀態(tài)時的顯著作用,也為心理健康領域的研究提供了更有針對性的解決方案。

4 結束語

本研究針對心理健康狀態(tài)的數據開展情感分類研究。首先,通過數據預處理和特征提取對原始文本數據進行轉化,分別構建了樸素貝葉斯、隨機森林、邏輯回歸和神經網絡4種不同模型,并對分類效果進行比較分析。結果表明,隨機森林在整體分類性能上表現(xiàn)最佳,其正確率達到89.86%,神經網絡次之。同時,本研究比較了4種模型在不同類別的查全率、查準率、F1值以及AUC值等多項評價指標,其中隨機森林在各項指標中均表現(xiàn)突出。通過對個體言論的文本數據進行建模與分析,證實了個體的文本表達能夠有效反映其心理健康狀態(tài)。分析結果顯示,情感分類模型能夠識別出潛在的心理健康問題,有助于發(fā)現(xiàn)個體的情緒困擾和心理狀態(tài)變化。這種方法不僅提供了對個體心理健康的監(jiān)測手段,還能幫助相關專業(yè)人士制定針對性的干預措施,從而改善個體的心理健康狀況。本研究采用機器學習模型對文本數據進行了心理健康狀態(tài)的分類研究,后續(xù)研究可通過使用更復雜的深度學習模型追蹤情感變化的動態(tài)趨勢,進一步推動人工智能在心理健康領域中的應用。

參考文獻:

[1] 羅燕.從“心”出發(fā),讓社區(qū)居民更幸福[J].民生周刊,2023(16):52-53.

[2] 徐軍,丁宇新,王曉龍.使用機器學習方法進行新聞的情感自動分類[J].中文信息學報,2007,21(6):95-100.

[3] 王奕森,夏樹濤.集成學習之隨機森林算法綜述[J].信息通信技術,2018,12(1):49-55.

[4] 周志華.機器學習[M].北京:清華大學出版社,2016:22-23.

[5] 李舟軍,范宇,吳賢杰.面向自然語言處理的預訓練技術研究綜述[J].計算機科學,2020,47(3):162-173.

【通聯(lián)編輯:謝媛媛】

基金項目:2023 年湖南省教研教改項目“新工科”背景下基于崗位需求大數據分析的專業(yè)課程體系建設研(項目編號:HNJG-20230965) ;2021 年湖南省大學生創(chuàng)新訓練項目:一種新型智能化的班級管理解決方案(項目編號:S202111342051) ;2024年湖南工程學院大學生創(chuàng)新訓練項目:基于大數據分析的智能健康服務平臺的設計與研究(項目編號:湘教通〔2024〕118 號)

猜你喜歡
機器學習心理健康
心理健康
品牌研究(2022年9期)2022-04-06 02:41:56
心理健康
品牌研究(2022年8期)2022-03-23 06:49:06
心理健康
品牌研究(2022年6期)2022-03-23 05:25:50
心理健康
品牌研究(2022年1期)2022-03-18 02:01:10
心理健康
品牌研究(2022年2期)2022-03-14 08:49:56
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數據分析研究
機器學習理論在高中自主學習中的應用
主站蜘蛛池模板: 成人午夜在线播放| 国产一级在线播放| 最新国产精品第1页| 亚洲天堂网在线播放| 亚洲国产理论片在线播放| 欧美亚洲激情| 色婷婷色丁香| 久综合日韩| 91精品国产福利| 国产成人精品18| 免费高清毛片| 欧美精品亚洲精品日韩专区va| 99视频全部免费| 亚洲资源站av无码网址| 中文字幕在线不卡视频| 亚洲第一色网站| 99re这里只有国产中文精品国产精品 | 亚洲人网站| 国产精品自在自线免费观看| 狠狠色噜噜狠狠狠狠色综合久| 欧美一级大片在线观看| 伊人五月丁香综合AⅤ| 精品一区二区无码av| 91探花在线观看国产最新| 成色7777精品在线| 国产手机在线小视频免费观看| 91欧美在线| 亚洲一区二区视频在线观看| 成AV人片一区二区三区久久| 日韩中文字幕免费在线观看 | 91久久精品国产| 久久国产拍爱| 国产永久在线视频| 国产噜噜在线视频观看| 在线观看视频99| 久草青青在线视频| 爽爽影院十八禁在线观看| 国产亚洲欧美日韩在线一区二区三区| 亚洲精品人成网线在线 | 99国产精品国产| 日韩欧美中文亚洲高清在线| 99爱在线| 99热这里只有免费国产精品 | 91精品亚洲| 亚洲AⅤ波多系列中文字幕| 精品剧情v国产在线观看| 亚洲三级影院| 亚洲天堂网在线观看视频| 久久精品国产一区二区小说| 欧美色丁香| 99国产精品免费观看视频| 九月婷婷亚洲综合在线| 日a本亚洲中文在线观看| 国产精品女人呻吟在线观看| 日韩东京热无码人妻| 国产小视频网站| 国产欧美视频综合二区| www.亚洲国产| 国产日本一区二区三区| 国产美女人喷水在线观看| 欧美在线国产| 国产超碰在线观看| 久久福利片| 亚洲成年网站在线观看| 97视频精品全国在线观看| 成人一区在线| 亚洲AV无码精品无码久久蜜桃| 2021国产精品自拍| 67194在线午夜亚洲| 国产美女一级毛片| 亚洲无码一区在线观看| 久久国产精品电影| 精品久久久久无码| 国产精品视频久| 欧美另类第一页| 国产高颜值露脸在线观看| 国产视频一区二区在线观看| 99久久99视频| 一区二区无码在线视频| 99久久这里只精品麻豆| 午夜天堂视频| 国产系列在线|