李堅孝 吳家隱 李云錦 范振鍔 謝永輝

摘要:本文利用基于機器學習進行批量處理數(shù)據(jù),對心理患者的情感表達文本數(shù)據(jù)進行大量的訓練,并利用訓練好的機器學習模型對心理疾病的數(shù)據(jù)進行心理情感分析,最后得出了用戶的心理健康變化情況并對用戶進行實時預警。本文實現(xiàn)了一對多跟蹤患者的病情發(fā)展,實時分析患者心理健康狀態(tài),解決心理醫(yī)生數(shù)量匱乏的問題。
[關鍵詞]機器學習語義分析心理健康情感分析
1引言
隨著互聯(lián)網的發(fā)展,終端設備越來越越受到人們的喜歡,每一個人都通過輸入法進行文本的輸出,越來越多的人在通過萬維網進行檢索自己對世界的未知,通過了解萬維網知道我們需要的信息,Web3.0的來臨數(shù)據(jù)信息量的大幅度增長,信息存在著人們的情感,人對實物具有情感表達,輸入法和網頁瀏覽承載著人們的情感表達。在國內,心理健康醫(yī)療資源匱乏,心理醫(yī)生人數(shù)較少,難以面向海量的患者,而傳統(tǒng)的心里咨詢問診的方式下,心理醫(yī)生能夠接待的患者人數(shù)非常有限,很難實現(xiàn)大規(guī)模的病人管理。
由于無法實時監(jiān)控和分析患者的心理情況,使很多心理患者存在不知道自身的心理情況。因此,亟需一款能夠及時進行心理狀態(tài)的實時跟蹤、評級及預警的心理健康系統(tǒng)。
本文研究的是如何提高心理醫(yī)生的工作效率和實時跟蹤預警患者的心理情況。改變傳統(tǒng)的問診咨詢模式轉為一對多的實時跟蹤預警問診模式。
2機器學習處理情感分析
樸素貝斯算法為文本研究實驗的算法,是因為它具有非常高的穩(wěn)定性、易于實現(xiàn)、出錯率很低、邏輯比較簡單、對資源占用開銷小、很強的理論性。機器學習依賴于語料,本文所研究的語料分為兩類,即積極文本語料和消極文本語料,用機器學習方法進行處理和訓練這兩類數(shù)據(jù)。通過機器學習的情感分析對文本分析出[0,1]區(qū)間的概率,[0-0.5]的概率視為消極文本數(shù)據(jù),[0.5-1]的概率視為積極文本數(shù)據(jù)。
本文使用Python進行自然語言處理,包括英文文本情感分析NaturalLanguageToolkit(NLTK),和中文文本情感分析SnowNLP。SnowNLP是用于處理中文文本情感分析的python類庫,是自然語言處理基于機器學習對文本數(shù)據(jù)分析的一種高效率、準確的情感分析。
3系統(tǒng)設計
系統(tǒng)主要包括:客戶端、服務端、醫(yī)生端、家屬端。
客戶端主要作用采集用戶文本數(shù)據(jù)和基本客戶端技術,經過數(shù)據(jù)采集、網頁記錄爬蟲、API映射。
服務端為客戶端、醫(yī)生端及家屬端提供Web后端、數(shù)據(jù)庫及心理健康評級預警的業(yè)務邏輯。服務端的主要實現(xiàn)的業(yè)務邏輯主要包括情感分析和健康評級,情感分析通過語義分析的手段,文本分類主要是由機器學習進行監(jiān)督學習,構建具有人工標注的語料庫實現(xiàn)。
醫(yī)生端主要顯示與該醫(yī)生綁定的用戶的狀態(tài),在用戶心理健康水平較差時發(fā)出預警,以由醫(yī)生及時心理干預。
家屬端針對患者當前心理健康狀況,推送相關的輔助治療信息,使得患者家屬具備科學的心理干預知識,以便進行家庭治療。
4實驗結果與分析
本實驗研究的是心理健康預警系統(tǒng),預警的目的主要是實現(xiàn)醫(yī)生的快速干預和輔助意思是治療,實驗數(shù)據(jù)主要通過分析心理疾病病人的日常表現(xiàn)和文字表述。系統(tǒng)的服務端主要采用python語言開發(fā),實驗數(shù)據(jù)的形式基于分割成句子的形式來做測試數(shù)據(jù)和基于文本的形式來做測試數(shù)據(jù)。在實驗之前需要進行機器學習模型訓練,實驗的語料庫主要有兩種數(shù)據(jù),積極文本數(shù)據(jù)和消極文本數(shù)據(jù)。
實驗評估指標:本實驗采用文本統(tǒng)計的平均值來評估一個用戶在心理健康評級的等級,等級分為差,中,好。在系統(tǒng)測試用戶的數(shù)據(jù)中,依據(jù)上述所說的概率值大于0.5的視為積極語句,概率小于0.5的視為消極語句。本實驗采用多次數(shù)據(jù)測試減少誤差。
采用評估函數(shù)進行評定用戶的心理健康評級,例如一個用戶的測試數(shù)據(jù)采用公式進行統(tǒng)計。一個用戶測試數(shù)據(jù)有10個語句,分別
統(tǒng)計積極語句文本的數(shù)量和消極數(shù)據(jù)的數(shù)量。計算消極率公式:
m表示消極文本的數(shù)量,M表示文本的總數(shù)量。
K表示積極文本的數(shù)量,M表示文本的總數(shù)量。
p表示消極率,Mp表示文本數(shù)量率的總數(shù)
(1)平均健康率在1%-30%被評為心理健康差的等級
(2)平均健康率在31%-80%被評為心理建康中的等級
(3)平均健康率在81%-100%被評為心理健康好的等級
在預警周期內,預警閾值設置為30%,即如果平均健康率低于30%,將發(fā)出預警報告,通知醫(yī)生端進行心理健康干預和治療。
5結束語
本文研究了互聯(lián)網+機器學習的心理健康預警系統(tǒng),該系統(tǒng)包括客戶端、服務端、醫(yī)生端、家屬端。通過客戶端進行數(shù)據(jù)采集,由服務端進行語義分析與健康評級,并將數(shù)據(jù)反饋給心理醫(yī)生和家屬端。本文為醫(yī)生監(jiān)測心理疾病患者心理健康狀況提供了一種新的思路。
參考文獻
[1]楊佳能。基于語義分析的中文微博情感分類研究[D].廣東外語外貿大學,2014.
[2]郭勛誠。樸素貝葉斯分類算法應用研究[J].通訊世界,2019,26(01):241-242.