李堅孝,吳家隱*,莫秋燕,洪燦強,李先緒
(1.廣東郵電職業技術學院計算機學院,廣州 510630;2.凱里學院大數據工程學院,凱里 556011;3.中國電信股份有限公司廣州研究院,廣州 510630)
近年來由于經濟迅速增長,生活節奏加快等原因,抑郁癥患者每年大約同比增加57%,增長速度非常快。抑郁癥嚴重危害患者身心健康。傳統的心理健康診斷方法主要是通過患者到心理醫院問診。而實際上許多患者不會主動就醫,因此容易延誤病情。對于心理健康狀態欠佳的人員,家庭輔助治療尤為缺失。精神病人大部分康復生活是在家庭中渡過的,家庭照料可鞏固治療效果,防止疾病復發,然而一般家庭對于抑郁癥患者的心理健康水平難以做出專業判斷,而且也不具備專業知識來根據抑郁癥患者的心理健康水平來進行輔助治療。
目前,現有的心理服務平臺有Q心理、壹心理、心理醫生等產品,主要包括線上咨詢、線下咨詢預約、知識科普等功能[1]。然而,現有產品存在如下不足:
(1)跟蹤治療不夠到位,主要依靠患者的耐心和主動性,沒能實現真正的實時跟蹤管理。
(2)無法根據患者當前的心理狀態給予家屬針對性的心理健康干預知識引導。
(3)由于主要是一對一咨詢的方式解決心理問題的發現及診斷,即使使用了互聯網手段,仍然未能解決心理醫生人數匱乏的問題。
本文對于現有的情感分析主要面向于短文本情感分析,由于在長文本的數據中準確率難以達到理想的狀態,所以基于機器學習的TF-IDF的長文本情感分析能提高處理長文本的數據的準確率。
客戶端技術,機器學習和語義分析采取分布式處理,其嵌入客戶端,由用戶本地資源進行對數據情感分析,客戶端含有比較理想的語料庫、機器學習模型、語義分析、文本相似度TF-IDF模型,由用戶本地資源獨立處理后并評分,傳輸到服務端進行醫生的干預和處理,很好避免了用戶隱私的問題、服務端達到負載均衡的最低值、利用現有的安卓手機的過剩、服務端的流量大大減少。
后端技術,接入層:負責終端APP與服務器建立連接,業務邏輯層:實現各種業務需求的功能,利用PHP開發。存儲層:保存業務數據,利用MySQL數據庫進行存儲。
服務端技術,由客戶端對網頁采集進行長文本數據采集,經過服務端的TF-IDF和機器學習計算出來結果,相似度計算處理長文本起非常大的作用,由于自然語言處理無法完成相似度計算,本文把文本進行向量化,利用歐式距離、余弦相似度的數學模型實現文本相似度計算。本文的相似度計算采用TF-IDF模型,利用統計的一種方法實現文本相似度計算,TF-IDE使用向量空間余弦距離計算特征空間測度。TF-IDF模型關鍵作用在于詞頻和逆向文本頻率實現相似度,由于在原始文本數據里面存在大量的垃圾數據,該模型通過過濾常見的一些不是主謂賓的詞語,在分詞的步驟下保留了重要的詞語,通過了向量空間TF-IDF權重計算歐式距離、余弦相似度測試多個文本之間的距離從而計算它們自己的詞頻率,在一篇文本中,計算文本的每一維度所對應的詞組或者詞,一個詞組假如出現在文本數據里面,那么該詞組在文本數據里面定義為非零狀態。TF-IDF計算的公式:TF-IDF=詞頻X擬文檔頻率,公式的理解:測試文本數據的單詞在該文本當中出現的頻率很高而且在其他的測試文本中出現很少,就認為該單詞數據能夠區分文本之間的差異性。文本利用TF-IDF進行情感的輔助性分析,主要是給多個文本進行同步的相似度計算從而知道一個用戶的所以文本數據的情感值。
文獻[2]改進了TF-IDF算法,提高了文本分析的效率和性能,算法流程實現:
(1)對原文本進行預處理
(2)對文本進行分詞,詞性標注
(3)計算文本的特定詞頻
(4)使用特征方法提取重要的文字
(5)使用特征權重算法對TF-IDF進行詞頻轉換。
(6)完成對文本的向量化表達
(7)用訓練好的模型分類器和語料庫進行結果的計算形成分類。
本文研究了基于相似度的心理預警技術研究,本文包括客戶端采取分布式機器學習模型,機器學習和語義分析采取分布式處理,其嵌入客戶端,由用戶本地資源進行對數據情感分析,客戶端含有比較理想的語料庫、機器學習模型、語義分析、文本相似度TF-IDF模型,實驗采取機器學習的TF-IDF實現長文本數據情感分析。由于心理疾病的預防和醫生的快速干預成為現在我們關心得主題,但是用戶存在擔心隱私的問題。本文很好解決了用戶的隱私問題。