秦波
(新疆工程學院,學生處,新疆,烏魯木齊 830000)
人類的健康包含身體健康和心理健康兩部分。心理健康表示一種可以適應所處環境,在自身認知、情緒行為、精神意識方面也能保持正常的調控能力[1-2]。人類身體健康水準持續提升、壽命延長的同時,心理健康問題日益嚴峻,引發社會廣泛關注。全方面收集心理健康數據、研判數據所呈現出的問題是目前心理學專家們研究的重要課題[3]。而有效保證采集數據的效率與安全則成了其中的重要環節。
文獻[4]使用雙決策樹方法實現結構化數據采集,生成一棵決策樹,利用其在數據源中篩選合適的采集點,再利用另外一棵決策樹評估采集點的質量,在質量最佳的采集點完成數據采樣。但該模型考慮的變量較少,導致采集結果精度不高。文獻[5]組建了實時采集數據模型,利用傳感器采集相關信號,然后通過Kalman濾波器消除采集過程中的環節噪聲,再通過零狀態補償算法消除采集誤差。該模型操作復雜,在真實場景中很難得到高效利用。
為此,本文設計了基于長短期記憶網絡的心理健康數據分布式采集模型。
心理健康數據具有一定階段性與長期性,在采集數據過程中,極易產生冗余數據,本文使用長短期記憶網絡實現冗余數據過濾,確保心理健康數據完整性與時效性。
長短期記憶網絡屬于循環神經網絡的特殊體現,因其獨有的循環架構,對時間序列擁有很強的學習能力,可以把時序內的冗余數據剔除并遺忘,降低冗余數據對心理健康數據的不良影響。反向傳播神經網絡是輸入層傳遞到隱含層最后抵達輸出層,各層級之間互相聯系,但節點之間無連接,不能得到序列當前時段輸出和上一階段數據間的耦合關聯。長短期記憶網絡利用自身內部的遺忘門、輸入門、輸出門及循環架構[6]能對前面數據實施選擇記憶同時運用于當前數據,也就是隱含層間的節點能夠互相連接。
圖1是長短期記憶網絡時序架構。其中,xt表示目前時段單元輸入,ct是目前時段單元記憶情況,能儲存長期記憶,ht是目前時段單元輸出。在長短期記憶網絡內,目前輸出值取決于上一時段狀態、輸出和目前輸入。

圖1 長短期記憶網絡時序架構示意圖
長短期記憶網絡詳細框架如圖2所示。其中,網絡利用遺忘門ft、輸入門it與輸出門ot操控每個時段信息的輸入,所以長短期記憶網絡對過往數據擁有優秀的選擇性[7],可妥善過濾冗余數據干擾。

圖2 長短期記憶網絡單元框架
遺忘門ft按照各個時段的輸入xt與上一時段的輸出ht-1明確上個時段的單元記憶狀態內的某些長期記憶是否要遺忘。將遺忘門ft的推導解析式記作:
ft=σ(Wf[ht-1,xt]+bf)
(1)
其中,ht-1表示上個時段心理健康數據特性,Wf表示遺忘門權重矩陣,bf表示遺忘門偏置,σ表示激活函數,將其進一步拓展為
(2)
倘若在t5時段輸入心理健康數據,遺忘門ft5內代表t4時段冗余數據特征的維度值約為0,并被消除于長期記憶狀態。去除冗余數據特征后,引入全新特征。輸入門it5按照x5與ht4決定何種信息引入長期記憶狀態內,并獲得全新形態ct5。將輸入門與新形態的推算過程分別描寫成:
it=σ(Wi[ht-1,xt]+bi)
(3)
(4)

(5)
輸入門在t5時段,剔除了t4時段對數據序列的影響,把全局振蕩形態特性保存于ct5內。長短期記憶網絡獲得全新的記憶狀態后,還要產生t5時段的輸出,也就是現階段序列的短期特征ht5。輸出門ot5按照新狀態、上個時段輸出與目前輸入來得到目前時段輸出[8],將其計算過程定義為
ot=σ(Wo[ht-1,xt]+bo)
ht=ot×tanh(ct)
(6)
心理健康數據序列分解重構時,需要訓練長短期記憶網絡。將網絡分為兩層,對雙層網絡內各個門的參變量進行持續優化,保持重構數據與初始數據處于相同狀態,從而使初始數據內的多數信息都作用在重構過程中,確保重構的精確性。將重構序列描述成:
(7)


(8)
依次設定以下函數最小值:
(9)
(10)

數據分布式采集模型使用C/S形式,其整體結構如圖3所示。

圖3 心理健康數據分布式采集模型結構
服務器端利用測點的基礎屬性,實現數據源測點和目標測點的映射,給客戶端提供需要的相關信息。為了方便管理與查找,測點屬性一般儲存于實時數據庫,客戶端只保存副本即可,無須采取手動修訂。若測點配置發生改變,服務器會第一時間推送修改信息于客戶端,并得到更新后的本地副本。
客戶端管理包含配置管理與實時情況管理。配置管理能實現快速的客戶端基礎信息融合,實時情況管理能測試現階段客戶端綁定的信息,獲得數據鏈路流量具體數值,評估客戶端運行模式與形態,并監測網絡通信情況,完成自主管理。在心理健康數據采集預處理過程中,服務器端利用標識字符串,梳理測點和客戶端間的邏輯關系。
1) 配置預先處理。配置預先處理是數據分布式采集的基礎。首先對數據進行雙重校準,去除心理健康數據源內不具備的點數據,防止服務器端和數據源測點類別不同致使采集數據不準確的問題。在預處理階段,挑選部分屬性值完成映射表重構,能增強搜索速率,降低數據包長度,讓傳輸質量得到質的提高。
2) 數據變換。從源數據庫讀取當前心理健康數據后,一般要按照測點配置進行3種數據變換。數值二次變換可以處理元數據的單位與基準值問題。一對多變換能解決單個源測點響應若干目標測點的狀況,利用變換過程維護數據采集完備性。
3) 數據傳輸。基于C/S架構的心理健康數據分布式采集模型的重要功能就是數據傳輸,為了增強數據傳輸時效,從以下2個角度完成數據傳輸處理。
(1) 網絡鏈路要使用長連接方式。由于數據源和目標服務器傳輸間距很長,為得到較快的傳輸速率,數據傳輸運用長連接方式。輸送數據量不多時,使用周期性傳送心跳包模式保持鏈路平穩,降低因路由器、防火墻等設施的超時策略而出現網絡傳輸斷開現象。
采用變長數據包。依照數據包頭消息,實現數據整體核查、分包和分析。變長數據包模式如圖4所示。

圖4 數據包模式示意圖
(2) 在傳輸板塊引入數據緩存制度。憑借數據分布式采集特征,在傳輸板塊內代入數據緩存。短時間內的網絡故障、數據會被緩存至內存,系統處理不包含任何運行開銷。假如采集模型發生故障的時間很長,為維護后期采集結果真實性,會把數據保存在本地文件。圖5為數據緩存架構示意圖。
為了維護心理健康數據安全性,模型多功能板塊互動時,使用線程安全隊列,降低模型功能板塊間的相關性,完成高質量數據分布式采集目標。
為了證明本文模型的實用性,將其與文獻[4]、文獻[5]模型展開仿真檢驗,實驗包含有效性檢測與能耗檢測兩部分。

圖5 數據緩存結構圖
3種模型的采集誤差絕對值如圖6所示。

圖6 心理健康數據分布式采集誤差絕對值對比
分析圖6可知,本文模型的采集誤差絕對值最小,始終小于0.2。文獻[4]與文獻[5]模型檢測誤差較高,且采集過程的穩定性略差。這是因為本文模型利用長短期記憶網絡過濾了心理健康冗余數據,能獲得具有參考價值的心理健康數據,誤差絕對值也隨之降低。
根據心理健康數據時間跨度大等性質可以看出,數據采集過程中具有不穩定因素,將不穩定因素擬定為不良系數,取值區間為0~1。比較3種模型的數據采集時間,結果如表1所示。

表1 心理健康數據分布式采集消耗時間對比 單位:ms
分析表1可知,本文模型受到不良系數的影響較小,有效抵御了因為復雜外部環境引發的采集效率低下問題,擁有很強的實用性及魯棒性,為心理健康數據的快速采集與分析提供充分保障。
本文針對心理健康數據時間跨度大、數據類型復雜等問題,運用長短期記憶網絡剔除冗余數據,并采用C/S架構創建數據分布式采集模型。該模型未考慮區域發展給心理健康數據帶來的差異,下一步將融合不同地區發展數據來衡量心理健康數據采集可靠性。