楊 娟 寧珂雪 蒲華秀 龔海燕
(四川廣播電視大學 成都 610000) (四川大學錦城學院 成都 610000)
人口老齡化現已成為我國極為嚴峻的社會問題。截至2018年我國60歲及以上人口已達2.49億,失能老人超過4 000萬。四川省是人口大省,60歲及以上老年人數超過2 000萬,失能老年人超過300萬;另一方面,作為勞務輸出大省,四川空巢老人較多,對于專業護理服務呈現龐大而剛性的需求。傳統基于問卷調查收集老年人護理需求的方式存在信息滯后、信息散亂、護理項目不合理、服務價格隨意性大、護理效果無法跟蹤等諸多問題,亟需利用新興技術全面分析老年人健康狀態、優化護理方案、預測護理需求。本文通過人工智能與機器學習等技術分析四川省基層醫療機構信息系統中2014-2019年老年人海量健康數據,構建護理需求預測模型。
通過分析四川省基層醫療機構信息管理系統中海量公共衛生服務數據,全面掌握全省55歲以上人群健康狀態與護理需求時空分布,利用機器學習和人工智能技術揭示健康狀態的發展態勢,構建四川省老年人護理需求預測模型,為整體描述全省未來老年人護理需求數量與類別分布、個性化護理服務定制、引導社會要素流入護理供給側和構建老年護理市場化機制提供參考。
2.2.1 刻畫2014-2019年55歲以上人群“三間分布” 根據全省21個地市州 55歲以上人群的生活自理能力、認知功能、抑郁量化以及隨訪體檢數據對其健康狀態指標進行描述性分析,刻畫老年人健康狀態的時空分布。
2.2.2 分析健康指標變化,構建具有護理需求的人群畫像 研究2014-2019年之間55歲以上人群公共衛生健康數據,基于機器學習算法設計開發全省老年人健康指標演進模型,根據模型系統構建未來需要護理的老年人群畫像。
2.2.3 預測未來護理需求分布 結合老齡化進程、主要健康指標變化以及基于專家知識的護理方法,利用人工智能和機器學習技術構建護理需求模型,從整體水平上預測未來1年四川省老年護理市場總需求和個性化需求,有效促進老年人護理服務市場化發展水平。
首先進行數據清洗和多元數據融合,其次描述健康狀態指標分布特征,再次分析四川省健康狀態主要指標的變化趨勢,最后通過機器學習預測未來1年全省護理需求態勢。所涉及的關鍵技術包括:多源數據融合、健康指標分布統計學研究、基于機器學習構建預測模型、效果評價指標。
護理需求要素的日常變化以及由各種疾病引起的病源性護理需求等與養老護理運營及其效率密切相關,且隨著經濟發展,行業管理精細化水平逐步提升,對按需護理服務精度的要求也越來越高,需要多源數據的監測和匯總。多源數據融合,見圖1。現階段護理需求要素收集和評價手段都是單一化的,如何聯合這些單一化的手段得到一項綜合性、具有市場反饋機制的多源數據融合采集技術,是提供按需護理的重要手段。

圖1 多源數據融合
在實際中由于健康指標的復雜性,研究對象往往表現為多指標數據。多指標數據的結構更加復雜,嚴格上應用三維表來表示,在平面上可以將其轉換為一個二級二維表的形式,見表1。研究總體共有N個,每個樣本的特征用p個指標表示(X1,X2,…,Xj,…,Xp),時間長度為T,則Xij(t、N)表示第 個樣本第j個指標在t時間。

表1 健康指標分布統計學研究
3.4.1 概述 隨著機器學習廣泛應用,受益于各種算法,研究如何高效地將訓練好的機器學習模型部署到生產環境。從數據采集開始,經歷數據分析、變形、驗證、拆分、訓練、模型創建、模型驗證、大規模訓練、模型發布、提供服務、監控和日志,再到構建完整機器學習預測模型,見圖2。根據健康指標特征(長期趨勢、季節性和自相關性),采用機器學習算法預測未來健康指標的演進趨勢。擬采用的機器學習方法主要有長短期記憶網絡、誤差反傳算法神經網絡和最小二乘支持向量機,對其預測效果進行評價。

圖2 機器學習預測模型
3.4.2 長短期記憶網絡(Long-Short Term Memory, LSTM) 循環神經網絡(Recurrent Neutral Network, RNN)的一種。神經網絡是一種節點定向連接成環的人工神經網絡(Artificial Neutral Networks,ANNs)。循環神經網絡內部狀態可以展示動態時序行為,與其他網絡的不同之處在于其隱含層是能夠跨越時間點的自連接含層,隱含層的輸出不僅進入輸出端,還進入下一個時間步驟的隱含層,所以能夠持續保留信息,根據之前狀態推出后面的狀態[1]。RNN 每個時間狀態的網絡拓撲結構相同,在任意t時間下包含輸入層、隱含層、輸出層。RNN隱含層的輸出一分為二,一份傳給輸出層,一份與下一時刻輸入層的輸出一起作為隱含層的輸入。
3.4.3 誤差反傳算法(Back-Propagation,BP)神經網絡 ANNs作為智能信息處理的工具之一,是模仿人的大腦神經系統信息處理功能的智能化系統,具有并行處理、容錯性、自學習功能,已在模擬識別、自動化控制、知識處理及運輸與通行等領域取得很好的效果。BP神經網絡是 ANNs 中最具代表性和應用最廣泛的一種。通常由具有多個節點的輸入層、隱含層和多個或一個輸出節點的輸出層組成[2],見圖3。

圖3 BP神經網絡原理
3.4.4 最小二乘支持向量機(Least Squares Support Vector Machine, LSSVM) 是一種簡單的支持向量機(Support Vector Machine, SVM)。在支持向量機的基礎上,通過最小二乘法,利用誤差平方和選擇超平面,構造平方損失函數最小二乘支持向量機,同時將SVM的不等式約束條件轉換為線性等式,將二次規劃問題轉化為線性求解,其求解速度比SVM更快、效率更高[3]。四川省老年人護理需求特征的 LSSVM 預測模型基于該省基層醫療機構信息化系統(以下簡稱系統)采集的數據建立,同時還要考慮到系統所采集老年人群的變化,因此選取的輸入因子包括:前i(i=1,2,3,4,5)年的5年數據。根據四川省 5 年(2014-2019 年)的資料作預測研究,得出仿真結果,再將試預報值與實測值進行對比分析。LSSVM 建模的關鍵在于參數γ和核函數參數δ的確定。研究表明由于徑向基核函數(Radial Basis Function, RBF)對數值限值條件相對較少,模型復雜度降低,從而大大提高訓練速度。采用 RBF 作為模型的核函數,其算法實現過程如下:(1)確定參數γ和δ的取值范圍。(2)在參數最大取值范圍內構建參數對(γ i,δ i)的二維網格平面。(3)輸入每個網格節點的參數對(γ i,δ i)到 LSSVM 中,采用學習樣本進行學習,并輸出學習誤差。取最小誤差對應的節點值(γ i,δ i)為最優參數對。(4)以(γ i,δ i)E min 為中心,構建新的二維網格平面,選取數值相近的參數值進行學習,可獲得更高精度的學習結果。
3.4.5 預測評價指標 依次為:平均絕對誤差(Mean Absolute Error, MAE),平均絕對百分比誤差(Mean Absolute Percentage Error, MAPE),均方根誤差(Root Mean Square Error, RMSE)和 R2,其計算公式為:
其中Yt為t年度護理需求的老年人群,yt為機器學習算法預測的t年達到護理需求的老年人群。Ymean為需要護理的老年人的年均值線。

圖4 技術路線
本研究計劃在全省范圍內系統、全面分析55歲以上人群的健康狀態,從數據層面揭示整體健康狀態主要指標的變化軌跡,為政府相關部門制定養老助老政策、構建護理服務市場化機制提供參考依據。嘗試將大數據、機器學習等新興技術應用到老年人健康狀態與護理需求預測,彌補傳統問卷調查、樣本統計、專家知識等研究方式的不足,進一步提升護理需求評估全面性、需求信息發布集中性、護理行為規范性。該技術經產品化后,如果在全省范圍內實施,既是對四川省基層醫療機構信息化管理系統功能的有力擴展,也能從全省整體水平上預測未來全省老年人護理需求態勢和智能生成個性化護理方案,幫助護理需求側與供給側在一定約束條件下交易成本更低、護理效果更好。根據未來發展態勢,一方面能夠指導老年人加強自身鍛煉,避免或減少未來高費用的護理項目,控制晚年生活成本,提高生活質量;另一方面引導社會資源根據護理項目的發展態勢提前布局投入,為未來護理需求儲備技術和人力。