劉恰恰
摘 要:大氣污染和氣象要素變化已成為自然環境中影響人體健康的兩個重要指標,在一定程度上也成為影響醫藥銷售的重要因素。本文主要以大氣污染和氣象要素作為醫藥銷售的影響因素,對其進行特征化處理,基于隨機森林回歸對特征與銷量構建醫藥銷售預測模型,并與典型模型進行對比。實驗表明,本文模型具有較好的預測效果。
關鍵詞:隨機森林回歸;醫藥銷售預測;大氣污染;氣象要素
中圖分類號:C931 文獻標識碼:A
環境變化對人體健康的影響是不可忽視的,尤其對呼吸道疾病。[1]相關文獻研究[2,3]表明,大氣污染和氣象要素均可使人類疾病的發病危險性增加。基于醫藥銷售領域現狀,本文以呼吸道疾病的藥物為例,應用隨機森林回歸對特征與銷量構建醫藥銷售預測模型。
1 數據預處理
本實驗數據包括3部分,即醫藥銷售數據、大氣污染和氣象要素,分別來源于某醫藥企業2015.1—2018.6期間日銷售數據、全國天氣網和市環保局監測站。
從醫藥數據特點來看,需檢查原始記錄中是否存在臟數據及不能直接進行相關分析的數據,如對缺失值進行插補;對異常值進行判斷;對不同量綱的數據進行變換等。
從環境數據分析,本文選取6個大氣污染指標,即SO2、NO2、CO、O3、PM10、PM2.5日濃度值,統計出各因子日最高、最低濃度;計算出各因子的日平均濃度;選取5個原始氣象指標,即日最高溫(T_max)、日最低溫(T_min)、日平均溫(T_ave)、日風速,基于原始數據計算出日溫差、最高溫、最低溫、平均溫、周變異系、平均風速,分別用T_var、v_max、v_min、v_ave、v_T、W_pow表示。
2 特征選擇
針對不同人對環境變化的適應性不同,考慮到發病前的潛伏期,對銷量與環境指標進行時滯期相關及顯著性分析,判斷出醫藥銷售的主要影響因素,進而提取有效的特征指標。
對銷量與環境因素進行當日及前幾日Spearman分析,顯示兩者存在緊密相關性,同時存在一定延滯效應。其中,藥品銷量與NO2、O3、PM2.5、PM10呈顯著正相關,與SO2呈顯著負相關,與CO未達到顯著;與 T_ave、T_max、T_min、T_var呈顯著負相關,延滯期可長達一周;與v_ave、v_max、v_min、v_T呈顯著正相關,與v_T成顯著正相關,與W_dir相關性較小且顯著性不太明顯。因此,通過對銷量與特征指標綜合分析,剔除不具備統計學意義的特征,最終把存在顯著性的環境指標作為模型輸入特征。
3 模型構建
隨機森林模型構建主要是對兩類參數的調參過程,主要包括:過程影響參數和子模型影響參數,本文以OOB誤差最低為原則選取最優參數。[4]
首先,對過程影響參數進行調整,當n_estimators取50時,誤差呈明顯下降趨勢;取100時,誤差仍有下降趨勢;直至取150時,誤差逐漸接近收斂,考慮到訓練的效率,最終選取200;然后固定n_estimators=200,再對子模型影響參數進行分析。對max_feature設定1.50的范圍進行調整,當max_feature取1—10時,隨特征數增加誤差急劇下降;當取值在11.50之間,誤差總體趨于平穩,且取13時誤差最小,因此最終選擇max_feature=13;對min_samples_split設定2.10的范圍進行調整,隨最小樣本數增加,模型誤差率呈上升趨勢,調參后最優解仍保持為2;對min_samples_leaf設定范圍1.10進行調整,隨葉子節點最小樣本數增加,誤差也呈上升趨勢,調參后最優解為3。
4 實驗結果
為了衡量模型的預測效果,實驗分為兩個模塊,即針對不同特征、不同模型,分別對預測結果的影響進行實驗與分析。
4.1 特征比較
在醫藥銷售預測過程中,大氣環境指標可變性較大,在實際應用中不一定能同時收集到,需要判斷每個特征對模型的影響程度。首先,基于特征選擇的結果,進行多次實驗,計算出平均準確率(ACCU);其次,每次實驗依次去掉一個特征,得到12組不同準確率,且發現準確率出現不同程度的降低,每個特征對模型影響程度排序為:var_tem > T_min > T_ave> T_max > NO2 = PM2.5 > T_var = PM10 > W_pow >O3 > SO2。所以,當因素不全或不確定時,W_pow、O3、SO2的影響力相對較小,可以取大概范圍進行初步預測。
4.2 算法比較
本文模型與ANN、SVR及ARIMA模型進行比較,發現不同模型預測誤差相差明顯,其中隨機森林擬合效果最好,傳統的ARIMA模型擬合效果最差,ANN模型與SVR模型預測精度大致相同。各模型預測平均絕對百分誤差(MAPE)分別為:00508、0.0873、0.0981和0.187,即本文隨機森林模型預測效果最好。
5 結語
本文實驗即證明對環境因子進行特征提取的有效性,又證明隨機森林回歸模型在醫藥銷售預測領域應用的優越性,模型預測精度能為醫藥企業的銷售決策提供一定的參考價值,從而有效解決庫存壓力大、過期藥品多等問題。但由于實際醫藥銷售影響因素的復雜性,研究仍存在不足,有待進一步改進,比如區域、經濟條件、政策等因素沒有考慮進去,在今后的研究中需要進一步拓展,期待取得更好的預測結果。
參考文獻:
[1]Agm B,Pmsb F.Prevalence of influenza vaccination in adults and elderly with chronic respiratory diseases[J].Cadernos De Saude Publica,2018,34(5):e00194717.
[2]盛魁.RBF神經網絡在藥品銷售預測中的應用[J].長江大學學報,2013,10(19):65.67.
[3]劉德玲.大區域內藥品銷售預測方法研究與仿真[J].計算機仿真,2012,29(7):227.230.
[4]Breiman L.Random Forests[J].Machine Learning,2001,45(1):199.228.