999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

ARIMA和LSTM算法的應用比較

2022-02-19 04:25:30河南省人力資源社會保障電子政務中心谷劍芳
數字技術與應用 2022年1期
關鍵詞:記憶模型

河南省人力資源社會保障電子政務中心 谷劍芳

隨著社保卡業務的積累以及政策的拓展,整合各類社會保障卡應用的數據資源,深入數據分析應用,提高公共服務決策分析能力,促進經辦管理精準化、服務高效便捷化成為當務之急。本文成果來源于河南省人社廳社會保障卡用卡軌跡圖項目,其中關于互聯網渠道人社業務辦理量預測場景,分別應用LSTM和RFM算法對業務量進行預測,通過比對兩種算法的擬合效果,總結出兩種算法的優缺點,以及更適用于社保卡業務預測的算法。

對時間序列數據進行分析和預測比較完善和精確的算法主要包括基于傳統統計方法的ARIMA模型(差分整合移動平均自回歸模型)和基于神經網絡方法的LSTM模型(長短期記憶人工神經網絡)。ARIMA模型和LSTM模型都能夠較好地提取原始數據中所蘊含的趨勢性及周期性,然后再根據從原始數據中所提取到的規律對未來數據進行預測。在數據波動較為平穩的數據集上,ARIMA模型的效果相對LSTM模型較優;而在數據波動較為不平穩的數據集上,則是LSTM模型的表現更好。

為進一步提高對時間序列業務預測的精度,我們以電子社保卡互聯網業務訪問量和社保卡辦理量兩個預測場景為例,分別應用ARIMA和LSTM模型,通過比較分析歸納出兩種模型的特點和適應性,進而提高人社業務數據分析能力。

1 分析目標

1.1 業務場景

通過模型算法,掌握未來一個時期內互聯網業務辦理壓力和社保卡制作量壓力,有助于提前做好服務器、存儲等信息系統資源和社保卡庫存準備,結合對現有信息化資源和卡資源的情況,及時做好風險應對。借助大數據技術,通過歷史數據預測未來的業務量,進一步提高業務的精細化、智能化管理水平。

1.2 數據倉庫設計

利用Hadoop平臺實現大數據應用的分區分庫,構建數據倉庫。數據架構設計包括整合庫、主題庫、模型庫、成果庫和支撐庫五個數據庫,整合庫是將數據源數據進行一定清洗之后存儲的數據,主題庫根據應用層主題建立數據集。模型庫是指主題應用的模型數據,成果庫是通過模型計算的結果,支撐庫就是系統的配置信息。

1.3 業務邏輯設計

選用ARIMA算法或LSTM時間序列算法建立預測模型,數據集收集不同業務,不同地區以往近三個月歷史業務辦理數據,并根據次數據做時間序列分析并建立預測模型。通過對互聯網渠道,基于電子社保卡身份識別的人員,對人社業務訪問量和社保卡申請量進行建模和數據訓練,預測未來7-14天線上訪問量和申請量。

2 模型設計

2.1 LSTM模型

2.1.1 算法介紹

LSTM時間序列模型[1]基于循環時間網絡,引入了輸入門(Input Gate)、遺忘門(Forget Gate)和輸出門(Output Gate)的概念。輸入門、遺忘門和輸出門的公式[2]分別如下:

(1)候選記憶細胞:

以值域在[-1,1]的tanh函數作為激活函數,在給定時間t步時記憶細胞的計算公式[2]為:

(2)記憶細胞:

通過元素值域在[0,1]的輸入門、遺忘門和輸出門來控制隱藏狀態中信息的流動,這一般也是通過使用按元素乘法(符號為⊙)來實現的。當前時間步記憶細胞的計算組合了上一時間步記憶細胞和當前時間步候選記憶細胞的信息,并通過遺忘門和輸入門來控制信息的流動[2]

遺忘門控制上一時間步的記憶細胞Ct-1中的信息是否傳遞到當前時間步,而輸入門則控制當前時間步的輸入Xt通過候選記憶細胞如何流入當前時間步的記憶細胞。如果遺忘門一直近似1且輸入門一直近似0,過去的記憶細胞將一直通過時間保存并傳遞至當前時間步。這個設計可以應對循環神經網絡中的梯度衰減問題,并更好地捕捉時間序列中時間步距離較大的依賴關系。

(3)隱藏狀態:

有了記憶細胞以后,通過輸出門來控制從記憶細胞到隱藏狀態Ht的信息的流動[2]

tanh函數確保隱藏狀態元素值在-1到1之間。需要注意的是,當輸出門近似1時,記憶細胞信息將傳遞到隱藏狀態供輸出層使用;當輸出門近似0時,記憶細胞信息只自己保留。

2.1.2 數據預處理

首先,從業務庫中獲取得到要進行業務分析的原始數據。然后,我們再對原始數據進行去重、空值處理、異常值處理、數據歸一化等數據預處理工作,得到時間序列數據。

2.1.3 劃分數據集

按7∶2∶1的比例將原始時間序列數據劃分為訓練集、測試集和驗證集。其中,訓練集主要用于訓練模型并確定模型權重,驗證集用于確定網絡結構以及調整模型的超參數,驗證集則用于檢驗模型的泛化能力。

2.1.4 定義單個數據樣本

采用滑動窗口形式構建單個數據樣本,理論上單個樣本周期越長越有利于模型的預測。鑒于應用數據只有1年,我們折中選擇了37天為單個數據樣本長度(以30天為數據窗口長度,7天為偏移量)。我們以單個數據樣本(37天)的前30天(0-29)作為樣本數據,后30天(7-36)作為標簽數據。將這樣的數據樣本傳入模型進行訓練,模型能夠基于我們傳入的前30天數據對一個包含未來7天的序列數據進行預測,從而達到預測未來的數據目的。

2.1.5 模型訓練

構建LSTM模型[3],設置Adam方法作為模型優化器,并將我們前面所定義的訓練集、驗證集和測試集數據傳入模型進行訓練,通過設置EarlyStopping方法來提前終止模型訓練,并保存效果最佳的模型,最后便可以利用此模型對未來數據進行預測。從測試效果看,LSTM算法的歷史擬合效果比較理想,預測值與實際值的趨勢一致。

2.2 ARIMA模型

2.2.1 算法介紹

ARIMA(p,d,q)模型[4]的構建和預測過程包括平穩性檢驗、參數估計和時間序列數據預測,3個參數p,d,q分別表示自相關(p階AR模型),d次差分,滑動平均(q階MA模型):

(1)平穩性和非白噪聲檢驗。ARIMA模型處理的時間序列數據需滿足平穩性檢驗,對于預處理后的時間序列數據,通過差分法對數據進行轉換。

(2)參數估計。基于信息定階準則,可采用AIC、BIC[4]等信息定階分值計算公式,構建自回歸模型和移動平均模型等定階熱力圖進行網格搜索,對AR和MA模型進行定階。

(3)時間序列預測。基于構建完畢的ARIMA模型,對時間序列數據進行預測。本文從工程實現角度對ARIMA模型擬合及預測過程構建管道化處理,自動進行模型參數尋優、模型擬合及預測,具體過程如下:

1)ADF檢驗:對經過預處理后對時間序列進行ADF檢驗,當單位檢測統計量p-value值大于0.05時達統計顯著,定階ARIMA模型差分參數d。

2)AR和MA模型參數定階:設置算法參數配置信息,根據MSE、AIC準則、BIC準則擇優對ARIMA模型其他參數估計及定階,擬合預測模型。

3)迭代訓練與滾動預測:為避免ARIMA模型欠擬合,預測模型精度不足,采用迭代訓練與滾動預測的形式處理時間序列數據,將ARIMA模型的預測步長設置為1,算法每輪迭代訓練預測出t+1時刻的結果后將把預測值添加回訓練數據重新擬合模型,預測t+2時刻結果。

2.2.2 數據處理

(1)數據預處理。首先,從業務庫中獲取得到要進行業務分析的原始數據。然后,我們再對原始數據進行去重、空值處理、異常值處理、數據歸一化等數據預處理工作,得到時間序列數據。

(2)劃分數據集。按7∶2∶1的比例將原始時間序列數據劃分為訓練集、測試集和驗證集。其中,訓練集主要用于訓練模型并確定模型權重,驗證集用于確定網絡結構以及調整模型的超參數,驗證集用于檢驗模型的泛化能力。

2.2.3 模型構建

首先,我們觀察預處理后的時序數據,發現其震蕩較為強烈,這是一個典型的非平穩時間序列。所以,我們考慮對其進行一階差分處理,發現此時數據已符合平穩性條件。同時,對差分后數據進行白噪聲檢驗,發現其p值為0.098>0.05,即該時序序列為平穩非白噪聲序列,故我們可以考慮對其進行ARIMA建模。

我們采用網格搜索方式確定模型的p,d,q參數[5],并對該時序序列進行模型擬合。在進行測試集擬合的過程中,我們觀察到使用ARIMA模型擬合的效果并不是很好,白噪聲檢驗中的p值為0.098,并非顯著地拒絕原假設,即在ARIMA模型看來,數據可提取的有用信息不多,故ARIMA模型的擬合效果相對較差。

2.3 ARIMA和LSTM模型比較

圖1和圖2分別是ARIMA模型與LSTM模型在相同的真實應用訪問量數據集上的預測結果,綠色是實際值,紅色是預測值,可以直觀的看出兩種算法在實驗場景中,LSTM模型的擬合效果更好。

圖1 LSTM模型實際執行效果Fig.1 Actual implementation effect of LSTM model

圖2 ARIMA模型實際執行效果Fig.2 Actual implementation effect of ARIMA model

3 結語

通過實驗對比我們會發現,由于我們的業務場景中,應用的訪問量時常會受到一些特殊事件的影響,比如政策變更、應用推廣等,但一般情況下又會遵循著某種普遍的規律。采用ARIMA模型預測時序數據,必須是穩定的,如果不穩定的數據,難以捕捉到規律。ARIMA模型在數據擬合過程中,容易受到數據異常波動變化的影響,所以最后表現出來的數據擬合效果較差;而LSTM模型由于輸入門、遺忘門和輸出門的特殊模型結構,能夠通過遺忘門選擇性地去遺忘掉數據異常波動給模型帶來的不利影響,再利用記憶門去提取數據中存在的普遍性規律,所以最后表現出來的數據擬合效果較好。基于實驗對比結果,在實際應用中我們主要基于LSTM模型進行數據建模,提取數據集中所蘊含的普遍規律,最后,我們再利用所提取到的規律對未來數據進行預測。

猜你喜歡
記憶模型
一半模型
重要模型『一線三等角』
夏天的記憶
重尾非線性自回歸模型自加權M-估計的漸近分布
記憶中的他們
3D打印中的模型分割與打包
端午記憶
絲綢之路(2016年9期)2016-05-14 14:36:33
兒時的記憶(四)
兒時的記憶(四)
記憶翻新
海外文摘(2016年4期)2016-04-15 22:28:55
主站蜘蛛池模板: 麻豆精品国产自产在线| 麻豆精品在线| 亚洲第一视频免费在线| 久久五月天综合| 萌白酱国产一区二区| 老司国产精品视频91| 亚洲国产成人自拍| 一级黄色欧美| 亚洲 欧美 日韩综合一区| 国产女同自拍视频| 国产一区三区二区中文在线| 国产精品太粉嫩高中在线观看| 99视频在线精品免费观看6| 免费人成视频在线观看网站| 99热国产这里只有精品9九 | 全午夜免费一级毛片| 99精品福利视频| 四虎永久在线精品国产免费| 九九热视频在线免费观看| 亚洲精品第1页| 国产精品永久免费嫩草研究院| 国产小视频免费观看| 欧美精品在线看| 国产乱子伦一区二区=| 欧美专区日韩专区| 国产亚洲视频免费播放| 在线视频亚洲色图| 国产黄色免费看| 久久婷婷综合色一区二区| 婷婷亚洲视频| 114级毛片免费观看| 午夜成人在线视频| 麻豆精品在线| 人人91人人澡人人妻人人爽| 丰满人妻中出白浆| 国产永久免费视频m3u8| 99热精品久久| 97se亚洲综合在线韩国专区福利| 久久国语对白| 国产精品视频久| 午夜福利亚洲精品| 在线观看国产精美视频| 国内精品久久久久久久久久影视 | 久久婷婷六月| 欧美有码在线观看| 日韩第九页| AV不卡无码免费一区二区三区| 国产成人艳妇AA视频在线| 亚洲美女视频一区| yjizz国产在线视频网| 91激情视频| 国产精品女熟高潮视频| av在线无码浏览| 中文字幕2区| 国产成人免费观看在线视频| 综合色在线| 91啦中文字幕| 日韩久草视频| 亚洲一区二区精品无码久久久| 手机精品视频在线观看免费| 日本不卡在线视频| 亚洲成人在线网| 91精品国产综合久久香蕉922| 色国产视频| 国产亚洲精品97AA片在线播放| 69av在线| 国产在线小视频| 97视频在线精品国自产拍| 欧美成在线视频| 无遮挡国产高潮视频免费观看| 婷婷色一二三区波多野衣| 99久久免费精品特色大片| 日韩区欧美国产区在线观看| 亚洲色精品国产一区二区三区| 亚洲 日韩 激情 无码 中出| 三级国产在线观看| 国产成人你懂的在线观看| 一级毛片中文字幕| 在线观看国产精品一区| 亚洲人成网站18禁动漫无码| 国产成人高清精品免费| a毛片在线播放|