999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于E-ARLL算法的養老助餐服務數據異常檢測方法

2024-12-31 00:00:00胡俊杰黃猛
現代信息科技 2024年8期

摘 要:我國正在步入人口老齡化社會,政府為保障老人的每日三餐,在各地購買養老助餐服務,服務過程中出現虛假服務、盜用冒用等問題,威脅到政府和老人的財產安全,故提出E-ARLL算法對數據異常進行檢測。該方法使用Pearson相關系數和ANOVA(方差分析)對原始數據集進行劃分特征訓練集和特征驗證集,然后,將特征訓練集輸入到E-ARLL算法模型中,基于集成學習(Ensemble Method)思路,根據劃分好數據集的線性關系選擇適合的算法進行異常檢測。實驗結果表明,提出的方法對養老助餐服務數據異常檢測表現出良好的性能,最終異常數據識別率為99.4%,為政府購買服務的可信性帶來了新的驗證方法,具有深遠的意義。

關鍵詞:異常檢測;集成算法;養老服務

中圖分類號:TP391 文獻標識碼:A 文章編號:2096-4706(2024)08-0171-06

DOI:10.19850/j.cnki.2096-4706.2024.08.037

0 引 言

隨著人口老齡化的加深,老年人“吃飯難”的矛盾日漸突出,為解決老年人“用餐難”問題,中國各地紛紛出實招,通過社區自辦、和企業餐館合作等方式探索社區老人助餐服務模式[1],通過這種服務模式給社區老人帶來暖心的餐飲供應。然而在服務過程中,存在著一些養老服務數據可信問題,如老人助餐卡盜刷、代刷,服務機構虛假服務、謊報服務數量等問題。這些問題的存在不僅會影響老年人的生活質量,還對社會養老服務穩定發展造成不良影響。因此,解決數據可信問題對提高養老服務質量、促進社會發展具有重要意義。

當前對于異常檢測的分類主要分為三種:單點異常、上下文異常、集體異常。對于單點數據檢測,使用較多的方法是隨機森林(Random Forest, RF)算法,如Zhang [2]等學者提出隨機森林結合極端梯度提升,建立風電機組故障檢測框架,提高檢測精確度;Sadaf [3]等學者采用自編碼器結合孤立森林對霧計算環境下數據包進行二進制分類;Xu [4]等學者提出改進孤立森林算法(SA-iForest),在UCI數據集中驗證該算法的準確性和效率。這些方法對于異常點與其他數據點有明顯差異能有效分類,而養老服務數據中數據特征存在多種異常數據,也包含時序特征數據,該部分需要采用上下文異常檢測方法進行識別。

而具有時序特征的數據現有的長短期記憶算法(Long Short Term Memory, LSTM)[5]算法和Prophet算法各有優劣。如Nabipour [6]等學者對于股票走勢進行預測,使用RNN結合LSTM算法對比其他算法預測精度更高;Fan [7]等學者對于快速固化爐熱過程的數據使用MLP-LSTM混合算法進行分析,驗證了算法的可靠性;ChikkaKrishna [8]等學者基于Fb-Prophet和Neural-Prophet開發了STTP模型,進行對道路車流量的預測;趙英[9]等學者結合LSTM算法和Prophet算法對機房溫度進行建模,通過對兩種算法模型進行非線性組合得出較好的預測結果;還有一些采用機器學習的方法來實現異常數據的檢測,如Nikravesh [10]等學者對商業試驗移動網絡進行預測未需求,采用SVM、MLP、MLPWD算法進行試驗驗證。上述方法對于具有長期時序性特征的數據具有很好的識別效果,但上述方法對于不同的異常情況魯棒性較弱,和特征訓練集之間擬合度不佳。

為了解決這一問題,董紅瑤等[11]提出引入領域容差關系選擇集成分類算法,此方法構建多個基分類器進行加權集成最終預測分類結果,復雜度較高。在養老助餐服務領域助餐點設備算力有限,需要減少模型復雜度。

本文的數據集中包括時序特征,也有非線性特征等,因此對單點異常采用隨機森林和邏輯回歸進行分類,對上下文異常采用長短期記憶進行識別,能針對性地檢測出特征訓練集中的異常,再將檢測結果進行集合,提高模型檢測精確度,更具可靠性。

1 系統模型構建與方法設計

1.1 相關工作

本文收集了從2022年6月1日到2023年4月16日某市124個助餐點每日的用餐數據,涵蓋了鳳陽縣、瑯琊區、明光市、南譙區、天長市下的39個街道,數據總量是303 828條。數據特征包括:姓名、類別、助餐點名稱、用餐類型、就餐方式、錄入方式、套餐價格、補貼金額、自付金額、創建日期、創建時間、區和街道,共計13個特征。通過對數據的分析,發現主要存在三種異常:

1)助餐點異常。若一個老人在一段時間內頻繁切換助餐點用餐,那么可能存在異常情況,比如身份冒用或者錯誤輸入數據。

2)補貼金額異常:每人每天的補貼金額是有上限的,若老人在一天內補貼金額超過上限,或者補貼金額數值不對,那么可能存在異常情況,比如系統故障或者老人信息錄入異常。

3)用餐類型異常。不同助餐點對于用餐類型的時間判斷標準不同,若存在數據用餐類型與時間對應不上,那么可能存在異常情況,比如系統延遲。

針對以上三種異常情況,本文提出多模型集成的異常點檢測方法,采用RF、LR和LSTM算法對數據進行分類,并將其預測結果和預測概率輸出。下一步將三種異常檢測的預測概率作為新的特征輸入到神經網絡中,調整模型參數,目的是找到最優的檢測結果。

1.2 數據預處理

對各124個助餐點收集到的數據進行分析發現其中含有重復值、數據格式不一致等情況,為確保數據的準確性、一致性和可靠性,本文對數據進行數據清洗、特征選擇和特征轉換等操作,得到更有利于分析建模的數據集。

1.2.1 數據清洗

對數據集特征值為文本信息時,以部分老人在類別(A類、B類、C類、C1類、…、C4類、D類)特征是空值為例,類別和補貼金額存在著相關性,計算相同補貼金額對應的類別的眾數填充到類別特征,以下是算式描述:

(1)

其中xb表示類別,xh表示補貼金額,Mode表示補貼金額對應類別的眾數,xbempty表示需要填充的空值。

對于特征訓練集的特征為數值信息時,以創建時間為空值為例,數據集是按照數據上傳采集順序排序的,存在數據為一天第一條或者最后一條,單以上下條數據的均值是無法合理填充的,將用餐類型作為條件,進行缺失值填充,以下是算式描述:

(2)

其中xq表示創建時間,xd表示用餐類型,ξ表示隨機數(ξ取10分鐘以內),若xd(j-1) ≠ xdj ≠ xd(j+1)時選取該用餐類型合理的時間范圍內隨機時間進行填充,如圖1所示填充空值。

1.2.2 特征編碼

數據集中存在較多的非數值型特征,其姓名特征包含的特征值種類較多,采用標簽編碼,降低空間開銷,例如:[“張三”“李四”“王五”]編碼為[1,2,3]。其他非數值型特征采用獨熱編碼,如表1所示,類型分為8種,根據每個類別的序列ID,只有唯一獨熱編碼與其對應。

通過數據預處理,得到完整且易于機器識別的數據集,易于后續的算法分析和建模。

1.2.3 特征選擇

數據特征中包含多種類型的特征,對于數字特征之間采用Pearson相關系數來衡量連續變量之間的線性關系,如補貼金額和套餐價格等數字特征。對于一些非數字特征對其進行編碼,轉換成適合模型使用的數字形式,采用ANOVA(方差分析)比較多個組的均值是否相等,如類別和補貼金額等。對三種異常情況選定好相關特征后,重新構建子數據集D1、D2和D3,以供研究使用。

2 E-ARLL算法

本文提出E-ARLL(Ensemble Method-Artificial Neural Network Integration Logistic Regression, Random Forest and Long Short Term Memory)算法對數據異常進行檢測。研究針對三種異常情況將數據集拆分為三個子數據集D1、D2和D3,補貼金額異常為非線性數據集,同時特征較多數據量大,選擇隨機森林算法處理,能夠有著精度高、抗擬合能力強的優點;用餐類型異常為線性數據集,采用邏輯回歸算法更大程度的擬合數據;助餐點異常為時序性相關數據集,選取長短期記憶算法挖掘數據中存在的時序信息。將三種算法的預測概率作為人工神經網絡算法的輸入,在隱藏層對該三維數據映射到高緯空間,再輸出新的預測值進行評估,組合模型圖如圖2所示。

2.1 隨機森林分類器

以決策樹作為基學習器,在每一輪決策樹訓練過程中加入隨機特征選擇,對于每個決策樹節點隨機選擇一個包含k個特征的子集,,k表示整數,然后再選擇一個最優劃分屬性。通過每個特征的信息增益來確定最佳的分裂點。設有R個類Cr,r = (1, 2, 3, …, K),| Cr |表示屬于類Cr的樣本個數,,設特征X有m個不同的取值{x1, x2, x3, …, xm},根據特征X的取值,將D1劃分為m個子集D11, D12, D13, …, D1m,| Dli |表示Dli個數據集樣本的個數,Dir表示記子集Dli中屬于Cr的樣本集合,| Dir |表示Dir的樣本個數,信息增益算法如下:

1)計算數據集D1的經驗熵H(D1):

(3)

2)計算特征X對數據集D1的經驗熵H(D1 | A):

(4)

3)計算信息增益:

(5)

不同的特征具有不同的信息增益,信息增益大的特征具有更強的分類能力,如下所示:

(6)

yrf表示RF(Random Forest)算法的預測值,RF表示預測模型。

2.2 邏輯回歸分類器

選擇sigmoid函數作為激活函數,對D2數據集進行分析,采用隨機梯度下降法對隨機產生的一個初始值ω0進行不斷的迭代,得到最終的ω*,以下是邏輯回歸模型:

(7)

(8)

ylr表示LR(Logistic Regression)算法的預測值。

2.3 長短期記憶網絡分類器

對D3數據集進行分析,通過輸入門、輸出門和遺忘門來影響數據模型,最終決定每一個時間點,要忘記多少,記住多少,輸出多少,保障核心要素會隨著時間不停改變但是又能一直傳播下去。

(9)

ylstm表示LSTM(Long Short Term Memory)算法的預測值,LSTM表示預測模型。

2.4 神經網絡分類器

神經網絡(Artificial Neural Network, ANN)分為輸入層(Input Layer)、隱藏層(Hidden Layer)和輸出層(Output Layer)。本研究輸入層節點為x = [ yrf, ylr, ylstm],經過隱藏層處理,將輸出結果表示為:

(10)

其中θ表示節點之間的權重值,y表示預測結果。

2.5 模型評估

設用餐數據集" 表示訓練的數據集, 表示對應的標簽,其中 ,數據集中包含n個樣本,將每條數據表示為 ,每條數據具有m個特征,其中i ∈ [1, m],將一個數據經過不同模型后產生的結果為:

(11)

在本研究中,最終分類的結果會出現以下四種情況:

若yi == 1,則為真正類(True Positive, TP),該類樣本數為:

(12)

若yi = 0,= 1,則為假負類(False Negative, FN),該類樣本數為:

(13)

若yi = 1,= 0,則為假正類(False Positive, FP),該類樣本數為:

(14)

若yi = 0,= 0,則為真負類(True Negative, TN),該類樣本數為:

(15)

準確率(Accuracy):準確率是真正類和真負類數量占總樣本數的比例,算式表示為:

(16)

召回率(Recall):召回率(也被稱為真陽性率或靈敏度)是真正類的數量占實際為正類的比例,算式表示為:

(17)

精確率(Precision):精確率是真正類的數量占所有被預測為正類的比例,算式表示為:

(18)

F1值(F1 Score):F1值是精確度和召回率的調和平均數,同時考慮召回率和精確率兩個因素,算式如下:

(19)

ROC(Receiver Operating Characteristic curve):ROC曲線評估模型分類準確率,它顯示在不同閾值下的真陽性率(True Positive Rate, TPR)與假陽性率(False Positive Rate, FPR)之間的關系,算式如下:

(20)

(21)

本文目標是找到一個綜合評估指標最高的模型,令M表示模型的集合,m表示選擇的模型,目標函數為:

(22)

3 仿真實驗與結果分析

養老助餐服務切實保障老人的就餐安全及便利,為獨居老人提供熱乎飯,為社會增添人文關懷。本研究對象為某市助餐點的用餐數據,檢測異常數據,為老人提供安全可靠的服務。傳統算法進行異常檢測只考慮了部分相關特征,不具備完整性,無法對數據集進行全面分析,導致部分異常難以檢測出來,本實驗對數據集特征,通過不同的相關性進行特征分類,將數據集劃分成三個子數據集,對三個子數據集中存在的異常分別進行檢測,再運用集成學習的思想,用神經網絡對結果再次檢測,以獲得更好的性能和泛化能力,實驗環境如表2所示。

3.1 單異常點檢測

本文通過124個助餐點收集到的大量數據 ,訓練適合數據特征的機器學習模型,優化參數提高各個模型的分類準確率,實驗結果如圖3所示。

圖3主要是描述RF、LR和LSTM算法在準確性、召回率、精確率和F1值的性能,RF算法根據六個特征,包括:姓名、類別、用餐類型、創建日期、創建時間和補貼金額。決策樹選擇10棵,進行預測,結果表明RF算法在負樣本(真實樣本為負類)的分類上表現較好,但在正類樣本(真實樣本為正類)的識別上存在問題,可能是因為數據中負樣本較少,導致模型將樣本預測為多數類(正類),以最大程度提高Accuracy,但是降低了Recall。LR和LSTM算法在正類樣本(真實為正類)的識別上表現較好,可能因為模型過于“寬容”對于較多樣本都傾向于預測為正類,從而提高Recall。總體數據在預測的F1值上都達到93%以上。

3.2 組合模型對比

圖4為驗證數據集前100條數據的三種算法預測概率,可以看出對負類的判別上RF算法檢測值更多,LR算法更偏向于將數據判別為正類。本文通過ANN對三種算法的預測概率進行加權平均的方法,不斷地調整權重,達到最優的模型分類性能。對比投票和平均的方法分別進行實驗檢測。

圖5主要比較了基于投票、平均和ANN三種算法組合方法在準確性、召回率、精確率、F1值和RUC方面的性能,實驗結果表明,采用ANN進行加權平均的方法在本項目中取得了最佳的預測性能,各方面性能都較于另兩種方法更優秀,預測F1值高達99.6%,對比投票和平均的方法提高1%,同時由圖5看出在ROC曲線中ANN和平均的方法AUC值是相似的,對于分類的預測性能表現較好。實驗表明ANN方法對于預測任務具有較好的泛化能力和分類性能。

4 結 論

本文提出了基于某市助餐點收集到的用餐數據,采用集成學習的思路設計一種E-ARLL異常檢測模型。所提出的異常檢測方法主要分為兩個部分,首先采用RF、LR和LSTM對原始數據集進行分析,得到不同特征下對數據分類的預測概率,最后利用ANN對得到的預測概率進行訓練,獲得最終的預測結果,并計算評估指標,該模型F1值達到99.6%,這個結果表明本文的算法在該數據集上表現出非常出色的分類性能,能夠準確地將樣本分類為正類和負類,并且能夠捕捉到大部分正類樣本,同時盡可能地避免將負樣本錯誤地預測為正類,證明了模型的穩健性和優越性。

然而該數據集正負樣本不均衡,導致準確率和精確率較低,召回率較高,對于負樣本的預測不夠準確,后續的研究會針對該方面,采用類別平衡技術、權重調整等方法,提高對負樣本的識別率,提高模型的整體效果。在應用該算法到實際應用場景時,還需要對數據和模型進一步驗證和優化,以確保該模型的可靠性和穩定性。

參考文獻:

[1] 李盈盈,劉奕.智慧養老背景下社區養老服務優化研究 [J].社會科學前沿,2023,12(10):5866-5873.

[2] ZHANG D H,QIAN L Y,MAO B J,et al. A Data-driven Design for Fault Detection of Wind Turbines Using Random Forests and XGBoost [J].IEEE Access,2018,6:21020-21031.

[3] SADAF K,SULTANA J. Intrusion Detection Based on Autoencoder and Isolation Forest in Fog Computing [J].IEEE Access,2020,8:167059-167068.

[4] XU D,WANG Y J,MENG Y L,et al. An Improved Data Anomaly Detection Method Based on Isolation Forest [C]//2017 10th International Symposium on Computational Intelligence and Design (ISCID).Hangzhou:IEEE,2017:287-291.

[5] YU Y,SI X S,HU C H,et al. A Review of Recurrent Neural Networks:LSTM Cells and Network Architectures [J]. Neural computation,2019,31(7):1235-1270.

[6] NABIPOUR M,NAYYERI P,JABANI H,et al. Predicting Stock Market Trends Using Machine Learning and Deep Learning Algorithms Via Continuous and Binary Data;a Comparative Analysis [J].IEEE Access,2020,8:150199-150212.

[7] FAN Y J,XU K K,WU H,et al. Spatiotemporal Modeling for Nonlinear Distributed Thermal Processes Based on KL Decomposition, MLP and LSTM Network [J].IEEE Access,2020,8:25111-25121.

[8] CHIKKAKRISHNA N K,RACHAKONDA P,TALLAM T. Short-Term Traffic Prediction Using Fb-PROPHET and Neural-PROPHET [C]//2022 IEEE Delhi Section Conference (DELCON).New Delhi:IEEE,2022:1-4.

[9] 趙英,翟源偉,陳駿君,等.基于LSTM-Prophet非線性組合的時間序列預測模型 [J].計算機與現代化,2020(9):6-11+18.

[10] NIKRAVESH A Y,AJILA S A,LUNG C-H. Mobile Network Traffic Prediction Using MLP,MLPWD,and SVM [C]//2016 IEEE International Congress on Big Data (BigData Congress).San Francisco:IEEE,2016:402-409.

[11] 董紅瑤,申成奧,李麗紅.基于鄰域容差熵選擇集成分類算法 [J].鄭州大學學報:理學版,2023,55(6):15-21.

作者簡介:胡俊杰(1997—),男,漢族,安徽合肥人,碩士研究生,研究方向:深度學習。

收稿日期:2024-01-23

基金項目:滁州學院校級重點科研項目(2022XJZD09);安徽省高校自然科學研究重大項目(2022AH040149)

Abnormal Detection Method of Pension Meal Service Data Based on E-ARLL Algorithm

HU Junjie, HUANG Meng

(School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan 232001, China)

Abstract: China is entering an aging society. In order to ensure the three meals a day for the elderly, the government purchases pension meal services in various places. The 1 services, embezzlement, 1ly use and other problems in the service process threaten the property security of government and the elderly, so this paper proposes E-ARLL algorithm to detect abnormal data. This method uses Pearson correlation coefficient and ANOVA to divide the original dataset into the feature training set and the feature verification set, and then the feature training set is input into the E-ARLL algorithm model. Based on the thinking of Ensemble Method, the suitable algorithm is selected for abnormal detection according to the linear relationship of the divided dataset. The experimental results show that the proposed method shows good performance on the abnormal detection of pension meal service data, and the final abnormal data identification rate is 99.4%. It brings new verification methods to the credibility of government purchasing services, which has profound significance.

Keywords: abnormal detection; integrated algorithm; pension service

主站蜘蛛池模板: 国产精品无码一二三视频| 国产呦视频免费视频在线观看| 色婷婷狠狠干| 人人91人人澡人人妻人人爽| A级全黄试看30分钟小视频| 日本黄色不卡视频| 国产成人亚洲日韩欧美电影| 手机在线国产精品| 国产91蝌蚪窝| 午夜视频在线观看区二区| 91精品视频播放| 日本一区中文字幕最新在线| 国产综合亚洲欧洲区精品无码| 亚洲国产系列| 日韩欧美中文在线| 国产精品片在线观看手机版| 在线看片国产| 综合人妻久久一区二区精品 | 第一区免费在线观看| 一本久道久久综合多人| 国产91在线|日本| 91久久偷偷做嫩草影院免费看 | 久久久久人妻一区精品色奶水| 亚洲av无码人妻| 成年网址网站在线观看| 一本一本大道香蕉久在线播放| 久久久久亚洲精品成人网 | 日韩欧美视频第一区在线观看| 欧美伦理一区| 白浆视频在线观看| 国产乱子伦精品视频| 美女视频黄频a免费高清不卡| 国产极品美女在线观看| 91精品国产自产91精品资源| 伊人久久影视| 久久久久国色AV免费观看性色| 午夜精品久久久久久久无码软件| 成人精品免费视频| 精品视频在线观看你懂的一区| 日韩高清中文字幕| 99在线视频网站| 中文字幕2区| 色男人的天堂久久综合| 日本欧美视频在线观看| 毛片国产精品完整版| 福利小视频在线播放| 区国产精品搜索视频| 亚洲欧美国产视频| 最新无码专区超级碰碰碰| 亚欧美国产综合| 一本久道热中字伊人| 国产在线小视频| 97狠狠操| 午夜欧美理论2019理论| 精品国产香蕉伊思人在线| 成人精品在线观看| 国产视频大全| 国产成人无码综合亚洲日韩不卡| 99久久99视频| 国产女人在线| 91麻豆精品国产高清在线| 国产乱人乱偷精品视频a人人澡| 久久综合结合久久狠狠狠97色| 国产精品99久久久| 国产精品自在线天天看片| 亚洲伦理一区二区| 丁香五月婷婷激情基地| 精品久久国产综合精麻豆| 激情六月丁香婷婷| 又爽又大又黄a级毛片在线视频| 国产一级裸网站| 狠狠综合久久| 国产人在线成免费视频| 国产成人午夜福利免费无码r| 97精品国产高清久久久久蜜芽| 婷婷亚洲天堂| 国产成人久久777777| 成人国产精品网站在线看| 國產尤物AV尤物在線觀看| 国产白浆在线| 尤物成AV人片在线观看| 国产人成网线在线播放va|