999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種屬性丟失值分塊填補方法

2022-06-22 18:16:09朱林杰
甘肅科技縱橫 2022年4期
關鍵詞:分類

朱林杰

摘要:丟失值填補在數據挖掘領域是非常重要的。針對數據集中出現屬性丟失值的情況,本論述提出了一種屬性丟失值分塊填補(ABNS)的方法。首先對數據集進行標準化處理,然后將其數據分成相等的 n 個塊,接著驗證每一塊來獲取相對應的最優的 K 值,最后使用最優的 K 值進行數據填補來得到相應的數據。實驗采用公開數據集 Horse Colic、Vote 和Diabe? tes進行實驗,并且在使用貝葉斯、KNN 和 SMO 算法進行分類評估的情況下,對所提出的方法與傳統均值填補方法和概率填補方法進行對比。實驗結果分析表明,所提方法的填補效果較對比的方法具有一定優勢。

關鍵詞:分類;KNN;屬性丟失值

中圖分類號:TP391????????????????????????????????????????? 文獻標志碼:A

0 引言

隨著信息技術的迅速發展,相應的伴隨著大量數據的產生。由于各種原因,數據處理有時會出現屬性丟失值的結果,屬性丟失值能影響分類器的性能,影響數據分析的情況。因此,提高數據質量很有必要。例如:水污染數據和風力發電數據都會存在屬性丟失值的現象,尤其在醫學數據研究中,對屬性丟失值的處理顯得更加重要。在處理數據集的過程中,發現屬性丟失值的情況比較常見,數據集的各個屬性都可能會出現丟失值的情況。在數據集中,當有些數據字段為空,或者是出現“?”號以及出現“N/A”和“Not Available”等值的時候,就表明這是一個不正常的屬性值。還有一些情況,有時會因為某一些屬性值的丟失,將直接導致整個數據集不可用。

屬性丟失值處理是數據挖掘領域重要的研究方向之一。近年來,幾個處理方法已經被提出用于屬性丟失值填補,因此就如何對屬性丟失值進行處理也是非常重要的。同時,該問題在諸多領域中受到廣泛的關注,許多研究人員對丟失值進行相關的理論研究,提出解決方法并且進行了相關的實驗。隨后,在所有提出的解決方法中,發現采用填補方法對屬性丟失值進行處理的方法具有更大的優勢。該方法從如何利用現有的數據進行填補屬性丟失值,使得數據更加完整,依照丟失的重要性和類型進行區域填補,在數據合理性上有一定的優勢。

K 最近鄰(KNN,K- NearestNeighbor)算法一直是機器學習領域研究的焦點。但是 K 值有著不同的選擇,K 值選擇也比較重要,因為 K 值的不同會使得同樣的數據有著不同的結果。尤其是對于稀疏數據來說,由于數據的相異性,當使用 KNN 算法做數據分析時,不同的 K 值可能會出現信息檢測時丟失信息的情況。

本論述在使用 KNN 算法基礎上,提出了一種 ABNS 填補方法,并將它與均值填補和概率填補方法在 Horse Colic、Vote 和 Diabetes 數據集上進行了比較。

1 相關工作

屬性丟失值近年來一直被人們關注,為了解決屬性丟失值問題,研究者也提出了許多處理丟失值的方法,加深了丟失值處理的進一步研究。文獻[1 ]回顧了由于分析儀器產生的數據受各種因素影響,需要預處理數據,同時分析了化學計量學的預處理融合的集成方法,表明預處理集成允許幾種技術選擇和它們的組合,以一種互補的方式,進而來改進模型。文獻[2 ]使用沒有缺失值的訓練數據對自編碼器進行訓練,使其更好地預測缺失值的能力,利用自動編碼神經網絡去重建自己,并做了進一步估計,將丟失值最小化。數據不平衡問題一直是研究的焦點之一。文獻[3]通過研究信用風險評估,針對不平衡數據學習問題提出了一種新型的組合動態集合選擇(DES,dynamic ensemble selection) 模型,并且采用 DES-KNN 的兩步選擇策略來對于分類的能力和多樣性進行權衡。

高維數據經常造成嚴重的計算復雜度,對它進行分析和學習一直是一個挑戰。文獻[4 ]提出了一種新的監督差異性降維方法,通過優化新設計的有效目標函數來學習每個類別的變化。與單一變化的情況相比,所提方法可以從每個單一類別的數據中捕捉到更多的有用信息。醫學數據集在醫學領域是非常重要的,文獻[5]討論了一個新的丟失值填補框架,采用基于類的聚類方法來填補丟失值,本質上,這可以降低醫療數據的維度。由于丟失值會對分類精度產生影響,文獻[6]利用貝葉斯附加回歸樹提出了一種自動刪除不相關變量的方法。所提模型方法可以對不完整數據集進行分類的精度提高,同時避免了一些不必要的步驟。

特征選擇是機器學習中的一個非常重要過程,文獻[7 ]引入一種相容類的概念,以減少原始數據中不必要的相容類。同時為了更有效地處理高維數據集,在每個循環后確定冗余的特征,并將其從候選特征子集中刪除,設計一個有效的啟發式算法以找到比較小的約簡集。文獻[8]驗證特征選擇對醫學數據集丟失值填充的影響,實驗結果表明,對于許多醫療數據集來說,為了產生最好的結果,應該謹慎選擇特征選擇算法。遺傳算法和信息增益模型適用于低維數據集,而決策樹模型則是高維數據集的更好選擇。文獻[9]介紹了數據挖掘中處理缺失屬性值的方法,方法主要分為順序法和平行法兩種,并且重點強調了規則歸納原則。另外,在醫療數據方面,因為醫療數據經常有丟失值,使用丟失值填補方式進行提高研究結果也是比較有效的。 Huang 等提出了醫療數據安全區域填補方法,填補結果有所提高。因此,利用屬性丟失值填補的方法會取得比較好的結果,它們是非常必要的填補方法,在提高分類性能方面也是非常有用的[10-12] 。294FC53E-C618-4B3C-9018-E7D2C95232C9

2 方法及步驟

數據填補是一種比較有效能夠減少對原有數據集的影響的一種方式。由于對于全部數據集,使用傳統算法計算樣本會增加復雜性,選擇數據填補方法是非常重要的,因此本論述提出了一種基于 KNN 算法的數據分塊填補屬性丟失值方法。這種方法將會提高分類的結果,提高分類的精度,該方法先對數據集進行預處理,然后把它分成 n 個塊,分別為 b1 , b2 , …, bn? ,然后為每個塊選擇最適合本塊的最優 K 值,接著使用這個 K 值對相應的數據進行填補,從而達到最優填補的效果。

所提方法的流程如圖1 所示。

ABNS 方法詳細的算法步驟:

步驟1 給定數據集 D ={(x1 ,y1),(x2 ,y2), …,(xn ,yn)} ,n 為樣本的數量,xi 為每個實例,yi為每個實例的標簽。

步驟2 對數據進行預處理,對數據集進行標準化。

步驟3將數據集隨機劃分成 n 個塊,分別標注為 b1 , b2 , …, bn? 。對于每一個塊,分別計算當 K 取為2、3、4和 5時的情況,并與分塊前采用 KNN 分類算法比較,從而來確定每一塊最優的 K 值。

步驟4 使用最優 K 值填補數據,對填補的數據集進行分類,驗證所得的結果。

3 實驗結果與分析

為了提高分類的精度,評估所提出方法的性能,將所提方法與傳統的均值填補方法和概率填補方法在貝葉斯,KNN 和 SMO 分類算法進行比較分析,采用精度、召回率和 F- score 度量方式。使用公開數據集 Horse? Colic、Vote 和 Diabetes 進行實驗。實驗平臺 Intel Core, i5-9400F,CPU 2.90GHz,8G 內存,編程語言 Python 3.7,Windows10操作系統。

數據集見表1 所列,包括數據集的名稱,數據集的屬性,數據集的數量以及類型。

精度、召回率與 F-score 如下圖所示。

從圖2、3、4中可以看出,在 Horse-colic 數據集中, ABNS 填補方法精確度分別為91%、92.9%和97.3%,遠優于對比的填補方法;在Vote 數據集上,ABNS 填補方法精確度略優于均值填補方法,遠好于概率填補方法;在 Diabetes 數據集中,用貝葉斯算法進行分類,ABNS 填補方法精確度最高。用 KNN 進行分類時候,均值填補方法的精確度最好。ABNS 填補的精確略低于均值填補,優于概率填補方法。用 SMO 進行分類時,概率填補最好,ABNS 次之,兩種方法優于均值填補的精確度。所以,就從精確度方面而言,所提出的方法在大部分情況下對于屬性丟失值填補會優于其他兩種方法。

從圖5、6、7中可以看出,與表2 類似,與其他兩種方法對比,ABNS 填補方法在Horse-colic 和Vote 數據集上,表現都是最優的。在 Diabetes 數據集上,僅僅采用 KNN 分類時,結果不是最優的,其他的情況下,都是最優的。

F-score 指標是用來綜合權衡精確率和召回率的評價指標。從圖8、9、10可以發現,對于 Horse- colic 和 Vote 數據集,ABNS 填補方法的F-score 都是最高的,均值填補次之,概率填充結果最差。但是對于 Diabetes 數據集時,只有使用 KNN 分類時,ABNS 填補方法的 F- score 不是最高的,其他分類條件時,ABNS 填補方法的 F-score 都是最高的。即在綜合權衡精確率和召回率的條件下,所提方法的填補性能與對比方法相比具有一定的優勢。

4 結論

在高速發展的信息時代,數據是非常重要的,要從數據中發現有用的信息,對數據集中的屬性丟失值進行處理很有必要。通過分析數據集中屬性丟失值的情況,分析了屬性丟失值的相關技術研究,針對數據集數據的特點,討論采用分塊的方法的可行性,隨后提出了一種屬性丟失值分塊填補(ABNS)的方法,進而實現對數據集中屬性丟失值的填補。這種方法把數據集劃分為 n 個子塊,每個子塊各自選擇最優的 K 值,接著利用最優的 K 值對于屬性丟失值進行填補,進而改善了屬性丟失值的情況。并且通過實驗結果表明了在部分數據集上,所提方法填補后的數據在精確度、召回率和 F- score 指標上具有一定的優勢。所提方法與傳統的方法相比,處理部分丟失值的效果明顯提升,也為屬性丟失值填補提供一種新的思路。面對深度學習的廣泛應用,屬性丟失值研究對于深度學習也有重要的的影響,下一步工作將進一步探索新的方法,把該方法用于如何與深度學習結合來提高分類能力等方面做更深入的研究。

參考文獻:

[1 ]?? Mishra P,Roger J M,Rutledge D N,et al. New data prepro?cessing trends based on ensemble of multiple preprocessing techniques[J]. TrAC Trends in Analytical Chemistry,2020,132.

[2 ]?? Choudhury S J,Pal N R. Imputation of missing data with neu?ral networks for classification[J]. Knowledge-Based Systems,2019,182(C):104838.

[3 ]?? Hou W H,Wang X K,Zhang H Y,et al. A novel dynamic ensemble selection classifier for an imbalanced data set:An application for credit risk assessment[J]. Knowledge- Based Systems,2020,208:106462.294FC53E-C618-4B3C-9018-E7D2C95232C9

[4 ]?? Rajabzadeh H,Jahromi M Z,Ghodsi A. Supervised discrimi ?native dimensionality reduction by learning multiple transfor? mation? operators [J].? Expert? Systems? with? Applications,2021,164:113958.

[5]?? Yelipe U,Sammulal P. A Novel Approach for Imputation ofMissing Attribute Values for Efficient Mining of Medical Data? sets - Class Based Cluster Approach[J].Revista Técnica De La Facultad De Ingeniería Universidad Del Zulia,2016,39( 2):184-196.

[6]?? Mehrabani- Zeinabad K,Doostfatemeh M ,Ayatollahi T. AnEfficient and Effective Model to Handle Missing Data in Clas ? sification[J]. BioMed Research International,2020:8810143.

[7 ]?? Thuy? N? N,Wongthanavasu? S. A? Novel? Feature? Selection Method? for? High- Dimensional? Mixed? Decision? Tables [J]. IEEE? Transactions? on? Neural? Networks? and? Learning? Sys ? tems,2021(99):1-14.

[8]?? Liu C H,Tsai C F,Sue K L,et al. The Feature Selection Ef?fect on Missing Value Imputation of Medical Datasets[J]. Ap? plied Sciences,2020,10(7):1-12.

[9]?? Grzymala- Busse J W,Grzymala- Busse W J. Handling Miss ?ing Attribute Values[ M ].2005.

[10]?? Huang S F,Cheng C H. A Safe- Region Imputation Methodfor Handling Medical Data with Missing Values[J]. Symme? try,2020,12( 11):1792.

[11]?? N. S.Altman. An Introduction to Kernel and Nearest- Neigh ?bor? Nonparametric? Regression [J].The? American? Statisti? cian,2012,46(3):175-185.

[12]?? Jones P J,James M K,Davies M J,et al. FilterK:A new out?lier detection method for k- means clustering of physical ac ? tivity[J]. Journal of Biomedical Informatics,2020,104(9):1-10.294FC53E-C618-4B3C-9018-E7D2C95232C9

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: www.91中文字幕| 538国产视频| 四虎永久在线精品影院| 中文字幕 91| 亚洲一区波多野结衣二区三区| 2021天堂在线亚洲精品专区| 亚洲av综合网| 小说 亚洲 无码 精品| 国产国产人免费视频成18| 无码aaa视频| 91蝌蚪视频在线观看| 日韩国产黄色网站| 亚洲人成色77777在线观看| 996免费视频国产在线播放| 亚洲av无码成人专区| 欧美激情伊人| 91在线播放免费不卡无毒| 国产精品视频久| 午夜国产不卡在线观看视频| 国产一区自拍视频| 狠狠v日韩v欧美v| 亚洲日韩每日更新| 亚洲香蕉在线| 成人无码一区二区三区视频在线观看| 香蕉久久国产精品免| 免费国产好深啊好涨好硬视频| 不卡午夜视频| 国产欧美网站| 日本在线欧美在线| 成人福利免费在线观看| 亚洲另类色| 亚洲永久色| 国产精品不卡永久免费| 国产免费羞羞视频| 亚洲精品国产日韩无码AV永久免费网| 国产乱人伦精品一区二区| 午夜精品久久久久久久2023| 国产欧美视频在线观看| 欧美一级大片在线观看| 沈阳少妇高潮在线| 又爽又大又黄a级毛片在线视频| 成AV人片一区二区三区久久| 亚洲高清无在码在线无弹窗| 国产真实乱了在线播放| 亚洲欧洲自拍拍偷午夜色无码| 在线国产综合一区二区三区 | 亚洲欧洲免费视频| 国产一级毛片网站| 综合色区亚洲熟妇在线| 在线欧美日韩| 欧美亚洲国产一区| 日韩高清一区 | 久久久久亚洲精品成人网 | 欧美黄网站免费观看| 国产亚洲视频中文字幕视频 | 蜜芽国产尤物av尤物在线看| 日韩精品久久无码中文字幕色欲| 国产农村妇女精品一二区| 国产毛片不卡| 高潮毛片无遮挡高清视频播放| 久久91精品牛牛| 高清久久精品亚洲日韩Av| 浮力影院国产第一页| 亚洲精品无码抽插日韩| 高清欧美性猛交XXXX黑人猛交 | 日本影院一区| 小13箩利洗澡无码视频免费网站| 国产一区二区免费播放| 性色生活片在线观看| 成人免费一区二区三区| 亚洲一本大道在线| 亚洲aaa视频| 亚洲成a人片7777| 澳门av无码| 欧美成人区| 老司机午夜精品视频你懂的| 少妇精品网站| 日韩大乳视频中文字幕 | 亚洲香蕉久久| 欧美不卡二区| 精品伊人久久久大香线蕉欧美| 国产精品林美惠子在线观看|