999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于典型數據集的數據預處理方法對比分析

2022-03-22 12:08:12李顏平
沈陽工業大學學報 2022年2期
關鍵詞:標準化效果實驗

李顏平, 吳 剛

(1. 南開大學 統計與數據科學學院, 天津 300071; 2. 東北大學 計算機科學與工程學院, 沈陽 110004)

數據預處理將原始數據轉換成符合要求的數據格式,對提升模型擬合效果具有重要意義.科研工作者通常根據實驗要求提出合適數據預處理方式并進行相應處理.Arthur等[1]根據統計測試對藥物效果的比較,得出需將數據正態化處理避免得到不當結果的結論.Zygmunt[2]討論了對數據進行標準化處理的兩種方法.馬立平[3]注意到統計數據的可比性和綜合性問題,提出統計數據無量綱化方法.這些數據處理方法可以使處理后的數據擬合出效果更好的模型[4],然而,目前尚無對這些簡單數據預處理方式結合后對模型擬合效果影響的研究.

為了探究數據預處理對提升模型擬合效果的重要意義.本文基于UCI Machine Learning Repository[5-6]中3種有代表性的機器學習數據集,采用多種變量處理方式和變量選擇方法組合,實驗對比分析組合方法對經典機器學習模型擬合效果的影響.變量處理方式中,對比不處理、正態化、標準化、歸一化4種基本情況,并比較了它們兩兩組合的情形;對于定性變量,對比是否引入啞變量的處理.變量選擇方法中,本文將方差分析、卡方檢驗、互信息方法[7]與Copula熵方法[8]進行對比分析,整個數據預處理流程如圖1所示.本文將討論不同變量處理方式和變量選擇方法對模型擬合產生的影響,進而分析各種數據預處理方法在不同模型中的使用情況.為使結論具有普遍性,同時在每個數據集上都可以使用各數據預處理方式,即數據集需要既包含定量變量又包含定性變量,所以本文基于Heart Disease數據集進行了二分類的實驗,基于Abalone數據集進行了多分類的實驗,基于Auto MPG數據集進行了回歸的實驗.通過對上述實驗結果的分析,從數據集特征、模型類型、問題類型等角度,歸納總結了數據預處理方法選擇的一般性規律,進而設計了用于數據預處理方法推薦的啟發式算法,最后通過更廣泛的實驗,驗證了上述一般性規律和啟發式算法的有效性.

圖1 數據預處理方式

1 數據預處理

Heart Disease數據集共包含75個屬性,其中第58個屬性num為響應變量,其余74個屬性為預測變量.為了使預測結果具有較好的可解釋性,本文采用cleveland.data中機器學習研究者推薦的13個屬性來進行心臟病患病情況的預測.

1.1 數據類型分析和缺失值填補

從原始數據集中各變量的含義分析,這13個變量中既包括定性變量,又包括定量變量,變量類型如表1所示.

表1 數據集中的變量類型

ca和thal的取值范圍和數據說明不符,經核對超出范圍的數字為缺失值,判定該數據集將缺失值填補為新的類別,為使其更合理,分別取ca和thal的眾數來填補缺失值.

1.2 定量變量的轉換

定量變量通常需要正態化、標準化以及歸一化轉換,這取決于所選擇模型的特點.對于正態化,觀察定量變量分布發現,trestbps、thalach和oldpeak的分布為正偏態分布,而chol的分布為負偏態分布,它們的分布與正態分布相比或多或少存在差異[9].通過多次實驗發現,正態化處理時,將age和thalach做Box-Cox變換[10],將trestbps取倒數,將chol取對數,將oldpeak做Yeo-Johnson變換[11]后,使得原分布最接近正態分布.

1.3 定性變量因子化

數據集中的每種定性變量的類別采用數字進行編碼,但由于模型不能通過數字識別出不同類別,反而會認為該變量存在大小關系,所以引入啞變量[12]將定性變量的不同類別替換為一個或多個取值為0或1的定性變量.

1.4 變量選擇

該數據集的樣本數量較少,而變量數量較多,考慮模型可能發生過擬合現象,于是進行變量選擇來提升模型效果、提高訓練速度,同時提升模型可解釋性.而由所有變量間的相關性矩陣可以發現,該數據集中的變量兩兩之間相關性比較弱,絕對值均小于0.6,所以不能根據相關性選擇變量.因此本文采用方差分析、卡方檢驗、互信息以及Copula熵4種方法進行變量選擇.

本文中方差分析、卡方檢驗、互信息分別使用sklearn庫中f_classif、χ2test、mutual_info_classif方法對變量依次打分,得到的得分情況如表2所示.

表2 變量得分情況

為了得到更高可解釋性的預測結果,本實驗中采用文獻[13]中提出的CE方法、dHSIC[14]和dCor[15]3種方法選擇的變量與研究人員推薦的13個變量對比找到重合的變量,即從中進行變量選擇,dCor、dHSIC、CE選擇出的變量情況如表3所示.

表3 dCor、dHSIC、CE選擇出的變量名稱

2 模型擬合與評估

將數據集以7∶3的比例分為訓練集和測試集兩部分,優化每種模型的超參數來找到“最佳模型”,采用常用于提高模型泛化能力的交叉驗證方法劃分訓練集和驗證集,采用網格搜索方法構造每種模型的參數網格,依次尋找最優超參數.

2.1 改變變量處理方式

為盡可能提升模型擬合效果,在前期對定量變量分別經過不處理、正態化、標準化、歸一化、先正態化后標準化(簡記“正標”)、先正態化后歸一化(簡記“正歸”)、先標準化后歸一化(簡記“標歸”)、先歸一化后標準化(簡記“歸標”)、先正態化再標準化后歸一化(簡記“正標歸”)、先正態化再歸一化后標準化(簡記“正歸標”)處理后,再對定性變量進行是否引入啞變量的處理,這樣得到20種處理方式,考慮正態化中Box-Cox變換需要的變量均為正數,故將正態化處理放在標準化與歸一化前.完成數據預處理后,對數據采用邏輯回歸、決策樹、隨機森林、支持向量機(SVM)、樸素貝葉斯(NB)、K近鄰、神經網絡7種經典模型擬合,將訓練好的模型在測試集上做預測,對比準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F-score、真陽率(TPR)、假陽率(FPR)、Area Under Curve(AUC)7個指標[16],找出表現最優的模型.多次實驗得到結果如表4、5所示(表中加粗參數為最優值).

表4 模型擬合效果對比(不引入啞變量)

根據7個指標選擇模型擬合最優的處理方式,指標均相同時,選取最簡單處理方式.擬合邏輯回歸模型時,僅正態化處理;擬合決策樹模型時,正態化、先正態化再標準化后歸一化、先正態化再歸一化后標準化處理擬合模型效果最好,但僅正態化處理最為簡單;擬合隨機森林模型時,選取先歸一化再標準化處理;擬合支持向量機模型時,歸一化處理并引入啞變量、先標準化再歸一化并引入啞變量處理擬合模型7種指標均相同,簡便起見,選取歸一化且引入啞變量處理;擬合樸素貝葉斯模型時,不處理、標準化、歸一化、先標準化再歸一化、先歸一化再標準化5種處理方式擬合模型7種指標均相同,簡便起見,選取不處理變量;擬合K近鄰模型時,選取先正態化再歸一化處理;擬合神經網絡模型時,僅歸一化處理.

2.2 改變變量選擇方法

根據2.1節實驗結果可知,邏輯回歸擬合效果最好;樸素貝葉斯、K近鄰和神經網絡擬合效果相似;支持向量機和隨機森林擬合效果略差一點;決策樹擬合效果較不理想,所以采用1.4節中變量選擇且正態化處理重新擬合.

當刪去restecg、fbs、trtbps且僅正態化處理時,模型準確率為87.912 1%,效果最好.而Copula熵方法沒有提高模型準確率,僅小幅度提升了精確率.參考文獻[13]中,SVM模型擬合準確率為84.76%,較本文不做任何數據處理擬合的準確率76.92%有很大提高,卻不如采用合適變量處理結果,如對歸一化且引入啞變量處理準確率達到89.01%.

表5 模型擬合效果對比(引入啞變量)

3 多分類與回歸實驗

第2節通過二分類實驗進行了數據預處理方法的比較分析,本節將探究多分類與回歸實驗中上述數據預處理方法對模型效果的影響.

基于Abalone數據集實驗,為使模型擬合效果最好,擬合邏輯回歸模型選取歸一化且引入啞變量處理[17];擬合決策樹模型引入啞變量處理;擬合隨機森林模型僅進行正態化處理;擬合支持向量機模型引入啞變量處理[18];擬合樸素貝葉斯模型僅進行正態化處理;擬合K近鄰模型不處理;擬合神經網絡模型引入啞變量處理.

基于Auto MPG數據集實驗,為使模型擬合效果最好,擬合線性回歸模型僅進行正態化處理;擬合決策樹模型先正態化再歸一化后標準化處理;擬合隨機森林模型先正態化再標準化處理;擬合支持向量機模型引入啞變量處理;擬合K近鄰模型僅進行標準化處理;擬合Adaboost模型先正態化再標準化后歸一化處理;擬合Bagging模型先正態化再歸一化后標準化處理.

4 分析與討論

數據預處理方法的選擇本身很復雜,本節將從3個角度展開討論,給出初步的分析結果.

4.1 從數據集自身特點分析

Heart Disease數據集通常需要正態化和歸一化處理,根據該數據集自身特點,其age、thalach、trtbps、chol和oldpeak 5個變量分布的偏度較大,若不做正態化處理會對模型擬合效果產生一定影響;該數據集各變量的取值范圍相差較大,如age取值從29~77,而chol取值從126~564,二者量綱顯然不同,這就需要歸一化處理使數據更為符合模型擬合的要求.

Abalone數據集通常需要引入啞變量處理,該數據集中僅有sex變量為定性變量,其他變量均為定量變量且連續.由于sex變量有M、F和I3種,如果不引入啞變量,數據會被認為三者存在大小關系,這不利于模型擬合.Auto MPG數據集通常需要正態化、標準化和歸一化三者結合處理,分析該數據集特點,就需要歸一化來統一量綱.

通常來說,定量變量分布的偏度較大時需要采用正態化處理;定量變量的方差較大時需要采用標準化處理;定量變量的取值范圍相差較大時需要采用歸一化來處理;定性變量含有多種類別同時并無大小關系時需要引入啞變量處理.

4.2 從模型類型分析

呈正態分布的數據擬合樸素貝葉斯模型和邏輯回歸模型表現效果較好.樸素貝葉斯模型先驗分布是正態分布,這樣正態化處理的數據可以幫助模型擬合.而對于偏度和峰度較大的數據擬合的邏輯回歸模型效果較差.

引入啞變量處理后的數據擬合的支持向量機模型表現效果較好.支持向量機模型只能處理數值型數據,所以需要將定性變量引入啞變量,將其轉化為數值型數據,這樣就可以更好地擬合模型.而不引入啞變量處理后的數據擬合的樸素貝葉斯模型、決策樹和隨機森林模型表現效果較好.

歸一化處理的數據擬合K近鄰模型表現效果較好,K近鄰模型是度量距離的模型,避免極端數據的出現會幫助模型擬合.

4.3 從問題種類分析

基于Heart Disease數據集和Abalone數據集解決分類問題,不用選用3種數據預處理方式就可以達到最優擬合效果.而基于Auto MPG數據集解決回歸問題通常需要將3種數據預處理方式結合起來才能夠達到最優擬合效果.這說明數據預處理方法的結合對解決回歸問題更為重要.

究其原因,回歸問題基于貝葉斯統計學,如線性回歸假設數據服從正態分布,所以正態化處理數據尤為重要;分類問題在某個閾值范圍內均可以分到某個類別,而回歸問題必須盡可能地接近真實值,這就需要提供的數據更加符合模型要求,以得到更加精確的結果.

4.4 算法合理性實驗

本文從UCI Machine Learning Repository中選取Census Income數據集和Credit Approval數據集做二分類實驗,選取Contraceptive Method Choice數據集和Mechanical Analysis數據集做多分類實驗,選取Automobile數據集和Chess(King-Rook vs.King)數據集做回歸實驗.基于每個數據集進行所有數據預處理方法的實驗,同時再使用數據預處理推薦算法選出最優數據預處理方法,并和實際最優數據預處理方法進行對比,檢驗該啟發式算法的合理性.

4.5 實驗結果分析

啟發式算法與實際最優數據預處理方法相對差異如表6、7所示.算法結果和實際最優之間的相對差異表明,經過該數據預處理方法推薦算法選取的數據預處理后,僅有基于Census Income數據集的決策樹模型、基于Credit Approval數據集的隨機森林模型以及基于Contraceptive Method Choice數據集的支持向量機模型擬合效果優于或者等于實際最優的數據預處理方法.而其他情況下與擬合最優的數據預處理方法有一定差距.但絕大多數情況下,該數據預處理方法推薦算法選取的數據預處理方法擬合的模型比不做任何處理的擬合模型有明顯優勢,同時大多數情況下其與實際最優數據預處理方法擬合模型效果的相對差異在0.01之內,這足以說明如果采用本文提出的數據預處理方法推薦算法可以在一定程度上提升模型擬合效果,簡化復雜的數據預處理過程,節約一定的時間成本.

表6 啟發式算法與實際最優方法數據預處理方法相對差異(分類數據集)

表7 啟發式算法與實際最優方法數據預處理方法相對差異(回歸數據集)

對于回歸問題,數據預處理方法推薦算法選取的數據預處理方法有幾種模型擬合效果劣于不處理的情況,同時其與實際最優數據預處理方法擬合模型效果的相對差異都大于0.01.為了解決這一問題,需要進一步挖掘模型的特點,使得該數據預處理推薦算法對整個實驗流程提供幫助.

5 結 論

本文從數據分析中歸納總結得出一些規則,并將這些規則表達成數據預處理推薦算法,最終在更廣泛的數據上獲得了驗證.根據實驗結果可知,本文提出的數據預處理推薦算法可以通過數據特征、模型特點以及研究問題種類等方面推薦數據預處理方法,并且可以一定程度上提升模型擬合效果,簡化復雜的數據預處理過程,節約一定的時間成本.

猜你喜歡
標準化效果實驗
記一次有趣的實驗
按摩效果確有理論依據
標準化簡述
做個怪怪長實驗
迅速制造慢門虛化效果
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
標準化是綜合交通運輸的保障——解讀《交通運輸標準化體系》
中國公路(2017年9期)2017-07-25 13:26:38
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 亚洲一级毛片免费看| 国产成人麻豆精品| 最新痴汉在线无码AV| 乱系列中文字幕在线视频| 成人欧美日韩| 国产精品美女自慰喷水| 99热6这里只有精品| 91系列在线观看| 国产精品嫩草影院视频| 在线观看国产精美视频| 国产日韩精品欧美一区灰| 亚洲国产成人在线| 丁香婷婷激情网| 国产视频a| 国产精品亚洲片在线va| 欧美日韩一区二区在线免费观看 | 亚洲中文久久精品无玛| 国产精品第| 亚洲人网站| 在线国产你懂的| 91视频精品| 在线国产你懂的| 国产午夜福利在线小视频| 国产精品手机在线观看你懂的| 国产白丝av| 国产一区二区精品高清在线观看 | 久久精品午夜视频| 国产人在线成免费视频| 亚洲AⅤ综合在线欧美一区| 亚洲高清无码精品| 欧美日韩中文字幕二区三区| 久久午夜夜伦鲁鲁片不卡| 婷婷亚洲最大| 在线日韩日本国产亚洲| A级毛片高清免费视频就| 91精品久久久久久无码人妻| 欧美高清国产| 国产亚洲精品自在久久不卡 | vvvv98国产成人综合青青| 手机成人午夜在线视频| 亚洲美女高潮久久久久久久| 日本欧美午夜| 激情无码视频在线看| 欧美一区精品| 999国产精品| 亚洲视频免| 亚洲三级影院| 99视频在线看| 国产精品性| 熟女成人国产精品视频| 一级毛片a女人刺激视频免费| 成人毛片免费观看| 精品国产免费第一区二区三区日韩| 国产一级裸网站| 中文无码日韩精品| 亚洲69视频| 成人韩免费网站| 日本在线亚洲| 色呦呦手机在线精品| 国产精品嫩草影院视频| 自偷自拍三级全三级视频| 亚洲国产综合第一精品小说| 国产亚洲精品自在久久不卡| 黄色网站不卡无码| 欧美精品亚洲精品日韩专区va| 国产成人免费| 免费国产高清精品一区在线| 中文天堂在线视频| 亚洲 成人国产| 国产丝袜一区二区三区视频免下载| 精品国产免费观看| 国内精品小视频在线| 国产三级a| 伊人丁香五月天久久综合| 麻豆AV网站免费进入| 欧美精品三级在线| 日韩免费无码人妻系列| 亚洲天堂.com| 免费一级毛片在线播放傲雪网| 在线播放精品一区二区啪视频| 国产精品欧美激情| AV在线天堂进入|