999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于REAHCOR特征選擇和GBDT的貧困等級評價模型①

2020-05-22 04:47:38夏艷姣焦艷菲田月
計算機系統應用 2020年5期
關鍵詞:分類特征信息

夏艷姣,孫 詠,焦艷菲,高 岑,田月

1(中國科學院大學,北京 100049)

2(中國科學院 沈陽計算技術研究所,沈陽 110168)

3(沈陽高精數控智能技術股份有限公司,沈陽 110168)

我國扶貧開發工作最初起源于20世紀80年代中期,經過近幾十年的不懈努力,取得了令人矚目的成就.經濟社會快速發展,人們的生活水平不斷提高,但是,長期以來,貧困居民的底數不清,情況不明,扶貧的針對性不強等問題比較突出.國外BPS 使用CAPI 來進行貧困狀況調查,但是也只是針對少數地區.在國內,對于當地貧困人口的統計大多仍按照傳統方式進行貧困數據收集,近些年開始進行建檔立卡工作.對于進行貧困分類,國外專家提出K-均值聚類法評估貧困等級[1];Yu BL 等利用NPP-VIIRS 數據采用線性回歸模型討論了ALI 值和IPI 值的關系進而進行貧困分類[2];Jean N 等通過訓練卷積神經網絡結合高分辨率衛星圖像來實現貧困戶識別[3];李雪等提出了多層次模糊系統方法進行貧困分類[4];徐姝婧等提出了基于神經網絡模型的方法實現貧困分類[5].對于上述專家提出的方案,K-均值聚類方法無法保證待歸類元素找到最佳分類;回歸分析法雖然考慮到了因素間的相互依賴和相互影響關系,但是實驗次數過于冗繁且NOAA/NGDC 發布的NPP-VIIRS 數據存在很多噪聲會影響實驗結果;模糊系統方法在指標集較大時,會出現超模糊現象,無法區分隸屬度;神經網絡雖然具有高度自學和自適應能力,但是它黑匣子的性質使得結果的可解釋性不強,不利于后續的扶貧分析.綜上所述,建立一個科學,多維,全面的評價系統尤為重要.本文以錄入的遼寧省某地區的家庭信息為依據,提出了基于REAHCOR-GBDT的貧困等級評價模型,為當地精準扶貧工作順利開展提供了更有利的保障.

1 貧困等級評價模型構建過程算法介紹

1.1 特征選擇算法REAHCOR

隨著時代的發展,龐大的數據集應運而生,數據的維度和復雜性也在不斷增長,如何從大量繁瑣的信息中篩選有用的信息,構造一個好的模型,提取關鍵特征顯得更為迫切.特征選擇是指從一堆與目標變量相關的,冗余的,無關的數據中選擇出分辨能力高的特征作為最優特征子集,從而提高分類模型的準確度.丁雪梅等介紹了改進的ReliefF 算法進行無監督特征選擇[6].李葉紫,張堯等提出了關于互信息的特征選擇來提高機器學習算法的準確率[7,8].李娜娜分析了影響貧困因素[9].本文采用的Filter 算法具有速度快的優勢且獨立于后續學習算法,其中ReliefF 是公認效果不錯的一種過濾式算法[6],但是考慮到ReliefF 不能夠很好的去除冗余特征以及貧困信息分類獨有的特點,本文提出采用ReliefF 算法結合層次分析法和相關度分析法來完成特征選擇的方法,即REAHCOR 特征選擇算法.該方法包含以下3 個階段,分別如下:

(1)ReliefF 算法會賦予每個特征不同的權重,依據是每個特征與類別標簽的相關性有大有小,當計算出的特征權重值大于某個闕值時,說明它對類別標簽的影響程度強,我們保留.反之,說明其影響程度弱,該特征會被刪除.權重的大小反映了該特征值區分同類近鄰樣本和不同類近鄰樣本的能力.ReliefF 算法的運算過程為從訓練集中隨機的選取一個樣本a,然后比較樣本a同類的b個近鄰樣本與不同類的另外b個近鄰樣本在某個特征的距離.通過規定次數的迭代,計算出所有特征的權重平均值.其權重更新公式如下:

(2)在上一步得出相關特征之后,考慮到貧困信息的復雜性和多層次性,繼而引入認可度較高的層次分析賦權法繼續為特征定量權重.其中在進行一致性指標計算時公式如下:

在進行一致性比率CR計算時公式如下:

在計算總的層次排序時檢驗一致性公式如下:

(3)采用特征間冗余度度量的相關性分析法進行特征選擇.該方法的主要思想是通過度量屬性之間的相關度來衡量它們之間的冗余性.相關度越大,冗余度也就越大.任江濤等介紹了基于相關性分析的選擇算法可以作為一種借鑒[10].在本研究中,連續型數值需進行離散化處理,然后采用信息論中的熵概念進行度量.信息熵的定義公式如下:

已知隨機變量Y后X的信息熵定義公式如下:

如果Y和X是相互獨立的,即H(X|Y)的結果值與H(X)的結果值相同,那它們的相關度為0;如果Y和X有相關性,那么X和Y之間的互信息值越大,它們的相關性就越強.由此信息增益值IG(X|Y)(也稱變量x,y之間的互信息)公式如下:

另外,相關度關于變量x,y是對稱的,所以對信息增益進行歸一化處理,公式如下:

本文提出的 REAHCOR 方法首先運行ReliefF 算法進行特征初篩,該算法通過計算得到每個特征的權重Wi,將Wi值大于過濾閾值的特征保留下來,放入到一個初始狀態為空的集合U中.然后將集合U中的特征采用層次加權法對貧困家庭指標進行定性與定量判斷并把得到的權重值放入到初始為空的集合S中.將集合U中的兩兩特征采用相關性分析法進行冗余度度量,將其結果集中冗余度大于冗余闕值的兩特征中在集合S里權值較小的特征刪除,選出最終需要的特征子集,這些被選出的特征都是和類別標簽相關性很強的一些特征.上述算法的優點是:通過使用計算效率比較快而且對數據大小和類型沒有限制的過濾式ReliefF算法求出那些與目標屬性不相關的特征,然后與層次分析法和相關性分析法相結合共同解決問題.很好的規避了ReliefF 算法不能去除冗余特征的缺點,同時能夠依據貧困信息多維度多層次的特點,將人的主觀經驗和客觀事實相結合,兼顧定性與定量分析,更加貼近事實的去解決問題,靈活性更強.該方法與單純使用ReliefF 或Wrapper 等算法相比,可靠性高并且冗余度少,不依賴后續學習方法,同時繼承了ReliefF 算法計算速度快的優點,減少了盲目性和不確定性,能夠得出具有科學化且性能優的特征參數子集.

1.2 GBDT 算法

在監督學習的算法中,我們都希望訓練出的模型是一個各方面穩定性都表現良好的模型,但是現實卻往往差強人意,得出的模型要么方差太大導致魯棒性不強,要么具有較高的偏置.而集成學習的思想就是讓一些弱學習器的方差或者偏置結合起來,從而獲得比單一學習器泛化性能更好的模型.目前集成學習的策略分為兩大類,一類是學習器與學習器之間相互獨立的Bagging 策略,一類是用下一個學習器擬合上一個學習器殘差的Boosting 策略[11].由于隨機森林的取樣策略具有方差較小,偏差較大的特點,所以它對于基學習器的準確度要求比較嚴格.而Boosting 策略則可以減小模型的偏差,通過逐步提升的方法使最終模型變得更加優秀.因此本文模型的構建采用基于梯度提升技巧的GBDT 算法.算法流程如算法1 所示.

算法1.Lk-TreeBoost Fk0(x)=0,k=1,K For m=1 to M do:pk(x)=exp(Fk(x))/∑kl=1 exp(Fl(x)), k=1,K For k=1 to K do:yik=yik?pk(xi), i=1,N{Rklm}Ll=1=L?terminal node tree({yik,xi}Nl )rklm=k?1∑xi∈Rklmyik|), l=1,L Fkm(x)=Fk,m?1(x)+rklm(x∈Rklm)endFor endFor yik k ∑xi∈Rklm|yik|(1?|

2 實驗分析

本文提出的貧困等級評價模型分為4 個步驟實現,如圖1所示.首先對采集到的數據進行預處理,主要包括空值數據的處理、噪聲數據的處理等數據規約,數據變換過程.接著將處理好的數據集采用本文提出的REAHCOR 特征選擇算法求出最優特征子集,然后運用GBDT 算法進行貧困分類.最后對實驗結果進行比對分析,驗證本文研究方法的有效性.

圖1 貧困等級評價模型構建

2.1 數據采集

本文數據來源于實驗室項目“精準扶貧數據分析系統”,數據集中包含了遼寧省某地區近萬戶人口的家庭信息.

2.2 數據預處理

將非貧困,一般貧困,極度貧困這3 種貧困類別作為模型目標值,對家庭信息、當地扶貧政策和當地經濟發展狀況等信息進行篩選和歸納.將家庭收入、家庭消費、食品支出、水源污染、飲水方式、教育水平、失學狀況、參加合作醫療情況、生病是否能及時就醫、脆弱性、衛生設施、居住環境、房屋數量等信息進行數據清洗、變換和整合,其中對缺失值用區間變量的平均值或中值填充,對于異常值和大量丟失的信息采用舍棄的方式來加快算法的執行速度,對家庭收入,用電量等特征采用MIN-MAX 方法進行歸一化.

2.3 特征選擇

貧困信息數據具有龐大而復雜的特性,如果不加以處理,可能會出現維度災難.一個好的特征選擇算法,可以從原始特征子集中選取出利用性最優的特征子集,能夠去除冗余性強的,選取對分類結果影響最大的特征.基于傳統的過濾式(Filter)特征選擇算法,本文提出的REAHCOR 算法繼承了過濾式(Filter)算法運行速度快,獨立于后續模型的優點外,又將特征依據層次性和冗余度進行優化選取,彌補了原先算法分類性能較差的不足.

根據本文提出的REAHCOR 算法,在進行特征選取時計算出每個特征和類別的相關性估值.最后按照估值高低進行排序,選出最優特征子集如下:家庭凈收入、家庭負債情況、家庭受資助情況、住房數量、是否參加醫療保險、成年人受教育年限、衛生設施、適齡兒童是否在學、勞動力人數、身體是否患病、耐用消費品資產數量、生活用電量、取水方式、娛樂方式.

2.4 模型預測

本文模型預測的標簽分為非貧困,一般貧困,極度貧困3 類,根據有效的特征對模型結果進行分類.本文驗證模型的有效性從兩個方面進行切入:(1)驗證REAHCOR 算法的有效性;(2)驗證整體模型的有效性.

(1)驗證REAHCOR 算法的有效性

在實驗中選用ReliefF 和FCBF 算法與本文提出的REAHCOR 算法進行性能比對.在分類器的選擇上,使用Boosting 算法中的GBDT 算法,并分別結合以上3 種特征選擇算法進行分類預測,從而驗證REAHCOR算法的有效性.

(2)驗證整體模型的有效性

首先使用本文提出的REAHCOR 算法進行特征選取,然后將選出的特征子集分別用在GBDT 算法和隨機森林算法中進行分類預測.經過對比,驗證GBDT 算法對本領域研究范圍的有效性.

2.5 評價標準

對于一個模型的好壞,除了評價實驗估計方法,還需要衡量這個模型的泛化能力,在分類任務中,可以用錯誤率與精度、查準率、查全率與F1、代價敏感錯誤率和代價曲線、ROC 與AUC 等進行性能度量.本實驗采用查全率、查準率和F1 值進行評判.

其中,TP代表真正例(true positive),FP代表假正例(false positive),FN代表假反例(false negative).另外還有一個TN代表真反例(true negative),并且有TP+FP+TN+FN等于樣例總數.F1 是基于查準率與查全率的調和平均.

2.6 實驗分析

(1)在特征選擇對比實驗中,ReliefF 算法通過迭代規定次數內樣本與同類近鄰樣本和不同類近鄰樣本的距離,篩選權值高的特征作為特征子集,FCBF 算法采用后向順序搜索策略進行快速的選取最優特征子集.表1中展示了貧困數據集按照以上3 種方法進行特征選擇,然后將得到的結果使用GBDT 算法進行分類,對結果采用交叉驗證的方法進行比較,篩選出的特征個數用Num表示.

表1 基于不同特征選擇算法的貧困模型結果對比

從表1和圖2可以得出,本文提出的REAHCOR特征選擇算法的分類精度可以達到94.86%,查全率為92.37%,F1 值為93.60%,分類效果優于其他兩種,在特征數量較少時ReliefF 算法表現效果最差,隨著特征數量的增多其出現上漲趨勢,但是由于選出的特征冗余度大導致效果不理想,所以其在降維方面的性能比較低.FCBF 在降維方面表現稍好,在特征數量為13 時分類精度達到92.72%,但是不如REAHCOR 整體表現效果好.

圖2 不同特征選擇算法效果對比

(2)使用隨機森林和GBDT 算法對測試集進行分類結果的性能比較如表2所示.

表2 GBDT 和隨機森林分類結果對比

從表2可以得出,兩種分類器在同一特征子集中有不同的表現,GBDT 在precision,recall和F1 值方面都優于隨機森林算法.

3 總結

本文以農村家庭信息數據為背景,提出了基于REAHCOR 的特征選擇算法,并應用到具有較高分類準確度的GBDT 分類器中,取得了分類效果較優的評價模型.創新性提出的REAHCOR 算法既可以對龐大的數據特征集進行降維,也可以保證降維之后特征具有很強的分類能力,整體模型的評估效果也得到驗證,具有穩定性好、靈活性強的優勢.在實際應用方面,只要輸入相關的特征數據,就可以得到家庭貧困等級程度的信息,對于精準識別貧困戶,幫助政府解決民生問題起到了積極的導向作用.

猜你喜歡
分類特征信息
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲欧美日韩天堂| yy6080理论大片一级久久| 国产女人在线视频| 国产成人乱码一区二区三区在线| 亚洲一区二区无码视频| 久久动漫精品| 国产网站一区二区三区| 国产黑丝视频在线观看| 欧美专区日韩专区| 99999久久久久久亚洲| AV在线天堂进入| 日韩亚洲综合在线| 少妇精品网站| 欧美区一区| 国产va在线观看| 九九九精品成人免费视频7| 午夜精品国产自在| 国产中文在线亚洲精品官网| 国产在线八区| 日韩黄色大片免费看| 国产成人综合久久精品下载| 亚洲国产日韩一区| 精品视频一区二区三区在线播| 亚洲乱亚洲乱妇24p| 特级毛片免费视频| 国产第八页| 色悠久久久久久久综合网伊人| 国产资源站| 欧美区一区| 国内精品伊人久久久久7777人| 亚洲成人精品在线| 中国丰满人妻无码束缚啪啪| 亚洲天堂区| 999在线免费视频| 中文字幕精品一区二区三区视频| 国产a v无码专区亚洲av| 色婷婷啪啪| 亚洲欧洲自拍拍偷午夜色无码| 色精品视频| 亚洲三级视频在线观看| 日韩精品视频久久| 国产一区二区三区夜色| 大乳丰满人妻中文字幕日本| 日韩视频福利| A级毛片高清免费视频就| 亚洲毛片网站| 欧美啪啪精品| 天天干天天色综合网| 欧美久久网| 亚国产欧美在线人成| 伊人久久婷婷| 亚洲第一极品精品无码| 在线国产91| 国产成人91精品免费网址在线| 日韩中文欧美| 在线亚洲天堂| 天天综合网在线| 亚洲另类第一页| 日韩毛片基地| 国产精品区视频中文字幕| 国产精品3p视频| 国产爽妇精品| 91无码人妻精品一区| av色爱 天堂网| 手机精品视频在线观看免费| 美女无遮挡免费视频网站| 欧美黑人欧美精品刺激| 无遮挡一级毛片呦女视频| 美女无遮挡被啪啪到高潮免费| 91国内在线视频| 伊人久久福利中文字幕| 欧美成人午夜视频免看| 久久国产亚洲欧美日韩精品| 国产免费久久精品99re不卡 | 色妞www精品视频一级下载| 久久精品国产999大香线焦| 亚洲永久视频| 免费观看欧美性一级| 亚洲中文字幕av无码区| 欧美午夜精品| 不卡视频国产| 中文字幕人成乱码熟女免费|