999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)挖掘的育齡婦女二孩生育意愿預(yù)測(cè)

2017-12-07 02:03:12李冬領(lǐng)
軟件 2017年11期
關(guān)鍵詞:數(shù)據(jù)挖掘分類模型

李冬領(lǐng)

(南京郵電大學(xué)經(jīng)濟(jì)學(xué)院,江蘇 南京 210046)

基于數(shù)據(jù)挖掘的育齡婦女二孩生育意愿預(yù)測(cè)

李冬領(lǐng)

(南京郵電大學(xué)經(jīng)濟(jì)學(xué)院,江蘇 南京 210046)

探討數(shù)據(jù)挖掘模型與傳統(tǒng)的Logistic回歸模型在育齡婦女二孩生育意愿預(yù)測(cè)上的準(zhǔn)確性。采取五折交叉驗(yàn)證法,基于正確率、查準(zhǔn)率、查全率、AUC和Press'Q檢驗(yàn)這五個(gè)指標(biāo)對(duì)四種分類方法(Logistic回歸、支持向量機(jī)、決策樹(shù)和隨機(jī)森林)進(jìn)行對(duì)比分析。結(jié)果表明:Press'Q的值均大于 3.84,說(shuō)明所有分類方法均好于隨機(jī)分類結(jié)果;從各指標(biāo)均值看,隨機(jī)森林表現(xiàn)最好,與Logistic回歸相比,其正確率高1.7%,查準(zhǔn)率高3.2%,查全率高0.2%,ROC曲線下的面積大0.3,Press'Q的值大1.7。本研究探索的數(shù)據(jù)挖掘新方法和模型,可為今后研究類似二孩生育問(wèn)題提供新的思路和嘗試。

數(shù)據(jù)挖掘;二孩生育意愿;建模;預(yù)測(cè)

0 引言

從我國(guó)2013年開(kāi)始實(shí)施“單獨(dú)二孩”政策, 到2015年 10月全面實(shí)施一對(duì)夫婦可生育兩個(gè)孩子的政策,二孩生育意愿一直是學(xué)者們研究的熱點(diǎn)問(wèn)題。學(xué)者在研究育齡婦女二孩生育意愿時(shí)大都采用描述性統(tǒng)計(jì)分析和 Logistic回歸的方法,而現(xiàn)實(shí)中影響育齡婦女生育意愿因素很多,許多不顯著因素的綜合作用可能會(huì)對(duì)生育意愿產(chǎn)生較大影響,但只有顯著變量才可以引入Logistic回歸模型中,因此Logistic回歸方法不一定能夠準(zhǔn)確的對(duì)生育意愿進(jìn)行判別和預(yù)測(cè)。數(shù)據(jù)挖掘的方法廣泛應(yīng)用于分類數(shù)據(jù)的判別與預(yù)測(cè),在自然科學(xué)研究領(lǐng)域已廣泛應(yīng)用,但在人文科學(xué)研究領(lǐng)域還很少見(jiàn)。本文嘗試采用數(shù)據(jù)挖掘的方法對(duì)育齡婦女二孩生育意愿進(jìn)行建模和預(yù)測(cè),以期新方法和模型可為今后類似研究提供新的思路和嘗試。

1 研究現(xiàn)狀

近年來(lái),學(xué)者對(duì)育齡婦女二孩生育問(wèn)題的研究較多。從研究?jī)?nèi)容上看主要有兩個(gè)方面:一是研究生育意愿的變化[1];二是研究生育意愿的影響因素[2]。從研究方法上看,現(xiàn)有研究主要采取描述統(tǒng)計(jì)和Logistic回歸方法。生育意愿在很大程度上決定了生育行為,在宏觀層面上一般可以利用全國(guó)人口普查數(shù)據(jù)及人口抽樣調(diào)查數(shù)據(jù)對(duì)育齡婦女的生育意愿進(jìn)行估算;但在微觀層面上,鮮有研究對(duì)生育意愿做出判別與預(yù)測(cè)。

數(shù)據(jù)挖掘的方法在分類的判別上已經(jīng)得到普遍應(yīng)用。主要的分類模型有決策樹(shù)、支持向量機(jī)和隨機(jī)森林等算法。決策樹(shù)模型具有可讀性高,分類速度快等優(yōu)點(diǎn)[3]。李傅冬等在用決策樹(shù)對(duì)意外妊娠婦女人群的流產(chǎn)方式選擇進(jìn)行預(yù)測(cè)時(shí),誤判率僅為11.90%,得出的模型較為穩(wěn)定,擬合較好[4]。張琪等用決策樹(shù)模型進(jìn)行分類判別結(jié)核病治療效果時(shí),得出的準(zhǔn)確率為78%[5]。支持向量機(jī)模型在分類時(shí)運(yùn)用較多,將向量映射到一個(gè)更高維的空間里,對(duì)非線性、多維度的小樣本數(shù)據(jù)表現(xiàn)較好[6]。李菲雅等對(duì)我國(guó)人口預(yù)測(cè)時(shí),建立了支持向量機(jī)模型,結(jié)果表明,支持向量機(jī)比原有模型在預(yù)測(cè)查準(zhǔn)率有了明顯改進(jìn)[7]。袁勇等將支持向量機(jī)方法應(yīng)用到時(shí)間序列問(wèn)題的預(yù)測(cè)上,并與神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)的結(jié)果進(jìn)行比較, 結(jié)果表明支持向量機(jī)方法有更高的查準(zhǔn)率[8]。傅文杰等用支持向量機(jī)模型對(duì)土地利用進(jìn)行分類,通過(guò)與最大似然分類算法對(duì)比,實(shí)驗(yàn)結(jié)果表明支持向量機(jī)模型在分類查準(zhǔn)率上有了很大的提高[9]。隨機(jī)森林模型是一種多數(shù)表決的分類算法,分類擬合效果較好,已得到廣泛的應(yīng)用[10]。馬玥等用隨機(jī)森林算法的農(nóng)耕區(qū)土地利用分類研究,結(jié)果表明用隨機(jī)森林算法的總體準(zhǔn)確率為 85.54%[11]。李貞子等在隨機(jī)森林模型對(duì)卵巢良惡性腫瘤進(jìn)行建模分析,結(jié)果表明,隨機(jī)森林回歸模型的結(jié)果好于多元回歸模型[12]。Jo?o Maroco在數(shù)據(jù)挖掘的方法對(duì)老年癡呆進(jìn)行預(yù)測(cè)一文中,運(yùn)用隨機(jī)森林、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等多種分類方法建立模型,發(fā)現(xiàn)隨機(jī)森林模型的預(yù)測(cè)結(jié)果較好[13]。雖然支持向量機(jī)、決策樹(shù)、隨機(jī)森林的方法已經(jīng)有廣泛的應(yīng)用,但在生育意愿問(wèn)題方面還沒(méi)有學(xué)者涉及,因此本文嘗試用以上幾種數(shù)據(jù)挖掘方法對(duì)育齡婦女二孩生育意愿進(jìn)行建模和預(yù)測(cè)。

2 數(shù)據(jù)來(lái)源及研究方法

2.1 數(shù)據(jù)來(lái)源

本研究數(shù)據(jù)來(lái)源于2015年1月江蘇省家庭生育意愿與生育行為研究問(wèn)卷。調(diào)查采用分層抽樣方法收集資料,按江蘇省地級(jí)市進(jìn)行分層,分別選取江蘇省13個(gè)地級(jí)市;調(diào)查對(duì)象為20到35歲有江蘇省縣級(jí)及以下戶籍的已育一孩的婦女,共發(fā)放問(wèn)卷400份,最終回收有效問(wèn)卷394份。調(diào)查內(nèi)容包括四個(gè)方面:①個(gè)人與家庭基本情況,包括夫妻年齡、結(jié)婚時(shí)間、學(xué)歷、職業(yè)、家庭人口數(shù)、經(jīng)濟(jì)情況、醫(yī)療情況等。②生殖及健康,包括一孩生育時(shí)間、小孩性別、夫妻健康狀況、是否有人照顧小孩等。③對(duì)小孩的期望,包括期望小孩的文化程度、職業(yè)、成長(zhǎng)滿意度、身體健康等。④生育意愿與行為,包括理想孩子數(shù)及性別、生育意愿、生育計(jì)劃、以及打算要或不要孩子的原因等。本文根據(jù)以往學(xué)者的研究及專家意見(jiàn),選取對(duì)生育意愿有影響的29個(gè)變量為自變量,“是否愿意再生育一個(gè)孩子”為因變量;由于回答“不確定是否要生育二孩”的家庭,很大程度上是沒(méi)有考慮過(guò)要不要生育二孩,為了減少建模時(shí)的不確定性,在分析育齡婦女二孩生育意愿時(shí),僅對(duì)有明確意愿的264份數(shù)據(jù)進(jìn)行分析。

2.2 分類方法

(1)Logistic回歸算法。二項(xiàng)Logistic回歸是常見(jiàn)的分類算法,由條件概率分布P(Y/X)表示,隨機(jī)變量Y取值為1或0。它是研究二分類觀察結(jié)果與一些影響因素之間關(guān)系的一種多變量分析方法,在社會(huì)科學(xué)領(lǐng)域應(yīng)用較多[14]。

(2)決策樹(shù)算法。決策樹(shù)是一種基本的分類算法模型,模型以樹(shù)狀結(jié)構(gòu)呈現(xiàn),在分類時(shí),基于基尼系數(shù)進(jìn)行特征的選取;具有可讀性好,擬合速度快等優(yōu)點(diǎn)。在訓(xùn)練數(shù)據(jù)時(shí),依據(jù)損失函數(shù)最小化的原則建立決策樹(shù)模型;預(yù)測(cè)時(shí),根據(jù)決策樹(shù)模型對(duì)新的數(shù)據(jù)進(jìn)行分類[3]。

(3)支持向量機(jī)算法。支持向量機(jī)一般通過(guò)分類器和核函數(shù)相結(jié)合的方法進(jìn)行建模。通過(guò)尋求結(jié)構(gòu)化風(fēng)險(xiǎn)最小來(lái)提高學(xué)習(xí)機(jī)泛化能力,實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的最小化,從而達(dá)到在統(tǒng)計(jì)樣本量較少的情況下,亦能獲得良好統(tǒng)計(jì)規(guī)律的目的。它的基本模型是定義在特征空間上的間隔最大的線性分類器,即支持向量機(jī)的學(xué)習(xí)策略便是間隔最大化,最終可轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問(wèn)題的求解。支持向量機(jī)多用于分類和回歸分析,將向量映射到一個(gè)更高維的空間里,它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì)[6]。

(4)隨機(jī)森林算法。隨機(jī)森林是由多個(gè)決策樹(shù)組合而成的機(jī)器學(xué)習(xí)算法;首先,通過(guò)自助法采樣法,從訓(xùn)練數(shù)據(jù)中重復(fù)隨機(jī)有放回的抽取m個(gè)新的訓(xùn)練集,然后構(gòu)建m個(gè)決策樹(shù),通過(guò)決策樹(shù)組建隨機(jī)森林,未被抽到的樣本組成 m個(gè)袋外數(shù)據(jù),進(jìn)行誤差估計(jì);每棵樹(shù)生長(zhǎng)過(guò)程中,從所有特征變量中隨機(jī)抽取一部分,抽取變量根據(jù)基尼系數(shù)最小的原則,選取屬性最優(yōu)的進(jìn)行決策樹(shù)分支;最后,根據(jù)多棵決策樹(shù)對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),根據(jù)多數(shù)表決的方法選取票數(shù)最高的類別;隨機(jī)森林算法可以產(chǎn)生高準(zhǔn)確度的分類器,對(duì)于不平衡分類,也能起到較好的建模效果[15]。

2.3 分類評(píng)價(jià)標(biāo)準(zhǔn)

True positives(TP)表示本身為正,實(shí)際也被預(yù)測(cè)為正的個(gè)數(shù);False positives(FP)表示本身為負(fù),但被預(yù)測(cè)為正的個(gè)數(shù);False negatives(FN)是表示本身為正,但被預(yù)測(cè)為負(fù)的個(gè)數(shù);True negatives(TN)表示本身為負(fù),實(shí)際被預(yù)測(cè)為負(fù)的個(gè)數(shù),混淆矩陣見(jiàn)表1。

表1 混淆矩陣Tab.1 Confusion matrix

本文根據(jù)以下幾個(gè)指標(biāo)評(píng)價(jià)模型的性能:(1)正確率(Accuracy),Accuracy =(TP+TN)/(TP+FN+FP+TN),是正確分類的樣本數(shù)與總樣本數(shù)的比值,正確率越高,分類效果越好。(2)查準(zhǔn)率(Precision),precision=TP/(TP+FP),是精確性的度量,表示被分為正例的樣本中實(shí)際為正的占比。(3)查全率(Recall),Recall=TP/(TP+FN),表示有多少個(gè)正例被分為正例。(4)AUC,是ROC曲線下面積,表示處于 ROC 曲線下方的那部分面積的大小,一般AUC的值在0.5到1.0之間,AUC越大,模型準(zhǔn)確性越高。(5)Press’Q,是用來(lái)檢測(cè)模型分類結(jié)果與隨機(jī)的分類結(jié)果是否與顯著性差異,其服從自由度為1的卡方分布,因此當(dāng)Press’Q的值大于3.84的時(shí)候說(shuō)明其在0.05的顯著性水平上是顯著的,值越大顯著性越強(qiáng)其中N是總的樣本數(shù),n是被正確分類的樣本數(shù),k是分類組數(shù)。

3 建模過(guò)程

3.1 算法步驟

為了防止使用相同的數(shù)據(jù)造成的過(guò)擬合和隨機(jī)現(xiàn)象,我們采用5折交叉驗(yàn)證法,并重復(fù)10次,對(duì)4種分類器進(jìn)行訓(xùn)練和測(cè)試。步驟如下:(1)把總樣本分為5份,每次取其中的4份作為訓(xùn)練集,剩余的1份作為測(cè)試集;(2)更換其中1份數(shù)據(jù),重復(fù)5次訓(xùn)練和測(cè)試;(3)重復(fù)1、2步驟10次;(4)基于50次實(shí)驗(yàn)結(jié)果,比較各分類算法的性能。

3.2 模型參數(shù)設(shè)置及實(shí)現(xiàn)

(1)Logistic回歸模型,建立模型時(shí)調(diào)用 R語(yǔ)言軟件的“nnet”包里的“multinom”函數(shù),然后用建立的模型對(duì)預(yù)測(cè)集進(jìn)預(yù)測(cè)。

(2)決策樹(shù)模型,建立模型時(shí)調(diào)用 R軟件的“rpart”包;通過(guò)設(shè)置復(fù)雜性參數(shù)CP值,對(duì)樹(shù)進(jìn)行剪枝以確保其準(zhǔn)確度,經(jīng)過(guò)多次實(shí)驗(yàn),發(fā)現(xiàn)把復(fù)雜性參數(shù)CP值確定為0.014,模型準(zhǔn)確率最高,然后用建立的模型對(duì)預(yù)測(cè)集進(jìn)行預(yù)測(cè)。

(3)支持向量機(jī)模型,建立模型時(shí)調(diào)用R語(yǔ)言軟件的“e1071”包,建立支持向量機(jī)模型。模型的分類器有三種:C分類、nu分類、one分類;核函數(shù)一般有四種:線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)、神經(jīng)網(wǎng)絡(luò)核函數(shù)。為了選擇較好的模型,把三種分類器和四種核函數(shù)相結(jié)合,共12種組合,分別用訓(xùn)練集建立模型,并檢驗(yàn)?zāi)P偷臏?zhǔn)確性。通過(guò)實(shí)驗(yàn)得到最終正確率較高的模型為 nu分類器和徑向基核函數(shù)組合的支持向量機(jī)模型,然后用建立的模型對(duì)預(yù)測(cè)集進(jìn)行預(yù)測(cè)。

(4)隨機(jī)森林模型,調(diào)用 R語(yǔ)言軟件的“randomForest”包,建立隨機(jī)森林模型。其重要的參數(shù)“mtry”是建立隨機(jī)森林模型時(shí)每次分支時(shí)所選擇變量的個(gè)數(shù),選擇合適的“mtry”數(shù)量可以提高模型的準(zhǔn)確率,通過(guò)多次實(shí)驗(yàn),我們確定最佳“mtry”數(shù)為15。參數(shù)“ntree”是建立模型時(shí)生成決策樹(shù)的數(shù)量,“ntree”參數(shù)設(shè)置較低時(shí)會(huì)使模型的錯(cuò)誤率偏高,較高時(shí)會(huì)使模型復(fù)雜度變高,經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)“ntree”大于500時(shí),模型的錯(cuò)誤率趨于穩(wěn)定,因此我們把“ntree”設(shè)置為 500;然后用建立的模型對(duì)預(yù)測(cè)集進(jìn)行預(yù)測(cè)。

4 結(jié)果與分析

5折交叉驗(yàn)證法,10次實(shí)驗(yàn)的平均結(jié)果如表 2所示。隨機(jī)森林的總體表現(xiàn)最好,與 Logistic回歸相比,其正確率高 1.7%,查準(zhǔn)率高 3.2%,查全率高0.2%,ROC曲線下的面積大0.3,Press'Q的值大1.7。支持向量機(jī)在正確率、查準(zhǔn)率、Press’Q 三個(gè)評(píng)價(jià)標(biāo)準(zhǔn)的值也好于Logistic回歸。

表2 各分類方法結(jié)果對(duì)比Tab.2 Th e results of the methods comparison

(1)正確率:圖1為四種分類方法正確率的箱線圖,可看出準(zhǔn)確度最高的是隨機(jī)森林,然后依次是支持向量機(jī),Logistic回歸和決策樹(shù)。隨機(jī)森林正確率結(jié)果比 Logistic回歸集中,說(shuō)明隨機(jī)森林結(jié)果比較穩(wěn)定。

圖1 正確率箱線圖Fig.1 The boxplot of accuracy

(2)查準(zhǔn)率:圖2為四種分類方法查準(zhǔn)率箱線圖,可以看出查準(zhǔn)率最高的是隨機(jī)森林,然后依次是支持向量機(jī)、Logistic回歸和決策樹(shù)。

圖2 查準(zhǔn)率箱線圖Fig.2 The boxplot of precision

(3)查全率:圖3為四種分類方法查全率箱線圖,可以看出查全率最高的是隨機(jī)森林,然后依次是Logistic回歸、支持向量機(jī)和決策樹(shù)。

(4)AUC:圖4為四種分類方法AUC的大小,可以看出 AUC最高的是隨機(jī)森林,然后依次是Logistic回歸、決策樹(shù)和支持向量機(jī)。

(5)Press’Q:圖 5為四種分類方法 Press’Q 的大小,可以看出準(zhǔn)確度最高的是隨機(jī)森林,然后依次是支持向量機(jī)、Logistic回歸和決策樹(shù)。

圖3 查全率箱線圖Fig.3 The boxplot of recall

圖4 AUC 箱線圖Fig.4 The boxplot of AUC

綜上所述,四個(gè)分類模型的Press'Q檢驗(yàn)結(jié)果的中位數(shù)均大于 3.84,表明所有分類方法都好于隨機(jī)結(jié)果。在各模型中隨機(jī)森林模型在正確率,查準(zhǔn)率、查全率、AUC和Press'Q這5個(gè)評(píng)價(jià)標(biāo)準(zhǔn)中均表現(xiàn)最好;且隨機(jī)森林結(jié)果較Logistic回歸更為穩(wěn)定。

5 結(jié)論

本文利用決策樹(shù)、支持向量機(jī)、隨機(jī)森林、Logistic回歸模型,對(duì)育齡婦女二孩生育意愿建模,并對(duì)二孩再生育意愿進(jìn)行預(yù)測(cè)。結(jié)果表明隨機(jī)森林模型在5個(gè)分類評(píng)價(jià)標(biāo)準(zhǔn)的表現(xiàn)均好于學(xué)者廣泛應(yīng)用的 Logistic回歸模型;支持向量機(jī)在準(zhǔn)確率、查準(zhǔn)率、Press’Q三個(gè)指標(biāo)上也好于Logistic回歸模型,因此在研究育齡婦女二孩生育意愿時(shí)可以考慮隨機(jī)森林的方法進(jìn)行建模,這種新方法和模型可為今后類似問(wèn)題研究提供新的思路和嘗試。隨機(jī)森林對(duì)樣本量較大數(shù)據(jù)分類結(jié)果更好,而本研究的樣本量偏少,因此在實(shí)際研究工作中加大樣本量可提升預(yù)測(cè)的準(zhǔn)確率。

[1] 賈志科. 20世紀(jì)50年代后我國(guó)居民生育意愿的變化[J]. 人口與經(jīng)濟(jì), 2009(4): 24-28.Jia Zhike. The Change of Chinese Inhabitants' Willing of Fertility in the 1950s[J]. Population and Economy, 2009;(4): 24-28.

[2] 孫奎立. 農(nóng)村婦女生育意愿影響因素分析[J]. 人口學(xué)刊,2010, 2010(3): 20-24.Sun Kuili. An Analysis to the Factors Affecting the Fertility Desire of Rural Women. Journal of Population[J] , 2010;2010(3): 20-24.

[3] Breiman L, Friedman J H, Olshen R, et al. Classification and Regression Trees[J]. Biometrics, 2015, 40(3): 358.

[4] 李傅冬, 黃麗麗, 俞艷錦, 等. 決策樹(shù)結(jié)合Logistic回歸分析妊娠婦女選擇人工流產(chǎn)方式的影響因素[J]. 浙江預(yù)防醫(yī)學(xué), 2015; (4): 328-333.Li Fudong, Huang Lili, Yu Yanjin, et al. Decision factors and logistic regression analysis of influencing factors of artificial abortion to pregnant women[J]. Zhejiang Preventive Medicine, 2015; (4): 328-333.

[5] 張琪, 周琳, 陳亮, 等. 決策樹(shù)模型用于結(jié)核病治療方案的分類和預(yù)判[J]. 中華疾病控制雜志, 2015; 19(5): 510- 513.Zhang Qi, Zhou Lin, Chen Liang, et al. The decision tree model used to classify and predict tuberculosis treatment programs[J]. Chinese Journal of Disease Control, 2015; 19(5):510-513.

[6] Cortes C, Vapnik V. Support-Vector Networks. Machine Learning, 1995; 20(3): 273-297.

[7] 李菲雅, 蔣若凡. 基于主成分和支持向量機(jī)模型在人口預(yù)測(cè)中的應(yīng)用[J]. 西北人口, 2012; 33(1): 29-32.Li Feiya, Jiang Ruofan. Application of Principal Component and Support Vector Machine Model in Population Forecasting[J]. Northwest population, 2012; 33(1): 29-32.

[8] 袁勇, 王攀. 支持向量機(jī)在人口預(yù)測(cè)中的應(yīng)用[J]. 計(jì)算機(jī)與數(shù)字工程, 2006; 34(5): 9-11.Application of Support Vector Machine in Population Forecasting[J]. Computer and Digital Engineering, 2006; 34(5):9-11.

[9] 傅文杰, 洪金益, 林明森. 基于光譜相似尺度的支持向量機(jī)遙感土地利用分類[J]. 遙感技術(shù)與應(yīng)用, 2006; 21(1):25-30.Fu Wenjie, Hong Jinyi, Lin Mingsen. Remote sensing land use classification based on support vector machine[J]. Remote sensing technology and application, 2006; 21(1): 25-30.[10] Breiman L. Random Forests. Machine Learning, 2001, 45(1):5-32.

[11] 馬玥, 姜琦剛, 孟治國(guó), 等. 基于隨機(jī)森林算法的農(nóng)耕區(qū)土地利用分類研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2016; 47(1):297-303.Ma Yue, Jiang Qi Gang, Meng Zhiguo, et al. Study on Land Use Classification of Farming Area Based on Random Forest Algorithm[J]. Journal of Agricultural Mechanics, 2016; 47(1):297-303.

[12] 李貞子, 張濤, 武曉巖, 等. 隨機(jī)森林回歸分析及在代謝調(diào)控關(guān)系研究中的應(yīng)用[J]. 中國(guó)衛(wèi)生統(tǒng)計(jì), 2012; 29(2): 158-160.Li Zhenzi, Zhang Tao, Wu Xiaoyan, et al. Random Forest Regression Analysis and Its Application in the Study of Metabolic Regulation[J]. China Health Statistics, 2012; 29(2):158-160.

[13] Isabel S, Manuela G, Ana R, et al. Data mining methods in the prediction of Dementia[J]. Bmc Research Notes, 2011;4(1): 299-299.

[14] Hosmer D W J, Lemeshow S L. Applied Logistic Regression.Hoboken[J]. WILEY-INTERSCIENCE, 2000.

[15] Liaw A, Wiener M. Classification and Regression by randomForest[J]. R News, 2002, 23(23).

Prediction to the Second Childbearing Desire of Fertile Woman Based on Data Mining

LI Dong-ling
(Nanjing University of Posts and Telecommunications School of Economics, Nanjing 210046, P.R.China)

To discover the accuracy of the second childbearing desire of matured women based on the comparison between data mining methods and Logistic regression. Three classifiers derived from data mining methods (Support Vector Machines, Decision Tree and Random Forests) were compared to Logistic Regression in terms of overall classification accuracy, Precision, Recall, AUC and Press’Q. The results showed that the Press’ Q test showed that all classifiers performed better than chance alone(Press’Q >3.84). The Random Forests gained the best performance from the perspective of means, and the accuracy was 1.7% over Logistic regression, specificity 3.2%, sensitivity 0.2%, AUC 0.029 and Press’Q 1.7. The new methods and model this paper adapted would provide new perspectives for the following researches.

Data mining; Second childbearing desire; Modeling; Prediction

C924.24

A

10.3969/j.issn.1003-6970.2017.11.010

本文著錄格式:李冬領(lǐng). 基于數(shù)據(jù)挖掘的育齡婦女二孩生育意愿預(yù)測(cè)[J]. 軟件,2017,38(11):55-59

江蘇省研究生培養(yǎng)創(chuàng)新工程項(xiàng)目“基于數(shù)據(jù)挖掘的江蘇省育齡婦女二孩生育意愿預(yù)測(cè)(SJLX16_0318)

李冬領(lǐng)(1988-),男,中級(jí)統(tǒng)計(jì)師,研究方向:信息統(tǒng)計(jì)與數(shù)據(jù)挖掘。

猜你喜歡
數(shù)據(jù)挖掘分類模型
一半模型
分類算一算
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产真实自在自线免费精品| 国产喷水视频| 秋霞一区二区三区| 亚洲综合狠狠| 超碰精品无码一区二区| 全部毛片免费看| www.国产福利| 国产不卡网| www.亚洲国产| 就去吻亚洲精品国产欧美| 欧美伊人色综合久久天天| 欧美成人午夜在线全部免费| 国产亚洲现在一区二区中文| 色精品视频| 国产精品嫩草影院av| 欧美在线中文字幕| 亚洲系列无码专区偷窥无码| 538精品在线观看| 亚洲第一综合天堂另类专| 国产在线视频二区| 亚洲另类国产欧美一区二区| 一本色道久久88| 欧美日韩免费观看| 日本免费新一区视频| 91小视频版在线观看www| 国产美女主播一级成人毛片| 亚洲一区免费看| 九九精品在线观看| 日本免费福利视频| 亚洲精品无码av中文字幕| AV熟女乱| 国产免费观看av大片的网站| 亚洲国产在一区二区三区| 日韩精品无码不卡无码| 日本不卡视频在线| 91人妻在线视频| 在线免费不卡视频| 1024国产在线| 婷婷中文在线| h视频在线播放| 久久免费看片| 综合社区亚洲熟妇p| 无码国产伊人| 亚洲天堂网视频| 亚洲精品无码AV电影在线播放| 啪啪啪亚洲无码| 精品国产免费观看一区| 国产亚洲精久久久久久无码AV| 特级精品毛片免费观看| 99热线精品大全在线观看| 欧美三級片黃色三級片黃色1| 99久久精品久久久久久婷婷| 18禁黄无遮挡免费动漫网站| 一级毛片免费的| 亚洲精品视频免费观看| 欧美成人午夜视频免看| 亚洲AV一二三区无码AV蜜桃| 天堂成人在线| 亚洲精品视频网| 天天综合色网| 亚洲综合婷婷激情| 一本大道香蕉中文日本不卡高清二区| 91免费国产高清观看| 国产精品福利在线观看无码卡| 欧美有码在线| 婷五月综合| 国产午夜精品一区二区三区软件| 九色在线视频导航91| 国产91视频观看| 亚洲美女操| 国产区网址| 亚洲AⅤ无码日韩AV无码网站| 熟妇丰满人妻| 一级毛片视频免费| 99久久国产综合精品女同| 亚洲精品图区| 亚洲成年人片| 亚洲bt欧美bt精品| 日韩精品无码免费专网站| a毛片在线| 国产伦片中文免费观看| 中文字幕伦视频|