999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于邏輯回歸的流失預(yù)警模型

2017-09-03 10:02:39郭向紅
福建質(zhì)量管理 2017年10期
關(guān)鍵詞:模型

郭向紅

(內(nèi)蒙古移動(dòng)公司 內(nèi)蒙古 呼和浩特 010000)

基于邏輯回歸的流失預(yù)警模型

郭向紅

(內(nèi)蒙古移動(dòng)公司 內(nèi)蒙古 呼和浩特 010000)

當(dāng)輸入變量過(guò)多時(shí),邏輯回歸模型訓(xùn)練的時(shí)間會(huì)很長(zhǎng),而且更重要的是往往因?yàn)檫\(yùn)算量過(guò)大而無(wú)法進(jìn)行。因此,本文討論了利用主成分分析進(jìn)行變量降維,介紹了邏輯回歸的基本理論和流失預(yù)警模型的開(kāi)發(fā)過(guò)程。

邏輯回歸;流失預(yù)警模型

一、模型簡(jiǎn)介

回歸分析在諸多行業(yè)和領(lǐng)域的數(shù)據(jù)分析應(yīng)用中發(fā)揮著極為重要的作用,盡管如此,在運(yùn)用回歸分析方法時(shí)仍不該忽略方法應(yīng)用的前提假設(shè)條件。違背了某些關(guān)鍵假設(shè),則得到的分析結(jié)論很可能是不合理的。比如,利用多元回歸分析變量之間關(guān)系或者進(jìn)行預(yù)測(cè)時(shí)的一個(gè)基本要求就是:因變量均是連續(xù)型變量。然而實(shí)際應(yīng)用中這種要求未必都能得到較好的滿足,如本文所討論的根據(jù)通信用戶近期的消費(fèi)行為和通話行為特征,建立通信用戶的是否有流失傾向的回歸分析模型,來(lái)判斷用戶是否有潛在的流失意愿。這個(gè)模型中的因變量設(shè)為是否有可能流失,這是個(gè)純粹的二值品質(zhì)型變量,顯然不滿足上面的要求。對(duì)于這類問(wèn)題,我們通常采用邏輯回歸進(jìn)行解決。

當(dāng)輸入變量過(guò)多時(shí),邏輯回歸模型訓(xùn)練的時(shí)間會(huì)很長(zhǎng),而且更重要的是往往因?yàn)檫\(yùn)算量過(guò)大而無(wú)法進(jìn)行。因此,本文首先討論了利用主成分分析進(jìn)行變量降維,然后介紹了邏輯回歸的基本理論和流失預(yù)警模型的開(kāi)發(fā)過(guò)程。

(一)使用主成分分析進(jìn)行數(shù)據(jù)預(yù)處理

在許多實(shí)際問(wèn)題中,我們經(jīng)常用多個(gè)變量來(lái)刻畫(huà)某一事物,但由于這些變量之間往往具有相關(guān)性,很多變量帶有重復(fù)信息,這樣就給分析問(wèn)題帶來(lái)了很多不便,同時(shí)也使分析結(jié)論不具有真實(shí)性和可靠性,因此,人們希望尋找到少量幾個(gè)綜合變量來(lái)代替原來(lái)較多的變量,使這幾個(gè)綜合變量能較全面地反映原來(lái)多項(xiàng)變量的信息,同時(shí)相互之間不相關(guān)。主成分分析是滿足上述要求的一種處理多變量問(wèn)題的方法。

1.基本思想

主成分分析就是設(shè)法將原來(lái)的p個(gè)指標(biāo)重新組合成一組相互無(wú)關(guān)的新指標(biāo)的過(guò)程。通常數(shù)學(xué)上的處理就是將原來(lái)的p個(gè)指標(biāo)做線性組合。為了能更清晰的解釋主成分的基本思想,我們從用兩個(gè)指標(biāo)來(lái)衡量n個(gè)樣本點(diǎn)的二維空間入手。

推而廣之,第一主成分y1的方差達(dá)到最大,其方差越大,表示其所包含的信息越多。如果第一主成分還不能反映原指標(biāo)的全部信息,再考慮選取第二主成分y2,y2在剩余的線性組合中方差最大,并且與y1不相關(guān),如若第一、第二主成分仍然不能反映原變量的全部信息,再考慮選取第三主成分y3,y3在剩余的線性組合中方差最大,并且與y1、y2不相關(guān),依此可求出全部p個(gè)主成分,它們的方差是依次遞減的。在實(shí)際工作中,在不損失較多信息的情況下,通常選取前幾個(gè)主成分來(lái)進(jìn)行分析,達(dá)到簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)的目的。

2.數(shù)學(xué)模型

主成分分析可以針對(duì)總體,也可以針對(duì)樣本,但在許多問(wèn)題中所涉及的總體都是未知的,所以我們主要討論樣本的主成分。仍從二維空間入手,設(shè)有兩個(gè)變量的信息如圖所示,大部分的樣本點(diǎn)集中在橢圓范圍內(nèi):

兩個(gè)變量的信息分布

如果我們?nèi)E圓的長(zhǎng)軸y1、短軸y2作為樣本點(diǎn)新的坐標(biāo)軸,容易看出y1坐標(biāo)變化程度大,即y1的方差最大,而y2的變化程度相對(duì)較小,即y2的方差較小。于是可以說(shuō)變量(x1,x2)的信息大部分集中在新變量y1上,而小部分集中在新變量y2上。上圖中的新坐標(biāo)y1,y2是x1,x2經(jīng)過(guò)坐標(biāo)旋轉(zhuǎn)而得到的,其旋轉(zhuǎn)公式為:

y1=cosθx1+sinθx2

y2=-sinθx1+cosθx2

系數(shù)滿足的要求是:

(cosθ)2+(sinθ)2=1;(-sinθ)2+(cosθ)2=1;cosθ(-sinθ)+sinθcosθ=0

我們可以稱y1為它們的第一主成分,y2為它們的第二主成分,坐標(biāo)的正交變換為主成分變換。推廣開(kāi)來(lái),設(shè)有n個(gè)樣本點(diǎn),每個(gè)樣本點(diǎn)都有p項(xiàng)變量x1,x2,…,xp,其原始數(shù)據(jù)矩陣表示為:

其中xij是第i個(gè)樣本點(diǎn)第j個(gè)指標(biāo)的觀測(cè)值。如前所述,通過(guò)主成分變換得到的線性組合可以表示為x1,x2,…,xp的線性組合:

y1=u11x1+u12x2+……+u1pxp

y2=u21x1+u22x2+……+u2pxp

…………

yp=up1x1+up2x2+……+uppxp

3.模型求解

為了求出主成分,只需求樣本協(xié)方差矩陣S或相關(guān)系數(shù)矩陣R的特征根和特征向量就可以。設(shè)R的特征根λ1≥λ2≥…≥λp>0, 相應(yīng)的單位特征向量為:(ui1ui2… uip)’,那么相應(yīng)的主成分就是:yi=ui1zx1+ui2zx2+……+uipzxp。

4.實(shí)驗(yàn)結(jié)果

采用TWM軟件中的主成分分析模塊,對(duì)有400多個(gè)變量字段的數(shù)據(jù)挖掘?qū)挶磉M(jìn)行降維操作。發(fā)現(xiàn)前30個(gè)主成分變量的累計(jì)方差貢獻(xiàn)為61.8%,提取這些變量,作為邏輯回歸模型的輸入變量。

二、邏輯回歸流失預(yù)警模型

(一)邏輯回歸模型

邏輯回歸是根據(jù)輸入字段值對(duì)記錄進(jìn)行分類的一種統(tǒng)計(jì)技術(shù)。當(dāng)被解釋變量為0/1二值變量時(shí),稱為二項(xiàng)邏輯回歸。二項(xiàng)邏輯回歸雖然不能直接采用一般線性多元回歸模型建模,但仍然可以充分利用線性回歸模型建立的理論和思路進(jìn)行建模。

1.若采用簡(jiǎn)單線性回歸模型,即Yi=β0+βixi+εi,當(dāng)Yi只取0,1兩值時(shí),由ε~N(0,σ2),E(ε)=0,

有E(Yi)=β0+βixi=1×P+0×(1-P)=P,即E(Yi)為xi時(shí)yi=1的概率值。因此,可以利用一般線性多元回歸模型對(duì)因變量為1的概率P進(jìn)行建模,此時(shí)模型因變量的取值范圍就是0到1之間,即Py=1=β0+βixi。

2.由于概率P的取值范圍為[0,1],而一般線性回歸模型要求因變量取值為(-∞,+∞),因此可以對(duì)概率P做轉(zhuǎn)換處理。而一般線性模型建立關(guān)于因變量取值為1時(shí)的概率的回歸模型時(shí),模型中自變量與概率值之間的關(guān)系是線性的。在實(shí)際應(yīng)用中,這個(gè)概率與自變量之間往往是一種非線性關(guān)系。因此,對(duì)概率P的轉(zhuǎn)換處理采用非線性轉(zhuǎn)換(Logit變換),具體如下:

(1)第一步,將P轉(zhuǎn)換成Ω,即Ω=P/(1-P),其中Ω成為發(fā)生比,是事件發(fā)生的概率與不發(fā)生的概率的比值??傻忙甘荘的單調(diào)增函數(shù),從而保證了P與Ω增長(zhǎng)的一致性,由此得出Ω的取值范圍為(0,+∞)。

(2)第二步,將Ω轉(zhuǎn)換成lnΩ,即lnΩ=ln(P/(1-P)),式中l(wèi)nΩ稱為L(zhǎng)ogit P,經(jīng)過(guò)變換后的Ω與Logit P之間的增長(zhǎng)性一致,且Logit P取值為(-∞,+∞)。經(jīng)過(guò)Logit變換后,可以利用一般線性回歸模型建立自變量與因變量之間的關(guān)系模型,即邏輯回歸模型LogitP=β0+βixi轉(zhuǎn)換為ln(P/(1-P))=β0+βixi,于是有P/(1-P)=exp(β0+βixi),從而有:

此式即為邏輯回歸函數(shù),它是典型的增長(zhǎng)函數(shù),能很好的體現(xiàn)概率P和自變量間的非線性關(guān)系。

(二)邏輯回歸方程中回歸系數(shù)的含義

邏輯回歸模型采用極大似然估計(jì)法對(duì)模型的參數(shù)進(jìn)行估計(jì)。極大似然估計(jì)法是一種在總體分布密度函數(shù)和樣本信息的基礎(chǔ)上,求解模型中未知參數(shù)估計(jì)值的方法。它基于總體的分布密度函數(shù)構(gòu)造一個(gè)包含未知參數(shù)的似然函數(shù),并求解在似然函數(shù)值最大下的未知參數(shù)值。因?yàn)樵谛问缴?,邏輯回歸模型與一般線性回歸模型相同,所以可以以類似的方法理解和解釋邏輯回歸模型系數(shù)的含義。即當(dāng)其他自變量保持不變時(shí),自變量xi每增加一個(gè)單位,將引起Logit P增加(或減少)βi個(gè)單位。但是Logit P無(wú)法直接觀察且測(cè)量單位也無(wú)法確定,因此通常以邏輯回歸函數(shù)的標(biāo)準(zhǔn)差作為L(zhǎng)ogit P的測(cè)度單位。在現(xiàn)實(shí)應(yīng)用中,大家通常更為關(guān)心的是自變量變化引起概率P變化的程度,因?yàn)樗鼈冎g的關(guān)系是非線性的。因此,人們將注意力集中在自變量給Ω帶來(lái)的變化。

當(dāng)邏輯回歸模型的回歸系數(shù)確定后,將其代入Ω的函數(shù),即Ω=exp(β0+βixi)。當(dāng)其他的自變量保持不變,xi增加一個(gè)單位時(shí),可將新的發(fā)生比設(shè)為Ω′,則有Ω′=Ωexp(βi)。由此可知,當(dāng)xi增加一個(gè)單位時(shí)將引起發(fā)生比擴(kuò)大exp(βi)倍,當(dāng)回歸系數(shù)為負(fù)時(shí)發(fā)生比縮小。

(三)邏輯回歸方程的檢驗(yàn)

1.回歸方程的顯著性校驗(yàn)

邏輯回歸方程顯著性檢驗(yàn)的目的是檢驗(yàn)自變量全體與Logit P的線性關(guān)系是否顯著,是否可以用線性模型擬合?;舅悸肥牵喝舴匠讨械闹T多變量對(duì)Logit P的線性解釋有顯著意義,則會(huì)使得回歸方程對(duì)樣本的擬合得到顯著提高,可采用對(duì)數(shù)似然比測(cè)度擬合程度是否有了提高。其零假設(shè)為H0:各回歸系數(shù)同時(shí)為0,自變量全體與Logit P的線性關(guān)系不顯著。

2.回歸系數(shù)的顯著性校驗(yàn)

邏輯回歸系數(shù)顯著性檢驗(yàn)的目的是逐個(gè)檢驗(yàn)?zāi)P椭懈髯宰兞渴欠衽cLogit P有顯著的線性關(guān)系,以解釋Logit P是否有重要貢獻(xiàn)。其零假設(shè)為H0:βi=0,即某回歸系數(shù)與零無(wú)顯著性差異,相應(yīng)的自變量與Logit P的線性關(guān)系不顯著。回歸系數(shù)的顯著性檢驗(yàn)采用的是檢驗(yàn)統(tǒng)計(jì)量為Wald檢驗(yàn)統(tǒng)計(jì)量,數(shù)學(xué)定義為Wald=(βi/Sβi)2。其中βi是回歸系數(shù),Sβi是回歸系數(shù)標(biāo)準(zhǔn)誤差,Wald檢驗(yàn)統(tǒng)計(jì)量服從χ2(1)分布。

3.回歸方程的擬合優(yōu)度校驗(yàn)

在邏輯回歸分析中,擬合優(yōu)度可以從兩方面考察:一方面是回歸方程能夠解釋因變量的變差的程度,如果方程可以解釋因變量較大部分的變差,則說(shuō)明擬合優(yōu)度高,反之說(shuō)明擬合優(yōu)度低;另一方面,由回歸方程計(jì)算出的預(yù)測(cè)值與實(shí)際值之間吻合的程度,即方程的總體錯(cuò)判率是低還是高,如果錯(cuò)判率低,說(shuō)明擬合優(yōu)度高,否則說(shuō)明擬合優(yōu)度低。擬合優(yōu)度檢驗(yàn)的常用指標(biāo)有Cox & SnellR2統(tǒng)計(jì)量,Nagel ker keR2統(tǒng)計(jì)量,錯(cuò)判矩陣,殘差分析等。

4.模型訓(xùn)練過(guò)程和結(jié)果

利用得到的前30個(gè)主成分變量,采用TWM工具中的邏輯回歸模型進(jìn)行訓(xùn)練。然后將訓(xùn)練后的模型作為評(píng)分模型,對(duì)用戶信息進(jìn)行評(píng)分,從而分析出可能流失的客戶。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美国产视频| 91国内在线观看| 国产不卡一级毛片视频| 国产成人在线无码免费视频| 国产精品一区在线观看你懂的| 亚洲精品无码av中文字幕| 日韩精品一区二区三区swag| 国产欧美网站| 多人乱p欧美在线观看| 精品亚洲欧美中文字幕在线看| 日本三级黄在线观看| 日本亚洲国产一区二区三区| 2020国产在线视精品在| a亚洲天堂| 91久久国产综合精品| 国产自在线播放| 亚洲男人天堂久久| 97久久人人超碰国产精品| 久无码久无码av无码| 人妻中文字幕无码久久一区| 91人人妻人人做人人爽男同| 国产精品香蕉在线观看不卡| 91精品aⅴ无码中文字字幕蜜桃 | 丁香五月激情图片| 911亚洲精品| 国产91线观看| 亚洲精品片911| 成人欧美在线观看| 88av在线| 免费人成视频在线观看网站| 国产美女91视频| 国产视频 第一页| 国产成人精品男人的天堂下载 | 伊伊人成亚洲综合人网7777| 91色在线视频| 久久成人免费| 国产区在线看| 国产成人无码久久久久毛片| 国产精品成人一区二区不卡| 色网在线视频| 亚洲中文字幕无码爆乳| 国内精品久久久久鸭| 激情成人综合网| 国产特一级毛片| 青草免费在线观看| 国产黑丝视频在线观看| 精品视频第一页| 天堂成人在线视频| 国产导航在线| 色综合天天娱乐综合网| 国产在线精彩视频论坛| 国产一级在线观看www色 | 国产欧美视频综合二区 | 精品欧美一区二区三区久久久| 中文字幕乱码中文乱码51精品| 国产精品伦视频观看免费| 成人亚洲天堂| 亚洲视频一区在线| 青青草原国产一区二区| 玖玖免费视频在线观看| 国内嫩模私拍精品视频| 亚洲区视频在线观看| 一区二区三区成人| 日韩毛片在线视频| 国产精品成人AⅤ在线一二三四| 野花国产精品入口| 精品国产一区二区三区在线观看 | 亚洲最大看欧美片网站地址| 国产乱论视频| 亚洲国产日韩视频观看| 夜夜爽免费视频| 国产在线日本| 99在线视频免费| 色婷婷亚洲十月十月色天| 国产免费羞羞视频| 色爽网免费视频| 国产在线精品人成导航| 一区二区午夜| 亚洲日韩精品无码专区97| 极品国产在线| 久久精品中文字幕少妇| 亚洲一区二区视频在线观看|