999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于邏輯回歸算法構建模型預測信用卡申請結果

2021-05-18 01:33:50
南方農機 2021年9期
關鍵詞:分類模型

(貴州財經大學信息學院,貴州 貴陽 550025)

0 引言

信用卡最早出現于19 世紀的英國服裝業,但隨著社會經濟的快速發展,世界各國銀行相繼發行信用卡,由于信用卡具有信用貸款、免息還款期、分期還款等特點,受到了廣大消費者的追捧,伴隨著優惠力度大的同時,信用卡的發展也給社會帶來了威脅,例如盲目消費、過度消費、信用卡詐騙等不良現象,造成持卡人和發卡方都遭受損失[1]。為了維護消費者和銀行利益,保證信用卡在消費市場的良好使用,在申請機制上,筆者運用邏輯回歸算法對信用卡申請進行研究。

本文選取的邏輯回歸作為機器學習算法中的一種,其應用范圍更為寬廣,尤其在二分類的問題上,邏輯回歸的處理能力較為突出,本文選取銀行客戶的基本信息作為信用評分依據,通過數量化的管理方法,對客戶信用狀態進行數量化的度量,以此作為信用卡申請結果分類預測的依據,通過對訓練模型的不斷調整和優化,本文預測模型在處理信息量龐大的數據集上效果顯著,能夠為銀行的信用卡服務提供有效參考,提高服務效率。

1 文獻綜述

伴隨著大數據時代的來臨,社會各領域都在力求通過技術的創新來實現產業的良好發展,邏輯回歸作為一種在處理分類問題上能夠準確預測未來價值的算法模型[2],已經普遍應用于金融、醫學、自然科學等多個領域,對于邏輯回歸的學術研究成為當前諸多學者們關注的焦點。筆者通過對國內外有關邏輯回歸研究的文獻,利用KH Coder Folder 分析工具進行層次聚類分析后,得出如圖1、圖2 所示的研究熱點。

圖1 國內文獻分析結果顯示,目前我國大部分的學者對于邏輯回歸的實用性研究主要分為自然災害預測、廣告預測和信用風險預測三個方面。

從圖2 中可以發現,國外學者對風險預測的也保持相同的研究熱度,尤其是在一些重大疾病的預測上。同時,國外大部分文獻的研究偏向于對邏輯回歸算法模型本身特點的研究等。

圖1 國內文獻研究熱點

圖2 國外文獻研究熱點

綜上所述,目前國內外對邏輯回歸的研究主要針對其實用性,在算法的實現原理上和優化步驟上涉及較少,因此本文基于國內外研究現狀選取邏輯回歸預測模型對信用卡申請結果進行預測分類,將算法原理和實際應用同時作為研究重點,并結合實例驗證,其優點在于:通過深入剖析邏輯回歸算法原理,從本質上找到優化策略,然后利用Kaggle 的數據集訓練預測模型及測試模型效率,以檢查其實用性,結合前人研究成果,將預測模型應用至信用卡申請服務領域,從而達到提高服務效率的目的。

2 基于邏輯回歸算法的信用卡申請結果分類預測步驟

本文構建基于邏輯回歸算法的信用卡申請結果分類預測分為以下五個步驟:

1)確定預測函數。本文采用sigmoid 函數作為邏輯回歸的預測函數,sigmoid 函數可以有效處理二分類問題[3]。

2)擬合分析。擬合分析是線性回歸和邏輯回歸中十分關鍵的步驟,其目的在于不斷優化算法模型,尋找最優解。

3)數據處理。本文選取Kaggle 的測試數據集,對數據集中的特征屬性進行篩選,選取對預測結果產生較大影響的特征值作為模型變量。

4)訓練預測模型。本文利用python 完成邏輯回歸模型的訓練,通過訓練結果分析模型優劣,python 中自帶的邏輯回歸算法滿足本文對邏輯回歸算法的各項分析。

5)分析分類結果。利用保存訓練模型預測1 000 條待預測樣本,同時尋找出影響信用卡申請結果的主要特征屬性,為銀行信用卡業務的良好發展提供有效的建議。

3 建立模型

3.1 確定預測函數

邏輯回歸也叫做對數幾率回歸,它是在線性回歸的基礎上,將線性模型通過函數,轉化為結果只有0 或1 的分類模型。它的建模過程和線性回歸基本相同[4]。

對于預測信用卡申請結果只存在申請成功和申請失敗兩種情況,即輸出值屬于{0,1},而線性回歸模型產生的預測值為(W 是參數向量):。其輸出值是連續的,但是需要將函數的輸出值z 轉化為僅有0 或1 兩種可能,于是引入sigmoid 函數:,由于sigmoid函數以輸出值0.5 作為分界值,因此當輸出值大于等于0.5 時歸類為1,小于0.5 時歸類為0,至此,得到了預測函數模型:

3.2 擬合分析

在選取了預測函數之后,預測得出的曲線與實際值可能會存在較大的誤差,因此就需要進行擬合優化,即把平面上一系列的點,用一條光滑的曲線連接起來,由于該曲線存在著多種可能,因此擬合的方法也較多,擬合的曲線一般用函數表示[4]。

在運用邏輯回歸做二分類時,可以通過python 的輸出結果,觀察訓練集測試集的表現,從中找出是否存在擬合問題,然后提出優化方案即可。在邏輯回歸中,擬合分析可以分為兩個步驟,第一步構造代價函數,第二步求解參數。

1)構造代價函數。構造邏輯回歸代價函數采用對數似然函數,根據預測函數構造一個它的分布的概率密度,利用已知的樣本反推參數,根據上一步得到的預測函數,可以知道概率如下:

將上述兩個式子合并,得到概率公式:

由極大似然估計可知,聯合概率為:

極大似然估計的目標是找到參數w 使得L(w)最大,對L 加一個負號,就可以得到代價函數,也就是找到參數w 使得-L(w)最小。為了簡化計算,對L(w)取對數得:

最后得到代價函數:

2)求解參數。由于代價函數可能是一條無規則變動的曲線,因此需要找到該條曲線中的最低點,即最優值,其求解過程一般使用梯度下降法。梯度下降法的計算過程就是沿梯度下降的方向,不斷更新w 值,最終找出極小值[5],梯度下降函數為:

其中,W0是自變量參數,即下降前位置坐標,α 是學習因子,即下降步長,w 是更新后的W0,即下降移動一小步之后的位置,代表梯度。

4 實證分析

4.1 數據處理

本文共選取了5 000 條實驗數據和1 000 條待預測數據,實驗數據中類別為申請失敗的數據3 500 條,類別為申請成功的數據1 500 條,同時,共選取所屬國家類別、逾期記錄、預計收入、支出平衡狀態等10 個特征屬性。

為了方便數據的統計分析,再讀數據進行預處理,將所屬國家類別中“西方國家”標記為“0”,“東方國家”標記為“1”,逾期記錄中“存在”標記為“1”,“不存在”標記為“0”,申請結果中“申請成功”標記為“1”,申請失敗標記為“0”,整理后的數據如表1 所示。

表1 實驗數據

4.2 訓練預測模型

Python 作為當前機器學習中主流的計算機語言之一,其在算法模型的建立上更為清晰[6],因此本文選擇python訓練邏輯回歸算法模型,訓練模型數據劃分比例為訓練集占比75%,測試集占比25%。在使用python 訓練邏輯回歸模型時,只需要導入邏輯回歸算法模塊,調整算法參數即可。表2 給出了訓練結果。

訓練模型輸出的結果值能夠反應模型的優劣程度,上表中模型準確率是指分對的樣本數除以所有的樣本數,通常來說,準確率越高,模型越好;precision 表示精確率[7],其是指在測試集中被分為申請失敗和申請成功的所有樣本中,實際類別為申請失敗和申請成功所占的比例;recall 為召回率,即測試集中實際類別為申請失敗或申請成功的樣本占所有被預測為申請失敗或申請成功的比例;f1-score 為精確率和召回率的調和平均數,評判模型一般觀察f1-score,f1-score 越高,模型越好;support 為樣本數量。由于本文的實驗數據均來源于實際統計結果,因此發現訓練模型的準確率較高,達到0.97。

表2 訓練結果

4.3 分類結果討論

保存模型后,對1 000 條待預測數據進行分類預測,得出表3 的分類結果。

表3 申請結果分類預測

至此,文本完成了對無申請結果的1 000 條待預測數據集的分類預測,該模型的實現能夠有效節約信用卡申請處理時間,提高相關業務部門的工作效率。

針對輸出結果,筆者認為提高信用卡申請效率需要對申請者職業及收入重點審核。由于目前銀行業競爭激烈,為了能夠獲得更多利益,在信用卡申請過程中,越來越多的嚴格要求被漸漸忽視,對于傳統流程中提供工作證明、財力證明等重要環節都被簡化,甚至可以通過支付寶的信譽積分就可以申請到一張信用卡,這些現象存在諸多風險。因此,筆者建議,為了避免拖欠債務、無力還債帶來的危害,在職業審核階段,相關部門應該花費更多的人力和時間審查申請者職業情況。

5 結語

在“提前消費”觀念盛行的現代社會,更多人選擇使用信用卡,對信用卡申請結果的有效預測,不但可以提高服務效率,而且還能避免潛在風險。本文提出基于邏輯回歸算法預測信用卡申請分類結果,結合用戶真實數據,選擇屬性特征,輸入分類模型,提出研究框架,使用python 訓練邏輯回歸算法,在訓練過程中能夠及時調整模型參數,擺脫分析工具在分析模型上的局限。為實現對預測結果的準確分類,對邏輯回歸預測模型進行改進和拓展,同時實現數據、結果可視化,使研究思維不受限制。實驗表明,選取職業評估、收入評估等9 個特征值對分類預測模型有顯著的正向影響。

當然,本實驗仍存在諸多不足之處,對于基于邏輯回歸算法的信用卡申請結果分類預測模型還有大量研究探索的工作要做,筆者建議對本文的后續研究應從以下兩方面加以改進:

1)臨界值的劃分。利用sigmoid 函數作為邏輯回歸算法的預測函數,其閾值為0.5,對于在預測過程中閾值附近的預測點本文是根據函數的默認歸類,其結果不一定準確,因此未來將深入研究和明確定義臨界值的劃分標準。

2)特征屬性的選取。本文選取了10 項訓練特征,雖然實驗結果表現很好,但是在特征屬性中也同時存在對模型影響較小的特征,從而會影響模型訓練時長,對于更大量的數據集,將會耗費更多時間,因此,在屬性特征的選取上還可以繼續優化,深入研究本文第4.3 章節所述的關鍵屬性特征提取。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 一级毛片在线播放免费| 91欧美亚洲国产五月天| 久久精品66| 99re热精品视频国产免费| 二级特黄绝大片免费视频大片| 在线看免费无码av天堂的| 天天综合网色| 国产成人精品高清不卡在线| 五月婷婷精品| 日韩在线视频网| 午夜视频免费试看| 国产精品欧美激情| 无码精品国产dvd在线观看9久 | 天天做天天爱天天爽综合区| 国产高清无码第一十页在线观看| 人妻中文字幕无码久久一区| 欧美精品亚洲精品日韩专区| 玖玖精品视频在线观看| 亚洲高清中文字幕| 亚洲天堂首页| 国产欧美综合在线观看第七页| 亚洲系列中文字幕一区二区| 亚洲成人高清无码| 国产成人综合亚洲欧洲色就色| 国产美女主播一级成人毛片| 99ri精品视频在线观看播放| 午夜天堂视频| 日韩在线播放欧美字幕| 高潮毛片无遮挡高清视频播放| 精品黑人一区二区三区| 天天综合网站| 在线播放91| 欧美日韩国产成人在线观看| 无码不卡的中文字幕视频| 青草视频久久| 99精品热视频这里只有精品7| 亚洲精品中文字幕午夜| 国产福利一区在线| 欧美区日韩区| 欧美成a人片在线观看| 国内精品视频区在线2021| 免费在线一区| 欧美国产中文| 亚洲黄色成人| 玖玖精品在线| 国产成人久久777777| 99久久无色码中文字幕| 啪啪免费视频一区二区| 国产精品主播| 红杏AV在线无码| 久久免费视频播放| 欧美无遮挡国产欧美另类| 婷婷开心中文字幕| 精品少妇人妻一区二区| 日日拍夜夜操| 国产美女在线免费观看| 一级一级一片免费| 国产在线精品香蕉麻豆| 视频一区亚洲| 日韩天堂在线观看| 国产午夜小视频| 91探花在线观看国产最新| 麻豆国产在线观看一区二区| 国产三级毛片| 极品国产在线| 啪啪永久免费av| 国产亚洲视频中文字幕视频| 免费国产在线精品一区| 成人午夜福利视频| 91久久夜色精品| 波多野结衣一区二区三视频| 日本不卡视频在线| 一区二区三区成人| 亚洲国产精品人久久电影| 最新加勒比隔壁人妻| 亚洲性日韩精品一区二区| 国产一级视频在线观看网站| 亚洲无码在线午夜电影| 麻豆国产精品一二三在线观看| 在线观看精品自拍视频| 高清无码一本到东京热| 在线亚洲精品福利网址导航|