999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Isomap融合樸素貝葉斯分類器的信用預(yù)測(cè)

2021-02-28 11:53:54許義仿陳晉李林張波司思思
電腦知識(shí)與技術(shù) 2021年35期

許義仿 陳晉 李林 張波 司思思

摘要:因?yàn)榻鹑跀?shù)據(jù)存在海量、高維度、非線性的特點(diǎn),所以如何選擇原始數(shù)據(jù)中的本質(zhì)特征關(guān)系到分類器的精度。本文提出了一種基于Isomap算法的樸素貝葉斯分類器。該算法的核心本質(zhì)是對(duì)高維大樣本的金融數(shù)據(jù)運(yùn)用Isomap算法進(jìn)行降維處理,進(jìn)而在此基礎(chǔ)上運(yùn)用樸素貝葉斯分類算法進(jìn)行分類。選取1069家公司的財(cái)務(wù)指標(biāo)數(shù)據(jù)進(jìn)行實(shí)證分析,結(jié)果證明該分類器的預(yù)測(cè)準(zhǔn)確率優(yōu)于樸素貝葉斯分類器。

關(guān)鍵詞:Isomap;樸素貝葉斯;信用風(fēng)險(xiǎn)評(píng)估

中圖分類號(hào):TP311 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)35-0125-02

1 引言

信用評(píng)估指的是信用評(píng)估機(jī)構(gòu)使用專家判斷和數(shù)學(xué)分析方法, 對(duì)企業(yè)或個(gè)人履約各種承諾能力、詳細(xì)評(píng)價(jià)其信譽(yù)程度, 并用簡(jiǎn)潔的文字或符號(hào)表達(dá)出來,進(jìn)而滿足贖回需要的市場(chǎng)行為。

鑒于此,本文在現(xiàn)有的研究基礎(chǔ)上針對(duì)非線性、高維度的財(cái)務(wù)數(shù)據(jù)提出了基于Isomap的樸素貝葉斯(ISOMAP-NB)信用評(píng)估模型, 把數(shù)據(jù)降維當(dāng)成數(shù)據(jù)預(yù)處理中的一步,簡(jiǎn)化了樸素貝葉斯分類模型的結(jié)構(gòu), 并選取了1069家企業(yè)的財(cái)務(wù)指標(biāo)數(shù)據(jù)集進(jìn)行實(shí)證研究,結(jié)果證明該模型好于樸素貝葉斯分類模型,在企業(yè)信用預(yù)測(cè)方面提高了預(yù)測(cè)的準(zhǔn)確率。

2 ISOMAP-NB模型

2.1 Isomap 算法

Isomap算法是在多維尺度變換(MDS)的根基之上,力圖保持?jǐn)?shù)據(jù)點(diǎn)的內(nèi)在幾何性質(zhì),也就是說保持2點(diǎn)間的測(cè)地距離。

Isomap算法步驟如下[1]:

步驟1 算出樣本點(diǎn)之間的歐氏距離矩陣, 構(gòu)建鄰域關(guān)系圖[GV,E],對(duì)每個(gè)[xi(i=1,2,...,N)]計(jì)算其[k]近鄰[xi1,xi2,…xik], 記為[Nj], 以點(diǎn)[xi]為定點(diǎn), 歐氏距離[d(xi,xij)]為邊, 建立鄰域關(guān)系圖[GV,E]。

確定近鄰點(diǎn)有2種方法:

i) 利用[ε-]近鄰法, 如果[xi-xj2≤ε],則點(diǎn)對(duì)[xi,xj]可視為近鄰點(diǎn).

ii) 利用[k-]近鄰法, 事先給定近鄰個(gè)數(shù)[k], 然后確定近鄰點(diǎn)。

步驟 2 計(jì)算測(cè)地距離[D=(dij)n×n],在近鄰關(guān)系圖[GV,E]中尋找最短路徑,即:

[dij=dij?xj∈Ni or xi∈Nminkdij,dik+dkjotherwise]

步驟3 對(duì)距離[D=(dij)N×N]運(yùn)用古典MDS方法,求出最低維嵌入[Y={y1,y2,...,yN}]。

2.2 樸素貝葉斯分類算法

樸素貝葉斯的分類說明步驟如下[2-4]:

(1) 把每個(gè)數(shù)據(jù)樣本數(shù)值化,用一個(gè)[n]維特征向量[X={x1,x2...xn}]表示樣本屬性的[n]個(gè)度量。

(2) 假定[m]個(gè)類[C1,C2,...,Cm]。給定一個(gè)待分類的樣本[X], 根據(jù)貝葉斯定理可得樣本[X]的概率為:

[P(Ci|X)=P(X|Ci)P(Ci)P(X)]

(3) 由于[P(X)]對(duì)所有類都是常數(shù),即只需[P(X|Ci)P(Ci)]最大。假如類的先驗(yàn)概率不明,則通常情況下這些類是等概率的。即[P(C1)=P(C2)=...P(Cm)],所以只需[P(X|Ci)]為最大。

(4) 為了計(jì)算[P(X|Ci)],我們往往做類條件獨(dú)立的樸素假定. 則:

[P(X|Ci)=k=1nP(Xk|Ci)]

即概率[P(X1|Ci),P(X2|Ci),…P(Xn|Ci)]由訓(xùn)練樣本估計(jì),其中:

i) 如果[Ak]是分類屬性,則:

[P(Xk|Ci)=SikSi]

其中[Sik]是屬性[Ak]上具有[Xk]的類[Ci] 的訓(xùn)練樣本數(shù), 而[Si]是[Ci]中的訓(xùn)練樣本數(shù);

ii) 假如是連續(xù)屬性, 則往往假設(shè)該屬性服從高斯分布。 因而:

[P(Xk|Ci)=g(xk,uci,σci)=12πσcie(x-uci,)22σci2]其中給定類樣本的[Ci]的訓(xùn)練樣本屬性[Ak]的值[g(xk,uci,σci)]是屬性[Ak]的高斯密度函數(shù),因而[uci],[σci]分別為平均值和密度差。

(5) 對(duì)未知樣本[X]分類, 計(jì)算[P(X|Ci)P(Ci)],比較[P(X|Ci)P(Ci)]與[P(X|Cj)P(Cj)],如果[P(X|Ci)][P(Ci)>] [P(X|Cj)P(Cj)],則[X]被分到[Ci]類中,反之則分到[Cj]。

3 實(shí)證分析

3.1 研究樣本的獲取

我們利用在滬深交易所上市的1069家企業(yè)2015年的財(cái)務(wù)指標(biāo)數(shù)據(jù)(數(shù)據(jù)均選自新浪財(cái)經(jīng)),并從其中選用了15個(gè)財(cái)務(wù)指標(biāo)當(dāng)成關(guān)鍵變量,且這15個(gè)指標(biāo)都是數(shù)值型屬性變量, 類變量是有兩個(gè)狀態(tài){good, bad}, 相應(yīng)地將1069家企業(yè)劃分為兩類:good, 代表“具有信用好的條件”的企業(yè)和bad表示“不具有信用好的條件”的企業(yè). 并從其中抽取769個(gè)樣本作為訓(xùn)練集, 剩下300個(gè)樣本作為測(cè)試集。

3.2 指標(biāo)體系的選擇

財(cái)務(wù)指標(biāo)指的是企業(yè)概括和評(píng)價(jià)財(cái)務(wù)狀況和經(jīng)營(yíng)成果的相對(duì)指標(biāo)。我們往往通過分解和解剖企業(yè)的財(cái)務(wù)指標(biāo)對(duì)企業(yè)經(jīng)濟(jì)效益的好壞做出準(zhǔn)確的評(píng)價(jià)與推斷,用來判定銀行是否貸款給這些企業(yè)。

經(jīng)過研究文獻(xiàn)[5-7]以及大公國(guó)際信用評(píng)級(jí)的關(guān)鍵財(cái)務(wù)指標(biāo),本文選取了上市公司的15個(gè)財(cái)務(wù)指標(biāo)。這15個(gè)財(cái)務(wù)指標(biāo)分為四大類:償債能力指標(biāo)(現(xiàn)金比率、流動(dòng)比率、資產(chǎn)負(fù)債率、速動(dòng)比率)、運(yùn)營(yíng)能力(存貨周轉(zhuǎn)率、流動(dòng)資產(chǎn)周轉(zhuǎn)率、應(yīng)收賬款周轉(zhuǎn)率)、盈利能力(凈資產(chǎn)收益率、毛利率、凈利率、每股主營(yíng)業(yè)收入)、發(fā)展能力(股東權(quán)益增長(zhǎng)率、凈資產(chǎn)增長(zhǎng)率、總資產(chǎn)增長(zhǎng)率、每股收益增長(zhǎng)率)。

3.3 構(gòu)建ISOMAP-NB模型

通過Isomap算法對(duì)數(shù)據(jù)進(jìn)行降維并將其當(dāng)成樸素貝葉斯分類算法的前置數(shù)據(jù)預(yù)處理系統(tǒng)。對(duì)非線性、高維度的企業(yè)財(cái)務(wù)樣本實(shí)行降維處理,進(jìn)而精簡(jiǎn)了樸素貝葉斯分類模型結(jié)構(gòu),減少訓(xùn)練時(shí)間, 提高分類精度。

融合Isomap數(shù)據(jù)降維的樸素貝葉斯分類模型架構(gòu)圖如圖1所示。

算法描述如下:

(1) 指標(biāo)體系的建立:從財(cái)務(wù)數(shù)據(jù)庫(kù)中選取描述企業(yè)信用級(jí)別的指標(biāo)。

(2) 特征提取:利用Isomap算法減小特征向量的維數(shù)。

(3) 建立分類器:利用樸素貝葉斯算法將樣本進(jìn)行分類處理。

3.4 離差標(biāo)準(zhǔn)化處理

依據(jù)原始數(shù)據(jù)顯現(xiàn)的特征,如果數(shù)據(jù)之間存在很大的變異程度, 就考慮實(shí)行離差標(biāo)準(zhǔn)化處理[8]。由于本文選取的數(shù)據(jù)量綱不同且數(shù)據(jù)的差異很大,故我們對(duì)源數(shù)據(jù)進(jìn)行離差標(biāo)準(zhǔn)化處理,利用公式[xik=xik-min(xk)Rk]將原始數(shù)據(jù)變化到(0,1)之間。

3.5 利用Isomap降維

本文利用Isomap算法對(duì)高維數(shù)據(jù)進(jìn)行降維處理中,我們使用了最近鄰居方法,帶入[k]值[(k=3,…30)], 以此進(jìn)行參數(shù)尋優(yōu), 直至找到產(chǎn)生最小殘差的[k]。[k]是Isomap算法中最近鄰居點(diǎn)個(gè)數(shù). 本文在Matlab軟件上運(yùn)行Isomap代碼, 并不斷改變參數(shù)[k]的值取得一系列低維嵌入的殘差圖,通過對(duì)取不同[k]值得到的殘差圖進(jìn)行分析,表明[k=4]的時(shí)候產(chǎn)生的是最小殘差,殘差圖如圖2。隨著橫坐標(biāo)維數(shù)(Isomap dimensionality)的增加,縱坐標(biāo)殘差也隨之變小, 這表明了通過Isomap算法是可以實(shí)現(xiàn)數(shù)據(jù)的維數(shù)降低的。但是,需要經(jīng)過尋找曲線突然停止顯著下降的“肘”點(diǎn)來判斷[9]數(shù)據(jù)的“內(nèi)在”維度。

從圖2得知,當(dāng)維數(shù)[d<3]時(shí),殘差曲線顯著下降至“肘”點(diǎn),當(dāng)維數(shù)[d>3]時(shí),殘差曲線明顯變得平緩、殘差幾乎相同, ?這表明我們成功實(shí)現(xiàn)對(duì)1069家企業(yè)的財(cái)務(wù)數(shù)據(jù)進(jìn)行了降維。進(jìn)而可以得出結(jié)果:通過Isomap算法降維后,得出[d=4]是真實(shí)“內(nèi)在”維數(shù)。

3.6 對(duì)比試驗(yàn)

為了驗(yàn)證ISOMAP-NB評(píng)估模型的分類性能, 我們選擇未用Isomap算法進(jìn)行數(shù)據(jù)降維的樸素貝葉斯模型做對(duì)比分析。

非降維的樸素貝葉斯分類器對(duì)“good”這類企業(yè)數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確率是99.3%,優(yōu)于樸素貝葉斯的預(yù)測(cè)準(zhǔn)確率98.95%。這兩種模型對(duì)“bad”這類企業(yè)數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確率基本持平。總的來說, 降維后的分類器的準(zhǔn)確率為95.4%,非降維的樸素貝葉斯分類器的準(zhǔn)確率為95%,結(jié)果數(shù)據(jù)表明ISOMAP-NB評(píng)估模型在一定程度上好于樸素貝葉斯模型.綜上所述,基于Isomap的樸素貝葉斯分類模型在經(jīng)過Isomap的降維處理后,不但簡(jiǎn)化了樸素貝葉斯分類模型結(jié)構(gòu),減小了樸素貝葉斯模型的計(jì)算復(fù)雜度, 并且提高了模型的分類精度。在一定程度上協(xié)助銀行對(duì)企業(yè)進(jìn)行較為客觀的信用評(píng)估。

4 結(jié)束語

針對(duì)非線性、高維度的大樣本財(cái)務(wù)數(shù)據(jù)進(jìn)行分類處理,本文首先應(yīng)用了Isomap算法做降維處理,將原始數(shù)據(jù)從15維變量降到了4維變量,然后再利用樸素貝葉斯分類器對(duì)降維后的數(shù)據(jù)做分類處理,構(gòu)建了基于Isomap的樸素貝葉斯分類模型,并選取2015年1069家企業(yè)的財(cái)務(wù)指標(biāo)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)研究,結(jié)果顯示該分類模型有效地提高了樸素貝葉斯的分類精度。不但把Isomap用在非線性的金融數(shù)據(jù)上,還可以為銀行信用評(píng)估創(chuàng)新了一種判斷方法。

參考文獻(xiàn):

[1] 段志臣,芮小平,張立媛.基于流形學(xué)習(xí)的非線性維數(shù)約簡(jiǎn)方法[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2012,42(8):230-241.

[2] 曹根,葛孝堃,楊麗琴.基于K-近鄰法的局部加權(quán)樸素貝葉斯分類算法[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(9):267-268,291.

[3] 孫程,邢建春,楊啟亮,等.基于改進(jìn)樸素貝葉斯的入侵檢測(cè)方法[J].微型機(jī)與應(yīng)用,2017,36(1):8-10,14.

[4] 楊光祖,王國(guó)軍.一種新的樸素貝葉斯屬性選擇算法[J].科學(xué)技術(shù)與工程,2009,9(4):978-980.

[5] 趙志沖,遲國(guó)泰.基于似然比檢驗(yàn)的工業(yè)小企業(yè)債信評(píng)級(jí)研究[J].中國(guó)管理科學(xué),2017,25(1):45-56.

[6] 遲國(guó)泰,張亞京,石寶峰.基于Probit回歸的小企業(yè)債信評(píng)級(jí)模型及實(shí)證[J].管理科學(xué)學(xué)報(bào),2016,19(6):136-156.

[7] 劉麗杰.中國(guó)企業(yè)債券信用評(píng)級(jí)指標(biāo)體系研究與創(chuàng)新[J].中國(guó)證券期貨,2010(9):23.

[8] 王志.基于PCA-NBC算法的股票分類研究[D].蘭州:蘭州大學(xué),2014.

[9] Tenenbaum J B,de Silva V,Langford J C.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290(5500):2319-2323.

【通聯(lián)編輯:李雅琪】

主站蜘蛛池模板: 青青久久91| 国产黄色爱视频| 又黄又湿又爽的视频| 亚洲天堂久久久| 国产精品第一区| 91色在线视频| 免费看的一级毛片| 色噜噜在线观看| 91免费国产高清观看| 亚洲欧美成aⅴ人在线观看| 国产激情影院| 麻豆国产原创视频在线播放| 老色鬼久久亚洲AV综合| 国产偷倩视频| 国产无人区一区二区三区| 欧美一区日韩一区中文字幕页| 国产18页| 日韩国产精品无码一区二区三区 | 国产精品亚洲日韩AⅤ在线观看| 中文字幕 日韩 欧美| 国产自在线播放| 国产精品成人免费视频99| 久久久噜噜噜久久中文字幕色伊伊 | 欧美天堂久久| 5555国产在线观看| 国产av剧情无码精品色午夜| 成人午夜视频免费看欧美| 国产尤物在线播放| 久久精品丝袜| 777国产精品永久免费观看| 国产一区三区二区中文在线| 亚洲成人黄色在线| 免费久久一级欧美特大黄| 欧美自慰一级看片免费| 中文字幕在线观看日本| 国产大片喷水在线在线视频| 亚洲第一色视频| 欧美精品1区2区| 国产国产人成免费视频77777 | 国产又粗又爽视频| 日韩av手机在线| 性视频久久| 中文纯内无码H| 国产精品不卡永久免费| 国产午夜精品鲁丝片| 99精品免费欧美成人小视频| 国产小视频在线高清播放 | 永久免费无码成人网站| 亚洲国产中文精品va在线播放| h视频在线播放| 97在线公开视频| 久久国产免费观看| 国产区成人精品视频| 欧美翘臀一区二区三区| 精品国产网站| 91久久偷偷做嫩草影院精品| 亚洲香蕉久久| 亚洲国产一区在线观看| 日韩成人午夜| 国产日韩av在线播放| 国产精品自拍合集| 日韩精品资源| 美女被躁出白浆视频播放| 亚洲天堂网在线播放| 中文毛片无遮挡播放免费| A级全黄试看30分钟小视频| 91视频免费观看网站| 国产精品思思热在线| 免费一级α片在线观看| 国产杨幂丝袜av在线播放| 国产亚洲精品自在久久不卡| 欧美国产日韩一区二区三区精品影视| 国内精品手机在线观看视频| 香蕉蕉亚亚洲aav综合| 久久人人妻人人爽人人卡片av| 国产高清色视频免费看的网址| 日本不卡在线| 午夜无码一区二区三区在线app| 激情综合五月网| 日本不卡在线| 色噜噜在线观看| 欧美午夜久久|