999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

借款陳述文字中的違約信號(hào)——基于P2P網(wǎng)絡(luò)借貸的實(shí)證研究

2019-05-15 07:41:22謝彥嫵
中國(guó)管理科學(xué) 2019年4期
關(guān)鍵詞:文本信息

陳 林,謝彥嫵,李 平,李 強(qiáng)

(電子科技大學(xué)經(jīng)濟(jì)與管理學(xué)院,四川 成都 611731)

1 引言

民間金融對(duì)中國(guó)經(jīng)濟(jì)發(fā)展具有重要作用[1]。P2P網(wǎng)絡(luò)借貸(Peer to Peer Lending)正是近年來(lái)重要的民間金融之一。它是借貸雙方通過(guò)互聯(lián)網(wǎng)信息平臺(tái)直接達(dá)成資金借貸交易,而不再依靠銀行等傳統(tǒng)金融機(jī)構(gòu)。2005年第一家P2P網(wǎng)絡(luò)借貸平臺(tái)Zopa在英國(guó)誕生,2007年“拍拍貸”、“人人貸”等網(wǎng)絡(luò)借貸平臺(tái)網(wǎng)站將該模式引入我國(guó)。據(jù)零壹財(cái)經(jīng)數(shù)據(jù)報(bào)告,截止2016年11月30日,國(guó)內(nèi)P2P借貸平臺(tái)約4800余家,但其中正常運(yùn)營(yíng)的僅有1613家,占比33.6%,問(wèn)題平臺(tái)達(dá)到3163家。網(wǎng)絡(luò)行業(yè)表現(xiàn)出如此高比例的問(wèn)題平臺(tái),其原因之一就是社會(huì)信用體系不健全,同時(shí)也沒(méi)能有效解決借款者的信用風(fēng)險(xiǎn)識(shí)別問(wèn)題。由于借貸交易通過(guò)互聯(lián)網(wǎng)進(jìn)行,投資者更難核實(shí)借款者信息的真實(shí)性,信息不對(duì)稱問(wèn)題可能比傳統(tǒng)信貸更為嚴(yán)重。如何有效識(shí)別P2P網(wǎng)絡(luò)借款者的信用風(fēng)險(xiǎn),仍然是整個(gè)行業(yè)持續(xù)健康發(fā)展亟待解決的關(guān)鍵問(wèn)題之一。與此同時(shí),建立科學(xué)的客戶信用評(píng)估模型,準(zhǔn)確、有效地預(yù)測(cè)客戶可能發(fā)生的欺詐行為意義十分重大[2]。

在P2P網(wǎng)絡(luò)借貸模式下,投資者判斷借款者的信用風(fēng)險(xiǎn),規(guī)避借款者的逆向選擇和道德風(fēng)險(xiǎn)的主要途徑是依靠借款者在借貸平臺(tái)上展示的信息。這些信息主要包括借款者的個(gè)人特征信息與財(cái)務(wù)信息[3]、社會(huì)資本信息[4-6]、以及借款者為了借款而展示的借款陳述信息[7-8]。借款者的這些信息又可以分為硬信息(hard information)和軟信息(soft information)[9-10]。硬信息指能夠被驗(yàn)證的客觀信息,例如借款者的身份證號(hào)碼、信用報(bào)告、收入信息等信息。軟信息則指不能被直接驗(yàn)證的信息,如借款者的社會(huì)資本、借款陳述文本、還款意愿等信息。在銀行等傳統(tǒng)金融機(jī)構(gòu)的借貸領(lǐng)域,一般通過(guò)硬信息度量還款能力,進(jìn)而評(píng)估借款人的違約風(fēng)險(xiǎn)。由于借款人的還款意愿也是產(chǎn)生違約風(fēng)險(xiǎn)的根源之一,所以甄別借款人的還款意愿一直都是違約風(fēng)險(xiǎn)評(píng)估面臨的重要挑戰(zhàn)之一。

目前,P2P網(wǎng)絡(luò)借貸的違約成本低,較小的借款金額使得借款者能否按時(shí)還款,更多取決于其還款意愿,而非還款能力。所以還款意愿的識(shí)別對(duì)于保護(hù)投資人的利益尤為重要。心理學(xué)研究表明,自然語(yǔ)言中運(yùn)用的詞匯能在一定程度上反映出作者的自我認(rèn)知和社會(huì)地位[11]。所以,人們也早已認(rèn)識(shí)到描述性文本信息在經(jīng)濟(jì)領(lǐng)域中有著重要作用,例如,關(guān)于組織認(rèn)同的描述性信息能幫助企業(yè)家獲取所需的經(jīng)濟(jì)資源[12],企業(yè)家的商業(yè)計(jì)劃書在不確定性較高的金融交易中起到關(guān)鍵的信息橋梁作用[13],上市公司的信息披露之間的相似度與股權(quán)資本成本之間存在正相關(guān)關(guān)系[14]。基于同樣的道理,借款者對(duì)借款項(xiàng)目的描述信息或許能為投資者識(shí)別借款者的違約風(fēng)險(xiǎn)提供有用的線索。因?yàn)榻杩铌愂鐾ㄟ^(guò)對(duì)借款者現(xiàn)狀的表述和未來(lái)還款行為的塑造,也許在某種程度上會(huì)蘊(yùn)含著借款者為了展示或者隱藏自己還款能力和還款意愿的相關(guān)信息。所以,本文從借款陳述文本中提取文字特征信息、還款能力和還款意愿信息、對(duì)資金需求緊急程度的情感特征等信息,并檢驗(yàn)它們對(duì)識(shí)別借款者違約風(fēng)險(xiǎn)的作用。

當(dāng)前對(duì)借款陳述的研究主要集中于借款陳述對(duì)借款成功率的影響。例如Larrimore等[15]分析了借款陳述中表現(xiàn)的誠(chéng)信、成功、勤奮、經(jīng)濟(jì)困難、道德和宗教特征對(duì)借款成功的影響;Herzenstein等[16]從文本長(zhǎng)度、人性化細(xì)節(jié)等能間接反映借款者財(cái)務(wù)狀況的變量出發(fā),分析對(duì)借款成功率的影響;廖理等[17]從語(yǔ)言長(zhǎng)度與語(yǔ)言內(nèi)容兩個(gè)維度分析了借款陳述在P2P借貸市場(chǎng)的作用,語(yǔ)言長(zhǎng)度越長(zhǎng),借款成功率越高,如約還清率越高;涉及某些話題(創(chuàng)業(yè)、家庭、急迫、誠(chéng)信)影響借款成功率但與如約還清率無(wú)關(guān)。還有研究將借款陳述中的借款用途、總單詞數(shù)、單詞的平均音節(jié)數(shù)等作為控制變量,研究性別、種族等其它因素對(duì)網(wǎng)絡(luò)借貸的影響[18],以及外貌對(duì)成功借款的影響[19]。

綜上所述,現(xiàn)有研究還少有通過(guò)借款陳述信息提取有助于識(shí)別借款者違約風(fēng)險(xiǎn)的相關(guān)變量,與本文關(guān)注的違約風(fēng)險(xiǎn)相關(guān)的主要研究有Gao Qiang和Lin Mingfeng[8]、廖理和吉霖等的研究。Gao Qiang和Lin Mingfeng從文本的可讀性、反映的積極態(tài)度、客觀性和欺詐線索四個(gè)維度分析它們與違約之間的關(guān)系。廖理等[17]則主要分析了文本長(zhǎng)度與違約風(fēng)險(xiǎn)之間的關(guān)系,認(rèn)為文本越長(zhǎng),違約的風(fēng)險(xiǎn)越小。不過(guò)廖理等[17]的這個(gè)結(jié)論與Gao Qiang和Lin Mingfeng[8]的觀點(diǎn)并不一致,在Gao Qiang和Lin Mingfeng研究中,文本越長(zhǎng)可能代表文本的可讀性下降,從而違約的可能性越高。

Gao Qiang和Lin Mingfeng[8]使用文本分析軟件(Linguistic Inquiry and Word Count)處理英文的借款描述,廖理等[17]則通過(guò)編程實(shí)現(xiàn)對(duì)特定詞語(yǔ)的查詢得到研究變量。然而與違約風(fēng)險(xiǎn)息息相關(guān)的還款能力、還款意愿等借款者主動(dòng)表述的信息還沒(méi)有得到重視。這可能受限于目前語(yǔ)言分析軟件還無(wú)法處理復(fù)雜的語(yǔ)言內(nèi)容和情感。所以,本文基于國(guó)內(nèi)網(wǎng)貸平臺(tái)“人人貸”的借款項(xiàng)目數(shù)據(jù),通過(guò)人工識(shí)別的方法,從借款陳述文本中提取反映借款者還款能力的收入信息、信用狀態(tài)的補(bǔ)充說(shuō)明信息以及對(duì)資金需求緊急程度的情感信息,然后檢驗(yàn)這些信息變量對(duì)識(shí)別借款者違約風(fēng)險(xiǎn)的顯著性。本文研究與Gao Qiang和Lin Mingfeng[8]和廖理等[17]的研究相比,關(guān)注于他們沒(méi)有考慮的信息變量,即從借款陳述文本中發(fā)現(xiàn)是否存在能反映潛在違約風(fēng)險(xiǎn)的還款能力、還款意愿和對(duì)資金需求的情感等信息。人工識(shí)別的方法雖然處理的樣本數(shù)量有限,但更能識(shí)別模糊性的信息,并且也為未來(lái)進(jìn)一步通過(guò)編制程序分析借款陳述中的模糊信息提供校對(duì)標(biāo)準(zhǔn)。

全文內(nèi)容安排如下:第一部分是引言;第二部分是借款陳述文本分析所涉及的變量定義、變量的統(tǒng)計(jì)特征和研究問(wèn)題假設(shè)提出;第三部分是研究假設(shè)的驗(yàn)證和穩(wěn)健性分析;最后部分是研究結(jié)論的總結(jié)分析。

2 借款陳述信息

2.1 借款陳述中的信息變量

我們擬從借款陳述文本中提取如下三類信息變量:

第一類信息:文字特征信息。主要從借款陳述的文本長(zhǎng)度、語(yǔ)句中是否含有錯(cuò)別字、是否為了增加長(zhǎng)度進(jìn)行重復(fù)的語(yǔ)句粘貼三個(gè)維度描述文字特征信息,借款陳述例子見表1。Gao Qiang和Lin Mingfeng[8]的研究結(jié)論:文本越長(zhǎng),可讀性下降,意味著違約可能性增加。這可能是因?yàn)榻杩钫哂捎谧陨砦幕降南拗疲a(chǎn)生了較長(zhǎng)的、重復(fù)性的、或者有錯(cuò)別字的借款陳述。但Gao Qiang和Lin Mingfeng結(jié)論是基于英文文本的結(jié)果。而廖理等[17]結(jié)論正好相反,即借款陳述文本越長(zhǎng),違約可能性越小。但是廖理等[17]未關(guān)注到錯(cuò)別字、重復(fù)這樣的語(yǔ)法錯(cuò)誤現(xiàn)象。因此,本文在繼續(xù)考慮文本長(zhǎng)度的同時(shí),增加考慮錯(cuò)別字和重復(fù)語(yǔ)句信息是否對(duì)判斷違約風(fēng)險(xiǎn)有顯著作用。

表1 借款陳述中的文字特征信息示例

文字特征信息可能反映了借款者的受教育程度,而已有研究表明教育程度與個(gè)人信用水平相關(guān)。簡(jiǎn)潔、準(zhǔn)確的借款陳述文本體現(xiàn)的是良好的教育水平,從而違約可能性更低。所以,與Gao Qiang和Lin Mingfeng[8]的研究類似,本文希望在中文語(yǔ)言環(huán)境下驗(yàn)證如下假設(shè):

假設(shè)1:借款陳述文本越長(zhǎng)、有錯(cuò)別字、有重復(fù)語(yǔ)句,則借款者違約風(fēng)險(xiǎn)越大。

第二類信息:表現(xiàn)還款能力和還款意愿的信息。P2P借貸平臺(tái)為了保護(hù)借款者的個(gè)人隱私,在網(wǎng)站上進(jìn)行信息展示的時(shí)候盡可能地隱藏了借款者的詳細(xì)個(gè)人信息,只保留了借款者收入水平類別和公司行業(yè)類別信息。但借款者在借款陳述中可以自愿提供其它更為詳細(xì)的信息來(lái)證明自己的還款能力或者還款意愿。比如對(duì)工作狀況的補(bǔ)充,包括公司名稱、主營(yíng)業(yè)務(wù)、公司地址、兼職副業(yè)等,以及對(duì)收入狀況的補(bǔ)充說(shuō)明,包括具體收入金額、家庭成員收入、多種收入來(lái)源等(見表2)。

表2 還款能力與還款意愿的信息示例

另一方面,為了表達(dá)更強(qiáng)烈的還款意愿,借款者還可能對(duì)自己的信用狀態(tài)進(jìn)行說(shuō)明,以及出現(xiàn)承諾性的保證語(yǔ)言,借此向投資者表達(dá)自己是一個(gè)值得信任的人。為此,本文將驗(yàn)證如下兩個(gè)假設(shè):

假設(shè)2:借款陳述文本存在還款能力信息,則借款者違約風(fēng)險(xiǎn)越小。

假設(shè)3:借款陳述文本存在還款意愿信息,則借款者違約風(fēng)險(xiǎn)越小。

第三類信息:情感特征信息。我們從兩個(gè)方面挖掘借款陳述中的情感特征信息。一方面是在借款陳述中,是否使用了第一人稱“我”、“我們”、“本公司”等表述,基于已有的研究結(jié)論表明,一個(gè)惡意欺詐的人一般會(huì)規(guī)避使用第一人稱表述,以逃避某種“罪惡”感[20]。另一方面,如果借款人在借款陳述中表現(xiàn)出對(duì)資金的需求很強(qiáng)烈,則可能表明其經(jīng)濟(jì)狀態(tài)比較差,從而將來(lái)違約的可能性較高。或者出于欺詐的因素,而急于想借到錢,因而在借款陳述中更多使用“謝謝”、“感謝”等感謝性語(yǔ)言和“拜托”、“幫忙”等請(qǐng)求性表達(dá)(見表3)。因此,本文還將驗(yàn)證如下兩個(gè)假設(shè):

假設(shè)4:借款陳述文本中存在第一人稱表述,則違約風(fēng)險(xiǎn)越小。

假設(shè)5:借款陳述文本中表現(xiàn)出對(duì)資金需要意愿越強(qiáng),則借款者違約風(fēng)險(xiǎn)越大。

表3 借款陳述中的情感特征信息示例

2.2 被解釋變量、解釋變量和控制變量

被解釋變量為借款項(xiàng)目的逾期狀態(tài),用二元變量default表示,即借款者在規(guī)定時(shí)間內(nèi)正常還款,default=0;借款者在規(guī)定時(shí)間內(nèi)未還款,逾期30天(含)以內(nèi)以及逾期超過(guò)30天由人人貸進(jìn)行墊付,default=1。

因?yàn)榻杩罱痤~、借款利率、借款期限及由平臺(tái)給出的借款人信用分?jǐn)?shù)已是借貸中用于評(píng)估信用風(fēng)險(xiǎn)的主要變量,所以本文將這四個(gè)變量設(shè)置為控制變量。除此外,利率和信用分?jǐn)?shù)還用于控制不同時(shí)期平臺(tái)的利率定價(jià)機(jī)制和審核機(jī)制對(duì)違約率的影響,因?yàn)椋杩罾适窃诓煌瑫r(shí)期的利率定價(jià)機(jī)制下形成的。

最后,根據(jù)前一節(jié)關(guān)于借款陳述文本中的信息變量介紹,被解釋變量、解釋變量和控制變量如表4所示。

表4 被解釋變量、解變量和控制變量

2.3 樣本數(shù)據(jù)與變量的統(tǒng)計(jì)特征

本文以“人人貸”的“信用認(rèn)證標(biāo)”借款項(xiàng)目為研究樣本。“信用認(rèn)證標(biāo)”借款是“人人貸”平臺(tái)對(duì)借款用戶的個(gè)人信用資質(zhì)進(jìn)行審核后,推薦在平臺(tái)上的借款項(xiàng)目。該類借款項(xiàng)目沒(méi)有其他機(jī)構(gòu)擔(dān)保,屬于純信用借款,因此對(duì)借款者的違約風(fēng)險(xiǎn)識(shí)別尤為重要。

“人人貸”平臺(tái)成立于2010年5月,是我國(guó)最早發(fā)展P2P借貸的平臺(tái)之一。由于初期P2P行業(yè)也還處于發(fā)展時(shí)期,所以2010年的借款標(biāo)的數(shù)據(jù)較少。2011年開始逐步增加,但2011年期間違約的信用借款項(xiàng)目特別多。由于樣本數(shù)據(jù)是通過(guò)第三方公司網(wǎng)絡(luò)爬蟲獲取,所以在對(duì)2011年至2015年期間的信用借款項(xiàng)目數(shù)據(jù)進(jìn)行整理后得約兩萬(wàn)余條數(shù)據(jù)完整的信用借款項(xiàng)目信息。由于我們將個(gè)人信用評(píng)分(score)作為主要的控制變量之一,而平臺(tái)所展示的個(gè)人信用評(píng)分(score)總是借款人的最新信用分?jǐn)?shù),而沒(méi)有借款人過(guò)去的變化分?jǐn)?shù)。因此就不能用這個(gè)最新的信用評(píng)分(score)去解釋一個(gè)借款者過(guò)去所有的借款項(xiàng)目。為了解決這個(gè)問(wèn)題,我們就選擇同一個(gè)人的最后一筆借款作為研究樣本,以保證個(gè)人信用評(píng)分(score)能在時(shí)間上與借款項(xiàng)目相對(duì)應(yīng)。這樣,剔除掉同一個(gè)借款人的多筆借款,而保留最后一筆借款,最后得到8453條借款項(xiàng)目信息。這些樣本中,按照逾期還款就算違約的界定,發(fā)現(xiàn)其中有逾期還款的借款人約占三分之二。

選擇個(gè)人信用評(píng)分(score)作為對(duì)借款者信用風(fēng)險(xiǎn)度量的控制變量后,不再需要將借款者的個(gè)人其它信息如性別、婚姻狀態(tài)、學(xué)歷、收入作為控制變量,因?yàn)槠脚_(tái)給出的信用評(píng)分已經(jīng)考慮了借款者的上述信息。如果再加入這些信息,會(huì)受到嚴(yán)重的多重共線性影響。另一方面,由于個(gè)人信用評(píng)分(score)是由平臺(tái)根據(jù)借款者個(gè)人與資產(chǎn)信息評(píng)出的,所以選擇個(gè)人信用評(píng)分(score)作為主要控制變量,也在一定程度上代表了平臺(tái)的評(píng)價(jià)水平,對(duì)平臺(tái)的評(píng)價(jià)政策的差異性進(jìn)行控制。

自然語(yǔ)言表達(dá)的豐富多變使得要計(jì)算機(jī)自動(dòng)理解其中蘊(yùn)含的情感語(yǔ)義比較困難[21],研究的時(shí)間較短,很多技術(shù)和方法不夠成熟[22],而中文比英文在語(yǔ)言結(jié)構(gòu)以及句式類型更加復(fù)雜,導(dǎo)致針對(duì)英文文本情感分析的一些方法在對(duì)中文文本情感分析的應(yīng)用并沒(méi)有取得理想的結(jié)果。所以對(duì)借款陳述的語(yǔ)義識(shí)別,由研究團(tuán)隊(duì)通過(guò)人工識(shí)別分析完成。由于人工識(shí)別和核對(duì)有較大的工作量,所以暫時(shí)處理了部分樣本,分別選擇了1500名違約的借款信息和1500名未違約的借款信息進(jìn)行人工識(shí)別。確定這些樣本的借款陳述文本中是否存在錯(cuò)別字、是否有重復(fù)語(yǔ)句、是否有對(duì)工作和收入的補(bǔ)充信息、是否有信用狀況補(bǔ)充說(shuō)明或者還款保證、第一人稱的使用、請(qǐng)求性的語(yǔ)言等信息變量。

人工識(shí)別和核對(duì)雖然也會(huì)面臨語(yǔ)義理解問(wèn)題,但由于識(shí)別人本身有較高的教育水平,也能準(zhǔn)確識(shí)別語(yǔ)言語(yǔ)義。例如,如果僅僅依靠程序識(shí)別感謝性語(yǔ)言,程序設(shè)計(jì)可能只考慮到“謝謝”或“感謝”這樣的詞匯。但人工識(shí)別的情況下,能將“感激”等同義詞也歸為感謝性的表達(dá)。所以,人工識(shí)別自然也能識(shí)別“麻煩”、“幫助”、“幫幫我”、請(qǐng)”、“希望”等詞語(yǔ)為表示請(qǐng)求性的語(yǔ)氣。總之,本文希望在準(zhǔn)確語(yǔ)義識(shí)別的基礎(chǔ)上,研究這些語(yǔ)義信息是否能反映借款者的違約狀態(tài)。

進(jìn)一步,考慮樣本中逾期還款的比例約占三分之二。從人工識(shí)別的3000條樣本數(shù)據(jù)中,分別得到三組樣本。每組樣本數(shù)據(jù)為800條,由480條違約數(shù)據(jù)和320條未違約數(shù)據(jù)組成。這三組樣本,按照借款時(shí)間逐一從3000條樣本中選取。一組用于假設(shè)檢驗(yàn)測(cè)試,下文稱為測(cè)試樣本組。另外兩組用于穩(wěn)健性檢驗(yàn),下文分別稱為穩(wěn)健檢驗(yàn)樣本組1和穩(wěn)健檢驗(yàn)樣本組2。表5、表6、表7分別列出了測(cè)試樣本組、穩(wěn)健檢驗(yàn)樣本組1和穩(wěn)健檢驗(yàn)樣本組2的統(tǒng)計(jì)特征。

表5 測(cè)試樣本組變量的統(tǒng)計(jì)特征

表6 穩(wěn)健檢驗(yàn)樣本組1的統(tǒng)計(jì)特征

續(xù)表6 穩(wěn)健檢驗(yàn)樣本組1的統(tǒng)計(jì)特征

表7 穩(wěn)健檢驗(yàn)樣本組2的統(tǒng)計(jì)特征

根據(jù)表5、表6、表7的描述性統(tǒng)計(jì)結(jié)果可知,借款金額平均在四萬(wàn)元左右,最少的借款額只有三千元,這體現(xiàn)了P2P網(wǎng)絡(luò)借貸的小額性質(zhì)。借款利率均值為12.9%左右,遠(yuǎn)高于銀行的存款利率,對(duì)投資者有較大的吸引力;借款期限平均在11個(gè)月左右,體現(xiàn)了P2P網(wǎng)絡(luò)貸款短期借款的特征;借款者信用分?jǐn)?shù)平均在80分左右,說(shuō)明信用認(rèn)證標(biāo)的大多數(shù)借款者的信用評(píng)分并不高。

為了初步考察研究問(wèn)題所涉及被解釋變量和解釋變量之間的關(guān)系,以及分析變量之間是否存在嚴(yán)重相關(guān)性,表8給出了各個(gè)變量的相關(guān)系數(shù)矩陣和顯著性水平。由表8可知,情感特征變量中的請(qǐng)求性表達(dá)(please)、還款意愿和能力補(bǔ)充信息變量(explain和earning)、是否有重復(fù)語(yǔ)句變量(repeat)、借款陳述中的文字長(zhǎng)度變量(len)與違約狀態(tài)(default)存在顯著的相關(guān)性。這是進(jìn)一步選擇它們作為違約的解釋變量的基礎(chǔ)。除此外,控制變量借款金額(money)、利率(rate)、期限(maturity)和信用評(píng)分(score)也與被解釋變量違約狀態(tài)(default)存在顯著的相關(guān)性,表明它們作為控制變量的合理性。從表8還可知,盡管一些解釋變量之間、控制變量之間也存在顯著的相關(guān)性,但這是由它們內(nèi)在的經(jīng)濟(jì)含義所決定的。例如,借款金額、利率一定跟信用評(píng)分相關(guān),評(píng)分越高,理所當(dāng)然借款金額就越高、利率越低。所以信用評(píng)分與金額存在正相關(guān)性,信用評(píng)分與利率存在負(fù)的相關(guān)性。但是它們之間相關(guān)系數(shù)值并不大,遠(yuǎn)小于一般判斷可能會(huì)導(dǎo)致嚴(yán)重多重共線性的參考標(biāo)準(zhǔn)(0.8)[23]。

表8 測(cè)試樣本組的相關(guān)系數(shù)

說(shuō)明:***,**,*分別代表1%,5%和10%的顯著性

當(dāng)然,從相關(guān)性表中也發(fā)現(xiàn)一些有趣的現(xiàn)象,例如信用評(píng)分(score)和期限(maturity)存在顯著的負(fù)相關(guān),似乎表明信用越好的人,借款期限越短。其實(shí)這也符合邏輯,因?yàn)镻2P網(wǎng)絡(luò)借款的利率較高,信用評(píng)分較高的人,往往可能只是通過(guò)P2P借貸進(jìn)行短期的周轉(zhuǎn),而不愿意承擔(dān)長(zhǎng)期的高利率。

總之,基于上述相關(guān)性分析,一方面表明控制變量與解釋變量的選擇邏輯是合理的,另一方面也可排除變量之間存在嚴(yán)重多重共線性的可能,這是進(jìn)一步建模分析的基礎(chǔ)。

3 借款陳述文字中的違約信號(hào)檢驗(yàn)

3.1 測(cè)試樣本組的統(tǒng)計(jì)特征

對(duì)假設(shè)1~5的驗(yàn)證,分別運(yùn)用以下五個(gè)Probit模型,在驗(yàn)證樣本組數(shù)據(jù)下,得到的結(jié)果見表9。

模型1:

P(default=1)=α+β1*money+β2*rate+β3*maturity+β4*score+β5*len+β6*error+β7*repeat+ε

(1)

模型2:

P(default=1)=α+β1*money+β2*rate+β3*maturity+β4*score+β8*work+β9*earning+ε

(2)

模型3:

P(default=1)=α+β1*money+β2*rate+β3*maturity+β4*score+β10*explain+β11*assure+ε

(3)

模型4:

P(default=1)=α+β1*money+β2*rate+β3*maturity+β4*score+β12*first+β13*thank+β14*please+ε

(4)

模型5:

P(default=1)=α+β1*money+β2*rate+β3*maturity+β4*score+β5*len+β6*error+β7*repeat+β8*work+β9*earning+β10*explain+β11*assure+β12*first+β13*thank+β14*please+ε

(5)

首先,根據(jù)表9中的參數(shù)結(jié)果可知,控制變量信用評(píng)分(score)、借款金額(money)、借款利率(rate)與預(yù)期的符號(hào)一致,并且顯著。即表明信用評(píng)分越高,違約的可能性越低;借款利率越高,風(fēng)險(xiǎn)越高,違約的可能性也越高;同理,借款金額越高,風(fēng)險(xiǎn)敞口也就越大,所以違約的可能性越高。不過(guò),借款期限(maturity)卻沒(méi)有和違約概率有顯著的正相關(guān),其系數(shù)反而是負(fù)的。這可能是因?yàn)槠谙夼c利率之間的相關(guān)性導(dǎo)致,即期限越長(zhǎng),利率通常越高,對(duì)此我們?cè)谀P?的基礎(chǔ)上,分別單獨(dú)只選擇借款利率(rate)或者借款期限(maturity)作為控制變量,得到的結(jié)果都顯著地與違約概率成正向關(guān)系。雖然可能同時(shí)把它們放在一起不合適,但并不影響解釋變量的系數(shù)符號(hào)和顯著性。

表9 模型1-5的參數(shù)估計(jì)結(jié)果

模型1對(duì)文字特征信息與違約之間關(guān)系的假設(shè)檢驗(yàn)表明,借款陳述文本的字?jǐn)?shù)越多,或者存在重復(fù)語(yǔ)句,借款者違約的可能性越大。這個(gè)結(jié)果與Lin和Gao的結(jié)果是一致的,因?yàn)樵谒麄儗?duì)借款陳述的分析中,字?jǐn)?shù)越多表明文本的可讀性較差,違約的可能性較高。但另一方面,錯(cuò)別字對(duì)借款違約的解釋作用與預(yù)期相反,但與相關(guān)性分析一致。或許是通過(guò)計(jì)算機(jī)輸入文字,由于輸入法的原因,無(wú)法反應(yīng)借款者真實(shí)的文化水平。

在模型2中,借款陳述中關(guān)于工作信息和收入信息的披露沒(méi)有對(duì)違約狀態(tài)有顯著的解釋效果。但正如上面對(duì)控制變量的討論,當(dāng)我們剔除了借款期限(maturity)后,進(jìn)一步控制期限和利率之間的相關(guān)性后,即通過(guò)如下模型:

P(default=1)=α+β1*money+β2*rate+β4*score+β8*work+β9*earning+ε

(6)

則發(fā)現(xiàn),對(duì)收入信息的披露在10%的置信水平下(β10=-0.226),與違約概率是負(fù)相關(guān)的,即有收入信息披露的借款人,違約概率會(huì)更低一些。但工作信息披露與違約的關(guān)系仍然不顯著,且與預(yù)期的符號(hào)也不一致,這可能是由于平臺(tái)的信用評(píng)分已經(jīng)包含了借款者的工作信息,只是對(duì)投資者而言不可見。另外,可能因?yàn)樵谏婕笆杖胄畔r(shí),不可避免將涉及到工作信息。由于收入信息更容易量化,所以,平臺(tái)的信用評(píng)分也可能包括借款者的收入信息,如果投資者再補(bǔ)充收入信息,在信用評(píng)分影響的基礎(chǔ)上,應(yīng)該進(jìn)一步降低違約率,所以,在(6)式中加入收入信息和信用評(píng)分交叉項(xiàng):

P(default=1)=α+β1*money+β2*rate+β4*score+β8*work+β9*earning+γ1*score*earning+ε

(7)

此時(shí)β9=1.643,而γ1=-0.019,顯著水平都為5%,其它變量的顯著性與符號(hào)未發(fā)生改變,也就正好驗(yàn)證當(dāng)加入收入補(bǔ)充信息的時(shí)候,能更顯著的降低違約概率。由于我們將收入信息作為還款能力信息的代理變量,所以上述結(jié)果驗(yàn)證了假設(shè)2,即借款陳述文本存在還款能力信息,則借款者違約風(fēng)險(xiǎn)越小。

其次,從表9中模型3的結(jié)果,能看出如果有對(duì)自己歷史信用狀況的解釋說(shuō)明,則有更低的違約概率。能客觀說(shuō)明自己的信用狀況,表明借款者還款意愿上的誠(chéng)實(shí)性,因?yàn)榫哂衅墼p想法的借款者,一般更不愿意提供更多的信息,或者往往傾向于隱藏對(duì)自己不利的信息,所以提供了對(duì)自己過(guò)去信用狀況說(shuō)明的借款者就顯得更加可信,因此違約概率更低。單獨(dú)分析保證性的還款意愿信息的系數(shù),并不能對(duì)違約狀況具有解釋作用,如果借款者對(duì)過(guò)去信用狀態(tài)做出相應(yīng)的解釋,而后給出保證性的承諾,是否更可信呢?于是在模型3的基礎(chǔ)上加入對(duì)信用解釋說(shuō)明和還款保證說(shuō)明的交叉項(xiàng):

P(default=1)=α+β1*money+β2*rate+β3*maturity+β4*score+β10*explain+β11*assure+γ2*explain*assure+ε

(8)

在(8)式的回歸結(jié)果中,其它變量符號(hào)與顯著性未改變,但交叉項(xiàng)系數(shù)γ2=-0.764,顯著水平為10%,正如上述分析,此時(shí)違約可能性更低,也就是借款人更可信,也即驗(yàn)證了假設(shè)3。

最后,借款者為了獲得借款而做出請(qǐng)求性、感謝性的表達(dá),表明了對(duì)資金的需求愿望越強(qiáng)。而從表9中模型4的結(jié)果可知,對(duì)資金需求的急切性越高,其違約的概率也就越高,因此驗(yàn)證了假設(shè)5。但是,無(wú)法驗(yàn)證假設(shè)4,是否使用第一人稱的表述與違約與否的關(guān)系不顯著。進(jìn)一步的,根據(jù)表9中模型5得出的結(jié)果,也對(duì)上述結(jié)論進(jìn)行了驗(yàn)證。下一步將在另外兩組樣本基礎(chǔ)上分析上述結(jié)論的穩(wěn)健性。

3.3 穩(wěn)健性檢驗(yàn)

首先相關(guān)性分析表明:穩(wěn)健檢驗(yàn)樣本組1和穩(wěn)健檢驗(yàn)樣本組2中的解釋變量、控制變量與被解釋變量關(guān)系與預(yù)期基本一致,各變量之間的相關(guān)性較小。然后,分別對(duì)這兩組樣本運(yùn)用Probit模型分析,模型結(jié)果見表10(穩(wěn)健檢驗(yàn)樣本組1)和表11(穩(wěn)健檢驗(yàn)樣本組2)。

表10的結(jié)果與檢驗(yàn)樣本組的結(jié)論一致,而表11的結(jié)果在收入信息(earning)與被解釋變量之間的顯著性發(fā)生了改變。我們分析這可能是由于穩(wěn)健樣本組2中樣本的信用評(píng)分可能更多包含收入信息、工作信息所導(dǎo)致相關(guān)性的結(jié)果。所以,當(dāng)對(duì)穩(wěn)健樣本組2去掉信用評(píng)分和工作信息變量,只保留收入信息變量時(shí):

P(default=1)=α+β1*money+β2*rate+β3*maturity+β9*earning+ε

(9)

此時(shí),可知收入信息仍然顯著地影響違約狀況,β9=-0.191顯著水平是10%。

綜上所述,在本文樣本的范圍內(nèi),運(yùn)用Probit模型得出的關(guān)于借款陳述文本中提取的文字特征變量、反映還款能力和還款意愿信息變量、以及反映主觀對(duì)資金需求的強(qiáng)烈程度的變量與借款者違約狀態(tài)之間的關(guān)系是穩(wěn)健的。

表10 模型1-5的參數(shù)估計(jì)結(jié)果

表11 模型1-5的參數(shù)估計(jì)結(jié)果

續(xù)表11 模型1-5的參數(shù)估計(jì)結(jié)果

4 結(jié)語(yǔ)

本文從“人人貸”網(wǎng)絡(luò)借貸平臺(tái)的借款項(xiàng)目陳述文本中提取了文字特征信息、反映還款能力和還款意愿的信息以及對(duì)資金需求的情感特征信息,并檢驗(yàn)這些變量對(duì)識(shí)別借款者違約風(fēng)險(xiǎn)的可行性。研究發(fā)現(xiàn):(1)借款陳述文本的字?jǐn)?shù)越多,存在重復(fù)語(yǔ)句,借款者違約的可能性越大;(2)借款陳述文本中存在還款能力信息,則借款者違約風(fēng)險(xiǎn)越小;(3)借款陳述文本中同時(shí)存在表示還款意愿的保證性語(yǔ)言以及對(duì)自己信用狀態(tài)補(bǔ)充說(shuō)明的信息,則借款者違約風(fēng)險(xiǎn)越小;(4)借款者在情感上表現(xiàn)出對(duì)資金需求的急切性越高,其違約風(fēng)險(xiǎn)越高;(5)借款陳述文本中存在第一人稱表述,沒(méi)有表現(xiàn)出與違約風(fēng)險(xiǎn)的顯著關(guān)系;(6)錯(cuò)別字對(duì)借款違約的解釋作用不顯著。這些結(jié)論雖然是在人工識(shí)別有限數(shù)據(jù)樣本的基礎(chǔ)上得到,但它們?nèi)匀粸檫M(jìn)一步通過(guò)程序軟件實(shí)現(xiàn)文本挖掘算法來(lái)分析借款者的信用水平指明了研究方向。

另一方面,上述結(jié)論背后的一些深層次邏輯關(guān)系還有待進(jìn)一步研究。例如文本長(zhǎng)度影響違約狀態(tài),長(zhǎng)文本究竟是反映借款者的教育水平、收入水平從而影響借款者還款能力,還是反映了欺詐的信息從而代表還款意愿影響違約狀態(tài)。同理,資金需求的緊急程度是否也代表欺詐性的線索,還是代表還款能力線索還有待進(jìn)一步分析。還有為什么存在第一人稱表述沒(méi)有表現(xiàn)出像心理學(xué)方面研究的一致結(jié)論。除此外,其它一些外部因素,如宏觀政策、平臺(tái)的信息披露政策等是否對(duì)結(jié)論有影響,有在待后續(xù)研究中進(jìn)行控制。

總之,P2P網(wǎng)絡(luò)借貸真正有別于傳統(tǒng)的借貸,首先要在信用風(fēng)險(xiǎn)評(píng)估上面有突破,而不再是僅僅依靠傳統(tǒng)的財(cái)務(wù)信息和歷史信息。傳統(tǒng)信貸領(lǐng)域,有經(jīng)驗(yàn)的信貸員能在面談后大致估計(jì)出一個(gè)借款人的可信程度。如何讓計(jì)算機(jī)通過(guò)人工智能程序?qū)崿F(xiàn)并超過(guò)“有經(jīng)驗(yàn)的信貸員”的信用風(fēng)險(xiǎn)評(píng)估能力,都離不開文本和語(yǔ)義的識(shí)別技術(shù)。

猜你喜歡
文本信息
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
展會(huì)信息
如何快速走進(jìn)文本
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 欧美在线国产| 热久久综合这里只有精品电影| 亚欧乱色视频网站大全| 中文字幕亚洲精品2页| 中文字幕在线看视频一区二区三区| 成人免费视频一区二区三区| 国产91丝袜在线播放动漫| 国产乱子伦无码精品小说| 夜夜高潮夜夜爽国产伦精品| 欧美成人免费一区在线播放| 亚洲精品手机在线| a级毛片一区二区免费视频| 国产精品一区二区久久精品无码| 亚洲国模精品一区| 国产精品第一区在线观看| 视频国产精品丝袜第一页| 久久久久中文字幕精品视频| 国产1区2区在线观看| 亚洲天堂日韩av电影| 久久99国产精品成人欧美| 一级香蕉人体视频| 亚洲一区二区在线无码| 一级毛片免费不卡在线| 国产精鲁鲁网在线视频| 婷婷六月综合网| 中文字幕伦视频| 色偷偷一区| 在线观看国产精品一区| 国产精品香蕉| 99久视频| 国产丝袜无码精品| 欧美人人干| 无码内射中文字幕岛国片 | a毛片在线免费观看| 国产美女在线观看| 国产亚洲欧美另类一区二区| 国产成人禁片在线观看| 成人午夜免费观看| 亚洲一级毛片在线播放| 久久久久久午夜精品| 小说区 亚洲 自拍 另类| 国产无码精品在线播放| 亚洲精品国产成人7777| 日本免费精品| 国产一区二区精品福利| 色综合天天综合中文网| 欧美特级AAAAAA视频免费观看| 午夜性爽视频男人的天堂| 强奷白丝美女在线观看| 最新国语自产精品视频在| 白浆视频在线观看| 亚州AV秘 一区二区三区| 国产日韩欧美黄色片免费观看| 国产91丝袜在线播放动漫 | 久久久久九九精品影院| 国产无码精品在线| 五月婷婷综合网| 在线观看国产小视频| 日韩高清欧美| 91精品小视频| 国产激情在线视频| 国产欧美在线观看视频| 亚洲欧美不卡| 不卡的在线视频免费观看| 国内精品久久人妻无码大片高| 色哟哟精品无码网站在线播放视频| 国产激情第一页| 中文字幕精品一区二区三区视频| 青青草欧美| 欧美色图第一页| 尤物午夜福利视频| 国产综合色在线视频播放线视| 污网站免费在线观看| 亚洲天堂精品在线| 3344在线观看无码| a级毛片免费播放| 国产成人综合久久精品尤物| 国产成人综合网| 亚洲浓毛av| 久久久精品久久久久三级| 久久久久国产精品熟女影院| 天天综合色网|