沈俊鑫,程 墻,吳 以
(昆明理工大學(xué)管理與經(jīng)濟(jì)學(xué)院,云南昆明 650093)
公私合作(public-private partnership,PPP)作為新型融資模式,已成為地方政府?dāng)U大公共基礎(chǔ)設(shè)施供給、提升項(xiàng)目運(yùn)營(yíng)效率、激發(fā)民間投資的重要政策工具。自PPP 改革推行以來(lái),國(guó)內(nèi)PPP 模式在深度和廣度方面都得到了巨大發(fā)展,但在PPP 可融資性分析方面尚未引起足夠重視,導(dǎo)致PPP 項(xiàng)目落地率和融資交割率普遍較低,阻礙了PPP 模式的健康發(fā)展。項(xiàng)目落地難已成為制約我國(guó)PPP 健康持續(xù)發(fā)展的關(guān)鍵問(wèn)題[1]。開(kāi)展PPP 可融資性評(píng)價(jià),是提升PPP 項(xiàng)目落地率的重要手段之一[2]。對(duì)PPP 可融資性進(jìn)行科學(xué)評(píng)價(jià),將有助于縮短項(xiàng)目入庫(kù)周期、優(yōu)化入庫(kù)流程[3]。現(xiàn)有PPP項(xiàng)目主要存在政府變相兜底、重建設(shè)輕運(yùn)營(yíng)等問(wèn)題,普遍缺乏有效的商業(yè)化運(yùn)營(yíng),大部分仍為政府購(gòu)買(mǎi)服務(wù),導(dǎo)致偽PPP 頻出,而且地方政府、社會(huì)資本對(duì)政府購(gòu)買(mǎi)服務(wù)類(lèi)PPP 項(xiàng)目的可融資性普遍重視不足[4]。本研究基于社會(huì)資本視角,以財(cái)政部政府和社會(huì)資本合作中心(China Public Private Partnership Center,CPPPC)的管理庫(kù)和示范庫(kù)PPP 項(xiàng)目(以下簡(jiǎn)稱(chēng)“入庫(kù)項(xiàng)目”)為研究對(duì)象,建立PPP 可融資性集成學(xué)習(xí)評(píng)價(jià)模型,分析項(xiàng)目落地率影響因素,探尋PPP 項(xiàng)目落地難形成機(jī)理。
金融界通常認(rèn)為可融資性指項(xiàng)目根本上是否可以融資、是否具有積極的或明顯的現(xiàn)金流[5]。Akintoye 等[6]認(rèn)為可融資性是吸引社會(huì)資本、銀行或其他金融機(jī)構(gòu)參與項(xiàng)目的基礎(chǔ)。葉曉甦等[7]認(rèn)為可融資性研究是解決公共項(xiàng)目投資者資本回收或貸款償還問(wèn)題的有效途徑。吳亞平[8]認(rèn)為項(xiàng)目可融資性取決于項(xiàng)目主體、投資主體和地方政府三大信用組合。上述觀(guān)點(diǎn)雖不完全一致,但基本都認(rèn)為融資是PPP 項(xiàng)目落地和實(shí)施的關(guān)鍵,合理的融資方案和規(guī)范的融資行為是PPP 項(xiàng)目成功的重要保障。
PPP 可融資性評(píng)價(jià)可分為兩個(gè)階段:第一階段是政府通過(guò)招標(biāo)吸引社會(huì)資本,從政府視角完成了第一輪融資;第二階段是項(xiàng)目從準(zhǔn)備階段進(jìn)展至采購(gòu)階段,從項(xiàng)目公司視角向金融機(jī)構(gòu)進(jìn)行再融資。受限于數(shù)據(jù)可獲得性,本研究?jī)H從社會(huì)資本視角進(jìn)行PPP 可融資性研究。由于財(cái)政部對(duì)PPP 入庫(kù)項(xiàng)目特別是示范性項(xiàng)目采取嚴(yán)格的篩選制度,入庫(kù)項(xiàng)目通常為優(yōu)質(zhì)項(xiàng)目,而大量落地率低、失敗、中途退庫(kù)的PPP 項(xiàng)目由于中途夭折,因此往往披露信息少之又少,項(xiàng)目數(shù)據(jù)集分布呈顯著不平衡狀態(tài),即非平衡樣本數(shù)據(jù)集。非平衡樣本數(shù)據(jù)集容易導(dǎo)致評(píng)價(jià)的最終結(jié)果偏向樣本數(shù)量多的類(lèi)別,往往會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,因此,如何降低因樣本非平衡產(chǎn)生的評(píng)價(jià)失真是本研究擬解決的重點(diǎn)問(wèn)題。
現(xiàn)有解決非平衡數(shù)據(jù)集問(wèn)題主要有采樣優(yōu)化和集成學(xué)習(xí)方法。采樣優(yōu)化主要包括過(guò)采樣或欠采樣,通過(guò)不同的抽樣方式調(diào)整數(shù)據(jù)集樣本分布以實(shí)現(xiàn)樣本集平衡。其中,過(guò)采樣是對(duì)少數(shù)類(lèi)樣本進(jìn)行多次有放回抽取,增加少數(shù)類(lèi)樣本數(shù)量,從而實(shí)現(xiàn)數(shù)據(jù)集平衡,這種方法容易導(dǎo)致過(guò)擬合;欠采樣是通過(guò)隨機(jī)抽樣方式從多數(shù)類(lèi)樣本抽取與少數(shù)類(lèi)樣本數(shù)量相同的樣本數(shù),實(shí)現(xiàn)數(shù)據(jù)集平衡,這種方法會(huì)丟失與多數(shù)類(lèi)樣本相關(guān)數(shù)據(jù)與信息。對(duì)于體量較小的樣本集,大多數(shù)學(xué)者均從過(guò)采樣角度研究平衡樣本集。過(guò)采樣的改進(jìn)算法最為經(jīng)典的是Chawla 等[9]提出的人工合成樣本(SMOTE)算法,借助少數(shù)樣本以及鄰域樣本生成新樣本,實(shí)現(xiàn)樣本數(shù)據(jù)集平衡;但SMOTE 算法合成樣本較為粗放,未能針對(duì)實(shí)際樣本空間分布合成數(shù)據(jù),可能造成合成錯(cuò)誤分類(lèi)樣本或冗余樣本。盡管如此,SMOTE 算法仍為解決數(shù)據(jù)不平衡問(wèn)題提供了重要思路,眾多學(xué)者針對(duì)SMOTE 缺陷開(kāi)展了算法優(yōu)化研究,改進(jìn)思路大致概括為兩類(lèi):一是精化合成樣本的操作,使人工合成樣本分布更加符合現(xiàn)實(shí)問(wèn)題需求,例如Wang 等[10]和Molinari 等[11]改進(jìn)提出的邊界自適應(yīng)合成樣本算法(Borderline-SMOTE,B-S)、自適應(yīng)綜合過(guò)采樣方法(ADASYN 算法)等,這些算法對(duì)合成少數(shù)類(lèi)樣本進(jìn)行精化處理,通過(guò)改善樣本合成機(jī)制降低合成樣本所帶來(lái)的噪音影響;二是混合采樣算法,將采樣算法與其他算法(如支持向量機(jī)SVM、聚類(lèi)等)相結(jié)合,SMOTE 混合采樣算法并非在合成樣本時(shí)進(jìn)行操作,而是對(duì)合成結(jié)束后的樣本進(jìn)行多次分類(lèi),清除其中噪音樣本或冗余樣本[12],例如林宇等[13]、衣柏衡[14]、陶新民等[15]將人工合成樣本導(dǎo)入SVM或其他分類(lèi)模型中進(jìn)行再分類(lèi),去除不良樣本點(diǎn),多次重復(fù)以降低不良樣本點(diǎn)對(duì)分類(lèi)結(jié)果的負(fù)面影響,陳思等[16]、李衛(wèi)紅等[17]通過(guò)聚類(lèi)算法對(duì)合成結(jié)果進(jìn)行欠采樣,刪除新樣本集中的冗余數(shù)據(jù)。混合采樣算法的核心思路即對(duì)SMOTE 算法合成樣本進(jìn)行再次處理,以提高合成樣本質(zhì)量,其本質(zhì)上只是對(duì)合成樣本再次分類(lèi),而分類(lèi)意味著仍會(huì)存在分類(lèi)錯(cuò)誤情況,最終形成的新訓(xùn)練集仍可能存在噪音。Borderline-SMOTE 算法根據(jù)K 近鄰算法 (K-nearst neighbors,KNN)對(duì)樣本進(jìn)行分類(lèi),合成樣本時(shí)僅針對(duì)邊界樣本點(diǎn),不易合成冗余樣本或錯(cuò)分類(lèi)樣本,適合科技領(lǐng)域PPP 項(xiàng)目這類(lèi)復(fù)雜的非平衡樣本集。
集成學(xué)習(xí)解決樣本非平衡問(wèn)題通常采用訓(xùn)練多個(gè)弱可學(xué)習(xí)分類(lèi)器方法,將多個(gè)弱可學(xué)習(xí)的分類(lèi)器集成轉(zhuǎn)換為強(qiáng)可學(xué)習(xí)的分類(lèi)器,進(jìn)而提高算法的準(zhǔn)確率,其中最為經(jīng)典的為裝袋算法(Bagging)、提升算法(Boosting)、改進(jìn)提升算法(Adaboost)等集成算法。為提高集成算法在不平衡數(shù)據(jù)集下的表現(xiàn),部分學(xué)者嘗試從如何進(jìn)行弱分類(lèi)器輸入樣本采樣這一角度入手,如曹瑩等[18]提升算法框架(Bootstrap)。
抽樣算法類(lèi)似欠采樣實(shí)現(xiàn)數(shù)據(jù)集平衡,形成分布平衡的弱分類(lèi)器訓(xùn)練集[19]。Liu 等[20]提出EasyEnsemble 算法,使用隨機(jī)欠采樣算法抽取多數(shù)類(lèi)樣本與少數(shù)類(lèi)樣本合并,構(gòu)成弱分類(lèi)器訓(xùn)練集。然而,這些算法均通過(guò)欠采樣實(shí)現(xiàn)弱分類(lèi)器樣本平衡,這不可避免會(huì)丟失大量與多數(shù)類(lèi)相關(guān)的信息,科技領(lǐng)域PPP 項(xiàng)目數(shù)據(jù)集的數(shù)據(jù)量本身就不足,如果損失部分?jǐn)?shù)據(jù)易導(dǎo)致最終模型分類(lèi)不準(zhǔn)確。
綜上,本研究在以上兩種思路基礎(chǔ)上,結(jié)合PPP 項(xiàng)目數(shù)據(jù)集特征,綜合樣本合成算法與集成算法的優(yōu)點(diǎn),提出改進(jìn)邊界自適應(yīng)合成樣本算法(Borderline-SMOTE Bagging)。B-S 算法通過(guò)合理合成樣本實(shí)現(xiàn)正負(fù)樣本平衡,構(gòu)成基分類(lèi)器訓(xùn)練集以提高Bagging 算法中基分類(lèi)器的多樣性,保證最終模型的準(zhǔn)確性及其性能發(fā)揮。
從研究方法看,現(xiàn)有PPP 研究主要采用博弈論、實(shí)物期權(quán)、數(shù)值模擬、系統(tǒng)動(dòng)力學(xué)、案例研究、扎根理論、定性比較分析(QCA)等方法,這些方法主要基于中小樣本集進(jìn)行數(shù)值測(cè)算,數(shù)據(jù)來(lái)源以單個(gè)項(xiàng)目數(shù)據(jù)信息或問(wèn)卷調(diào)查為主,主觀(guān)性較強(qiáng)。截至2020 年年底,CPPPC 已形成相對(duì)完備的項(xiàng)目管理庫(kù)和項(xiàng)目?jī)?chǔ)備庫(kù),共收錄、發(fā)表項(xiàng)目信息13 352 個(gè),為基于大數(shù)據(jù)方法開(kāi)展PPP 研究提供大量數(shù)據(jù)。在大數(shù)據(jù)時(shí)代,PPP 項(xiàng)目融資管理理論與實(shí)踐也將發(fā)生根本性改變。王守清等[23]指出,大數(shù)據(jù)對(duì)市場(chǎng)信息的收集與分析可有效解決PPP 現(xiàn)階段存在的預(yù)測(cè)難和“樂(lè)觀(guān)估計(jì)”問(wèn)題。傳統(tǒng)統(tǒng)計(jì)回歸模型或計(jì)量相關(guān)算法雖具備可解釋性和較好穩(wěn)定性,但往往要求變量之間的相關(guān)性不能很強(qiáng),同時(shí)自變量需要服從某種統(tǒng)計(jì)分布,顯然實(shí)踐中往往無(wú)法滿(mǎn)足這類(lèi)假設(shè),也無(wú)法處理復(fù)雜指標(biāo)數(shù)據(jù),不適合在大數(shù)據(jù)環(huán)境下用于開(kāi)展評(píng)價(jià)研究。
從研究范式看,現(xiàn)有PPP 研究主要以模型驅(qū)動(dòng)研究為主,包括選定模型的組成變量、建立模型的基本假設(shè)、模型的模擬與求解、實(shí)證檢驗(yàn)以及分析結(jié)論5 個(gè)步驟。在大數(shù)據(jù)時(shí)代,模型驅(qū)動(dòng)已難以適應(yīng)管理決策研究的需要,數(shù)據(jù)驅(qū)動(dòng)研究范式因其可最大限度利用巨量數(shù)據(jù)所提供的有價(jià)值信息而表現(xiàn)出模型驅(qū)動(dòng)研究范式不可比擬的優(yōu)勢(shì),未來(lái)的管理決策研究必將由數(shù)據(jù)驅(qū)動(dòng)研究范式所主導(dǎo)。因此,PPP 可融資性評(píng)價(jià)模型構(gòu)建應(yīng)充分考慮數(shù)據(jù)驅(qū)動(dòng)與機(jī)器學(xué)習(xí),集成模型驅(qū)動(dòng)與數(shù)據(jù)驅(qū)動(dòng)兩大范式,以適應(yīng)大數(shù)據(jù)變化。
從數(shù)據(jù)角度而言,隨著PPP 不斷發(fā)展,財(cái)政部、國(guó)家發(fā)改委及各省(區(qū)、市)財(cái)政部門(mén)已積累了大量項(xiàng)目信息,但數(shù)據(jù)獲取存在明顯缺陷:一是已有數(shù)據(jù)因渠道分散、標(biāo)準(zhǔn)不統(tǒng)一、公開(kāi)程度不一致等原因難以獲取,典型的如各省(區(qū)、市)有各自數(shù)據(jù)庫(kù)、國(guó)家發(fā)改委有獨(dú)立數(shù)據(jù)庫(kù)等;二是數(shù)據(jù)流失的情況,如退庫(kù)項(xiàng)目或部分未入庫(kù)項(xiàng)目均難以獲取相關(guān)數(shù)據(jù)。未來(lái),若數(shù)據(jù)獲取通道持續(xù)優(yōu)化,完善各類(lèi)PPP 項(xiàng)目庫(kù)數(shù)據(jù)獲取路徑和標(biāo)準(zhǔn),PPP 項(xiàng)目樣本數(shù)量將進(jìn)一步提升。同時(shí),PPP 決策往往需要結(jié)合宏觀(guān)經(jīng)濟(jì)、金融財(cái)稅以及市場(chǎng)等信息,相比傳統(tǒng)方法,大數(shù)據(jù)技術(shù)在解決多源、多維、異構(gòu)、海量數(shù)據(jù)方面更具優(yōu)勢(shì),因此采用機(jī)器學(xué)習(xí)算法進(jìn)行PPP 研究具備動(dòng)態(tài)反饋性和可持續(xù)優(yōu)化能力,大量PPP 數(shù)據(jù)動(dòng)態(tài)更新可以進(jìn)一步訓(xùn)練、優(yōu)化學(xué)習(xí)模型,提升模型精度和泛用性。
基于CPPPC 數(shù)據(jù)采用機(jī)器學(xué)習(xí)方法開(kāi)展PPP可融資性評(píng)價(jià),主要面臨以下3 個(gè)問(wèn)題:一是由于CPPPC 的入庫(kù)項(xiàng)目大多為優(yōu)質(zhì)項(xiàng)目,導(dǎo)致從整體上或者各個(gè)領(lǐng)域間均產(chǎn)生樣本數(shù)據(jù)集類(lèi)別不平衡現(xiàn)象,可融資性強(qiáng)的項(xiàng)目數(shù)量遠(yuǎn)大于可融資性弱的項(xiàng)目數(shù)量,即樣本不平衡性;二是由于PPP 項(xiàng)目具有一次性特性,可融資性評(píng)估縱向數(shù)量相對(duì)較少,而項(xiàng)目可融資性?xún)?yōu)劣受多方面因素綜合影響,評(píng)價(jià)維度更為復(fù)雜,高維樣本點(diǎn)意味著樣本空間復(fù)雜,為人工合成新樣本增加了復(fù)雜度;三是樣本點(diǎn)之間在樣本空間中分布特征存在較大差異,導(dǎo)致訓(xùn)練中存在大量噪音樣本,這部分特殊樣本對(duì)分類(lèi)器有較大影響。
由于上述問(wèn)題,直接使用欠采樣實(shí)現(xiàn)正負(fù)樣本平衡將損失大量多數(shù)類(lèi)樣本信息,采用過(guò)采樣方法實(shí)現(xiàn)數(shù)據(jù)集平衡雖不會(huì)損失信息,但過(guò)采樣處理后樣本數(shù)據(jù)集在高維空間上樣本點(diǎn)的位置卻不會(huì)發(fā)生任何變化,例如采用SVM 算法分類(lèi)時(shí),目的是在樣本數(shù)據(jù)集中找出可以劃分正負(fù)樣本的最大間隔分離超平面,使用過(guò)采樣算法的效果并不佳。因此,為使非平衡樣本集實(shí)現(xiàn)平衡,本研究文采用SMOTE 算法人工合成數(shù)據(jù)。但由于PPP 項(xiàng)目樣本點(diǎn)在超平面分布較為復(fù)雜,SMOTE 算法雖然能在訓(xùn)練集上實(shí)現(xiàn)正負(fù)樣本平衡,但因未精化選擇參與合成的少數(shù)類(lèi)樣本點(diǎn),容易冗余樣本和噪音樣本點(diǎn)。以SMOTE 算法合成二維樣本數(shù)據(jù)集為例,如圖1 所示,A點(diǎn)屬于少數(shù)類(lèi)樣本點(diǎn),處于多數(shù)類(lèi)樣本點(diǎn)中,對(duì)于A(yíng)點(diǎn)而言,其最近鄰?fù)诸?lèi)樣本點(diǎn)為點(diǎn)B,通過(guò)SMOTE算法合成的樣本點(diǎn)C從實(shí)際意義而言,判定為多數(shù)類(lèi)樣本點(diǎn)會(huì)更準(zhǔn)確,但SMOTE 算法會(huì)將其合成為少數(shù)類(lèi)樣本點(diǎn),這無(wú)疑會(huì)增加分類(lèi)器結(jié)果偏差,影響結(jié)果準(zhǔn)確率。因此,需要改進(jìn)SMOTE 算法以提升噪音樣本點(diǎn)處理能力。

圖1 SMOTE 算法人工合成樣本示例
比較Borderline-SMOTE 算法與SMOTE 算法合成樣本的差異。如圖2(a)所示,淺灰色樣本點(diǎn)為少數(shù)類(lèi)樣本,深黑色樣本點(diǎn)為多數(shù)類(lèi)樣本,分別使用SMOTE 算法和B-S 算法對(duì)原始樣本數(shù)據(jù)集進(jìn)行處理。采用 SMOTE 算法對(duì)原始樣本數(shù)據(jù)集中所有的少數(shù)分類(lèi)樣本計(jì)算近鄰,并根據(jù)k-means 算法合成樣本,結(jié)果呈聚集狀,如圖2(b)中淺灰色樣本點(diǎn)所示。由于原始樣本數(shù)據(jù)集中本身存在大量少數(shù)類(lèi)樣本,采用SMOTE 算法合成樣本對(duì)評(píng)價(jià)性能提升影響較小,主要原因在于在少數(shù)類(lèi)噪音樣本點(diǎn)合成過(guò)程中,SMOTE 算法分類(lèi)容易產(chǎn)生錯(cuò)誤,而且由于合成的樣本大部分都是由安全樣本合成,在樣本空間中集中,所以對(duì)模型分類(lèi)性能影響不大。如圖2(c)所示,采用B-S 算法合成后樣本點(diǎn)呈箭頭狀,樣本數(shù)據(jù)集中于邊界樣本。對(duì)于與多數(shù)類(lèi)樣本差異明顯、容易區(qū)分的安全樣本而言,B-S 算法并不會(huì)有太多改變,新合成樣本集中出現(xiàn)在邊界樣本區(qū)域,便于對(duì)邊界樣本進(jìn)行近鄰插值,因此B-S 算法合成樣本的分布比SMOTE 算法更為合理。B-S 算法不會(huì)對(duì)噪音樣本進(jìn)行處理,雖損失少量信息,但最終模型的準(zhǔn)確率會(huì)有所提高,避免出現(xiàn)如SMOTE 算法容易生成錯(cuò)誤分類(lèi)樣本的情況。因此,本研究將采用B-S算法進(jìn)行人工合成樣本,以解決PPP 項(xiàng)目樣本數(shù)據(jù)集的邊界少數(shù)類(lèi)樣本點(diǎn)錯(cuò)誤合成導(dǎo)致分類(lèi)模型偏差變大的問(wèn)題。

圖2 不同采樣算法合成樣本數(shù)據(jù)集比較
在處理完不平衡樣本數(shù)據(jù)集后,通常將新的樣本數(shù)據(jù)集和傳統(tǒng)分類(lèi)器如邏輯回歸(LR)、SVM 等相結(jié)合,然而人工合成的樣本在本質(zhì)上仍是人為虛構(gòu),樣本數(shù)據(jù)集在實(shí)現(xiàn)平衡的同時(shí)為了避免給模型帶來(lái)噪音,導(dǎo)致模型偏差變大,因此,本研究融合B-S算法和Bagging 算法,改進(jìn)后可以實(shí)現(xiàn)的具體效果包括:一是降低噪音少數(shù)類(lèi)樣本對(duì)合成樣本集準(zhǔn)確率的影響;二是避免合成過(guò)多冗余數(shù)據(jù)影響分類(lèi)性能;三是集成算法因在多個(gè)基學(xué)習(xí)器多次采用和訓(xùn)練,可最大限度降低人工合成樣本帶來(lái)噪音的負(fù)面影響。當(dāng)不平衡的訓(xùn)練集樣本使用B-S 算法處理后,新的訓(xùn)練集樣本的正負(fù)樣本比例將達(dá)到平衡,最終測(cè)試集中樣本分類(lèi)采用投票(voting)模式,人工合成樣本帶來(lái)的噪音產(chǎn)生的負(fù)面影響將大幅度下降。
SMOTE 算法是最為經(jīng)典的合成少數(shù)類(lèi)過(guò)采樣技術(shù),其基本原理是根據(jù)現(xiàn)有少數(shù)類(lèi)樣本點(diǎn),使用KNN 算法合成新的少數(shù)類(lèi)樣本點(diǎn),與多數(shù)類(lèi)樣本點(diǎn)相組合實(shí)現(xiàn)正負(fù)樣本的平衡。算法思路如下:
(1)針對(duì)所有樣本點(diǎn)X(少數(shù)類(lèi)),計(jì)算它到k個(gè)相鄰樣本點(diǎn)(少數(shù)類(lèi))的歐式距離,其中k根據(jù)KNN 算法確定;
(2)計(jì)算正負(fù)類(lèi)樣本不平衡比例,根據(jù)正負(fù)類(lèi)樣本比例確定采樣倍率(sampling rate),對(duì)所有樣本點(diǎn)X(少數(shù)類(lèi)),根據(jù)采樣倍率從k近鄰中隨機(jī)抽取若干個(gè)樣本;
(3)假設(shè)選擇的近鄰為x(1),x(2),x(N),對(duì)任意x(i)(i=1,2,,N),根據(jù)式(1)計(jì)算,通過(guò)原樣本合成新的樣本:

而B(niǎo)-S Bagging 算法在每次抽取樣本時(shí)均進(jìn)行了精化處理,僅針對(duì)邊界樣本合成新樣本,避免生成錯(cuò)分類(lèi)樣本或冗余樣本。算法思路如下:
(1)針對(duì)所有樣本點(diǎn)X(少數(shù)類(lèi)),計(jì)算它到k個(gè)相鄰樣本點(diǎn)(少數(shù)類(lèi))的歐式距離,其中k根據(jù)KNN 算法確定。
(2)根據(jù)k近鄰將少數(shù)類(lèi)樣本分為3 類(lèi):安全(safe)、邊界(danger)和噪音(noise)。劃分標(biāo)準(zhǔn)如下:設(shè)在k近鄰中有m個(gè)屬于多數(shù)類(lèi)樣本,其中0 ≤m≤k,若樣本點(diǎn)0 ≤m (3)計(jì)算正負(fù)類(lèi)樣本不平衡比例確定采樣倍率,對(duì)所有樣本點(diǎn)X(少數(shù)類(lèi))根據(jù)采樣倍率從k近鄰中隨機(jī)抽取若干個(gè)樣本,假設(shè)選擇的近鄰為x(1),x(2),x(N),對(duì)任意x(i)(i=1,2,,N),根據(jù)式(2)計(jì)算,通過(guò)原樣本合成新的樣本: 重復(fù)上述步驟,直到多數(shù)類(lèi)與少數(shù)類(lèi)樣本數(shù)量相當(dāng),合并原有樣本與新合成樣本,構(gòu)成新訓(xùn)練集Sk’。 (4)從Sk’中隨機(jī)抽樣x條樣本,輸入弱分類(lèi)器A1,作為第一個(gè)基學(xué)習(xí)器B1; (5)再次從Sk’中有放回隨機(jī)抽樣x條樣本,輸入弱分類(lèi)器A2,作為第二個(gè)基學(xué)習(xí)器B2; (6)按步驟(4)(5)的方式重復(fù)n次,構(gòu)建n個(gè)基學(xué)習(xí)器B1至Bn。 (7)對(duì)測(cè)試集的每一個(gè)樣本Pi均輸入n個(gè)基學(xué)習(xí)器進(jìn)行測(cè)試,通過(guò)voting 決定測(cè)試集樣本的分類(lèi)結(jié)果。將樣本Pi輸入模型,其中n個(gè)基學(xué)習(xí)器進(jìn)行voting,預(yù)測(cè)為多數(shù)類(lèi)的票數(shù)有m票,預(yù)測(cè)為少數(shù)類(lèi)的有n-m票,則:若n-m≤m,樣本Pi被判定為多數(shù)類(lèi)樣本;反之,被判定為少數(shù)類(lèi)樣本。 為驗(yàn)證B-S Bagging 算法對(duì)PPP 可融資性評(píng)價(jià)效果,本研究結(jié)合項(xiàng)目本身和當(dāng)?shù)卣畠煞矫嫣卣鳎瑯?gòu)建基于社會(huì)資本視角的PPP 可融資性評(píng)價(jià)模型,為地方政府及時(shí)調(diào)整和優(yōu)化可融資性較差的項(xiàng)目和社會(huì)資本投資PPP 項(xiàng)目決策提供決策依據(jù)。以CPPPC 的入庫(kù)項(xiàng)目為例(以下簡(jiǎn)稱(chēng)“案例數(shù)據(jù)”),首先通過(guò)人工收集和爬蟲(chóng)的方式獲取入庫(kù)項(xiàng)目數(shù)據(jù),并將項(xiàng)目分為可融資性強(qiáng)和可融資性弱兩種,通過(guò)項(xiàng)目所處階段和項(xiàng)目發(fā)起年份兩個(gè)指標(biāo)確定:發(fā)起年份在2018 年以前且處于識(shí)別階段或者準(zhǔn)備階段的項(xiàng)目,標(biāo)記為可融資性弱,記為-1;所有處于采購(gòu)階段和執(zhí)行階段的項(xiàng)目,標(biāo)記為可融資性強(qiáng),記為+1。通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲取19 個(gè)領(lǐng)域共計(jì)10 848 個(gè)PPP 項(xiàng)目數(shù)據(jù)信息,根據(jù)上述規(guī)則對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理后,清除無(wú)法使用規(guī)則進(jìn)行標(biāo)簽定義的項(xiàng)目共475 個(gè),最終樣本集包括10 373 個(gè)PPP 項(xiàng)目(以下簡(jiǎn)稱(chēng)“案例項(xiàng)目”)。其中,標(biāo)簽為可融資性強(qiáng)的項(xiàng)目為7 445 個(gè),標(biāo)簽為可融資性弱的項(xiàng)目為2 928 個(gè)。 從本質(zhì)上而言,PPP 可融資性評(píng)價(jià)問(wèn)題即傳統(tǒng)意義上的分類(lèi)問(wèn)題,案例數(shù)據(jù)集的數(shù)量不平衡體現(xiàn)在兩個(gè)方面:一是19 個(gè)PPP 領(lǐng)域均存在顯著不平衡現(xiàn)象。PPP項(xiàng)目全行業(yè)可融資性數(shù)量比較如圖3所示,可見(jiàn)市政工程、交通運(yùn)輸以及生態(tài)建設(shè)與環(huán)境保護(hù)這3 個(gè)領(lǐng)域的項(xiàng)目數(shù)量遠(yuǎn)大于其他領(lǐng)域,其中市政工程領(lǐng)域PPP 項(xiàng)目數(shù)量占了總項(xiàng)目數(shù)量約38.53%。二是各領(lǐng)域內(nèi)部間正負(fù)樣本比例差距較大。 圖3 不同領(lǐng)域PPP 入庫(kù)項(xiàng)目可融資性比較 表1 統(tǒng)計(jì)了正負(fù)樣本比例大于2 的十大領(lǐng)域,其中林業(yè)最高,其次是能源,其他領(lǐng)域不平衡比例為2%~3%之間,存在高度不平衡現(xiàn)象的領(lǐng)域占比高達(dá)57.89%,表明領(lǐng)域內(nèi)部正負(fù)樣本不平衡現(xiàn)象普遍存在。為方便后文分析,對(duì)這部分領(lǐng)域根據(jù)其現(xiàn)有樣本量進(jìn)行分類(lèi),可劃分為3 類(lèi):第1 類(lèi)為樣本數(shù)量較少的領(lǐng)域,主要包括林業(yè)、能源、科技和政府基礎(chǔ)設(shè)施;第2 類(lèi)為樣本數(shù)量較多的領(lǐng)域,主要包括市政工程、交通運(yùn)輸;第3 類(lèi)為樣本數(shù)量居中的領(lǐng)域,主要包括生態(tài)建設(shè)與環(huán)境保護(hù)、教育、城鎮(zhèn)綜合開(kāi)發(fā)、水利建設(shè)。 表1 PPP 可融資性正負(fù)樣本比例排名前十領(lǐng)域不平衡程度 由上述分析可知,案例數(shù)據(jù)無(wú)論整體或者在領(lǐng)域內(nèi)部均存在樣本集數(shù)量不平衡問(wèn)題;當(dāng)輻射面從單個(gè)領(lǐng)域擴(kuò)展開(kāi)后,項(xiàng)目總量將達(dá)到萬(wàn)級(jí),且都存在樣本不平衡問(wèn)題。PPP 項(xiàng)目本身情況復(fù)雜,因此應(yīng)基于社會(huì)資本角度構(gòu)建相對(duì)詳細(xì)的評(píng)價(jià)特征體系。 基于社會(huì)資本視角,同時(shí)考慮數(shù)據(jù)可獲取性限制,對(duì)案例項(xiàng)目可融資性的評(píng)價(jià)特征包括項(xiàng)目本身和地方政府兩個(gè)核心維度,即項(xiàng)目本身特征和地方政府的各項(xiàng)實(shí)力特征,具體如表2 所示。由表2 可知,案例樣本數(shù)據(jù)集共有24 個(gè)特征,去除部分不需要參與計(jì)算的特征,仍有19 個(gè)特征作為模型的輸入特征。為了避免與可融資性相關(guān)性較小的特征可能給模型帶來(lái)噪音,首先計(jì)算評(píng)價(jià)特征與可融資性之間的相關(guān)性系數(shù),按相關(guān)性系數(shù)的絕對(duì)值大小排序,最終選出排名前10 的特征作為模型的輸入特征。在模型輸入特征中,項(xiàng)目和政府相關(guān)特征基本各占一半,包含項(xiàng)目的基本特征、地方政府財(cái)政實(shí)力以及地方政府清廉程度等。在計(jì)算相關(guān)性系數(shù)前,對(duì)類(lèi)別型字段采取人工賦值或者采用one-hot 熱編碼轉(zhuǎn)換成數(shù)值型,并對(duì)所有特征進(jìn)行歸一化處理。 表2 PPP 可融資性評(píng)價(jià)特征體系 將案例數(shù)據(jù)根據(jù)真實(shí)情況和模型預(yù)測(cè)情況的組合劃分為4 種情形:真正例(TP)、假正例(FP)、真反例(FN)、假反例(TN),分類(lèi)結(jié)果的混淆矩陣如表3 所示。 表3 PPP 可融資性評(píng)價(jià)混淆矩陣 將PPP 可融資性強(qiáng)的項(xiàng)目定義為正例,可融資性弱的項(xiàng)目定義為負(fù)例。非平衡數(shù)據(jù)集一般使用準(zhǔn)確率(Precision)、召回率(Recall)、G 均值(G-mean)、F值(F-measure)等特征進(jìn)行算法評(píng)價(jià),計(jì)算方法分別如下: 式(3)至式(6)中:Precision 為正確分類(lèi)的正例樣本數(shù)占所有預(yù)測(cè)為正例樣本數(shù)的比例;Recall為被正確分類(lèi)的正例樣本數(shù)占實(shí)際所有正例樣本數(shù)的比例;G-mean 為綜合考慮了正類(lèi)分類(lèi)和負(fù)類(lèi)分類(lèi)的準(zhǔn)確率,表示正例分類(lèi)準(zhǔn)確率和負(fù)例分類(lèi)準(zhǔn)確率的均衡值;F-measure 值是準(zhǔn)確率和召回率的加權(quán)調(diào)和平均;β為參數(shù),本研究采用的是當(dāng)參數(shù)β=1 時(shí)的F值,F(xiàn)1值越高說(shuō)明算法分類(lèi)結(jié)果越好。 運(yùn)用Python 調(diào)用imblearn 庫(kù)和sklearn 庫(kù)進(jìn)行樣本合成和模型訓(xùn)練,采用10 折交叉驗(yàn)證法確定每組樣本組中算法的最優(yōu)參數(shù)。為保證每次算法中所劃分的訓(xùn)練集和測(cè)試集的數(shù)目均相同,在劃分?jǐn)?shù)據(jù)集時(shí)將變量random_state 固定為統(tǒng)一常數(shù)值;同時(shí)為保證采用SMOTE 算法和B-S 算法每的每個(gè)對(duì)照組均合成同樣的樣本,在合成樣本時(shí)將變量random_state值設(shè)定為統(tǒng)一常數(shù)。對(duì)原始數(shù)據(jù)預(yù)處理后,將數(shù)據(jù)按4∶1 的比例劃分為訓(xùn)練集和測(cè)試集。在實(shí)證研究前,首先對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理,消除量綱對(duì)參數(shù)估計(jì)的影響。為更好驗(yàn)證算法的可行性和優(yōu)越性,將案例項(xiàng)目的原始數(shù)據(jù)集分為A、B、C、D共4 組。其中,A組數(shù)據(jù)為全領(lǐng)域樣本數(shù)據(jù)集;B、C、D這3 組分別從前文中第一、第二、第三這3 類(lèi)領(lǐng)域選取其中樣本不平衡性最高的行業(yè)作為樣本數(shù)據(jù)集,即B組為林業(yè)領(lǐng)域樣本數(shù)據(jù)集,C組為市政工程領(lǐng)域樣本數(shù)據(jù)集,D組為生態(tài)建設(shè)與環(huán)境保護(hù)領(lǐng)域樣本數(shù)據(jù)集。這4 組樣本可展示當(dāng)數(shù)據(jù)量在萬(wàn)級(jí)、千級(jí)、百級(jí)和十位數(shù)級(jí)時(shí)模型的不同表現(xiàn),選擇其中不平衡程度最高的行業(yè)作為樣本集有助于體現(xiàn)模型對(duì)非平衡樣本集的處理能力。結(jié)果具體分析如下: (1)非平衡樣本集在不同分類(lèi)器效果比較分析。4 組原始數(shù)據(jù)集均為非平衡樣本集,對(duì)4 組數(shù)據(jù)不進(jìn)行任何處理,直接劃分訓(xùn)練集和測(cè)試集,分別使用邏輯回歸模型、支持向量機(jī)模型、決策樹(shù)(DT)模型等傳統(tǒng)分類(lèi)算法對(duì)訓(xùn)練集進(jìn)行學(xué)習(xí),并與Bagging算法在數(shù)據(jù)集的表現(xiàn)進(jìn)行比較,模型測(cè)試結(jié)果如表4、表5 所示。其中,B組采用SVM 算法的各項(xiàng)評(píng)價(jià)指標(biāo)均相當(dāng)之高,有3 項(xiàng)指標(biāo)值均超過(guò)0.9,然而G-mean值僅0.554 4,但這并非意味著模型性能優(yōu)異,而是因?yàn)锽組本身總數(shù)據(jù)量極小,劃分后的測(cè)試集數(shù)據(jù)量更小,分析實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),該算法訓(xùn)練時(shí)幾乎將所有的樣本全部預(yù)測(cè)為正例樣本,這樣的結(jié)果在現(xiàn)實(shí)應(yīng)用中毫無(wú)意義。除此之外,觀(guān)測(cè)4 組實(shí)驗(yàn)結(jié)果,相對(duì)其他3 項(xiàng)指標(biāo),Recall 指標(biāo)最高,原因在于目前實(shí)驗(yàn)的數(shù)據(jù)未經(jīng)過(guò)任何處理,正負(fù)樣本之間存在極大的不平衡,因此即使實(shí)驗(yàn)結(jié)果FN 相當(dāng)高,但仍遠(yuǎn)遠(yuǎn)小于TP 值,最終指標(biāo)顯示算法效果極佳,但實(shí)際上算法卻難以識(shí)別負(fù)類(lèi)樣本,由此表明使用傳統(tǒng)單一算法建立PPP 可融資性評(píng)價(jià)模型的效果不佳。另外,各實(shí)驗(yàn)組中Bagging 算法的各項(xiàng)評(píng)價(jià)指標(biāo)比其他3 類(lèi)算法的評(píng)價(jià)指標(biāo)都更為優(yōu)秀,但G-mean值仍較低,說(shuō)明該算法對(duì)于負(fù)類(lèi)樣本的識(shí)別性能依舊不夠優(yōu)秀,Bagging 算法在每次重復(fù)采樣時(shí),原始樣本數(shù)據(jù)集本身就存在不平衡問(wèn)題,重復(fù)采樣僅可緩解這類(lèi)負(fù)面影響,無(wú)法徹底消除。 表4 非平衡樣本集在不同分類(lèi)器下的可融資性評(píng)價(jià)結(jié)果(一) 表5 非平衡樣本集在不同分類(lèi)器下的可融資性評(píng)價(jià)結(jié)果(二) (2)平衡樣本集在不同分類(lèi)器效果比較分析。對(duì)4 組數(shù)據(jù)集均采用B-S 算法進(jìn)行處理后,與非平衡樣本集在不同分類(lèi)器中算法相結(jié)合,驗(yàn)證對(duì)比B-S Bagging 算法與其他算法之間的性能差距。對(duì)B-SLR、B-S-SVM、B-S-DT 和B-S Bagging 共4 類(lèi)算法進(jìn)行了測(cè)試,分別計(jì)算出Precision、Recall、G-mean、F-measure 等特征,用以評(píng)價(jià)算法的性能。如表6、表7 所示,案例數(shù)據(jù)實(shí)現(xiàn)平衡后,在表4、表5 中存在的特殊情況不再出現(xiàn),經(jīng)B-S 算法處理非平衡樣本數(shù)據(jù)集后再次使用傳統(tǒng)分類(lèi)器進(jìn)行分類(lèi)測(cè)試,新的測(cè)試結(jié)果表明效果均有小幅度提升,但在實(shí)際運(yùn)用中效果仍不夠理想,可能原因在于經(jīng)處理后,在負(fù)類(lèi)樣本數(shù)量上實(shí)現(xiàn)了與正類(lèi)樣本的平衡,但單一算法得到的TN 雖在數(shù)量絕對(duì)值上有大幅度提升,但相較FN 的提升效果仍不明顯,故最終從評(píng)價(jià)指標(biāo)上模型精度依然不夠優(yōu)秀。 表6 平衡樣本集在不同分類(lèi)器下的可融資性評(píng)價(jià)結(jié)果(一) 表7 平衡樣本集在不同分類(lèi)器下的可融資性評(píng)價(jià)結(jié)果(二) 從 表6、表7 可 知,B-S Bagging 在Precision、Recall、G-mean 和F-measure 這4 個(gè)指標(biāo)表現(xiàn)均最為理想,綜合表4 至表7 可知,Bagging 或者是B-S Bagging 等集成算法對(duì)少數(shù)類(lèi)樣本的分類(lèi)性能要優(yōu)于單分類(lèi)器的分類(lèi)性能。B-S Bagging 算法在4 個(gè)實(shí)驗(yàn)組中均有較為不錯(cuò)的表現(xiàn),4 項(xiàng)指標(biāo)結(jié)果比較均衡,這意味著該算法對(duì)PPP 整體行業(yè)(實(shí)驗(yàn)組A)或者領(lǐng)域間(實(shí)驗(yàn)組B、C、D)的樣本不平衡問(wèn)題有良好的解決能力。其中,與表4、表5 中Bagging算法結(jié)果相比,Precision 和Recall 兩項(xiàng)評(píng)價(jià)指標(biāo)在實(shí)驗(yàn)組A和C均取得了明顯的提升,A組的提升幅度分別為39.55%和14.73%,C 組的提升幅度分別為50.32%和7.01%,特別是Precision 有了較大幅度提升;而B(niǎo)、D組中的Recall 值有所下降,原因在于負(fù)類(lèi)樣本達(dá)到平衡后,F(xiàn)N 在數(shù)值上可能稍有提升,導(dǎo)致Recall 下降,但G-mean 和F-measure 兩項(xiàng)指標(biāo)均有大幅提升。綜上分析表明,融合后的B-S Bagging 算法識(shí)別負(fù)類(lèi)樣本的性能得到了明顯提升。 (3)不同樣本集平衡方式性能比較分析。為比較SMOTE 算法和B-S 算法性能優(yōu)劣,分別用兩種算法對(duì)4 組訓(xùn)練集進(jìn)行處理,將平衡后樣本集結(jié)合Bagging 算法進(jìn)行訓(xùn)練,測(cè)試集結(jié)果如表8 所示。可知在4 組實(shí)驗(yàn)組中,相較于傳統(tǒng)SMOTE 算法,B-S算法下各項(xiàng)指標(biāo)結(jié)果均更優(yōu)秀一些,且指標(biāo)結(jié)果之間相差幅度較大,說(shuō)明B-S 算法合成少數(shù)類(lèi)樣本時(shí)忽略噪音樣本的能力更強(qiáng),能有效提高模型準(zhǔn)確率,避免生成錯(cuò)誤樣本影響最終模型性能,同時(shí)也并未因損失少量數(shù)據(jù)影響對(duì)少數(shù)類(lèi)樣本分類(lèi)能力。 表8 不同樣本集平衡方式的可融資性評(píng)價(jià)結(jié)果 綜上所述,B-S Bagging 算法在解決非平衡樣本數(shù)據(jù)集的效果最優(yōu)。在數(shù)據(jù)集平衡方面,B-S 算法能有效避免過(guò)擬合,提高最終模型對(duì)少數(shù)類(lèi)樣本的識(shí)別能力,而在實(shí)踐中,PPP 項(xiàng)目長(zhǎng)期面臨樣本量較少且樣本數(shù)據(jù)集非平衡問(wèn)題,因此,B-S 模型對(duì)解決現(xiàn)實(shí)問(wèn)題具有一定參考意義;在集成學(xué)習(xí)算法優(yōu)化方面,對(duì)于非平衡樣本數(shù)據(jù)集而言,Bagging 算法性能優(yōu)于其他傳統(tǒng)分類(lèi)器,因此當(dāng)各分類(lèi)器與B-S結(jié)合后,各項(xiàng)評(píng)價(jià)指標(biāo)效果均有所提升,且能夠進(jìn)一步減少因合成樣本帶來(lái)的噪聲。這表明Boderline-SMOTE Bagging 算法在對(duì)PPP 項(xiàng)目進(jìn)行可融資性評(píng)價(jià)上有著顯著效果。 本研究以CPPPC 管理庫(kù)和儲(chǔ)備庫(kù)入庫(kù)項(xiàng)目為樣本數(shù)據(jù),綜合比較多類(lèi)機(jī)器學(xué)習(xí)算法處理非平衡樣本數(shù)據(jù)集的性能,建立PPP 項(xiàng)目可融資性評(píng)價(jià)模型。研究結(jié)果表明,Borderline-SMOTE Bagging 算法效果最佳,能有效解決非平衡樣本數(shù)據(jù)集導(dǎo)致的偏向問(wèn)題,削弱了SMOTE 算法因噪音產(chǎn)生的負(fù)面影響,且在新的數(shù)據(jù)集上具有良好的泛化能力。得到主要結(jié)論如下: (1)在大數(shù)據(jù)背景下,使用機(jī)器學(xué)習(xí)方法研究PPP 項(xiàng)目可融資性具有可行性。同時(shí),基于PPP 可融資性評(píng)價(jià)特征體系,結(jié)合Borderline-SMOTE 算法和集成算法等機(jī)器學(xué)習(xí)方法,可從社會(huì)資本視角對(duì)PPP 可融資性進(jìn)行全面評(píng)價(jià),能有效解決樣本不平衡問(wèn)題,且能有效解決因高維特征導(dǎo)致樣本空間復(fù)雜度高進(jìn)而影響數(shù)據(jù)合成質(zhì)量問(wèn)題。 (2)Borderline-SMOTE Bagging 模型具有較高的分類(lèi)性能。對(duì)人工合成樣本形成新的平衡樣本數(shù)據(jù)集,Borderline-SMOTE Bagging 算法在Precision、Recall、G-mean、F-measure 等指標(biāo)上發(fā)揮性能最佳,該模型對(duì)負(fù)類(lèi)樣本有著更為優(yōu)秀的識(shí)別能力,實(shí)驗(yàn)結(jié)果驗(yàn)證了應(yīng)用大數(shù)據(jù)技術(shù)開(kāi)展PPP 管理決策的可行性。 (3)Borderline-SMOTE Bagging 模型具備推廣性。當(dāng)PPP 的決策主體從本研究中的社會(huì)資本視角切換至地方政府、金融機(jī)構(gòu)等,通過(guò)增加修改特征集后,可基于不同視角開(kāi)展PPP 項(xiàng)目可融資性評(píng)價(jià),幫助相關(guān)決策主體及時(shí)發(fā)現(xiàn)落地率或可融資性較低的項(xiàng)目,提升PPP 整體運(yùn)作效率。 本研究基于社會(huì)資本視角構(gòu)建PPP 可融資性評(píng)價(jià)模型,可進(jìn)一步擴(kuò)展為基于金融機(jī)構(gòu)視角評(píng)價(jià)其他領(lǐng)域PPP 項(xiàng)目可融資性。開(kāi)展PPP 可融資性評(píng)價(jià),有助于從項(xiàng)目識(shí)別、采購(gòu)、落地執(zhí)行全過(guò)程監(jiān)控項(xiàng)目運(yùn)作情況,及時(shí)解決因不良融資產(chǎn)生的負(fù)面問(wèn)題,有助于推動(dòng)PPP 健康可持續(xù)發(fā)展。根據(jù)以上實(shí)驗(yàn)過(guò)程中遇到的問(wèn)題,對(duì)未來(lái)PPP 數(shù)字化發(fā)展提出以下建議: (1)政府部門(mén)應(yīng)盡可能全面地收集PPP 項(xiàng)目數(shù)據(jù),新增退庫(kù)項(xiàng)目庫(kù)和待入庫(kù)項(xiàng)目庫(kù),并實(shí)現(xiàn)項(xiàng)目數(shù)字化,全面記錄PPP 項(xiàng)目實(shí)施全過(guò)程,并逐步實(shí)現(xiàn)不同部門(mén)、不同層級(jí)PPP 項(xiàng)目數(shù)據(jù)開(kāi)放共享,借助大數(shù)據(jù)技術(shù)提升PPP 管理效率和精準(zhǔn)度。 (2)加強(qiáng)政府部門(mén)和社會(huì)不同領(lǐng)域數(shù)據(jù)的開(kāi)放共享,包括宏觀(guān)經(jīng)濟(jì)數(shù)據(jù)、財(cái)政稅收數(shù)據(jù)、企業(yè)社會(huì)信用數(shù)據(jù)等,擴(kuò)寬大數(shù)據(jù)技術(shù)在PPP 中的應(yīng)用領(lǐng)域和應(yīng)用主體,包括基于地方政府實(shí)力、項(xiàng)目市場(chǎng)前景、社會(huì)資本資信等。 (3)不同領(lǐng)域PPP 項(xiàng)目可融資性具有顯著差異性。新冠疫情暴發(fā)后,新型基礎(chǔ)設(shè)施建設(shè)(以下簡(jiǎn)稱(chēng)“新基建”)成為了我國(guó)投資轉(zhuǎn)型升級(jí)建設(shè)重點(diǎn),因此,合理開(kāi)展新基建PPP 可融資性評(píng)價(jià)對(duì)政府和社會(huì)資本都有著積極的現(xiàn)實(shí)意義。對(duì)地方政府而言,識(shí)別可融資性差的項(xiàng)目可以及時(shí)、有效地對(duì)劣質(zhì)項(xiàng)目進(jìn)行改進(jìn),“回爐重造”或者尋找其他方式建設(shè)項(xiàng)目,有助于提高PPP 項(xiàng)目整體可融資性和落地率水平;對(duì)社會(huì)資本而言,Borderline-SMOTE Bagging模型可以起到有針對(duì)性的推薦作用,有助于社會(huì)資本選擇可融資性較高的項(xiàng)目。
3 實(shí)證研究
3.1 數(shù)據(jù)預(yù)處理


3.2 數(shù)據(jù)評(píng)價(jià)特征

3.3 模型評(píng)價(jià)標(biāo)準(zhǔn)


3.4 模型結(jié)果與分析





4 結(jié)論及建議
4.1 研究結(jié)論
4.2 建議