沈俊鑫,程 墻,王曉萍
(1.昆明理工大學 管理與經濟學院;2.昆明理工大學 創新發展研究院,云南昆明 650093)
政府與社會資本合作(Public-private Partnership,PPP)是在基礎設施及公共服務領域建立的一種長期合作關系[1]。作為新型融資模式,PPP 模式已成為解決政府技術實力薄弱、提升科技項目運營效率、激發民間投資的重要政策工具,有利于加快公共產品和服務供給側結構性改革,充分發揮市場在資源配置中的決定性作用,防范地方政府債務風險及促進新型城鎮化建設,已被廣泛應用于交通、市政工程等領域。近年來,中國PPP 模式出現爆炸式增長,截至2020 年6 月底,財政部政府和社會資本合作中心(China Public-private Partnership Center,CPPPC)綜合信息平臺管理庫入庫項目總計9 626 個,投資額高達14.8 萬億元,但累計開工項目僅3 927 個,其中2020 年上半年新增落地項目僅216 個,退庫項目高達296 個。
根據CPPPC 定義,PPP 項目落地率指處于執行階段和移交階段項目數與總入庫項目數的比值,公私雙方簽署PPP 合同,成立項目公司是PPP 項目成功落地的重要標志。PPP 項目通常存在再融資行為,因此評價PPP 是否成功執行可分為合同簽署和再融資交割兩個階段。可落地性通常基于社會資本視角,即評價PPP 項目是否對社會資本有吸引力;而可落地性通常基于金融機構視角,即金融機構對于PPP 項目還本付息能力的判斷。“落地難”問題已經成為阻礙政府有效投資的主要限制之一[2]。落地率低、再融資難等問題持續制約我國PPP 健康發展[3]。投資收益率較低、風險分擔不合理、投資周期長等導致社會資本參與率持續不高等問題嚴重影響了項目落地執行[4]。王嶺等[1]通過城市面板數據開展PPP 落地率與財政負擔關系實證分析,發現PPP 落地率與財政負擔緊密相關;徐玖玖[5]認為公私合作制的發展困境實質上源于制度供給與需求的錯配;張雅璇等[6]提出需重建PPP 項目產權制度,以克服PPP 合伙契約局限性;吳義東等[7]認為地方政府公信力與當地PPP 項目投資額之間存在顯著的正相關關系。PPP 相關研究雖已取得豐富成果,但鮮有開展可落地性研究,本文基于CPPPC 發布相關數據,運用機器學習方法開展PPP 可落地性評價研究。
由于CPPPC 大部分項目為優質項目,案例樣本數據存在明顯不平衡性,正面案例遠大于負面案例,機器學習輸入樣本中負例樣本較少,這將導致結果偏向正例,引起過擬合現象。運用機器學習方法開展PPP 可落地性評價面臨的最大難題是原始數據集不平衡性。針對非平衡樣本集問題,Chawla 等[8]提出SMOTE 算法,借助少數樣本以及鄰域樣本生成新樣本,具備較好的抗噪性能;SMOTE 算法為解決數據不平衡問題提供了重要思路,但SMOTE 算法合成樣本較為粗放,未能針對實際樣本空間分布合成數據,可能造成分類樣本合成錯誤或冗余。因此有學者針對SMOTE 缺陷開展算法優化研究,例如Wang 等[9]和Molinari等[10]分別提出Borderline-SMOTE、ADASYN 等改進算法,對合成少數類樣本進行精化處理,通過改善樣本合成機制,降低合成樣本帶來的噪音影響;陳思等[11]、李衛紅等[12]通過聚類算法對合成結果進行欠采樣,刪除新樣本集中的冗余數據;Friedman 等[13]提出Adaboost 集成算法,將弱可學習分類器轉換為強可學習分類器;劉玉峰等[14]使用sub?agging 算法結合傳統分類器訓練評價模型,結果表明subag?ging 比bagging評價效果更佳;部分學者[15-16]針 對SMOTE算法缺陷,對SMOTE 算法進行迭代,且僅選擇上次迭代中被錯分的樣本,從而有效降低SMOTE 帶來的噪音影響;李毅 等[17]、朱安安[18]使用隨機過采樣、隨機欠采樣和SMOTE3 類方法處理不平衡數據集,綜合比較發現過采樣方法效果更佳。
即使PPP 項目經歷了爆發式增長,但CPPPC 入庫項目總數仍不到一萬,上述優化方法均無法避免欠擬合或過擬合現象。因此,本文綜合樣本合成算法與集成算法的優點,提出SMOTE-Bagging 算法,通過合理合成樣本實現正負樣本平衡,構成基分類器訓練集以提高Bagging 算法基分類器多樣性,保證模型準確性、性能和泛化能力。
傳統解決數據集非平衡問題主要采用過采樣和欠采樣兩種方法。過采樣方法指直接復制多份小種類樣本,實現正負樣本平衡,經該方法處理后,樣本集在高維空間上的樣本點位置并沒有發生任何變化。例如采用SVM 算法分類時,目的是在樣本集中找出可以劃分正負樣本的最大間隔分離超平面,因此傳統過采樣不會對最終結果產生任何影響。相比過采樣,欠采樣則直接刪除樣本量較多類的數據,以達到正負樣本平衡,雖然不會帶來過擬合問題,但由于損失大量數據,可能導致欠擬合。故直接使用過采樣或欠采樣均不適用于基于CPPPC 數據集。
本文集成人工合成與機器學習兩種方法,解決樣本數據集非平衡問題。首先,采用人工合成數據,實現正負樣本平衡;然后采用集成學習算法進行模型訓練。集成學習算法不會引入噪聲,保證訓練集樣本均能被模型學習,由于訓練集被分成多個子集,模型結果偏向正例樣本的問題也能得到緩解。集成算法采用Bootstrap 對原始數據集進行上采樣或者下采樣,上采樣容易導致樣本丟失而失真,下采樣則容易重復采用少類樣本造成過擬合。而SMOTE 算法雖然在訓練集上能實現正負樣本平衡,但該算法新增數據本質上是虛構的,這部分合成數據可能給模型帶來噪聲。因此,將SMOTE 算法和Balance Bagging 算法結合,訓練集樣本采用SMOTE 算法進行訓練,實現正負樣本比例平衡,隨機放回地從中抽取的子集不會出現正例樣本過多的情況,避免結果偏向正樣本。同時,由于訓練集被n次有放回采樣,SMOTE 算法帶來的噪音問題影響也大幅度下降。通過SMOTE 算法人工合成數據,分析少數類樣本,采用人工合成方法將新樣本添加到數據集中,算法思路為:①對于每個少數類樣本Xi,以歐氏距離為標準計算Xi到少數類樣本集中所有樣本的距離,得到其k近鄰;②根據樣本不平衡比例設置采樣比例,并據此確定采樣倍率N,對于每一個少數類樣本Xi,從其k近鄰中隨機選擇若干個樣本,假設選擇的近鄰為x(1),x(2),…,x(N);③對于每一個隨機選出的近鄰x(i)(i=1,2,…,N),分別與原樣本按照公式(1)構建新的樣本。

采用Balance Bagging 集成學習算法,其算法思路[19]為:①從訓練集樣本隨機抽出x條樣本用來訓練,生成一個基學習器;②有放回地從訓練集中隨機抽出x條樣本用于訓練,生成一個基學習器;③以步驟②的方式隨機抽取n次,共計生成n個基學習器;④用這n個基學習器對測試集的每一個樣本以投票的方式進行測試,從而得到測試樣本集預測結果。如果一個樣本被這n個基學習器投票,即預測分類,被分為1 的票數有m票,被分為0 的有n-m票,通過比較n和n-m的大小可以完成樣本預測。
通過集成SMOTE 算法與Balance Bagging 算法,設計SMOTE-Bagging 算法思路為:①用Bootstrap 方法從訓練集S 中抽取樣本,構成Sk;②在Sk的基礎上使用SMOTE 算法生成新的少類樣本,直到兩類樣本數量相對,構成Sk’;③以Sk’為訓練集,訓練基分類器Ck;④k 個基分類器采用多數投票的方式得到測試集中每個樣本所屬類別。
對于二分類問題,可將樣例根據真實——預測組合劃分為真正例(true positive,TP)、假正例(false positive,FP)、真反例(true negative,TN)、假反例(false negative,FN)4 種情形。令TP、FP、TN、FN 分別表示對應的樣例數,顯然這4種情形之和為樣例總數,分類結果混淆矩陣如表1 所示。

Table 1 Confusion matrix表1 混淆矩陣
本文將PPP 可落地性強的項目定義為正例,可落地性弱的項目定義為負例。非平衡樣本數據集評價算法性能通常采用準確率(Precision)、召回率(Recall)、G-均值(Gmean)、F 值(F-measure)等指標進行算法評價。

準確率又稱為正確率,反映正確分類的少數類樣本數占所有被分為少數類樣本數的比例;召回率反映被正確分類的少數類樣本數占所有少數類樣本數的比例;G-mean綜合考慮正類分類和負類分類準確率,表示正例分類準確率和負例分類準確率均衡值;F-measure值是準確率和召回率的加權調和平均。本文采用的是當參數β=1 時的F-mea?sure值,即最常見的F1 值。F1 值綜合了準確率和召回率的結果,當F1 值較高時說明算法分類結果比較理想。
本文基于財政部政府與企業合作中心PPP 項目庫,通過人工收集與爬蟲的方式獲取項目管理庫和項目儲備清單中所有行業數據。從項目本身和地方政府兩個維度,分析PPP 可落地性評價特征,建立標簽,構建基于社會資本視角的PPP 可落地性評價模型。一方面,為社會資本投資決策提供參考;另一方面,針對可落地性較差的項目,幫助政府進行優化調整。用于建模的項目分為落地性強(用1 表示)和落地性弱(用0 表示)兩種,從本質上而言,可落地性評價問題即傳統意義上的分類問題。對原始數據進行缺失值處理等數據預處理后,總樣本數量為10 848 條,其中落地性強的數據有7 445 條,落地性弱的數據有3 403 條。如圖1 所示,CPPPC 分類的19 個行業均存在數據不平衡情況,各個行業落地性強的樣本數量均遠高于落地性弱的樣本數量。因此,要對PPP 項目進行有效的可落地性評價必須解決正負樣本不平衡問題。
本文在借鑒相關文獻研究的基礎上,建立PPP 可落地性評估模型的評價指標體系。目前,學術界對于PPP 項目可落地性評估指標的研究非常少見。在現有的研究中,胡恒松等[20]從經濟社會發展狀況、所在行業發展狀況、政府方及國有出資人代表、項目質量、社會資本方基本情況、風險及增信情況以及其他多個維度提出PPP 項目可落地性評估指標體系。基于社會資本視角,且受限于數據可獲取性,本文通過對CPPPC 公開數據爬取分析,從項目本身和地方政府兩個維度選取評價特征,結果如表2 所示。

Table 2 Characteristics of PPP landing evaluation表2 PPP 可落地性評價特征
由表2 可知,樣本集共有24 個特征(標簽),去除部分不需要參與計算特征,仍有18 個特征作為模型輸入指標。但訓練集中并非輸入特征越多模型性能越好,相反和可落地性相關性較小的指標反而會給模型帶來噪音。為了避免這種情況,如表2 所示,本文計算出其余指標和可落地性之間的相關性系數,按相關性系數絕對值大小排序,最終選出排名前10 的指標作為模型輸入指標(表2 粗體數據)。在使用相關系數法得出的前10 個重要性變量中,項目和政府相關指標基本各占一半,其中包含項目基本特征、地方政府財政實力以及地方政府清廉程度。
將市政工程PPP 項目作為原始訓練數據,為驗證本文算法優越性,對原始數據預處理后,將數據按3∶2 的比例劃分為訓練集和測試集。在實證研究前,首先對訓練集數據進行標準化處理,消除量綱對參數估計的影響。對于不平衡樣本問題,傳統算法預測結果一般會偏向多數類樣本集。
在實證研究前,本文首先對訓練集數據進行標準化處理,消除量綱對參數估計的影響。使用傳統分類算法(邏輯回歸模型、支持向量機模型、決策樹模型)對訓練集進行學習,模型測試結果如表3 所示。

Table 3 Test results of traditional algorithm表3 傳統算法測試結果
由表3 可知,邏輯回歸的Precision 較低,這意味著該算法測試結果中FP 較多,即對正樣本識別能力較差。SVM 算法相較另外兩類算法效果較好,但這在現實應用中毫無意義,仍無法對可落地性樣本進行有效分類。此外3 類算法Recall 低于60%,這3 種算法對負樣本的識別能力相當,但均不強。綜上所述,傳統分類算法建立PPP 可落地性評價模型效果不佳。
為驗證對比SMOTE-Bagging 算法與其他算法之間的性能差距,在保證相同數據預處理條件下,設定固定的ran?dom_state 值。對訓練集進行SMOTE 算法處理后,結合部分傳統分類器,對SMOTE-LR、SMOTE-SVM、SMOTE-DT、Bagging、SMOTE-Bagging 共5 類算法進行測試,分別計算出Precision、Recall、G-mean、F-measure 等指標,用以評估算法性能。

Table 4 Test results of the algorithms表4 算法測試結果
根據算法預測結果顯示,傳統分類算法在SMOTE 處理后,新的測試結果均有小幅度提升,但在實際運用中效果仍然較差。集成算法Bagging 的多項指標相較前3 類算法較為理想,但Recall 和G-mean 分別僅為0.844 4 和0.750 3,說明該算法對于負例樣本的識別性能依舊不夠優秀,驗證了前文分析,即Bagging 算法在每次重復采樣時,原始樣本集本身存在不平衡問題,重復采樣僅能部分解決這類負面影響。
從4 類評價指標來看,SMOTE-Bagging 表現均最為理想,從表4 可知,Bagging 或SMOTE-Bagging 這類集成算法分類性能優于單分類器分類性能。SMOTE-Bagging 算法Recall 和G-mean 值分別為0.888 9、0.831 5,與Bagging 相比分別提高了4.45%和8.12%,說明SMOTE-Bagging 算法識別負例樣本性能得到了明顯提升。通過以上分析可知,SMOTE-Bagging 算法解決非平衡樣本集的效果最好,在使用SMOTE 算法降低下采樣帶來的過擬合的同時,能夠減少SMOTE 帶來的噪聲。現實中,PPP 項目會長時間面臨樣本量較少且樣本集不平衡問題,該模型對解決現實問題具有一定參考意義。
為驗證本文SMOTE-Bagging 算法在新樣本中的預測性能以及模型泛化能力,本文選取另外6 個領域項目投資金額最高的行業PPP 項目作為訓練集,采用隨機抽樣的方式選取樣本。其中可落地性弱和可落地性強的項目數量占比為1∶1。選擇與市政工程相同的輸入指標,將新的測試集樣本輸入已封裝的SMOTE-Bagging 算法模型,最終測試結果如圖1 所示。

Fig.1 Test results of new sample圖1 新樣本測試結果
使用SMOTE-Bagging 算法測試新樣本4 項評估指標均大于0.7,這表明該算法泛化能力較優,能夠在一定的誤差范圍內對PPP 項目可落地性進行有效評估,也說明SMOTE-Bagging 算法可以提高非平衡樣本集分類有效性,證明了該算法在PPP 項目其他行業中的泛化可行性。
本文根據CPPPC 各行業PPP 項目數據,綜合比較多類機器學習算法,建立PPP 可落地性評價模型。研究結果表明,SMOTE-Bagging 算法效果最佳,該算法能有效解決非平衡樣本集帶來的偏向問題,同時最大限度削弱了SMOTE 算法帶來噪音的不良影響,且在新的數據集上表現出良好的泛化能力。
基于大數據時代背景下,使用機器學習方法開展PPP項目可落地性評價研究具有可行性。近年來PPP 項目庫日益完善,數據來源、準確度、數據獲取難易程度以及信息時效性相較以往均有明顯提升。結合SMOTE 和Bagging 等集成算法,可對PPP 可落地性進行較為全面的評估。實驗結果表明使用SMOTE-Bagging 算法可對非平衡PPP 項目樣本集落地率進行有效分類和評估。
SMOTE-Bagging 模型分類性能較其他算法更佳。通過對原始數據集進行SMOTE 處理,得到新的平衡樣本集,選擇準確率、召回率、G-均值、F 值作為模型分類性能的評估標準,發現SMOTE-Bagging 算法性能最佳,將該算法應用至新的樣本集時,也取得了較為理想的測試結果。
針對非平衡樣本集開展PPP 可落地性評價對地方政府和社會資本均有重要的實踐意義。對地方政府而言,識別落地性差的項目可以及時發現項目問題,對劣質項目進行改進,規范項目前期評估論證,提高“落地率”,推動PPP 健康持續發展;對社會資本而言,由于PPP 項目歷時周期長、資金需求量大,PPP 可落地性評價模型可實現推薦功能,輔助社會資本篩選優質項目。