梁文婷 李強
(貴州財經大學大數據應用與經濟學院,貴州 貴陽 550025)
農業是我國國民經濟發展的基礎,農業類上市公司是我國農業行業的領頭羊,代表我國社會的最高農業生產水平,因此,農業類公司的穩健發展和風險管理水平對于我國經濟的穩定發展具有重要意義。我國農業類上市公司因行業特征,可能會遭遇農產品的市場價格波動大、生產周期長、易腐爛變質和自然災害導致農產品減產等情況,由此產生風險,且農業類公司因抵押物少和季節性資金需求量大,難以得到充足的資金支持。因此,亟需分析農業類上市公司的信用風險情況,為商業銀行發放農業貸款提供參考。
目前,許多學者都進行了關于農業類上市公司信用風險評估的研究,其中使用最多的評估模型是KMV模型和Logistic模型。劉玎琳等用改進的KMV模型測度我國14家農業上市公司的信用風險,研究發現,農業上市公司的資產價值都比股權價值高,說明其發展前景良好;其資產價值波動率整體處于下降趨勢;其信用風險大多是先上升后下降和持續下降的趨勢,信用狀況較差[1]。方煥等建立供應鏈金融信用風險評價指標體系,用主成分分析法和Logistic模型測度農業類企業風險,預測企業是否違約,研究發現該模型的整體預測準確率為86.27%[2]。李延敏等對47家國家重點農業產業化龍頭企業進行KMV模型的測算,研究發現,該模型可以很好地度量信用風險,但這些企業參與農村金融聯結的程度對違約風險的影響較小[3]。曾梓銘對58家上市農業中小企業的財務數據進行因子分析,分別構建Logistic模型和支持向量機信用風險評估體系,進行實證研究,發現SVM模型的準確率為94.0%,而Logistic模型為88.8%,且SVM模型的第一類錯誤率比Logistic模型低[4]。熊桃圓等利用主成分分析和Logistic模型測度農業類上市公司的信用風險,研究發現第一類和第二類錯誤率分別為42.9%和1.2%[5]。任君等對45家農業上市公司進行因子分析,消除指標的多重共線性,并用向后去除、逐步向后選擇方法建立Logistic模型,度量我國農業類企業的信用風險,研究發現該模型總體預測準確率為77.18%[6]。
近幾年,許多學者將XGBoost模型運用于金融領域。張培榮構建XGBoost財務危機預警模型對制造業上市公司進行實證研究,選出最重要的幾個財務指標,并與Logistic回歸模型作對比,發現XGBoost預警模型的預測效果更好[7]。陸健健等構建基于XGBoost算法的金融客戶信用評估模型,實證研究發現,相比隨機森林和GBDT,基于XGBoost的個人信用評估模型的準確率最高[8]。王行等基于XGBoost的上市公司財務違約預測模型,預測制造業上市公司的財務違約情況,研究表明,相比邏輯回歸、支持向量機、決策樹和隨機森林,XGBoost模型具有較高的預測精度,總體準確率為91.48%[9]。劉斌等用特征工程和SMOTE處理數據,并基于XGBoost構建貸款風險預測模型,研究表明,相比邏輯回歸和隨機森林,XGBoost模型的準確率高達95%,預測效果最好[10]。
綜上所述,大多學者用KMV模型和Logistic模型評估農業類上市公司的信用風險,現有文獻雖然用XGBoost模型評估制造業上市公司、P2P網貸平臺和個人信用的風險情況,但未有學者用XGBoost模型評估農業類上市公司的信用風險。基于上述內容,本文選取農業類上市公司作為研究對象,建立農業類上市公司信用風險指標體系,基于XGBoost算法構建農業類上市公司信用風險評估模型,探究XGBoost模型是否能有效評估農業類上市公司信用風險,并將實驗結果與經典機器學習模型(決策樹和隨機森林模型)作對比實驗,看其在準確度等評價指標上是否更優越。
本文選取48家農林牧漁上市公司作為研究對象,數據為各公司2020年年報中的財務數據。在48家農業類上市公司中,有2家被標記為ST,有4家被標記為*ST,因此,本文將這6家公司作為高信用風險公司,此時將被解釋變量y記為1。與此同時,將其他的42家公司作為低信用風險公司,此時將被解釋變量y記為0。
本文根據前人學者關于農業類上市公司信用風險指標體系,從5個大類中選取了19個指標,構建新的農業類上市公司信用風險指標體系。從公司基本信息、償債能力、財務指標、經營能力、盈利能力和成長能力這5個方面來建立農業類上市公司風險信用風險指標體系。農業類上市公司信用風險指標體系建立如表1。

表1 農業類公司信用風險指標說明
本文構建的農業類上市公司信用風險指標均在建模前的數據預處理階段采用標準化處理,本文采用的標準化處理方法為min-max標準化,公式:
式中,x*是標準化后的變量值;x是實際變量值;min是最小值;max是最大值。
本文采用SMOTE算法來處理不平衡數據集。本文數據集共有48個樣本,分為2類:42個0類,6個1類。因該數據為不平衡數據,且1類樣本過少,所以需要對合并樣本進行過采樣,復制少數類樣本以增加少數類樣本占比。
3.2.1 混淆矩陣、準確率、精準率、召回率和f1_score
混淆矩陣是一個誤差矩陣,用圖表直觀的評估監督學習算法的性能。本文以二分類混淆矩陣為基礎,介紹各評價指標。

表2 混淆矩陣
準確率(accuarcy)是正確預測的樣本數占總樣本的比例。準確率的公式:
精準率(precision)是正確預測的正樣本占預測正樣本的比例。精準率的公式:
召回率(recall)是正確預測的正樣本占總正樣本的比例。召回率的公式:
f1_score是精確率和召回率的調和平均數。f1_score的公式:
3.2.2 ROC曲線、AUC值
ROC曲線是用圖直觀的來評估模型好壞,ROC曲線是以真正率(TPR)為縱坐標,假正率(FPR)為橫坐標的曲線。重點關注預測后的正樣本,并且從正負2個樣本集合角度分析。本文ROC曲線采用x軸為1-Specificity,y軸為Sensitivity的曲線。
AUC值是ROC曲線下的面積,是基于ROC衍生的非常好的可量化的評價標準,ROC曲線是越陡峭越好,即AUC越大越好。通常情況下,AUC的取值范圍是[0.5,1],是一種評價分類模型好壞的指標。
3.2.3 實證結果分析及對比
本文通過將數據分別進行基于決策樹、隨機森林和XGBoost 3種農業類上市公司信用風險評估模型的學習和預測,此實驗過程是由Python實現。從準確率、精準率、召回率、f1_score、ROC曲線和AUC值等評估指標進行各模型的分析對比。
通過決策樹、隨機森林和XGBoost 3種算法對農業類上市公司信用風險的評估,得到表3的實驗結果。從準確率、精準率、召回率和f1_score 4個指標來看,XGBoost的各評價指標都要優于決策樹和隨機森林。但總體來說,3種算法的準確率均在90%以上,說明3種算法在評估農業類上市公司信用風險上具有較高的可行性。其中,XGBoost的準確率更是高達97.62%,是3種算法中最適宜評估農業類上市公司信用風險的模型。表中XGBoost的召回率為100%,可能是因為數據太少,且負樣本的數量太少,造成分類數據過擬合。

表3 3種算法的實驗結果
由基于決策樹、隨機森林和XGBoost算法的農業類上市公司信用風險評估模型得到的ROC曲線如圖1~3所示。其中ROC曲線圍成的面積,即AUC值分別為0.9632、0.9813和0.9983。XGBoost比決策樹和隨機森林的AUC值大,說明XGBoost模型的分類效果最好。
本文通過建立農業類上市公司信用風險指標體系,選取2020年48家農林牧漁上市公司的財務數據作為數據集,通過標準化和SMOTE過采樣處理,利用決策樹、隨機森林和XGBoost 3種機器學習算法構建農業類上市公司信用風險評估模型,通過實驗分析比較得出,3種算法的準確率均在90%以上,都能有效評估農業類上市公司信用風險。其中基于XGBoost算法的農業類上市公司信用風險評估模型的預測效果是最好的,準確率高達97.62%。通過3種算法的ROC曲線可知,XGBoost模型的AUC值比決策樹和隨機森林的都要大,說明XGBoost模型的分類效果最好。