一、前言
近年來,隨著可持續(xù)投資的興起,企業(yè)的環(huán)境(E)社會(S)和公司治理(G)表現(xiàn)愈發(fā)受到關注[。ESG分數(shù)作為衡量公司在這些領域表現(xiàn)的重要工具,已成為全球投資決策中的關鍵參考指標[2]。尤其是BloombergESG分數(shù),其廣泛應用于投資組合管理、風險評估以及政策制定。在最近熱點漂綠主題中,Bloomberg更是被當做計算漂綠的一大重要因素,李強等人在計算漂綠變量中就把BloombergESG分數(shù)當做上市公司ESG披露情況的一大重要衡量指標。大量的漂綠研究依然都采用BloombergESG當中ESG披露分數(shù)。然而,現(xiàn)有的ESG評分體系通常依賴于自愿披露的信息,導致數(shù)據(jù)的缺失和不對稱,影響了評分的準確性和可靠性[4]。
目前,許多研究集中在如何改進ESG評估模型,尤其是在數(shù)據(jù)不完整和質(zhì)量差的情況下。一些傳統(tǒng)的評估方法(如專家評分和基于規(guī)則的模型),雖然提供了某種程度的評估,但仍然存在顯著的主觀性和局限性。隨著機器學習技術(shù)的不斷發(fā)展,越來越多的學者和機構(gòu)開始探索通過自動化方法來增強ESG評估的準確性和客觀性。尤其是基于財務數(shù)據(jù)、行業(yè)特征以及歷史ESG披露信息的預測模型,逐漸成為一個熱門研究領域。
盡管機器學習技術(shù)在許多領域取得了顯著成果,應用于BloombergESG分數(shù)的預測仍存在一定挑戰(zhàn)。首先,BloombergESG評分涉及的變量較多且具有較強的非線性特征,傳統(tǒng)的統(tǒng)計方法往往難以捕捉其復雜性。其次,ESG數(shù)據(jù)存在顯著的缺失問題,給模型訓練帶來了困難。因此,如何有效利用機器學習算法對不完整、非線性的ESG數(shù)據(jù)進行建模,并提高預測精度,仍然是一個亟待解決的問題。
本研究旨在通過機器學習技術(shù),構(gòu)建一個基于企業(yè)財務數(shù)據(jù)、行業(yè)特征及歷史ESG 披露信息的BloombergESG分數(shù)預測模型。比較了多種機器學習算法(如支持向量機、隨機森林等)在ESG分數(shù)預測中的表現(xiàn),并評估其在數(shù)據(jù)缺失和特征選擇方面的魯棒性。研究的主要貢獻在于:一方面,提出了一種有效的預測方法,能夠在數(shù)據(jù)不完整的情況下實現(xiàn)較高的預測精度;另一方面,研究為如何利用數(shù)據(jù)驅(qū)動的方式改善現(xiàn)有ESG評估模型提供了新的思路,具有較強的理論和實踐意義。
二、數(shù)據(jù)來源和研究設計
(一)數(shù)據(jù)來源
利用了Bloomberg的環(huán)境(E)、社會(S)、治理(G)評分,覆蓋A股上市公司,樣本期為2009年至2022年,因為Bloomberg的E、S、G數(shù)據(jù)僅從2009年開始提供。初始樣本經(jīng)過以下篩選標準:排除金融類上市公司并剔除缺失數(shù)據(jù)的樣本。E、S、G數(shù)據(jù)來源于Bloomberg數(shù)據(jù)庫。用于機器學習模型預測的財務指標、管理指標和宏觀層面指標均來源于CSMAR數(shù)據(jù)庫,而宏觀層面指標來自CEInet統(tǒng)計數(shù)據(jù)庫。
(二)研究設計
1.模型選擇
為了使用機器學習預測指標并檢測ESG綠色洗滌,采用了以下模型:
支持向量回歸(SVR):SVR是支持向量機(SVM)算法的擴展,用于回歸分析。與SVM在分類任務中的作用類似,SVR的目標是找到一個最佳超平面,使其盡可能靠近所有數(shù)據(jù)點,盡可能多的數(shù)據(jù)點位于一定的誤差范圍內(nèi)[5]。
隨機森林(RF):隨機森林是一種集成學習方法,通過在訓練過程中構(gòu)建多個決策樹,并輸出各個樹的類別模式(分類)或平均預測值(回歸)。它通過減少過擬合并增強魯棒性來提高單個樹的性能。隨機森林能夠輕松處理高維數(shù)據(jù)集,具有較高的可擴展性。
梯度提升決策樹(GBDT):GBDT是另一種集成學習方法,它依次構(gòu)建一系列決策樹,每棵樹都學習糾正前一棵樹的錯誤。它通過梯度下降的方式優(yōu)化損失函數(shù),每棵新樹擬合損失函數(shù)的負梯度。GBDT以其高預測準確性和良好的可解釋性而著稱,能夠處理回歸和分類問題,并廣泛應用于金融、醫(yī)療和營銷等領域。
長短期記憶(LSTM):LSTM是一種遞歸神經(jīng)網(wǎng)絡(RNN)架構(gòu),旨在建模順序數(shù)據(jù),并解決傳統(tǒng)RNN中的梯度消失問題。LSTM網(wǎng)絡能夠?qū)W習數(shù)據(jù)中的長期依賴關系,并廣泛用于時間序列預測、自然語言處理和語音識別等任務。LSTM包含記憶單元和門控機制,能夠選擇性地保留和遺忘信息[8]。
2.評價指標選擇
對于E、S、G單項評分的回歸預測,選擇了以下四種評估指標來衡量回歸預測的性能:MAE、RMSE、MAPE和 R2 。
平均絕對誤差(MAE)是用于衡量預測模型誤差的指標。它表示預測值與實際值之間的平均絕對差異,其計算公式見式(1)。

其中, Yi 表示第i個觀測值的實際值,
表示第i個觀測值的預測值,n為觀測總數(shù)。MAE直觀地反映了預測誤差的平均水平,不考慮誤差的符號。
均方根誤差(RMSE)是評估預測模型準確性的常用指標。它表示預測值與實際值之間的平均平方差的平方根,計算公式見式(2)。

其中,RMSE通常與MAPE結(jié)合使用,以便更深入地了解預測模型的相對誤差大小。相比MAE,RMSE對較大誤差更敏感,因此適用于關注大誤差情況的應用場景。
平均絕對百分比誤差(MAPE)是一種常用的指標,以百分比形式衡量預測模型的準確性。它表示預測值與實際值之間的平均絕對百分比差異,計算公式見式(3)。

其中,MAPE適用于衡量誤差相對于實際值的影響,能夠直觀反映預測誤差的相對大小。然而,當實際值較小時,MAPE可能會被放大,因此需謹慎使用。
決定系數(shù)( ?R2 )是一種統(tǒng)計指標,用于衡量回歸模型的擬合優(yōu)度。 R2 反映了回歸模型對因變量變異的解釋能力,其計算公式見式(4):

R2 的值范圍在0到1之間, R2=1 表示模型完美擬合數(shù)據(jù),能夠完全解釋因變量的變異。
接近0則表明模型無法有效解釋因變量的變異。
三、模型構(gòu)建及實驗分析
(一)模型構(gòu)建
收集了公司在E、S、G三大領域的評分、財務指標、管理指標和宏觀經(jīng)濟指標,涵蓋歷史數(shù)據(jù)和最新年度數(shù)據(jù),以便訓練和測試模型。采用多種機器學習模型預測公司在第t年的E、S、G評分,具體流程如下:
首先,進行數(shù)據(jù)預處理,包括數(shù)據(jù)清理、特征提取、特征選擇和特征標準化。處理了缺失值和異常值,確保數(shù)據(jù)完整性,并通過滯后處理生成時間序列特征。利用隨機森林算法選出最重要的20個特征,并進行標準化,以減少特征間的影響。訓練集選取2010一2021年數(shù)據(jù),測試集為2022年數(shù)據(jù),以提升模型的泛化能力。
表1預測E、S、G得分的回歸評估指標

接著,選擇SVR、RF、GBDT和LSTM等模型進行訓練與測試。采用10折交叉驗證,確保模型穩(wěn)定性,并使用隨機搜索進行超參數(shù)調(diào)優(yōu),最小化RMSE。整個優(yōu)化過程迭代至少100次,最終選擇表現(xiàn)最優(yōu)的模型進行測試,以保證預測準確性和穩(wěn)定性。最終,最佳模型的預測結(jié)果見表1。
(二)實驗分析
從表1中可以看出,SVR表現(xiàn)最佳,LSTM表現(xiàn)較差。在S領域,所有模型的評估結(jié)果差異較小,GBTD的表現(xiàn)較好。在G領域,RF表現(xiàn)最佳,SVR和LSTM表現(xiàn)最差。進一步闡明回歸預測實驗的結(jié)果,使用條形圖比較了E、S和G領域預測分數(shù)的表現(xiàn)。結(jié)果如圖1所示。這張散點圖展示了實際值與預測值之間的關系。圖中的點代表各個數(shù)據(jù)點,圖中的虛線代表完美預測線,如果預測完全準確,所有點將會落在這條線上。從圖中可以看出,一些點比較接近這條完美預測線,表明在這些情況下預測相對準確。大多數(shù)數(shù)據(jù)點都圍繞在這條線附近,表明在許多情況下預測結(jié)果與實際值相近,預測模型的表現(xiàn)較好。
(三)研究結(jié)論
本研究通過使用機器學習模型預測上市公司ESG得分,并且評估了多種模型在不同領域(E、S、G)的預測表現(xiàn)。這些結(jié)果為ESG評分的準確預測提供了機器學習模型的選擇參考,能夠為投資者、企業(yè)及監(jiān)管機構(gòu)提供數(shù)據(jù)驅(qū)動的決策支持,進一步推動可持續(xù)投資的發(fā)展。
四、結(jié)語
本研究通過采用機器學習技術(shù),探索了基于企業(yè)財務數(shù)據(jù)、行業(yè)特征及歷史ESG披露信息來預測上市公司ESG得分的方法。實驗結(jié)果表明,機器學習模型能夠有效提高ESG評分的預測精度,尤其在數(shù)據(jù)缺失和非線性特征的情況下表現(xiàn)出較強的魯棒性。通過對不同模型的比較,為不同領域(E、S、G)選擇了最優(yōu)的預測模型,為未來的ESG評估提供了新的思路和實踐經(jīng)驗。
實際與預測E得分

實際E得分

實際S得分
圖1預測散點圖

隨著全球?qū)沙掷m(xù)投資和企業(yè)社會責任的關注不斷增加,如何精準評估企業(yè)在環(huán)境、社會和治理方面的表現(xiàn)變得愈加重要。本文的研究為投資者、監(jiān)管機構(gòu)以及企業(yè)提供了一個更加客觀、透明的ESG評估工具,并推動了基于數(shù)據(jù)驅(qū)動的決策方式的發(fā)展。盡管本研究在模型選擇和數(shù)據(jù)預處理方面取得了一定進展,未來的研究還可以進一步優(yōu)化模型的性能,并探索更多影響ESG得分的潛在因素。
總之,隨著機器學習技術(shù)的不斷發(fā)展,其在ESG領域的應用前景廣闊,能夠為可持續(xù)投資決策提供更加精準和有效的支持,助力全球綠色經(jīng)濟的轉(zhuǎn)型與發(fā)展。
參考文獻
[1]喬璐,王佳妮,劉思義,等.環(huán)境、社會和治理(ESG)鑒證:現(xiàn)狀分析、研究綜述與未來展望[J].中國注冊會計師,2025(01):50-56.
[2]劉恒冉.有效的ESG信息披露賦能企業(yè)高質(zhì)量可持續(xù)發(fā)展[J].上海節(jié)能,2025(03):394-397.
[3]李強,宋嘉瑋.業(yè)績期望落差與企業(yè)“漂綠”行為[J].南京審計大學學報,2022,19(03):51-61.
[4]劉華蓉.上市公司信息披露制度問題研究[J].知識經(jīng)濟,2016(22):6-7.
[5]許家翔,陳瑞,曹軍.基于支持向量回歸的露點間接蒸發(fā)冷卻模型應用研究[J].化學工程,2025,53(03):77-82.
[6]楊虎,鄒杰,楊金明,等.基于優(yōu)化隨機森林算法的10kV斷路器運行狀態(tài)診斷[J].大眾標準化,2025(06):36-38.
[7]邢昭,孟小軍,袁晶晶,等.信息量支持下SVM-GBDT模型的滑坡危險性評價[J].科學技術(shù)與工程,2025.25(07):2712-2720.
[8]付安棋,李劍.基于行為聚類的LSTM-NN模型惡意行為檢測方法[J].信息安全研究,2025,1104):343-350.
作者單位:首都經(jīng)濟貿(mào)易大學
責任編輯:張津平 尚丹