









文章編號:1005?9679(2025)01?0059?08
摘 要: 發展農業新質生產力對于推動我國農業現代化和實現農業強國戰略目標發揮重要作用。為客觀量化影響農業新質生產力水平關鍵因素的非線性效應與重要性,提出一種基于機器學習方法的農業新質生產力發展水平測度和分析框架。利用極端梯度提升(XGBoost)算法、SHAP機器學習解釋方法和TOPSIS模型測度和分析2012年至2022年中國農業新質生產力發展水平。此外,應用五折交叉驗證對機器學習回歸模型結果進行穩健性檢驗。最后采用SHAP模型深入分析影響我國農業新質生產力水平的關鍵驅動因素,探索促進我國農業新質生產力發展路徑。研究結果表明:我國農業新質生產力水平整體呈上升趨勢,但總體水平較低;科技創新人才、高新技術產業發展規模和數字經濟發展水平是影響我國農業新質生產力發展水平的關鍵驅動因素,且具有顯著的正向效應和非線性特征。
關鍵詞: 機器學習;SHAP模型;XGBoost算法;農業新質生產力;驅動因素
中圖分類號: TP 181;F 124 文獻標志碼: A
The Development Level of New Quality Productive Forces in Chinese Agriculture and Analysis of Influencing Factors: Empirical Evidence Based on the XGBoost Model
WU Zhan, QU Tinghong
(School of Economics and Management, Shanghai Ocean University, Shanghai 201306)
Abstract: The development of agricultural new quality productivity plays an important role in promoting the modernization of China's agriculture and achieving the strategic goal of a strong agricultural country.In order to objectively quantify the nonlinear effects and importance of key factors affecting the level of agricultural new quality productivity. The article aims to propose a framework for measuring and analyzing the development level of agricultural new quality productivity based on machine learning methods.The Extreme Gradient Boosting (XGBoost) algorithm, SHAP machine learning interpretation method and TOPSIS model are utilized to measure and analyze the development level of agricultural new quality productivity in China from 2012 to 2022. In addition, five?fold cross?validation is applied to test the robustness of the machine learning regression model results. Finally, the SHAP model is used to deeply analyze the key driving factors affecting the level of China's agricultural new quality productivity and explore the path to promote the development of China's agricultural new quality productivity. The results of the study show that: the overall level of China's agricultural new quality productivity level is on an upward trend, but the overall level is low; scientific and technological innovation talents, the scale of development of high?tech industry and the level of development of the digital economy are the key driving factors affecting the level of development of China's agricultural new quality productivity, and they have a significant positive effect and non?linear characteristics.
Key words: machine learning; SHAP model; XGBoost algorithm; new quality productivity; driving factors
0 引言
隨著信息化和智能化的快速發展,發展新質生產力對實現傳統生產力的質態躍遷具有重要意義[1]。2024年1月,習近平總書記在中共中央政治局第十一次集體學習時強調,發展新質生產力是推動高質量發展的內在要求和重要著力點[2],要加快發展新質生產力,扎實推進高質量發展[3]。因此,深入研究我國新質生產力發展水平動態演化特征以及關鍵驅動因素,對于推動我國經濟高質量發展和實現中國式現代化具有重要意義。
目前,有關新質生產力的研究主要聚焦于新質生產力概念內涵、測度和影響因素分析三個方面。在新質生產力概念內涵研究方面,張林和蒲清平(2023)[4]認為新質生產力是在科技創新資源有效轉化與深度整合之下,由戰略性新興產業和未來產業孕育出的,一種以高效能、高質量為特征的,對自然資源進行深度利用和改造的能力。姜朝暉和金紫薇(2024)[5]認為新質生產力以科技創新為核心驅動力,依托高層次創新型人才的智力支持,以戰略性新興產業和未來產業作為實踐平臺,同時以數字化、智能化和綠色化作為堅實基礎,進而實現高效能與高質量兼具的先進生產力形態。在新質生產力影響因素方面,劉建華等(2024)[6]研究后發現每萬人在校大學生數量、研發經費投入強度、高新技術產業產值、工業機器人安裝密度等對新質生產力具有顯著的正向影響。李松霞和吳福象(2024)[7]指出人力資源的積累、高技術產業的提升以及數字信息基礎設施的完善,是新質生產力發展潛力的核心驅動力。孫麗偉與郭俊華(2024)[8]指出技術成果轉化的困難、產業結構升級的滯后以及教育投入的不足,成為制約新質生產力進一步發展的關鍵因素。傅聯英和蔡煜(2024)[9]在探究中國270座城市新質生產力發展水平時指出,產教融合程度不足、高新技術企業數量有限以及城市創新指數偏低,成為阻礙市域新質生產力提升的主要瓶頸。任宇新等(2024)[10]發現金融集聚可促進新質生產力提升,且具有區域異質性特征。韓文龍等人(2024)[11]通過構建空間杜賓模型對新質生產力的空間效應進行了檢驗,發現新質生產力不僅能夠直接促進經濟增長,并且具有顯著的空間溢出效應。在新質生產力的評估方面,眾多學者通過綜合考量多維度、多屬性的指標,對我國新質生產力進行了全面而深入的評價。王玨和王榮基(2024)[12]對新質生產力的勞動者、勞動對象和生產資料特征進行分析,并構建了一套綜合指標體系對中國各省域的新質生產力水平進行了評估與分析。朱富顯等(2024)[13]以新質勞動者、新質勞動資料及新質勞動對象作為三個核心視角,構建了一套測度體系,評估了中國地級市層面的新質生產力發展水平。盧江等(2024)[14]依據科技生產力、綠色生產力和數字生產力三個關鍵維度,構建了新質生產力綜合評價體系,并對我國30個省級區域的新質生產力發展水平進行了測度。
近年來,隨著大數據和人工智能技術的不斷發展,以機器學習為代表的人工智能技術可以模擬人類的學習行為,重組現有知識以提高性能,顯著提高復雜問題的評估準確性和解決效率[15]。越來越多的學者使用機器學習方法對生態環境、經濟金融和工程機械等各個領域復雜問題進行評估[16?18]。如Hu W等人(2023)[19]表明隨機森林算法更有利于處理復雜的非線性系統,客觀地反映指標貢獻。Rafiei-Sardooi E等人(2021)使用TOPSIS和機器學習的混合方法評估城市洪水風險,研究結果表明,城市排水密度和與城市排水的距離是城市洪澇災害建模中最重要的因素。與傳統的機器學習模型相比,極端梯度提升(XGBoost)是一種集成的梯度提升學習算法,可以揭示輸入特征和目標結果之間的底層機制,能有效處理非正態、非線性的高維數據,具有預測準確率高、過擬合少等優勢。Lei Y等人(2023)應用XGBoost模型量化了每個變量的對于每月火災風險水平的重要性。此外,隨著可解釋機器學習變得越來越流行,機器學習方法可以從具有大量特征變量的大型數據集中提取獨特見解。Wang M等人(2023)以深圳市為研究對象,構建XGBoost模型并結合SHapley加法解釋圖和部分依賴圖,研究表明均建筑體積為影響城市洪澇易發性的關鍵參數,平均SHAP值為0.0107m,貢獻率為9.70%。Tan B(2023)采用XGBoost和SHAP模型構建了中國金融穩定指數預警的可解釋框架,研究結果表明,影響中國金融穩定的風險因素主要來自實體經濟、金融機構、市場預期和房地產市場。Yao T(2023)等人通過可解釋的機器學習對非洲地區可見性進行環境可持續性績效評估,并將Shapley加法解釋(SHAP)技術應用于量化和可視化環境可持續性的社會經濟驅動因素。結果表明,除氣象驅動因素外,人均收入也起著主導作用。
綜上所述,可解釋機器學習的可視化和量化能力,可以更深入地研究我國農業新質生產力水平的驅動機制,然而,機器學習技術在中國農業新質生產力研究中尚無先例。因此,文章將可解釋機器學習方法引入綜合評估領域對我國農業新質生產力發展水平進行評價,彌補了機器學習算法在農業新質生產力發展水平非線性因果分析中的差距,豐富可解釋機器學習在我國農業新質生產力評價中的應用研究。文章以指標體系中各變量作為輸入的特征變量,以TOPSIS模型測算的農業新質生產力水平值作為XGBoost回歸模型的先驗樣本。并結合SHAP可解釋框架分析影響我國農業新質生產力發展水平的關鍵因素,揭示各特征與農業新質生產力水平之間的因果關系與貢獻。提供關于各地區資源配置如何影響農業新質生產力發展水平的見解,為我國農業高質量發展提供科學參考。
1 農業新質生產力內涵與指標體系構建
馬克思認為,生產力是人們所具有的物質生產勞動的能力,是在勞動生產過程中利用自然、改造自然以滿足人的需要的客觀物質力量。目前,在農業新質生產力特征內涵研究方面,多數研究框架均圍繞勞動力、勞動對象、勞動資料三個維度對農業新質生產力進行解構。在發展農業新質生產力的征程中,科技創新擔任核心引擎的角色,創新實體間的協作固然關鍵,亦需農業高新技術產業、政府、高等院校等外部環境緊密融合,共同保障創新系統的和諧共生并推動創新步伐。基于此,為了準確把握我國農業新質生產力的發展態勢,基于客觀性、可比性和可得性的原則,文章從新質農業勞動者、新質農業生產資料、新質農業勞動對象、科技創新和綠色發展五個維度出發,構建了一個涵蓋22個具體指標的農業新質生產力綜合評價指標體系,以期更全面地反映農業新質生產力的特征與發展趨勢,如表1所示。
2 研究方法與數據來源
2.1 XGBoost算法原理
極端梯度提升(XGBoost)算法是陳天奇等人近年來研究發展起來的一種機器學習集成算法。XGBoost算法是梯度提升決策樹(Gradient Boosting DecisionTree,GBDT)的有效實現,通過整合多個弱學習器來分析學習誤差,并在每次迭代期間更新樣本權重,以獲得強監督模型。同時將損失函數進行二階泰勒展開和使用正則化項來防止模型過度擬合,對目標函數進行訓練。該算法的數學原理如下:
[yi=k=1kfkxi, fk∈F" ] (1)
式(1)中其中k為CART樹的數量,[fk]為函數空間F中的一個函數,XGBoost回歸模型所需要的優化目標函數為:
[objθ=Lθ+Ω(θ)]" (2)
目標函數由兩部分組成。第一部分為損失函數,它測量真實值與預測值之間的差值,并表示預測誤差。
[objt=Lyi, yit+Ωft]" (3)
式(3)中:[Ωft]為正則化項,與樹的復雜度有關;[Lyi, yit]為訓練損失函數,用來衡量模型的預測能力,預測準確率越高L則越小。
2.2 熵權TOPSIS模型
TOPSIS模型稱為優劣解距離法,是一種典型的多屬性決策分析方法,旨在通過測量每個樣本到正負理想解的歐幾里得距離來評估系統的發展水平。TOPSIS模型的優點是對樣本沒有嚴格的要求,具有普遍適用性,在綜合評價中應用較多。通過區分指標體系中的指標類別,并根據不同類型的指標進行正向化或負向化處理來計算各評價指標與最優及最劣向量之間的差距,其中wj為第j個屬性的權重。
[D+i=j=1mwjZ+j-zij2 ,D-i=j=1mwjZ-j-zij2 ]" (4)
測度評價對象與最優方案的接近程度,貼近度Ci值越大,表明評價對象越優。
[Ci=D-iD+i+D-i]" (5)
2.3 SHAP解釋模型
Lundberg和Lee于2017年提出了一種解釋各種機器學習算法的SHAP模型。SHAP值起源于博弈論,旨在公平分配參與者在集體實現特定結果時的貢獻。Shapley值具有許多有用的屬性,例如效率、對稱性、虛擬性和可加性。其中效率屬性是指所有特征貢獻的總和等于預測值和平均值之間的差值的要求;可加性的特性要求來自單個模型的預測聚合等于來自所有模型組合的預測。Shapley(1953)證明如果滿足所有四個屬性,則該解決方案是公平且獨特的。Shapley值可用于機器學習,主要用于量化每個特征對模型預測的貢獻,然后計算該特征在所有特征序列中不同的邊際貢獻,最后計算該特征的SHAP值。
[yi=ybase+f xi1+f xi2+…+f xip]" (6)
其中,ybase為目標變量在所有樣本中的平均值;f(xij)為xij的SHAP值。SHAP值的優勢在于它反映了每個樣本中特征的貢獻,并表明了效應的正負性。本研究采用SHAP模型對機器學習XGBoost算法的回歸預測結果進行可視化分析。
2.4 數據來源
考慮到數據的可得性,本文選取2012年至2022年中國30個省份(不含西藏自治區和港澳臺)的面板數據作為分析樣本,數據來源于EPS數據庫平臺、CSMAR數據庫、IFR公布的數據、企查查網站、《中國統計年鑒》《中國環境統計年鑒》《中國科技統計年鑒》《中國工業統計年鑒》等。對于個別缺失數據,運用插值法補全。經數據整理后得到完整有效的330組樣本數據。
3 農業新質生產力發展水平測度
文章采用熵權TOPSIS方法測算了我國2012年至2022年30個省市的農業新質生產力發展水平,如表2所示。我國農業新質生產力發展水平整體呈上升趨勢,平均農業新質生產力發展水平值由2012年的0.16上升至2022年的0.31,總體水平相對較低。
4 實證結果與分析
4.1 農業新質生產力水平分析框架與變量選擇
為剔除與農業新質生產力水平相關性較小的變量,文章使用皮爾遜系數識別特征變量中的高、中、弱和不相關變量。本文以指標體系中各變量作為輸入的特征變量,以TOPSIS模型測算的農業新質生產力水平得分值為先驗樣本的目標值,獲得輸入特征與農業新質生產力水平之間的因果關系和衡量各二級指標變量對農業新質生產力發展水平的貢獻。選擇農業綠色全要素生產率、農業Ramp;D人員數量和農業物聯網企業稱量數量等Pearson系數大于0.3的特征變量。
4.2 XGBoost回歸模型結果
為方便復現本文實驗,故將隨機種子數設置為為100并采用XGBoost回歸模型的默認參數,并在測試集中檢驗模型的精度和誤差。本文使用XGBoost算法研究我國農業新質生產力發展水平驅動機制。使用訓練集對模型進行訓練,回歸模型擬合的R2為0.89,如圖1所示。
(1)圖2顯示了XGBoost模型的SHAP全局特征分析。特征的SHAP值越高,我國農業新質生產力發展水平就越強。從圖中可以看出農業物聯網企業數量、農業機器人企業成立數量和農業Ramp;D人員是影響我國農業新質生產力發展水平的重要因素,且具有顯著的正向效應。
(2)單樣本解釋分析可以對特定地區的預測結果進行解釋,圖3為的單樣本解釋力圖。SHAP將各個特征的作用表示為力量,藍色表示對區域農業新質生產力發展水平的負向力量,紅色表示對地區農業新質生產力發展水平的正向力量。對該地區的農業新質生產力發展水平評價來說,農業經濟發展水平和農業Ramp;D人員等是顯著的正向作用,農業機器人發展不足,最終評價結果為0.22。單樣本解釋有助于對特定地區進行評價分析,制定因地制宜的發展策略以及優化資源配置。
為了更直觀地探究這些特征如何影響模型的輸出,并提取有價值的信息來幫助相關政府部門采取有針對性的措施,本文使用SHAP值映射圖來展示變量之間的非線性關系。與部分依賴關系圖不同,SHAP值映射圖的垂直坐標是SHAP值,而不是輸出標簽值。這導致了關鍵變量的閾值,以提高我國農業新質生產力發展水平。每個變量與我國農業新質生產力發展水平的提高之間存在明顯的分割,這可以很好地反映邊際效應的大小。
(3)農業數字化與農業新質生產力水平的映射關系。農業物聯網企業成立數量是衡量農業數字化的重要指標之一,在圖4中,當農業物聯網企業數量在 [0,50] 區間內時,呈現快速上升趨勢,負向效應不斷減弱。當農業物聯網企業數量超過50家時,對農業新質生產力具有顯著的正向影響,但正向效應開始隨著數量的增加開始趨緩。這說明,加快促進農業數字技術與農業產業全面深度融合,促進農業物聯網企業高質量發展,夯實數字經濟發展基礎,培育數據要素市場,將對提高我國農業新質生產力發展水平起到積極作用。
(4)農業機器人企業數量與農業新質生產力的映射關系。由圖5可知,當農業機器人企業數量在[0,5]的區間時,對農業新質生產力發展水平具有負向效應,且農業新質生產力發展水平的負向效應會隨著農業機器人企業數量增長而降低。當農業機器人企業數量大于5家時,正的SHAP值反映出農業機器人企業數量對農業新質生產力發展水平有顯著的正向影響。積極發展以人工智能、機器人等農業高新技術產業,將有助于推動我國農業新質生產力發展。
(5)農業Ramp;D人員數量與農業新質生產力水平的映射關系。由圖6可知,當農業Ramp;D人員數量在[0,20000]區間內時,隨著技術團隊不斷擴大,負向效應不斷減少,當超過20000人時,正SHAP反映出農業Ramp;D人員數量數量對該地區農業新質生產力發展水平具有顯著的正向影響。但大于4萬人時,農業Ramp;D人員數量的正向效應開始呈現平穩。可以看出,隨著科技領域的快速發展和競爭的加劇,單純追求數量已經無法滿足高質量創新的需求。科技人才隊伍建設的道路上,需要實現從數量擴張到質量優化的轉變。完善科技成果評價保護體制機制,激勵科研人員與企業加強合作,激發農業新質生產力人才潛能。加大對從事新興戰略產業和未來產業等重大科研項目人才團隊的激勵,鼓勵科研人員在新理論、新領域、新方法方面展開探索將有助于提高我國農業新質生產力發展水平。
5 結論與建議
文章基于農業新質勞動者、農業新質生產資料、農業新質勞動對象、科技創新和綠色發展五個維度22個指標構建農業新質生產力發展水平評價體系。采用TOPSIS-XGBoost模型與SHAP機器學習解釋框架相結合,對我國30個省份農業新質生產力發展水平的動態演化及驅動機制進行分析,最后得到以下研究結果:2012至2022年農業新質生產力發展水平總體呈上升趨勢,全國農業新質生產力平均水平從2012年的0.16上升到2022年的0.31;XGBoost回歸算法在我國農業新質生產力發展水平評估中具有較好的適用性。通過對SHAP可解釋工具結果的可視化分析,發現農業物聯網企業數量、農業機器人企業成立數量和農業Ramp;D人員是我國農業新質生產力發展水平的重要關鍵驅動因素,且具有顯著的正向作用。未來的研究可以更多地關注機器學習的可解釋性分析,從而在保證準確性的同時,逐步展示機器學習的內在機制,從而將機器學習很好地應用于現實生活的各個領域。然而,這項研究也有一些局限性。首先,從指標構建的角度來看,本文在指標選擇方面可能存在不足,在今后的研究中,可以考慮增加合適的指標來改善這個問題。其次,可以在現有基礎上進一步研究,增加與政府政策實施相關的變量,以衡量政策實施對農業新質生產力發展水平的影響。
本文確認了農業物聯網企業數量、農業機器人企業成立數量和農業Ramp;D人員等農業新質生產力發展水平評價指標將對我國農業新質生產力發展水平產生重大影響。鑒于此,本文提出相關建議,旨在促進我國農業新質生產力的提升。
第一,擴大農業高新企業規模,重視農業科技人才培養。農業高新技術產業作為推動科技創新、實現經濟高質量發展的重要引擎,其從業人員數量和高新技術企業營業收入的增長,對于提升區域農業新質生產力發展水平具有不可替代的作用。因此,我們需積極調整產業結構,保留必要的傳統產業規劃,此外,農業科技人才隊伍建設是驅動農業新質生產力形成的核心動力。隨著科技領域的快速發展和競爭的加劇,單純追求數量已經無法滿足高質量創新的需求。科技人才隊伍建設的道路上,需要實現從數量擴張到質量優化的轉變。應加大人力資源投入,提升高校培養高素質人才的能力和水平,并營造優良的引才環境。同時,要深化產學研合作,促進創新要素的釋放與融合,加大研發投入,特別是在基礎研究和關鍵核心技術領域。
第二,促進農業數字化發展,推動前沿技術創新。在促進農業新質生產力發展的過程中,首先,加強農業物聯網企業的發展。鼓勵企業加強自主創新,推動軟件產業向高端化、智能化、綠色化方向發展。其次,要支持人工智能技術的發展,加大對人工智能技術的研發和應用支持力度,推動人工智能技術在農業領域的廣泛應用。最后,要推動大數據技術的發展,加強大數據技術的研發和應用,推動數據資源的共享和開放。同時,要加強數據安全和隱私保護,確保數據資源的合法合規使用。
參考文獻:
[ 1 ] 楊廣越.新質生產力的研究現狀與展望[J].經濟問題,2024(05):7?17.
[ 2 ] 鄭新立.發展新質生產力的重大戰略意義[J].中國黨政干部論壇,2024(04):12?16.
[ 3 ] 習近平:加快發展新質生產力扎實推進高質量發展[J].領導科學,2024,(03):2.
[ 4 ] 張林,蒲清平.新質生產力的內涵特征、理論創新與價值意蘊[J].重慶大學學報(社會科學版),2023,29(06):137?148.
[ 5 ] 姜朝暉,金紫薇.教育賦能新質生產力:理論邏輯與實踐路徑[J].重慶高教研究,2024,12(01):108?117.
[ 6 ] 劉建華,閆靜,王慧揚,等.黃河流域新質生產力水平的動態演進及障礙因子診斷[J].人民黃河,2024,46(04):1?7,14.
[7] 李松霞,吳福象.我國新質生產力發展潛力及驅動因素[J].技術經濟與管理研究,2024(03):7?12.
[ 8 ] 孫麗偉,郭俊華.新質生產力評價指標體系構建與實證測度[J/OL].統計與決策,2024(09):5?11[2024?05?17].
[ 9 ] 傅聯英,蔡煜.中國市域新質生產力:時序演變、組群特征與發展策略[J/OL].產業經濟評論:1?18[2024?05?17].
[10] 任宇新,吳艷,伍喆.金融集聚、產學研合作與新質生產力[J/OL].財經理論與實踐:1?8[2024?05?17].
[11] 韓文龍,張瑞生,趙峰.新質生產力水平測算與中國經濟增長新動能[J/OL].數量經濟技術經濟研究,1?22[2024?05?19].
[12] 王玨,王榮基.新質生產力:指標構建與時空演進[J].西安財經大學學報,2024,37(01):31?47.
[13] 朱富顯,李瑞雪,徐曉莉,等.中國新質生產力指標構建與時空演進[J].工業技術經濟,2024,43(03):44?53.
[14] 盧江,郭子昂,王煜萍.新質生產力發展水平、區域差異與提升路徑[J/OL].重慶大學學報(社會科學版):1?16[2024?05?17].
[15] CHENHONG X, GUOFANG Z. The spatiotemporal evolution pattern of urban resilience in the Yangtze River Delta urban agglomeration based on TOPSIS?PSO?ELM[J]. Sustainable Cities and Society, 2022, 87: 104223.
[16] MA M, ZHAO G, HE B, et al. XGBoost?based method for flash flood risk assessment[J]. Journal of Hydrology, 2021, 598: 126382.
[17] ZHANG T, ZHU W, WU Y, et al. An explainable financial risk early warning model based on the DS?XGBoost model[J]. Finance Research Letters, 2023, 56: 104045.
[18] JIA?QI L, YUN?WEN F, DA T, et al. Operational reliability evaluation and analysis framework of civil aircraft complex system based on intelligent extremum machine learning model[J]. Reliability Engineering amp; System Safety, 2023, 235: 109218.
[19] HU W, ZHANG S, FU Y, et al. Objective diagnosis of machine learning method applicability to land comprehensive carrying capacity evaluation: A case study based on integrated RF and DPSIR models[J]. Ecological Indicators, 2023, 151: 110338.
收稿日期:2024?09?22
作者簡介:吳展(2000—)男,安徽池州人,研究方向:農業經濟、機器學習;瞿廷鴻(1999—),男,江蘇鎮江人,上海海洋大學經濟管理學院碩士研究生,研究方向:農業經濟。