999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據要素、數據挖掘與中國服務業生產率提升

2024-07-07 19:51:29于柳箐高煜
商業研究 2024年3期
關鍵詞:數據挖掘

于柳箐 高煜

摘?要:數字經濟時代下數據要素的出現為實現服務業生產率進一步提升提供了新的可能。本文基于2012—2019年中國省際面板數據,使用雙重機器學習方法探究了數據要素影響服務業生產率提升的效應、作用機制與異質性表現。研究發現,數據要素顯著促進中國服務業生產率提升;數據挖掘能力的提高增強了數據要素對服務業生產率提升的效應;數據要素更有助于生活性服務業以及中國東部和南方地區服務業的生產率提升。

關鍵詞:數據要素;數據挖掘;服務業生產率;雙重機器學習

中圖分類號:F719??文獻標識碼:A??文章編號:1001-148X(2024)03-0009-11

收稿日期:2023-08-01

作者簡介:于柳箐(1990—),男,陜西西安人,博士研究生,研究方向:機器學習、計量經濟學、產業經濟學;高煜(1973—),男,陜西白水人,教授,博士生導師,研究方向:產業經濟學、發展經濟學。

基金項目:國家社會科學基金后期資助項目“創新驅動價值鏈升級的理論與實證研究”,項目編號:21FJLB028;陜西省社會科學基金項目“現代產業分工推動西安都市圈與關中平原城市群協調發展研究”,項目編號:2021DA016。

①《中華人民共和國2019年國民經濟和社會發展統計公報》顯示,服務業超過農業和工業成為第一大產業,其增加值占GDP的比重和對GDP的貢獻率均達到50%以上。

一、引?言

黨的二十大報告指出,要“構建優質高效的服務業新體系”,而推進服務業生產率提升是其首要任務。當前,中國已經進入了以服務經濟為主的新時代①[1],同時也結束了持續近四十年的高速經濟增長。從產業結構來看,中國經濟增速放緩主要是由于以服務業為主導產業結構的經濟體系出現經濟增速下行的趨勢,而之所以發生這種“結構性減速”,主要原因在于服務業本身具有低效率特征,進而產生了所謂的“成本病”問題。Baumol(1967)研究發現,隨著技術進步,制造業對勞動力的需求不斷減少,在勞動力要素轉移至服務業后,不僅沒有推動服務業生產率提升,反而由于產業間效率的不平衡增長導致整體經濟增速下滑[2]。因此,為改變中國經濟增速下行趨勢,必須進一步提升服務業生產率。然而,勞動力、資本等生產要素普遍存在邊際報酬遞減特性,同時在人口老齡化、工資上漲、資本效率下降等情況下,傳統要素提升服務業生產率的動能不足[3-4]。

幸運的是,中國經濟在進入以服務業為主的發展階段時,恰好與數字技術的興起相重合,因此有可能打破“服務業時代是低增長時代”這個過往的規律[1]。數字技術的應用不僅能從根本上改變傳統服務業低效率的特征,還可以創造新的服務和商業模式,使得服務業生產率得以提升[5-8]。更為重要的是,隨著大數據、物聯網、云計算等數字技術的進步,中國步入了數字經濟時代,其中最為鮮明的變化是,數據成為繼勞動力、資本等傳統要素后形成的又一基礎性生產要素。2020年3月30日,印發的《中共中央?國務院關于構建更加完善的要素市場化配置體制機制的意見》,第一次從國家層面確立了數據基礎性生產要素的地位。2022年12月2日,又印發了《中共中央?國務院關于構建數據基礎制度更好發揮數據要素作用的意見》,進一步強調“為加快構建數據基礎制度……激活數據要素潛能”。

數據要素與傳統要素最根本的區別在于具有易復制性,使得其額外使用的成本幾乎為零,由此又衍生出數據要素的非競爭性,即任何主體都可以使用同一套數據而不會損害其他主體對數據的使用,尤其是與傳統要素邊際產出不斷下降不同,數據要素的回報率較高[9],因此體現出巨大的經濟價值[10]。Müller等(2018)與張葉青等(2021)分別針對美國和中國企業的實證研究發現,大數據的應用顯著提高了企業生產效率,這無疑提供了數據要素可以提升服務業生產率的部分證據[11-12]。然而,現有研究主要關注網絡技術[6-7]、數字經濟發展[13]等對服務業低效率特征的改善,以及數字技術[14]、數字基礎設施[15]等對服務業生產率提升的作用,并未涉及數據要素對服務業生產率的影響。有鑒于此,本文在厘清數據要素提升服務業生產率內在機理的基礎上,以2012—2019年中國省際面板數據為樣本,使用雙重機器學習方法就數據要素影響服務業生產率提升的效應、作用機制與異質性表現進行檢驗。本文的研究不僅有助于進一步理解數據要素的價值以及如何發揮其作用,并且對擁有海量數據規模和豐富應用場景優勢的中國而言,證實數據要素對服務業生產率具有提升作用,對于激活數據要素潛能,治愈服務業“成本病”,打破經濟“結構性減速”規律具有重要的現實意義。

與現有研究相比,本文的創新之處主要體現在以下兩個方面:(1)就研究內容而言,明確從數據要素角度對服務業生產率提升問題展開理論分析與實證檢驗,為相關研究提供了一定補充。首先,理論分析了數據要素對服務業生產率提升的影響,豐富了數據要素、服務業生產率等領域的研究;其次,考察了數據挖掘對數據要素促進服務業生產率提升的調節作用,不僅加深了對數據要素影響服務業生產率內在機制的理解和認識,也為更好發揮數據要素生產率提升效應提供政策參考。(2)就研究方法而言,使用雙重機器學習這一較為前沿的因果推斷方法,不但滿足了本文的研究需求,還得到了更為有效的數據要素提升中國服務業生產率效應估計,提高了結論的可信性。由于影響服務業生產率提升的要素較多,為得到數據要素的一致估計,其他潛在混淆因素均需考慮控制。然而在一定樣本容量下,經典因果推斷模型僅能控制少量因素,容易發生由遺漏變量引起的內生性問題,但是增加控制變量后,又會產生自由度下降、多重共線性和“維度災難”等問題,造成估計失效。同時,其他潛在混淆因素對服務業生產率的影響還可能是非線性的,而經典因果推斷模型的線性假設將造成估計有偏。在對數據要素提升中國服務業生產率效應的估計中,基于機器學習算法在高維數據處理和非參數擬合上的優勢,采用雙重機器學習方法不僅可以控制更多的協變量,還可以不受函數形式的限制,從而在一定程度上緩解了使用經典因果推斷模型時所遇到的變量遺漏和函數誤設問題。

二、理論機制與研究假說

作為生產要素的數據其實質是存在于網絡和計算機內的0—1字符,因而相較于勞動力、資本等傳統要素更為原始、分散、細碎,需要進行采集、整理(存儲)、清洗后才能成為企業生產的投入[16]。尤其是與傳統要素依賴直接消耗和形變產生價值不同,數據中蘊藏著規律,僅具有價值潛能,只有通過分析提煉出有用的知識才能將其價值釋放[17]。數據要素促進服務業生產率提升的機制如圖1所示。

圖1?數據要素促進服務業生產率提升的機制

(一)數據要素對服務業生產率提升的影響

1?數據要素驅動企業形成數據決策范式,實現服務業生產率提升

數據作為重要的生產要素之一,改變了服務業企業傳統的經營管理決策模式,驅動企業形成數據決策范式。對日常生產、經營、管理中產生的數據進行挖掘,企業可以得到優化自身經營管理決策的有用知識,而對這些知識的應用將賦能決策實踐,提高經營管理決策效率。一方面,數據決策范式提升了企業內部信息的透明度,形成對生產經營活動的細致觀察,使得決策時可用信息更加豐富,比如在財務決策中,除了使用傳統的資產負債表、現金流表、利潤表外,還可以引入對口碑、品牌價值等數據資產的測量信息[18]。另一方面,數據決策范式激發了企業在商業洞察、風險預判和業務模式等方面的創新[19],進而增強了對市場環境變化的反應,不僅對未來發展方向的分析更為準確,還可以及時作出相關決策,在瞬息萬變的市場變化中降低了經營管理風險,提高了生產效率[20]。

2?數據要素驅動形成數據密集型服務企業,實現服務業生產率提升

隨著數據要素規模的擴大,以及機器學習、深度學習、人工智能等算法的優化,更多知識、信息、洞見等得以挖掘提煉,為新產品和新服務的開發提供了有力支持[21]。在服務業層面,以云計算、移動互聯網、5G等為技術支撐,數據要素驅動的新業態、新服務、新模式不斷涌現,并逐漸形成一批數據密集型服務企業,使得住宿餐飲、交通運輸、批發零售等服務領域不僅實現了更為有效精準的供需匹配[22],更是突破了服務的時空限制,改變了服務業不可儲存、不可貿易的特性,從根本上解決了傳統服務業低效率的問題[7]。據此,本文提出以下假說:

H1:數據要素可以促進中國服務業生產率提升。

(二)數據挖掘對數據要素促進服務業生產率提升的影響

前文分析表明,數據在經過采集、存儲、清洗和分析等步驟后,將提煉出有關如何改進企業經營管理決策、供需匹配等知識,進而驅動企業數據決策范式和數據密集型服務企業的形成,實現服務業生產率提升。以上數據處理步驟即為數據挖掘過程,在數據價值釋放、知識生產中發揮著關鍵作用。數據要素的出現以及相關數據挖掘技術的進步改變了知識發現模式,尤其是數據要素所具有的非競爭性和低復制成本特征,使其可以被不同主體重復、同時挖掘,進而促使更多、更有價值的知識被發現,呈現知識倍增態勢,提高企業新知識獲取的效率。因此,企業數據挖掘能力越強,知識生產效率就越高,即從單位數據中能夠產生更多的知識,從而數據要素對企業生產率的提升就越明顯。據此,本文提出以下假說:

H2:數據挖掘對數據要素促進服務業生產率提升具有正向調節作用,即數據挖掘能力的提高將增強數據要素對服務業生產率提升的效應。

三、研究設計

(一)模型構建

為避免使用經典線性因果推斷方法可能遭遇的變量遺漏和函數誤設問題,得到更為有效的數據要素影響中國服務業生產率效應估計,本文建立如下部分線性回歸雙重機器學習模型(Partially?Linear?Regression-Double?Machine?Learning,?PLR-DML):

proi,t=θ0datScai,t+g0Xi,t+Ui,t,EUi,tdatScai,t,Xi,t=0(1)

datScai,t=m0Xi,t+Vi,t,EVi,tXi,t=0(2)

其中,下標i代表省份、t代表年份。proi,t為結果變量,表示服務業生產率;datScai,t為處理變量,表示數據要素投入規模;θ0是需要重點關注的數據要素影響服務業生產率的條件平均處理效應;Xi,t是涉及其他影響服務業生產率因素的高維控制變量(協變量),g0Xi,t與m0Xi,t則分別為關于Xi,t影響結果變量proi,t和處理變量datScai,t的未知函數,即厭惡函數;Ui,t和Vi,t是條件均值為零的隨機誤差項。

傳統的參數回歸首先設定g0Xi,t為完全線性或交互項、平方項等形式,隨后執行OLS估計,然而由于處理變量datScai,t還受協變量Xi,t的影響,如此可能導致函數誤設,造成估計有偏。為了避免函數設定偏差,可以使用核回歸等非參數方法估計0Xi,t,但是當協變量Xi,t維度很高時,這又會產生“維度災難”問題,造成估計失效。使用適用于高維數據回歸的機器學習方法(如SVM、Lasso、XGBoost)估計0Xi,t即可解決這一問題,此時處理變量系數θ0的估計量為:

0=1n∑i∈I,t∈TdatSca2i,t-11n∑i∈I,t∈TdatScai,t(proi,t-0(Xi,t))(3)

其中,n表示樣本容量。然而,直接使用機器學習估計0Xi,t時將引入正則化偏差,造成估計量0有偏。為此,需要從處理變量datScai,t分離出協變量Xi,t的影響,從而得到具有正交性的處理變量,即使用機器學習估計0Xi,t,然后計算殘差V[DD(-*2/3][HT6”]^[][HT][DD)]i,t=datScai,t-0Xi,t,此時V[DD(-*2/3][HT6”]^[][HT][DD)]i,t作為處理變量datScai,t的工具變量滿足相關性與外生性要求,因此可以使用IV矩估計得到θ[DD(-*2/3][HT6”]^[][HT][DD)]0:

θ[DD(-*2/3][HT6”]^[][HT][DD)]0=1n∑i∈I,t∈TV[DD(-*2/3][HT6”]^[][HT][DD)]i,tdatScai,t-11n∑i∈I,t∈TV[DD(-*2/3][HT6”]^[][HT][DD)]i,t(proi,t-0(Xi,t))(4)

遺憾的是,估計量θ[DD(-*2/3][HT6”]^[][HT][DD)]0依然可能存在偏差,因為使用較為復雜的機器學習算法還引入了過擬合偏差,這可以通過交叉擬合解決,即將樣本隨機劃分為等量的兩部分,一部分用于機器學習估計0Xi,t和0Xi,t,另一部分用于θ[DD(-*2/3][HT6”]^[][HT][DD)]0的估計,隨后交換兩部分樣本重新進行以上估計,最后取兩次θ[DD(-*2/3][HT6”]^[][HT][DD)]0估計值的平均數此時這一估計方法稱為2折交叉擬合,為了提高處理效應估計量的精確性,一般在實踐中還采用5折交叉擬合進行估計,即將樣本隨機劃分為5個部分,進行5次交叉估計。。Chernozhukov等(2018)證明,在消除正則化偏差和過擬合偏差后,PLR-DML處理效應估計量是一致的[23]。

(二)變量設定

1?結果變量

本文的結果變量為服務業生產率,以勞動生產率(serLab)和全要素生產率進行衡量,其中,勞動生產率采用人均增加值的自然對數表示,全要素生產率則使用Malmquist指數方法進行測算(以符號Malmquist_TFP表示)產出變量為服務業增加值(經過平減處理),投入變量分別為服務業就業人數和資本存量(基于服務業實際固定資產投資數據使用永續盤存法計算)。需要說明的是,由于Malmquist計算的是以基年(2012)的值為1時后續年份TFP相較于上一年的變化,因此本文通過累乘上一年指數的方式將Malmquist_TFP指標轉換為水平值。。

2?處理變量

本文旨在研究數據要素能否提升中國服務業生產率的問題,因此處理變量是數據要素投入規模,使用徐翔等(2021)基于成本法估算的歷年中國各省份數據要素規模存量(datSca)的自然對數進行衡量[24]。具體方法如下:數據生產過程中的成本分為人工成本與數據庫這里的數據庫是指廣義上的進行數據采集、存儲、清洗和分析等相關軟件和ICT設備。成本,前者由相關勞動力的工資支出進行衡量,后者則使用相關ICT資產的投資支出進行衡量。t年份i省份j行業包括《國民經濟行業分類》標準中的所有二位數(大類)行業。的數據生產人工成本為αjWagei,j,t,其中αj表示行業j中數據生產勞動力成本占總勞動力成本的比重,Wage表示就業人員工資總額??梢钥吹剑瑪祿a人工成本測算的關鍵在于對αj的估計。實際上,任何一類勞動力都不會將全部工作時長均用于數據生產,由于數據生產過程主要依賴相應的ICT設備,因此行業ICT中間投入占總中間投入的比重反映了行業勞動力數據生產時長占總勞動時長的比重,進而反映了行業數據生產勞動力成本占總勞動力成本的比重:

ICT中間投入總中間投入≈勞動力數據生產時長總勞動時長≈數據生產勞動力成本總勞動力成本=αj(5)

加總所有行業的數據生產人工成本即為t年份i省份的數據生產人工成本(∑jαjWagei,j,t),進一步與t年份i省份的數據庫成本(datBasei,t)使用軟件和信息技術服務業的固定資產投資數據衡量。相加即可得到i省份當年新增的數據要素規模(流量)此時為名義值,采用固定資產投資價格指數進行平減。。最后使用永續盤存法即可計算得到i省份在t年份的數據要素存量:

datScai,t=1-δDdatScai,t-1+(∑jαjWagei,j,t+datBasei,t)(6)

其中,δD為數據要素的折舊率,徐翔和趙墨非(2020)認為,短期內數據要素的折舊率接近于0[9];基期的數據要素存量為當年新增數據要素規模除以后5年數據要素流量的平均增長率。

3?控制變量

考慮到雙重機器學習具有控制高維協變量的優勢,為避免遺漏變量偏差,本文參考相關研究[8,25],建立了包括7個要素類別,涵蓋30種要素的影響服務業生產率提升的投入要素指標體系,如表1所示。不同于現有研究,本文在人力資本要素中包含了數據勞動指數據生產過程中所涉及的有關勞動力。,在物質資本要素中包含了數據資本指數據生產過程中所涉及的有關軟件和ICT設備。、網絡基礎設施以域名數(domNa)和互聯網寬帶接入端口數(port)作為對網絡基礎設施建設情況的衡量。,以反映數字經濟時代下人力資本與物質資本的新內涵。其中,對于數據勞動人數(datLab)的測算,使用與數據生產緊密相關的7個國民經濟大類行業計算機、通信和其他電子設備制造業;儀器儀表制造業;通用設備制造業;專用設備制造業;軟件和信息技術服務業;互聯網和相關服務;電信、廣播電視和衛星傳輸服務。在各省的就業人數,分別乘以徐翔等(2021)估算的對應行業數據生產勞動力成本占總勞動力成本的比重[24],隨后在省份層面對以上計算結果進行加總;數據資本投資(datInv)使用軟件和信息技術服務業的固定資產投資數據進行衡量該行業的固定資產包括進行數據生產所需的各種軟件、數據庫、計算機等。,并基于永續盤存法計算數據資本存量(datK)其中,基期數據資本存量為當年數據資本投資/10%,同時考慮到數據資本的更新換代較快,因此設定折舊率為20%。。

(三)數據說明與變量描述性統計

本文所用面板數據的時間區間為2012—2019年,共涉及31個省區市考慮數據可得性,不包括中國臺灣、中國香港和中國澳門。。計算服務業勞動生產率和全要素生產率的相關數據來自《中國第三產業統計年鑒》《中國勞動統計年鑒》《中國固定資產投資年鑒》和《中國投資領域統計年鑒》等。其他控制變量數據的來源除以上統計年鑒外,還包括《中國統計年鑒》《中國科技統計年鑒》《中國人口和就業統計年鑒》《中國教育統計年鑒》以及中國研究數據服務平臺(CNRDS)。缺失的數據由線性插值法填補,有關增加值、固定資產投資、收入等涉及價格的變量均進行了平減處理(2012=1)。另外,由于本文樣本中變量較多且單位存在較大差異,為消除不同量綱對雙重機器學習估計的不利影響,對數據進行了標準化處理。主要變量的描述性統計結果如表2所示。

四、實證結果分析

(一)數據要素影響服務業生產率的效應

表3報告了使用PLR-DML模型得到的數據要素影響服務業生產率效應估計結果采用R語言DoubleML包中的DoubleMLPLR函數進行估計,超參數選擇與模型構建對應,一方面對處理變量進行正交化處理(orthogonalization)以消除正則化偏差,即score=“IV-type”;另一方面使用交叉擬合估計處理變量系數,即dml_procedure=?“dml1”。。其中,模型(1)和(2)使用5折交叉擬合,模型(3)和(4)則使用2折交叉擬合。對PLR-DML模型中厭惡函數的估計可以使用任意機器學習方法,本文選擇默認超參數的XGBoost如無特別說明,后文實證中均使用默認超參數的XGBoost估計厭惡函數,同時DML超參數也與基準估計一致。,因為該方法基于極端梯度提升算法改進了經典提升森林模型,泛化(樣本外預測)性能在眾多機器學習模型中具有優勢,進而能更好地反映高維協變量與數據要素投入、服務業生產率提升之間真實的數據生成過程,使得對數據要素影響服務業生產率效應的估計更為有效。與此同時,為進一步避免不同地區不隨時間變化的,以及省際層面隨時間變化的不可觀測因素對估計的影響,借鑒張濤和李均超(2023)的做法,將省份和年份變量轉換為虛擬變量納入協變量中,以對地區固定效應和時間固定效應加以控制[26]。可以看到,服務業生產率無論以勞動生產率還是全要素生產率進行衡量,在5折和2折交叉擬合下,datSca的系數均在1%的水平上顯著為正,說明數據要素顯著促進中國服務業生產率提升,假說H1成立。

(二)內生性問題處理

在基準估計中,雖然已經引入了盡可能多的協變量,并控制了地區和時間固定效應,但由于樣本限制,依然可能遺漏變量,同時還可能存在處理變量測量誤差和雙向因果,從而引發內生性問題,造成PLR-DML估計不一致。為此,本文使用雙重機器學習的工具變量法予以克服。依據Chernozhukov等(2018),構建部分線性工具變量回歸模型(Partially?Linear?Instrumental?Variable?Regression?Model,?PLIV)[23]:

proi,t=θ0datScai,t+g0Xi,t+Ui,t(7)

IVi,t=m0Xi,t+Vi,t(8)

其中,IV表示datSca的工具變量。參考施炳展和李建桐(2020)的研究,本文選擇建國初期(1953—1957年)各省份人均函件數量(letter)作為datSca的工具變量[27]。其合理性在于:一方面letter符合相關性要求,函件數量反映了各省份居民對于通信方式的接受程度或者偏好,而這種偏好在省份內相對穩定,進而影響了此后居民對互聯網這一現代通訊方式的接受程度,由于互聯網是數據要素主要的生成與流通媒介,從而與datSca存在相關性;另一方面letter符合外生性要求,因為函件僅能滿足居民的日常通信需求,并不會對服務業生產率產生直接影響,同時建國初期人均函件數量也不可能影響到近期的服務業生產率,因此,letter只能通過地區數據規模這一途徑間接影響服務業生產率。另外,參考鈔小靜和王宸威(2022)的研究,本文還選擇1988年各省份每百萬人微型電子計算機產量(computer)作為datSca的工具變量[28]。其合理性在于:一方面computer符合相關性要求,由于計算機是數據要素形成、展示、存儲以及分析等的重要載體,因此早期計算機產量越高的地區,后期數據要素規模就可能越大,從而computer與datSca存在相關性;另一方面computer符合外生性要求,因為較早時期各省份的計算機產量對近期服務業生產率的直接影響微乎其微。因此,computer只能通過地區數據規模這一途徑間接影響服務業生產率。進一步,根據Nunn?and?Qian(2014)的做法,本文為上述截面工具變量引入時間趨勢,具體是將letter和computer分別乘以上一年全國軟件和信息技術服務業固定資產投資(不含農戶)數據,構造交互項并取自然對數,從而將其擴展為面板工具變量[29]。

表4報告了工具變量估計結果采用R語言DoubleML包中的DoubleMLPLIV函數進行估計,超參數使用默認值,即score=“partialling?out”,dml_procedure=“dml2”。,可以看到,在以勞動生產率和全要素生產率衡量服務業生產率時,無論是以computer還是letter作為datSca的工具變量,其系數均在1%的水平上顯著為正,這與基準估計一致,說明充分考慮內生性問題后,數據要素促進中國服務業生產率提升的結論依然成立,本文的研究假說H1得到了進一步證實。

(三)穩健性檢驗

1?更換處理變量

為進一步緩解由處理變量測量誤差引發的內生性問題,借鑒楊艷等(2023)在驗證其估算的數據要素價值是否合理時的做法,使用移動互聯網接入流量(intFlo)作為數據要素投入規模的代理變量[30]。估計結果如表5列(1)所示。

2?更換結果變量

Malmquist指數法屬于非參數方法,在測算TFP時不僅無法檢驗前沿面的適用性,也未能考慮隨機因素的影響,為此本文使用基于超越對數生產函數的隨機前沿分析法(SFA)重新測算服務業全要素生產率(以符號SFA_TFP表示)。同時,進一步考慮到參數法測算TFP時難以避免內生性問題,本文還使用半參數的OP法測算了服務業全要素生產率(以符號OP_TFP表示)。估計結果如表5列(2)和列(3)所示。

3?解釋變量滯后

服務業生產率的提升可能會進一步加快形成新業態、新服務、新模式,在深化服務業數字化程度的同時導致數據要素規模的持續擴大,從而出現雙向因果。為進一步緩解由雙向因果導致的內生性問題,本文將處理變量和控制變量均滯后一期。估計結果如表5列(4)所示。

4?更換機器學習

相比于其他機器學習算法,XGBoost對數據的擬合能力較強,有可能錯誤學習樣本內的隨機誤差,進而降低泛化性能(即發生過擬合現象),影響雙重機器學習估計量的有效性和一致性。為避免XGBoost過擬合對PLR-DML的估計結果產生影響,分別使用支持向量機(SVM)和套索回歸(Lasso)對厭惡函數進行估計。結果如表5列(5)和列(6)所示。

可以看到,在更換處理變量、結果變量、機器學習以及滯后解釋變量一期后,數據要素影響中國服務業生產率的效應均在1%的水平上顯著為正,這充分說明本文的基本結論穩健。

(四)調節機制檢驗

本文在基準估計模型(1)、模型(2)的基礎上引入數據規模(datSca)與數據挖掘能力變量的交互項,以檢驗數據挖掘對數據要素促進服務業生產率提升效應的調節作用,具體模型構建如下:

proi,t=θ0datScai,t×datMini,t+g0Xi,t+Ui,t,EUi,tdatScai,t×datMini,t,Xi,t=0(9)

datScai,t×datMini,t=m0Xi,t+Vi,t,EVi,tXi,t=0(10)

其中,datMini,t表示i省份在t年的數據挖掘能力;θ0是本文關心的交互項系數,若顯著為正則表明數據挖掘能力的提高增強了數據要素對服務業生產率提升的促進作用。另外,為保證估計的一致性,將datScai,t和datMini,t同時歸入協變量Xi,t中。

本文使用多指標綜合評價方法構建數據挖掘能力指數,以反映不同省份歷年的數據挖掘能力。數據挖掘過程由相關勞動力使用相應軟件、數據庫、計算機等實現,因此當數據勞動供給和數據資本投資充足時,地區將擁有較強的數據挖掘能力,換言之,數據勞動人數和數據資本水平體現了地區的數據挖掘能力。鑒于此,本文分別基于主成分分析(PCA)、面板熵值法(EEM)以及算術平均法(Mean)將數據勞動人數、數據資本投資和數據資本存量三個指標綜合為數據挖掘能力指數(datMin)。

表6報告了調節機制檢驗結果,可以看到,在以勞動生產率和全要素生產率衡量服務業生產率時,無論以何種方法計算數據挖掘能力指數,交互項datSca×datMin系數均在1%的水平上顯著為正,說明數據挖掘對數據要素促進服務業生產率提升具有正向調節作用,即數據挖掘能力的提高顯著增強了數據要素對服務業生產率提升的效應,假說H2得到證實。

五、異質性分析

(一)服務業類型差異

服務業可以分為生產性服務業和生活性服務業兩種類型,前者是與工業、制造業發展直接配套的一類服務業依據國家統計局發布的《生產性服務業統計分類(2019)》標準,生產性服務業包括以下行業:批發和零售業,交通運輸、倉儲及郵政業,信息傳輸、軟件和信息技術服務業,金融業,租賃和商務服務業,科學研究和技術服務業。,后者是為滿足居民日常生活需求的一類服務業依據國家統計局發布的《生活性服務業統計分類(2019)》標準,生活性服務業包括以下行業:住宿和餐飲業,房地產業,水利、環境和公共設施管理業,居民服務、修理和其他服務業,教育,衛生和社會工作,文化、體育和娛樂業。。由于這兩類服務業在國民經濟發展中的用途各異,使得它們在數字化進程以及數據要素需求上可能有所不同,進而導致數據要素對這兩類服務業生產率提升的效應存在差異。為此,本文使用PLR-DML模型分別估計數據要素對生產性和生活性服務業生產率采用勞動生產率(即增加值/就業人數)的自然對數進行衡量。其中兩類服務業的增加值和就業人數數據由各自所包括行業的數據加總而來。需要說明的是,國家統計局一直公布個別服務業行業的增加值數據,比如批發和零售業,交通運輸、倉儲和郵政業,住宿和餐飲業,金融業,房地產業,而其他服務業行業的增加值數據則全部合并至“其他行業增加值”指標內,因此本文參考夏杰長等(2019)的方法,首先分別計算未公布增加值行業的工資總額在“其他行業”工資總額中所占的比例,隨后用這一比例分別乘以“其他行業增加值”,以推算出未公布增加值行業的增加值數據[25]。的影響效應,以探究數據要素對不同類型服務業生產率的影響是否具有異質性。估計結果如表7所示。

從表7可以看到,無論使用5折還是2折交叉擬合進行估計,數據要素影響生產性和生活性服務業生產率的效應均在1%的水平上顯著為正,說明數據要素對這兩類服務業的生產率均能發揮提升作用。進一步,從datSca系數值來看,生產性服務業中平均為06531,生活性服務業中平均為08234,表明數據要素對這兩類服務業生產率提升的作用程度存在明顯差異,相比于生產性服務業,數據要素更有助于生活性服務業生產率的提升。本文的解釋是,隨著相關數字技術的發展,在出行、住宿、餐飲等生活服務領域快速形成了各種數字平臺比如滴滴出行、貝殼找房、攜程、去哪兒、美團外賣等。,有關企業使用數據要素實現供需匹配的動力較強,在面對諸如消費者畫像、服務品推薦等復雜的數據要素應用場景時,培養和引進了更多數據人才,投資了更多數據資本,導致生活性服務業內的企業在數據挖掘能力上具有較大優勢,從而能更有效釋放數據要素的潛在價值。

(二)東西、南北區域差異

在中國區域經濟東西差距依然存在的情況下,南北差距也愈發明顯,與此同時,各區域在服務業生產率水平、數字化程度、數據要素稟賦等方面也有所不同,可能導致數據要素對不同區域服務業生產率提升的效應存在差異。鑒于此,本文在基準估計模型(1)和模型(2)的基礎上引入數據規模(datSca)與區域虛擬變量的交互項,以考察數據要素提升服務業生產率的區域異質性,模型設定如下:

serLabi,t=θ0datScai,t×region+g0Xi,t+Ui,t,EUi,tdatScai,t×region,Xi,t=0(11)

datScai,t×region=m0Xi,t+Vi,t,EVi,tXi,t=0(12)

其中,serLabi,t表示i省份在t年的服務業勞動生產率;region表示區域虛擬變量,包括東西(EW)、南北(NS)兩個變量,屬于東部和南方地區的省份定義為1,屬于西部和北方地區的省份定義為0東部省份包括:安徽省、北京市、福建省、廣東省、海南省、河北省、黑龍江省、吉林省、江蘇省、江西省、遼寧省、山東省、上海市、天津市、浙江省,其余省份屬于西部地區;以中國北緯35°線為界,南方省份包括:上海市、江蘇省、浙江省、安徽省、福建省、江西省、湖北省、湖南省、廣東省、廣西省、海南省、重慶市、四川省、貴州省、云南省、西藏自治區,其余省份屬于北方地區。。同時,為保證估計的一致性,將datScai,t和region歸入協變量Xi,t中。估計結果如表8所示。

從表8可知,無論以5折還是2折交叉擬合進行估計,datSca×EW和datSca×NS的系數均在1%的水平上顯著為正,說明相較于西部與北方地區,數據要素促進服務業生產率提升的效應在中國東部和南方地區更為明顯。對此可能的解釋是,東部與南方地區數據要素供給更充裕、流通更通暢、價值釋放更充分,即數據要素市場化程度更高這一判斷來自國家工業信息安全發展研究中心、北京大學光華管理學院等共同編寫的《中國數據要素市場發展報告(2021—2022)》,該報告基于對數據要素市場化過程的分析,建立了“中國數據要素市場化指數”。各區域數據要素市場化指數分別為:南方地區,5816;北方地區,5140;東部地區,7000;西部地區,4545。,進而在數據要素的生成環境、采集渠道、質量水平、價值密度以及知識提煉等方面具有優勢,不僅有助于服務業企業加快形成數據決策范式,也有助于數據密集型服務企業更好、更快發展,這無疑更有利于數據要素服務業生產率提升效應的發揮。

六、結論與政策建議

本文試圖從理論和實證兩個層面探究數據要素對服務業生產率的影響,通過理論分析厘清數據要素影響服務業生產率提升的內在機理,并基于2012—2019年中國省際面板數據,使用雙重機器學習方法檢驗數據要素影響服務業生產率提升的效應、作用機制與異質性表現。實證結果表明:(1)數據要素顯著促進中國服務業生產率提升,在使用雙重機器學習的工具變量法以及經過一系列穩健性檢驗后這一結論仍然成立;(2)就作用機制而言,數據挖掘能力的提高顯著增強了數據要素對服務業生產率提升的效應;(3)異質性分析還發現,數據要素對不同類型和區域服務業生產率提升的效應存在差異,相比于生產性服務業,數據要素更有助于生活性服務業生產率的提升;相較于西部與北方地區,數據要素促進服務業生產率提升的效應在中國東部和南方地區更為明顯?;谏鲜鲅芯拷Y論,本文的政策建議如下:

第一,擴大數據要素規模,增加數據要素投入。在政策層面,首先,政府應著力提高數據要素市場化配置水平,加快健全數據產權、數據開放、數據安全等法律法規建設,重視數據要素交易和流通的體制機制建立,努力營造良好的、有助于數據要素良性發展的制度和市場環境。其次,政府應積極推進互聯網+、物聯網、人工智能、大數據等新一代信息技術的發展,以加速數據要素生成、加快數據要素采集。增加數據交易中心、區塊鏈、云服務平臺等數字基礎設施投入,以加快破除阻礙數據要素流動的技術壁壘。鼓勵創新服務業新業態、新服務、新模式,加強金融配套、完善監管制度,以加快構建豐富的數據要素應用場景。在企業層面,服務業企業應加大數據要素投入占比,轉換生產率提升動能,進而加快形成數據決策范式,以提高經營管理決策效率,明晰未來發展方向,減少經營風險。另外,對于生產性服務業,政府應積極引導數據資源,數據挖掘人才、設備等集聚,加速數字化轉型,同時積極鼓勵交通運輸(物流)、批發零售、金融等領域深化數字服務、平臺等創新。

第二,加快提高數據挖掘能力,充分釋放數據要素價值。首先,服務業企業需要加大對數據傳感器、數據存儲服務器、云計算設備、高速計算機等的投資,為數據要素的采集、存儲、清洗和分析等提供硬件保障。其次,政府需要加快數據清洗、分析等人才的培養。由于短期內現行的教育體制無法完全滿足企業對數據挖掘人才的旺盛需求,因此政府應牽頭開展產學研合作,聯合高校、企業和一切社會力量為相關人才的培養與引進提供平臺。

第三,探索促進數據要素發展、提高數據挖掘能力的差異化政策。對于西部和北方省份,首先,各級政府應加強數據要素市場化建設,加快相關配套制度建立,以擺脫數據要素供給不足、流通不暢、價值釋放不夠的困境,并充分利用數據要素服務業生產率提升紅利,縮小服務業發展的區域差距,進一步改善中國區域經濟發展失衡現狀;其次,國家在數據要素市場化配置上應給予西部和北方省份一定的政策傾斜,比如批準建立更多的數據存儲或交易中心,使各級政府可以在數據要素市場的供給側方面做好文章;最后,地方政府應盡力完善數據人才的引進與激勵機制,努力做到人才在生活、醫療、子女教育等方面沒有后顧之憂,以加快實現數據人才集聚。

參考文獻:

[1]?譚洪波.新發展階段服務業“走出去”:路徑、挑戰與對策[J].經濟縱橫,2023(3):60-68.

[2]?Baumol?W?J.?Macroeconomicsof?Unbalanced?Growth:?The?Anatomy?of?Urban?Crisis[J].American?Economic?Review,?1967,57(3):?415-426.

[3]?鄭江淮,宋建,張玉昌,等.?中國經濟增長新舊動能轉換的進展評估[J].中國工業經濟,?2018(6):?24-42.

[4]?楊晨,原小能.?中國生產性服務業增長的動力源泉——基于動能解構視角的研究[J].財貿經濟,?2019(5):?127-142.

[5]?Peters?B,?Riley?R,?Siedschlag?I,et?al.?Internationalisation,?Innovation?and?Productivity?in?Services:?Evidence?from?Germany,?Ireland?and?the?United?Kingdom[J].Review?of?World?Economics,?2018,154(3):?585-615.

[6]?江小涓.?網絡空間服務業:效率、約束及發展前景——以體育和文化產業為例[J].經濟研究,?2018(4):?4-17.

[7]?江小涓,羅立彬.?網絡時代的服務全球化——新引擎、加速度和大國競爭力[J].中國社會科學,2019(2):68-91+205-206.

[8]?胡宗彪,周佳.?服務業全要素生產率再測度及其國際比較[J].數量經濟技術經濟研究,2020(8):103-122.

[9]?徐翔,趙墨非.?數據資本與經濟增長路徑[J].經濟研究,2020(10):?38-54.

[10]Jones?C?I,Tonetti?C.?Nonrivalry?and?the?Economics?of?Data[J].American?Economic?Review,2020,110(9):?2819-58.

[11]Müller?O,Fay?M,Brocke?V?J.?TheEffect?of?Big?Data?and?Analytics?on?Firm?Performance:?An?Econometric?Analysis?Considering?Industry?Characteristics[J].Journal?of?Management?Information?Systems,2018,35(2):?488-509.

[12]張葉青,陸瑤,李樂蕓.?大數據應用對中國企業市場價值的影響——來自中國上市公司年報文本分析的證據[J].經濟研究,2021(12):?42-59.

[13]矯萍,田仁秀.數字技術創新賦能現代服務業與先進制造業深度融合的機制研[J].廣東財經大學學報,2023,38(1):?31-44.

[14]李帥娜.?數字技術賦能服務業生產率:理論機制與經驗證據[J].經濟與管理研究,2021(10):?51-67.

[15]尚文思.?新基建對勞動生產率的影響研究——基于生產性服務業的視角[J].南開經濟研究,2020(6):?181-200.

[16]Abis?S,Veldkamp?L.?The?Changing?Economics?of?Knowledge?Production[R].SSRN?Working?Paper,2021,No.3570130.

[17]王超賢,張偉東,顏蒙.?數據越多越好嗎——對數據要素報酬性質的跨學科分析[J].中國工業經濟,2022(7):?44-64.

[18]陳國青,任明,衛強,等.?數智賦能:信息系統研究的新躍遷[J].管理世界,2022(1):?180-196.

[19]陳國青,曾大軍,衛強,等.?大數據環境下的決策范式轉變與使能創新[J].管理世界,2020(2):?95-105.

[20]Tanaka?M,Bloom?N,David?J?M,et?al.?Firm?Performance?and?Macro?Forecast?Accuracy[J].Journal?of?Monetary?Economics,2020,114:?26-41.

[21]蔡躍洲,馬文君.?數據要素對高質量發展影響與數據流動制約[J].數量經濟技術經濟研究,2021(3):?64-83.

[22]Carrière-Swallow?Y,Haksar?V.?The?Economics?and?Implications?of?Data:?An?Integrated?Perspective[R].IMF?Departmental?Papers/Policy?Papers,2019,18(12).

[23]Chernozhukov?V,Chetverikov?D,Demirer?M,et?al.?Double/debiased?Machine?Learning?for?Treatment?and?Structural?Parameters[J].Econometrics?Journal,2018,21(1):?C1-C68.

[24]徐翔,田曉軒,厲克奧博.?中國省際數據要素規模——基于就業人員工資與投資數據的測度與分析[R].?數據要素市場化配置與分配制度改革論壇,2021.

[25]夏杰長,肖宇,李詩林.?中國服務業全要素生產率的再測算與影響因素分析[J].學術月刊,2019(2):?34-43+56.

[26]張濤,李均超.?網絡基礎設施、包容性綠色增長與地區差距——基于雙重機器學習的因果推斷[J].數量經濟技術經濟研究,2023(4):?113-135.

[27]施炳展,李建桐.?互聯網是否促進了分工:來自中國制造業企業的證據[J].管理世界,2020(4):?130-149.

[28]鈔小靜,王宸威.?數據要素對制造業高質量發展的影響——來自制造業上市公司微觀視角的經驗證據[J].浙江工商大學學報,2022(4):?109-122.

[29]Nunn?N,Qian?N.?US?Food?Aid?and?Civil?Conflict[J].American?Economic?Review,2014,104(6):?1630-1666.

[30]楊艷,王理,李雨佳,等.?中國經濟增長:數據要素的“雙維驅動”[J].統計研究,2023(4):?3-18.

Data?Factors,Data?Mining,and?Productivity?Improvement?of?Chinese?Service?Industry

——Causal?Inference?from?Double?Machine?Learning

YU?Liuqinga,GAO?Yua,b

(Northwest?University,a.School?of?Economics?&?Management;b.China?Western?Economic

Development?Study?Center,Xi′an?710127,China)

Abstract:?Chinas?economy?has?entered?a?development?stage?dominated?by?the?service?industry,but?the?momentum?of?traditional?factors?to?improve?the?productivity?of?the?service?industry?is?insufficient.?In?the?era?of?digital?economy,the?emergence?of?data?factors?provides?new?possibilities?for?further?improving?service?industry?productivity.?Based?on?Chinas?inter?provincial?panel?data?from?2012?to?2019,this?paper?uses?the?double?machine?learning?method?to?explore?the?effects,internal?mechanisms?and?heterogeneous?effects?of?data?factors?on?the?improvement?of?service?industry?productivity.?The?results?show?that?data?factors?significantly?promote?the?productivity?improvement?of?Chinas?service?industry;?The?improvement?of?data?mining?ability?significantly?enhances?the?effects?of?data?factors?on?the?productivity?improvement?of?the?service?industry;?Data?factors?are?more?conducive?to?the?improvement?of?productivity?in?the?life?service?industry,and?their?impact?on?the?improvement?of?productivity?in?the?service?industry?in?eastern?and?southern?regions?of?China?is?more?significant.

Key?words:data?factors;?data?mining;service?industry?productivity;double?machine?learning

(責任編輯:周正)

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲国产在一区二区三区| 99一级毛片| 亚洲成人动漫在线观看| yjizz视频最新网站在线| 毛片免费观看视频| 99精品视频在线观看免费播放| 婷婷伊人久久| 亚洲欧美日韩视频一区| 亚洲精品黄| 国产精品乱偷免费视频| 婷婷亚洲视频| 日本色综合网| 亚洲v日韩v欧美在线观看| 午夜国产精品视频黄| www欧美在线观看| 午夜激情婷婷| 色综合中文字幕| 久久精品丝袜| 国产另类视频| 黄色在线网| 五月天香蕉视频国产亚| 久草性视频| 一级毛片免费观看不卡视频| 亚洲婷婷六月| 一级成人欧美一区在线观看| 国产污视频在线观看| 亚洲av无码成人专区| 色婷婷在线影院| 久久综合国产乱子免费| 97超碰精品成人国产| 亚洲成a人片77777在线播放| 91探花国产综合在线精品| 亚洲91在线精品| 人妻一区二区三区无码精品一区| 亚洲国产精品日韩欧美一区| 国产日本欧美亚洲精品视| 亚洲天堂网在线视频| 不卡视频国产| 一本大道AV人久久综合| 国产成+人+综合+亚洲欧美| 国产精品免费入口视频| 亚洲天堂777| 亚洲v日韩v欧美在线观看| 97国产在线观看| 亚洲成人网在线观看| 嫩草在线视频| 亚洲欧美精品一中文字幕| 欧美一区二区丝袜高跟鞋| 精品无码人妻一区二区| 嫩草国产在线| 欧美色亚洲| 欧美在线精品怡红院| 亚洲一区色| 国产一级毛片在线| 国产精品成人观看视频国产| 一本一本大道香蕉久在线播放| 熟妇丰满人妻av无码区| 美女内射视频WWW网站午夜| 久久99热这里只有精品免费看| 国模粉嫩小泬视频在线观看| 自偷自拍三级全三级视频 | 青青草原国产av福利网站| 亚洲成年人网| 亚洲色图另类| 亚洲性一区| 亚洲精品无码抽插日韩| AV不卡在线永久免费观看| 91成人在线观看| 综合亚洲网| 欧美亚洲国产视频| 国产Av无码精品色午夜| 久久精品国产精品国产一区| 九一九色国产| 怡春院欧美一区二区三区免费| 视频一本大道香蕉久在线播放 | 亚洲人成成无码网WWW| 在线不卡免费视频| 无码AV动漫| 日本www色视频| 天天综合天天综合| 国产情侣一区| 黄色在线不卡|