李小青,何瑋萱,李子彪,周 建
(1.河北工業(yè)大學經(jīng)濟管理學院,天津 300401;2.南開大學商學院,天津 300071)
數(shù)字化創(chuàng)新是由云計算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等數(shù)字技術驅(qū)動所帶來的數(shù)字化產(chǎn)品、流程和商業(yè)模式創(chuàng)新[1]。《中國數(shù)字經(jīng)濟發(fā)展白皮書(2021 年)》顯示,2020 年我國數(shù)字經(jīng)濟總體規(guī)模達到39.2 萬億元,占全國生產(chǎn)總值(GDP)的比重高達38.6%,其中京津冀地區(qū)數(shù)字經(jīng)濟規(guī)模占比超過10%[2],在我國數(shù)字經(jīng)濟發(fā)展布局中占據(jù)重要地位。制造業(yè)是數(shù)字經(jīng)濟發(fā)展的主戰(zhàn)場,提升制造企業(yè)數(shù)字化創(chuàng)新能力有助于加速產(chǎn)業(yè)數(shù)字化進程、重塑全球數(shù)字化競爭格局,因此科學合理地對制造企業(yè)數(shù)字化創(chuàng)新能力進行評價,對于企業(yè)和政府準確識別數(shù)字化創(chuàng)新能力提升的影響因素、實施數(shù)字化創(chuàng)新戰(zhàn)略具有重要意義。
模型方法的選擇是科學評價數(shù)字化創(chuàng)新能力的關鍵。由于數(shù)字化創(chuàng)新超越了傳統(tǒng)創(chuàng)新的邊界,Nambisan 等[3]、余江等[4]建議為數(shù)字化創(chuàng)新探索新的理論邏輯和研究方法,如使用大數(shù)據(jù)、機器算法、演化本體論等;Suseno 等[5]通過社會媒體分析(SMA)探討了數(shù)字化創(chuàng)新各參與主體的價值創(chuàng)造方式;Chae[6]基于復雜網(wǎng)絡理論和大數(shù)據(jù)構建了研究數(shù)字化創(chuàng)新生態(tài)系統(tǒng)演化的一般框架;王核成等[7]以文獻研究和專家評審法為基礎,開發(fā)了一種評估企業(yè)數(shù)字化綜合能力的數(shù)字化成熟度模型(DMM)。總體上看,已有相關研究發(fā)展了數(shù)字化創(chuàng)新的相關理論與模型方法,但聚焦于評價數(shù)字化創(chuàng)新能力的量化研究相對匱乏,然而數(shù)字化創(chuàng)新具有系統(tǒng)性、演化性等特征,單一方法難以全面刻畫從影響因素到創(chuàng)新產(chǎn)出的全過程。此外在數(shù)字化能力評價相關研究中,如楊德明等[8]在文本挖掘的基礎上采用專家打分法評價企業(yè)互聯(lián)網(wǎng)化的程度,陳疇鏞等[9]應用層次分析法評價了制造企業(yè)的數(shù)字化轉型能力,趙宸宇[10]采用熵值法構造出制造業(yè)上市公司數(shù)字化發(fā)展總指數(shù),但大多存在評價結果的可量化性與精確度無法兼顧的局限,無法同時實現(xiàn)對分指標特性與目標層得分的綜合考察。有研究發(fā)現(xiàn),將隨機森林算法和突變級數(shù)法結合使用,能夠根據(jù)評價指標的重要程度進行客觀排序[11],克服傳統(tǒng)多目標綜合評價法主觀性較強的缺陷[12],同時具備訓練速度快、準確率高、可定量分析的優(yōu)點[13]。
2019 年是世界互聯(lián)網(wǎng)誕生50 周年,也是我國全功能接入互聯(lián)網(wǎng)25 周年。根據(jù)美國企業(yè)Altimeter發(fā)布的《全球數(shù)字化轉型現(xiàn)狀研究報告》(2018—2019 版),2019 年全球企業(yè)相關數(shù)字化預算直線攀升,利益相關方所關注的顛覆性技術數(shù)量急劇增加,數(shù)字化預算大于等于5 000 萬美元的受訪公司占比從2017 年的2%上升到15%[14],成為提升企業(yè)數(shù)字化創(chuàng)新能力的關鍵轉折點。作為互聯(lián)網(wǎng)技術的演進升級,數(shù)字化創(chuàng)新?lián)碛袕妱诺陌l(fā)展動能和廣闊的發(fā)展空間,同時也面臨服務實體企業(yè)的落地應用問題。為突破數(shù)字技術應用難關,探索如何提升企業(yè)數(shù)字化創(chuàng)新能力,本研究將基于綜合考慮微觀層面企業(yè)特征與宏觀層面區(qū)域行業(yè)環(huán)境的視角,針對企業(yè)數(shù)字化創(chuàng)新實踐構建數(shù)字化創(chuàng)新能力評價指標體系,并運用隨機森林算法和突變級數(shù)法識別數(shù)字化創(chuàng)新能力影響因素。
早期Kallinikos 等[15]對數(shù)字化創(chuàng)新的研究聚焦考察信息技術在企業(yè)知識管理系統(tǒng)中的吸收和應用,后來如Ltttinen 等[16]學者開始關注數(shù)字產(chǎn)品本身,包括新興的數(shù)字技術和數(shù)字基礎設施,以創(chuàng)新能力研究為基礎,針對制造企業(yè)數(shù)字化創(chuàng)新能力的研究日益豐富,如陳疇鏞等[9]認為加大數(shù)字化技術研發(fā)投入、加強數(shù)字化人才隊伍建設是影響企業(yè)數(shù)字化轉型的關鍵;池毛毛等[17]從數(shù)字化賦能視角發(fā)現(xiàn),提高研發(fā)利用能力和探索能力對中小制造企業(yè)的開發(fā)創(chuàng)新績效具有積極作用;Ferreira 等[18]研究表明,創(chuàng)業(yè)者和高管團隊特征影響企業(yè)對數(shù)字化流程的采用,進而影響企業(yè)競爭優(yōu)勢。已有研究從不同側面證實人力資本、R&D 投入、區(qū)域環(huán)境、政府支持等是影響企業(yè)數(shù)字化創(chuàng)新的重要條件,為本研究構建制造業(yè)數(shù)字化創(chuàng)新能力評價指標體系奠定了重要理論基礎。由于影響數(shù)字化創(chuàng)新的因素較為繁雜,且現(xiàn)有創(chuàng)新能力評價指標體系較為寬泛,對數(shù)字化創(chuàng)新評價的針對性不足,因此,借鑒陳疇鏞等[9]、池毛毛等[17]關于制造企業(yè)數(shù)字化轉型能力評價的思想,同時結合數(shù)字化創(chuàng)新的特征以及制造企業(yè)數(shù)字化創(chuàng)新實踐,本研究從產(chǎn)出能力和投入能力兩方面對數(shù)字化創(chuàng)新能力進行測度,遵循科學性、重要性、可運算性、簡約性的原則,結合隨機森林算法與突變級數(shù)法的特點構建數(shù)字化創(chuàng)新能力評價指標體系。
數(shù)字化創(chuàng)新能力評價指標體系構建的指標維度和具體指標情況如下:
一是數(shù)字化創(chuàng)新產(chǎn)出能力維度方面。數(shù)字化創(chuàng)新產(chǎn)出能力指企業(yè)綜合集成各類資源所取得的最終研發(fā)成果,是構成企業(yè)數(shù)字化創(chuàng)新能力的關鍵要素。由于專利是企業(yè)創(chuàng)新產(chǎn)出的直觀體現(xiàn),因此借鑒李小青等[19]、蔡紹洪等[20]對技術創(chuàng)新的測度方法,用數(shù)字化創(chuàng)新專利數(shù)量衡量數(shù)字化創(chuàng)新產(chǎn)出能力。數(shù)字化創(chuàng)新專利是指企業(yè)申請的與人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)、機器學習、云計算等數(shù)字化技術相關的專利。同時考慮到制造業(yè)涵蓋行業(yè)眾多,且行業(yè)性質(zhì)有差異,各類企業(yè)適宜開展的創(chuàng)新活動項目、相應能帶來經(jīng)濟效益的專利類型各有不同,因此借鑒陳德球等[21]的研究,在初始設計時將數(shù)字化創(chuàng)新專利細分為發(fā)明專利、實用新型專利與外觀設計專利3 種類型。其中發(fā)明專利的原創(chuàng)性標準最高;由于外觀設計專利指對形狀、圖案等進行保護,與數(shù)字化創(chuàng)新的關聯(lián)度較低,因而在構建指標體系時予以剔除。
二是數(shù)字化創(chuàng)新投入能力維度。主要包括:
(1)數(shù)字化創(chuàng)新人才儲備。根據(jù)知識基礎觀和人力資本理論,人力資本是企業(yè)獨特的異質(zhì)性資源,能為企業(yè)促進數(shù)字化創(chuàng)新提供必要的知識基礎[9],因此吸納更多研發(fā)能力強、綜合素質(zhì)高的人才是企業(yè)獲取先進知識與技術的途徑,可有效推動企業(yè)數(shù)字化創(chuàng)新能力的提升。數(shù)字化創(chuàng)新人才儲備包括研發(fā)人員數(shù)量占比、本科以上學歷員工占比與數(shù)字背景高管占比3 個指標。其中,研發(fā)人員數(shù)量占比是指從事研究、技術及輔助工作的員工人數(shù)之和與職工總人數(shù)的比值,該指標是企業(yè)對數(shù)字化創(chuàng)新活動人力資本投入強度的反映;本科以上學歷員工占比是指具有本科及以上學歷的員工人數(shù)與職工總人數(shù)的比值,該指標是員工整體知識水平高低的衡量標準;數(shù)字背景高管占比是指高管團隊中,所學專業(yè)在教育部公布的數(shù)據(jù)科學與大數(shù)據(jù)技術、機器人工程、物聯(lián)網(wǎng)工程等新工科研究與實踐項目列表中的高管人員所占比例。根據(jù)Hambrick 等[22]的高階梯隊理論,高管成員的職能背景是影響創(chuàng)新產(chǎn)出的重要因素。與具有文科、商科背景的高管人員相比,具有數(shù)字背景的高管對人工智能、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等數(shù)字化技術更加敏感,能夠快速捕捉外部環(huán)境中蘊藏的數(shù)字化創(chuàng)新機會,加速企業(yè)數(shù)字化創(chuàng)新產(chǎn)出,促進企業(yè)數(shù)字化創(chuàng)新能力的提升。
(2)數(shù)字化創(chuàng)新資金獲取。充足穩(wěn)定的研發(fā)資金投入是持續(xù)深度推進科技研究從而攻克核心技術的必要條件[23],是順利開展數(shù)字化創(chuàng)新活動的前提。數(shù)字化創(chuàng)新資金獲取包括企業(yè)內(nèi)部投入與外部政府支持兩方面,涵蓋企業(yè)探索性研發(fā)費用占營業(yè)收入比例、企業(yè)利用性研發(fā)投入占總資產(chǎn)比例、政府撥付有關數(shù)字化金額占企業(yè)總資產(chǎn)比例3個指標。其中,企業(yè)探索性研發(fā)費用占營業(yè)收入比例衡量企業(yè)將多少主營業(yè)務收入用于探索性研究,這一指標突出了企業(yè)對未來市場和顧客需求的探索,是用于認定高新技術企業(yè)的關鍵指標;企業(yè)利用性研發(fā)投入占總資產(chǎn)比例指資本化的、能計入無形資產(chǎn)成本的開發(fā)支出與企業(yè)總資產(chǎn)之比,反映企業(yè)總資產(chǎn)中利用性研發(fā)成果所占比例,體現(xiàn)了企業(yè)對研發(fā)活動的資金投入力度,是企業(yè)創(chuàng)新導向強弱的主要標志;政府撥付有關數(shù)字化資金占企業(yè)總資產(chǎn)比例能夠反映企業(yè)在數(shù)字化過程中得到政府支持力度的大小,是區(qū)域數(shù)字化創(chuàng)新政策的反映,政府針對企業(yè)數(shù)字化創(chuàng)新項目發(fā)放補貼能夠?qū)?shù)字化創(chuàng)新培育起到必要的孵化作用,引導企業(yè)進行數(shù)字化創(chuàng)新活動,產(chǎn)生政策紅利效應與擠入效應。
(3)數(shù)字化創(chuàng)新資源整合。資源整合需要企業(yè)從外部環(huán)境中識別和汲取各種資源,并在內(nèi)部合理配置使用以形成新的核心資源體系[24]。數(shù)字化創(chuàng)新資源整合與特定區(qū)域、特定行業(yè)內(nèi)人力資本與創(chuàng)新資金的集聚程度密切相關,包括區(qū)域行業(yè)R&D 人員全時當量、區(qū)域行業(yè)R&D 經(jīng)費內(nèi)部支出兩方面,通過結合各企業(yè)所處的不同區(qū)域、所從事的不同行業(yè)測度其研發(fā)環(huán)境的差異,刻畫區(qū)域行業(yè)研發(fā)環(huán)境對企業(yè)數(shù)字化創(chuàng)新的影響程度。其中,區(qū)域行業(yè)R&D人員全時當量指企業(yè)所在區(qū)域行業(yè)每年R&D 人員工作時長,等于全時人員與非全時人員折算的工作量之和,反映區(qū)域行業(yè)科技人才儲備及科技人力投入水平;區(qū)域行業(yè)R&D 經(jīng)費內(nèi)部支出指企業(yè)為開展R&D 活動實際用于本區(qū)域本行業(yè)內(nèi)的全部支出,反映區(qū)域行業(yè)的科技經(jīng)費投入水平。較大的科技經(jīng)費投入有助于推動行業(yè)數(shù)字化創(chuàng)新發(fā)展,推進企業(yè)間競爭合作與信息交流。
(4)數(shù)字化創(chuàng)新經(jīng)濟基礎。良好的數(shù)字化創(chuàng)新經(jīng)濟基礎決定了企業(yè)的可持續(xù)發(fā)展能力[12],是企業(yè)進行數(shù)字化創(chuàng)新的基石,包括盈利水平與發(fā)展能力兩個方面,盈利能力用總資產(chǎn)報酬率、凈資產(chǎn)收益率兩個指標來衡量,成長能力用總資產(chǎn)增長率、凈利潤增長率兩個指標來衡量。其中,總資產(chǎn)報酬率指報告期息稅前利潤與資產(chǎn)平均總額的比值,凈資產(chǎn)收益率是指報告期剔除非經(jīng)常損益的凈利潤與報告期平均股東權益的比值,這兩個指標分別反映企業(yè)全部資產(chǎn)和凈資產(chǎn)的獲利能力,是企業(yè)進行數(shù)字化創(chuàng)新的重要物質(zhì)基礎;總資產(chǎn)增長率與凈利潤增長率分別表示企業(yè)總資產(chǎn)、凈利潤相對于上年的增長比例,總資產(chǎn)增長率反映企業(yè)規(guī)模的擴張速度,凈利潤增長率反映企業(yè)盈利能力的提升速度,這兩個指標預示企業(yè)發(fā)展前景,是企業(yè)進行數(shù)字化創(chuàng)新的動力源泉。
隨機森林算法是Breiman[25]于2001 年首次提出的一種機器學習算法,屬于集成學習(ensemble learning)中的引導聚集(bagging)算法,可以解釋若干自變量X對因變量Y的作用。在隨機森林中,“隨機”體現(xiàn)在數(shù)據(jù)集上樣本選取與特征選取的隨機性;“森林”指通過設置足夠數(shù)量的決策樹或回歸樹(CART)進行集成學習,并在樹上選取更好的特征進行分枝,使各棵樹成長得更加優(yōu)秀,以取得高準確率的效果。隨機森林由隨機選取的部分預測因子的子集構成,可以有效克服維度困擾、變量共線性及測量變量的隨機誤差或方差干擾等問題,適用于解決先驗知識不清、多維度約束條件、無規(guī)則和散點數(shù)據(jù)的應用問題[26]。隨機森林算法沒有對數(shù)據(jù)做任何假定,從而脫離了“假定分布—明確的數(shù)學模型擬合—假設檢驗”的經(jīng)典統(tǒng)計過程[27];在分類和回歸上都表現(xiàn)出優(yōu)良的性能[10],具有簡單易行、訓練速度快、泛化能力強的特點。采用隨機森林算法能夠?qū)?shù)字化創(chuàng)新特征屬性進客觀評級,克服指標排序主觀性較強的問題。
突變級數(shù)法則是基于突變理論與模糊數(shù)學原理,利用突變模型開發(fā)出來的解決多準則決策問題的綜合性評價方法[28]。突變級數(shù)法首先對評價目標進行多層次矛盾分解,在此基礎上把同一層次的評價指標根據(jù)其重要性大小從左到右排序,然后根據(jù)突變模型產(chǎn)生突變模糊隸屬函數(shù),用歸一公式進行綜合量化運算得到總隸屬函數(shù),最后對目標層進行評價分析[12]。
將隨機森林算法和突變級數(shù)法結合使用,既體現(xiàn)了突變級數(shù)法層次分析的系統(tǒng)思路,使評價指標的權值在定性的基礎上得到量化,又保留了隨機森林算法對指標數(shù)據(jù)本身特征的關注,減少突變級數(shù)法在指標相對重要性排序問題上的隨意性和主觀性。該集成方法能夠客觀地處理數(shù)據(jù)集,適用于對數(shù)字化創(chuàng)新能力這類復雜系統(tǒng)的綜合評價,并使得評價更加科學合理。因此,本研究充分結合隨機森林算法和突變級數(shù)法的優(yōu)點,首先,根據(jù)基于對數(shù)字化創(chuàng)新能力的解讀和相關文獻建立相應的評價指標體系,并以數(shù)字化創(chuàng)新專利產(chǎn)出為判斷標準,采用隨機森林算法對投入能力指標的重要性進行排序,降低主觀判斷可能帶來的偏誤;接著利用突變級數(shù)法建立突變模型,用以確定企業(yè)數(shù)字化創(chuàng)新能力水平及排名,保障評價模型及結果的科學性與合理性。
3.2.1 基于隨機森林算法確定指標排序
采用隨機森林算法對數(shù)字化創(chuàng)新投入能力特征屬性進行評級。根據(jù)數(shù)字化創(chuàng)新投入能力中若干自變量判別每個觀測值的類型歸屬,本質(zhì)上是一個分類問題,對于分類問題,一個測試樣本會送到每一棵決策樹中進行預測、投票,得票最多的類為最終的分類結果,模型的誤差為分類錯誤率,因此在分類模型結果中借鑒熊景華等[13]的研究,用平均基尼系數(shù)下降指標評估數(shù)字化創(chuàng)新投入能力。鑒于考察若干因素對數(shù)字化創(chuàng)新能力的影響也可以被看作回歸問題,為對分類結果進行補充說明,本研究嘗試用回歸思路得出評估結果,并與分類所得的排序結果進行對照。對于回歸問題,一個測試樣本在每棵回歸樹上預測后,隨機森林的預測結果是所有回歸樹輸出的均值,因此在回歸模型結果中用平均誤差下降指標對特征重要性進行評價。綜上,采用分類與回歸樹作為隨機森林中的基學習器。由k個基學習器集合而成的隨機森林模型表示如下:

式(1)中:X為輸入特征集;hk(X)為第k個基學習器,每個基學習器就是一棵決策樹或一棵回歸樹。
基于隨機森林算法確定數(shù)字化創(chuàng)新投入能力評價指標排序的模型構建流程如下:
(1)準備原始樣本集并構建隨機子樣本集。首先,基于數(shù)字化創(chuàng)新評價指標體系中標準化后的指標值構造決策矩陣,得到原始樣本集D;然后,采用自助抽樣法(Bootstrap)隨機有放回地從D中抽取k個子樣本集,若輸入樣本為N個,那么每個樣本集中采樣的樣本數(shù)量也為N。k為隨機森林模型中樹的個數(shù),本研究中設定k=500。
(2)基于CART 算法構建數(shù)字化創(chuàng)新決策樹或回歸樹。在分類問題上使用基尼系數(shù)(Gini index)作為特征分裂的選擇標準,基尼系數(shù)越小則決策樹中節(jié)點分裂純度越高,即分類效果越好,因此選取使當前節(jié)點分裂時基尼系數(shù)最小的特征作為分類特征。基尼系數(shù)計算公式如下:

在回歸問題上使用均方誤差(MSE)作為特征值劃分點的選擇標準。MSE 測度了父節(jié)點和葉子節(jié)點之間的均方誤差的差異,MSE 越小則誤差越小,代表分枝質(zhì)量及回歸質(zhì)量越高,因此在所有特征中選取使當前節(jié)點分枝后MSE 最小的特征進行分裂。MSE 計算公式如下:

式(3)中:N為樣本總數(shù);i為第i個樣本;fi為回歸模型預測的數(shù)值;yi為第i個樣本的實際輸出值。
(3)從M個輸入變量中選取m個進行特征采樣。特征采樣也稱“列采樣”,依據(jù)計算m取值的通用方法,在CART 決策樹上采用在CART 回歸樹上采用的近似原則設定候選特征子集的取值。由于所構建的評價體系中輸入變量個數(shù)M為12,因此在分類上取在回歸上取建立模型。
(4)對樣本進行訓練并評估結果。將生成的k棵決策樹或回歸樹分別組成隨機森林。在分類模型中,根據(jù)樹分類器投票的多數(shù)原則決定分類結果;在回歸模型中,按生成所有樹的預測值的均值決定最終回歸結果。在兩種模型中分別計算每個輸入變量的平均基尼系數(shù)下降值與平均誤差下降值并按降序排列,對比分析這兩個序列,最終實現(xiàn)對數(shù)字化創(chuàng)新投入能力指標重要性的評價。
3.2.2 構建基于突變級數(shù)法的評價模型
在隨機森林模型排序結果的基礎上,基于突變級數(shù)法建立突變評價模型,具體步驟如下:
(1)對樣本數(shù)據(jù)進行無量綱化處理。公式如下:

(2)根據(jù)評價指標體系中的控制變量,即每個層次的指標數(shù)量來確定評價指標體系中每個層次所屬的突變系統(tǒng)類型。常見的突變系統(tǒng)模型類型有3類,即尖點突變系統(tǒng)模型、燕尾突變系統(tǒng)模型和蝴蝶突變系統(tǒng)模型,模型形式依次如下:

(4)用歸一公式進行綜合評價。若同一層次變量之間能夠相互彌補,呈現(xiàn)強相關關系,則為互補系統(tǒng),取控制變量x 的平均數(shù);若變量之間無法相互補足,呈弱相關關系,則按非互補準則,對控制變量x按“大中取小”的原則取值。最后逐級遞歸,求出指標體系的總突變隸屬函數(shù)值進行評價。
本研究以2019 年京津冀制造業(yè)上市公司作為實證對象,在剔除帶有嚴重缺失值、異常值的記錄后整理得到169 家企業(yè)的完整信息。數(shù)字化創(chuàng)新專利數(shù)據(jù)通過佰騰專利網(wǎng)搜集,以“智能”“區(qū)塊鏈”“大數(shù)據(jù)”“機器學習”“云計算”“云端”“互聯(lián)網(wǎng)”“物聯(lián)網(wǎng)”“信息化”“數(shù)字化”“遠程”“機器人”“人臉識別”“虛擬”作為關鍵詞,運用PyCharm 軟件爬取樣本企業(yè)與數(shù)字化創(chuàng)新相關的專利數(shù)量。數(shù)字化創(chuàng)新人才儲備、數(shù)字化創(chuàng)新資金獲取、數(shù)字化創(chuàng)新資源整合、數(shù)字化創(chuàng)新經(jīng)濟基礎等數(shù)據(jù)來源于國泰安數(shù)據(jù)庫、巨潮資訊網(wǎng)以及京津冀三地統(tǒng)計局官網(wǎng)。
4.2.1 采用隨機森林算法對指標重要性排序
基于隨機森林算法的數(shù)字化創(chuàng)新評估模型應用算例主要在MATLAB 語言環(huán)境下完成。按照企業(yè)數(shù)字化創(chuàng)新實踐,將12 個數(shù)字化創(chuàng)新投入能力指標作為輸入變量。在輸出變量上,依據(jù)數(shù)字化創(chuàng)新專利數(shù)量中發(fā)明專利或?qū)嵱眯滦椭惺欠裼幸豁椞幱诰抵希瑢颖酒髽I(yè)標記為高數(shù)字化創(chuàng)新和非高數(shù)字化創(chuàng)新兩類,最后得到高數(shù)字化創(chuàng)新能力企業(yè)39家、非高數(shù)字化創(chuàng)新能力企業(yè)130 家,以此為基礎建立二分類評估模型。為避免由于這兩類企業(yè)分布不均衡出現(xiàn)模型過擬合現(xiàn)象,提升評估數(shù)字化創(chuàng)新投入能力指標的準確率,將39 個高數(shù)字化創(chuàng)新能力企業(yè)重復3 次輸入模型,共獲得247 個樣本,其中包括117 家高數(shù)字化創(chuàng)新能力企業(yè)樣本和130 家非高數(shù)字化創(chuàng)新能力企業(yè)樣本,以使兩類樣本分布基本均衡。
在分類模型與回歸模型中分別輸入經(jīng)過預處理的 247 個樣本,隨機選取75%的樣本作為訓練集,25%的樣本作為測試集,用測試集來檢驗模型訓練的預測效果;在預測效果良好的基礎上,按平均基尼系數(shù)下降指標得到評價結果,最后在回歸模型中依據(jù)平均誤差下降得到排序結果,并與分類模型結果進行對比。在隨機森林分類模型中,平均基尼系數(shù)下降指標通過基尼系數(shù)計算每個特征屬性對決策樹節(jié)點上觀測值異質(zhì)性的影響,得到節(jié)點分裂前后純度的平均下降值,該值越大表示該特征屬性的重要性越大;同時,在回歸模型中計算表示重要性特征的平均誤差下降指標,平均誤差下降值越大說明該特征屬性的重要性越大。樣本企業(yè)數(shù)字化創(chuàng)新投入能力所含特征屬性的重要性程度大小分別按上述兩個指標排列,具體數(shù)值如表1 所示。

表1 樣本企業(yè)數(shù)字化創(chuàng)新投入能力所含特征屬性重要性分析結果
為了清晰呈現(xiàn)數(shù)字化創(chuàng)新投入能力各指標值分布情況,繪制其重要性程度排序的散點圖,如圖1所示。綜合各三級指標在圖1 所示兩個序列中的分布情況,可得對應二級指標的重要性排序,由大到小排列為數(shù)字化創(chuàng)新人才儲備、數(shù)字化創(chuàng)新資金獲取、數(shù)字化創(chuàng)新資源整合與數(shù)字化創(chuàng)新經(jīng)濟基礎;另外,鑒于數(shù)字化創(chuàng)新產(chǎn)出是數(shù)字化創(chuàng)新投入能力中各指標順序的評判標準,且是數(shù)字化創(chuàng)新活動最終形成的重要成果,因而在一級指標層面將數(shù)字化創(chuàng)新產(chǎn)出的重要性置于投入能力之前;最后,由于數(shù)字化創(chuàng)新專利產(chǎn)出中數(shù)字化創(chuàng)新發(fā)明專利的創(chuàng)造性水平與技術標準含量遠遠高于實用新型,因此其重要性排名在三級指標中居于首位。至此,各層次指標的重要性排序得以確定,為制造企業(yè)準確識別數(shù)字化創(chuàng)新能力提升的驅(qū)動因素提供決策參考。

圖1 基于隨機森林模型的樣本企業(yè)數(shù)字化創(chuàng)新投入能力指標重要性排序
4.2.2 采用突變級數(shù)法對數(shù)字化創(chuàng)新能力進行綜合評價
遵循突變級數(shù)法的模型構建原則,把樣本企業(yè)各變量按照隨機森林算法確定的重要性大小順序從左至右排列,結合控制變量個數(shù)確定各層指標的突變系統(tǒng)類型,從而將數(shù)字化創(chuàng)新能力評價指標體系構造成一個多層次目標結構,如圖2 所示。

圖2 基于突變級數(shù)法的企業(yè)數(shù)字化創(chuàng)新能力評價結構
借鑒張玉喜等[12]的研究,計算樣本企業(yè)各層級指標的Pearson 相關系數(shù),通過顯著性大小判斷變量間相關關系的強弱。由表2 可知,各指標系統(tǒng)中包含的變量都表現(xiàn)出較強的相關性,因此均可判定為互補系統(tǒng),評價時遵循互補準則,即取控制變量的平均數(shù)進行計算。

表2 樣本企業(yè)數(shù)字化創(chuàng)新能力評價指標相關性分析結果
建立京津冀制造企業(yè)數(shù)字化創(chuàng)新能力突變系統(tǒng)后,將數(shù)據(jù)集標準化后的值轉化為突變模糊隸屬度函數(shù)值,根據(jù)不同突變系統(tǒng)類型準則變換后得到各層次評價指標的突變模糊隸屬度函數(shù)值,最后利用歸一公式(8)~(10)和評價準則進行綜合評價。
如表3 所示,從總體情況來看,樣本企業(yè)數(shù)字化創(chuàng)新投入能力遠高于數(shù)字化創(chuàng)新產(chǎn)出能力,其中人才儲備和經(jīng)濟基礎得分較高,而資金獲取和資源整合方面較為薄弱,說明現(xiàn)階段企業(yè)數(shù)字化創(chuàng)新的投入與產(chǎn)出能力發(fā)展不協(xié)調(diào)。雖然京津冀三地對數(shù)字化創(chuàng)新的重視程度較高,具備推進數(shù)字化創(chuàng)新的基礎實力,但仍需加快制造企業(yè)數(shù)字化創(chuàng)新成果轉化,改善數(shù)字化創(chuàng)新產(chǎn)出能力欠佳的局面。分區(qū)域來看,北京市的數(shù)字化創(chuàng)新在各方面均表現(xiàn)突出,而天津市的數(shù)字化創(chuàng)新能力整體偏弱,特別是產(chǎn)出能力得分僅為北京市的1/3,而河北省在資金獲取和資源整合方面與北京市和天津市相比仍有較大差距。區(qū)域間數(shù)字化創(chuàng)新能力的差異反映了北京市作為全國科技創(chuàng)新中心的輻射帶動力未得到有效發(fā)揮,京津冀協(xié)同創(chuàng)新戰(zhàn)略還需持續(xù)貫徹,要通過促進數(shù)字化資源有序流動與合理配置提升區(qū)域數(shù)字化創(chuàng)新綜合實力。

表3 樣本企業(yè)分區(qū)域數(shù)字化創(chuàng)新能力評價結果
如表4 顯示,樣本企業(yè)中數(shù)字化創(chuàng)新能力與數(shù)字化創(chuàng)新產(chǎn)出能力排名前3位的是儀器儀表制造業(yè)、汽車制造業(yè)和計算機、通信和其他電子設備制造業(yè),后3 位為印刷和記錄媒介復制業(yè),酒、飲料和精制茶制造業(yè),以及食品制造業(yè)。表明知識密度較大的高技術產(chǎn)業(yè)數(shù)字化創(chuàng)新活動較為活躍,數(shù)字化創(chuàng)新能力總體較強;而勞動密集度較高、技術水平較低的傳統(tǒng)制造業(yè)數(shù)字化創(chuàng)新成績明顯落后。因此,京津冀地區(qū)產(chǎn)業(yè)數(shù)字化進程還面臨跨行業(yè)間數(shù)字化資源共享和集成不足、傳統(tǒng)產(chǎn)業(yè)難以適應數(shù)字化趨勢等多重挑戰(zhàn)。

表4 樣本企業(yè)分行業(yè)數(shù)字化創(chuàng)新能力評價結果
產(chǎn)業(yè)間數(shù)字化創(chuàng)新水平差異與企業(yè)所屬不同行業(yè)的結構特征密切相關[29],與企業(yè)自身及區(qū)域行業(yè)對數(shù)字化要素的投入和創(chuàng)新資源的分配有直接聯(lián)系。如表5 所示,在數(shù)字化創(chuàng)新綜合能力排名前3位的行業(yè)中,計算機、通信和其他電子設備制造業(yè)的市場需求變化劇烈、技術更新速度快,因此極為重視數(shù)字化人才的引進和數(shù)字化研發(fā)資源的投入力度,在數(shù)字化創(chuàng)新人才儲備、資金獲取和資源整合等3 個方面表現(xiàn)良好;而汽車制造業(yè)以高度綜合、涉及制造部門眾多為顯著特點,主要依靠區(qū)域行業(yè)中數(shù)字化創(chuàng)新資源整合的力量驅(qū)動行業(yè)內(nèi)部各企業(yè)的數(shù)字化進程;儀表儀器制造業(yè)則是一個多學科應用的精密行業(yè),其數(shù)字化升級需要依賴各方面基礎資源的聯(lián)動配合,因此在數(shù)字化創(chuàng)新投入能力的4個方面均取得了較好成績。

表5 樣本企業(yè)分行業(yè)數(shù)字化創(chuàng)新投入能力分指標評價結果
(1)數(shù)字化創(chuàng)新能力是一種融合數(shù)字技術的綜合創(chuàng)新能力,涵蓋數(shù)字化創(chuàng)新產(chǎn)出能力與數(shù)字化創(chuàng)新投入能力,需要全面考慮企業(yè)特征與區(qū)域行業(yè)環(huán)境進行綜合評估。實證分析表明,現(xiàn)階段京津冀制造業(yè)企業(yè)數(shù)字化創(chuàng)新成果轉化速率較慢,數(shù)字化創(chuàng)新產(chǎn)出能力較差,且數(shù)字化創(chuàng)新投入能力也因企業(yè)數(shù)字化資源的配置方式不同而有較大差異。
(2)基于隨機森林算法的數(shù)字化創(chuàng)新評估模型顯示,數(shù)字化創(chuàng)新投入能力分指標的重要性排序依次為數(shù)字化創(chuàng)新人才儲備、數(shù)字化創(chuàng)新資金獲取、數(shù)字化創(chuàng)新資源整合與數(shù)字化創(chuàng)新經(jīng)濟基礎。其中,數(shù)字化創(chuàng)新人才儲備對數(shù)字化創(chuàng)新專利產(chǎn)出影響最大,反映了高水平人力資本在數(shù)字化創(chuàng)新活動中不可取代的重要地位;數(shù)字化創(chuàng)新經(jīng)濟基礎的重要性水平相對較低,表明經(jīng)濟實力較弱的企業(yè)也有機會在數(shù)字化浪潮中實現(xiàn)“彎道超車”,率先實現(xiàn)數(shù)字化轉型。
(3)結合突變級數(shù)法的數(shù)字化創(chuàng)新能力評價模型結果表明,京津冀區(qū)域間和行業(yè)間的數(shù)字化創(chuàng)新能力差距較為明顯,存在發(fā)展不平衡的現(xiàn)象。分區(qū)域來看,北京市顯示出很強的數(shù)字化創(chuàng)新能力,而天津市和河北省在產(chǎn)出能力與投入能力方面各有不足;分行業(yè)來看,高技術行業(yè)的數(shù)字化創(chuàng)新水平整體較高,但傳統(tǒng)制造業(yè)的表現(xiàn)相對乏力。
基于上述研究結論,提出如下對策建議:
(1)優(yōu)化數(shù)字化創(chuàng)新基礎條件,提高數(shù)字化成果轉化效率。第一,大力鋪設5G 基站、特高壓、大數(shù)據(jù)中心等硬件設施,通過強化產(chǎn)學研合作加速數(shù)字技術的產(chǎn)品化、市場化進程,為釋放人工智能、云計算等數(shù)字技術的乘數(shù)效應提供有效的運行基礎。第二,建立數(shù)字化創(chuàng)新服務交流平臺,制定優(yōu)惠的財政、稅收政策,降低中小制造企業(yè)對接數(shù)字化平臺的成本,激發(fā)企業(yè)科技創(chuàng)新動力。第三,企業(yè)應制定合理的數(shù)字化發(fā)展戰(zhàn)略,建立長線思維,淡化對短期內(nèi)盈利指標的關注,增加對數(shù)字化創(chuàng)新的專項資金投入。
(2)提升制造業(yè)從業(yè)者數(shù)字化素養(yǎng),重視數(shù)字化人才資源儲備。首先,京津冀三地教育部門應繼續(xù)鼓勵高等院校、中等職業(yè)學校面向數(shù)字經(jīng)濟開展新工科建設,著力培養(yǎng)大數(shù)據(jù)科學、機器人工程、物聯(lián)網(wǎng)工程等領域的“高精尖”人才。其次,各地方政府的組織和人事管理部門應制定數(shù)字化人才引進和評估政策,為掌握關鍵數(shù)字技術的研究開發(fā)專家解決落戶、住房、醫(yī)療等問題,增強數(shù)字人才吸引力。最后,企業(yè)要加大數(shù)字背景高管聘用力度,定期舉辦數(shù)據(jù)分析、工業(yè)軟件講座等數(shù)字化培訓活動,訓練員工數(shù)字化思維及應用操作能力。
(3)加強京津冀數(shù)字資源整合流動,構建數(shù)字化創(chuàng)新生態(tài)系統(tǒng)。一方面,各級政府應增加科學技術公共支出,推動社會治理集成化與公共服務智能化,如設立省級數(shù)據(jù)管理局、共建京津冀數(shù)據(jù)管理中心,實現(xiàn)區(qū)域內(nèi)、產(chǎn)業(yè)間數(shù)字化技術、人才、資源等信息互通互聯(lián),促進數(shù)字化創(chuàng)新要素流動聚集。另一方面,三地應充分發(fā)揮科技園、協(xié)同發(fā)展示范區(qū)等各類創(chuàng)新產(chǎn)業(yè)園區(qū)的平臺聯(lián)動作用,拓展區(qū)域創(chuàng)新走廊等合作空間,建設傳統(tǒng)制造業(yè)轉型升級試驗區(qū),健全區(qū)域協(xié)同與產(chǎn)業(yè)融合創(chuàng)新生態(tài),釋放數(shù)字經(jīng)濟新動能。