陳成夢,黃永春,2,吳商碩,錢春琳
(1.河海大學 商學院,江蘇 南京 211100;2.河海大學 社會科學研究院,江蘇 南京 210098)
我國持續推進“大眾創業、萬眾創新”戰略,旨在緩解新常態下的經濟下行壓力,促進更高質量、更加充分的就業[1]。中共二十大報告提出,完善中國特色現代企業制度,弘揚企業家精神,加快建設世界一流企業。近年來,我國各級政府制定并出臺了一系列鼓勵創新創業的政策文件,因而全民創新創業熱情和積極性被空前激發。創業模式逐漸從生存型創業向機會型創業轉變,中國的機會型創業活動蓬勃發展?!度騽摌I觀察(GEM)2017/2018中國報告》顯示,中國機會型創業占創業活動的比例超過60%,較2002年的40%有較大提升,但與發達國家仍然存在一定差距。與難以找到工作、被迫進行創業的生存型創業不同,機會型創業由潛在商業機會驅動,具有較強的成長意向和較高的技術含量,可以催生更多就業機會,創造更高的經濟收益,改善經濟結構[2-3]。特別是在當前面臨日趨復雜嚴峻的國際環境以及全球新冠肺炎疫情沖擊的情況下,機會型創業有利于驅動中國從效率驅動型經濟體向創新驅動型經濟體轉型,跨越中等收入陷阱,實現經濟強國目標[4]。因此,如何有效甄別機會型創業、針對性培育機會型創業具有重要意義。
Shane等[5]指出,要加強以機會為中心的創業研究,包括機會的來源,發現、評估和利用機會的過程以及個人?,F有研究發現,機會型創業受創業自我效能、受教育水平、社會資本等個人因素[6],社會精英家庭、人力殘缺家庭等家庭因素[7],經濟自由度、政府規模、腐敗和稅收政策等外部社會環境的影響[8-9]。雖然學者提出了機會型創業的一些影響因素,但相對零散。單一分析框架無法充分解釋機會型創業,忽視機會型創業者的心理特征和動機可能難以揭示機會型創業背后真正的驅動因素。計劃行為理論作為社會心理學領域具有重要影響力的行為預測理論,可以有效預測創業意向及后續創業行為,為機會型創業這種經過理性思考判斷而作出的行為決策提供較為全面有力的理論解釋框架。
創業活動是一個復雜的社會問題,受非線性網絡反饋系統的動態特性影響[10],因而很難預測。與此同時,傳統回歸方法的顯著性水平受樣本量影響,回歸系數受測量尺度影響,因而難以有效評估影響因素的貢獻,關于影響因素的相對重要性仍存在爭議[11]。機會型創業涉及的特征變量較多,各變量與機會型創業之間不僅僅局限于單一的線性關系,可能存在較為復雜的非線性關系[12]。從方法層面看,現有關于機會型創業的文獻多基于傳統計量方法研究變量間的關系問題,使用單一模型進行實證檢驗,沒有引入人工智能算法,造成實證結果片面化,難以實現全面檢驗和有效預測。隨著大數據時代的到來和計算機信息技術的發展,人工智能算法在越來越多的研究和應用領域日益受到關注,但對創業的關注相對較少。Obschonka等[13]認為,盡管存在一定挑戰,人工智能和大數據正在顛覆與創業相關的工業、商業管理和創新等領域,并提出將人工智能與機會型創業相結合,關注這一新型創業研究及應用。作為人工智能領域的核心方法之一,機器學習算法在統計學理論基礎上,讓機器模擬人類進行自我學習并從海量信息中深度挖掘隱藏規律和信息,可以很好地擬合非線性關系,檢測輸入數據中交互的模糊性,適用于處理變量間較為復雜的關系(Gerasimovic等,2018;彭玉芳等,2022)。機器學習算法已逐漸運用在競爭力評價(張虎等,2016)、人才甄選(劉昕等,2019)、專利分類(Liu等,2020)、GDP增長預測(Yoon,2021)等方面。近幾年,創業學者開始使用機器學習算法研究創業問題。例如,Koumbarakis等(2022)使用XGBoost、隨機森林、支持向量機等機器學習算法預測新企業孕育結果。因此,XGBoost等機器學習算法可以預測個體是否進行機會型創業并區分不同影響因素的重要性,為傳統計量方法難以解決的預測和重要性判別問題提供支撐。
基于此,本文基于計劃行為理論,從主觀規范、行為態度、知覺行為控制3個方面,選擇成就導向、風險承擔、媒體宣傳、公眾認可、創業自我效能、機會識別和關系感知,并結合年齡、受教育水平、性別、家庭規模和家庭收入5個人口統計學特征共12個特征變量,以2018年全球創業觀察數據庫中等收入國家的個體數據為研究樣本,基于XGBoost算法構建機會型創業預測模型并識別關鍵影響因素。在此基礎上,基于準確率、精確率、召回率和F1值4個評估指標,將預測結果與支持向量機、隨機森林和邏輯回歸3種機器學習算法進行對比。研究可為政府和外部投資者有效識別潛在的機會型創業,政府針對性培育機會型創業者,個體積極從事機會型創業活動提供理論指導和實踐參考,進而有利于推動中國跨越中等收入陷阱,向創新驅動型經濟體轉型,促進經濟高質量發展。
計劃行為理論認為,個體有目的、有計劃的行為受意向支配,從事某一行為的意向受主觀規范、行為態度和知覺行為控制影響[14]。計劃行為理論作為社會心理學領域具有重要影響力的理論,也被廣泛應用于商業和管理領域,用于解釋和預測意向與行為(Armitage等, 2001)。計劃行為理論被應用于創業意向和創業行為研究主要體現在3個方面:第一,直接探討主觀規范、行為態度和知覺行為控制對創業意向的影響。例如,基于計劃行為理論,聚焦不同群體,探究行為態度、主觀規范和知覺行為控制對農民工返鄉創業意向(熊智偉等,2011)、大學生創業意向(Al-Jubari等,2019)、學術創業意向(茅路灑等,2022)的影響。第二,探討行為態度、主觀規范和知覺行為控制通過創業意向的中介作用對創業行為的影響。例如,王季等[15]構建學術創業意愿形成和學術創業行為轉化的兩階段整合模型,發現學術創業意愿受行為態度、主觀規范和知覺行為控制影響,在情境和個人因素的調節作用下可以轉化為實際創業行為。第三,將重點放在實際的創業行為上,利用計劃行為理論直接預測創業行為,而不是創業意向。以往實證研究大多聚焦創業意向,而忽視了對實際創業行為的研究。Souitaris等[16]指出,創業意向與創業行為之間存在一定距離和時間差,具有創業意向的個體不一定會產生創業行為;Dézsi-Benyovszki等[17]基于計劃行為理論,從行為態度、主觀規范和知覺行為控制3個方面實證分析羅馬尼亞早期創業行為和內部創業行為以及二者間的差異,以測試計劃行為理論在預測創業行為方面的適用性;朱亞麗等[18]從行為態度、主觀規范和知覺行為控制3個方面對員工內部創業行為進行組態分析;Shabir等[19]發現,行為態度、主觀規范和知覺行為控制對沙特阿拉伯早期創業活動具有顯著正向影響。
將計劃行為理論納入研究的創業學者認為,建立、發展企業以及與創業相關的其它行為都是有計劃的行為[20]。個體是理性經濟人,機會型創業是經過理性思考判斷、有目的和計劃的行為決策,因而計劃行為理論適合作為本研究的理論指導框架。參考Dézsi-Benyovszki等[17]、朱亞麗等[18]、Shabir等[19]利用計劃行為理論直接預測創業行為的做法,本研究進一步聚焦機會型創業行為,從主觀規范、行為態度和知覺行為控制3個方面對個體是否進行機會型創業這一問題進行理論分析。
首先,行為態度是指個人對某一特定行為的結果進行評估而產生的積極或消極評價[14]。針對機會型創業的行為態度可以分為成就導向和風險承擔兩個方面[18]。機會型創業更多受價值實現和自由獨立驅動,而不是生活所迫。具有高成就導向的個體更加注重獲得社會尊重與社會地位,因而更愿意從事機會型創業活動。創業作為一種高壓力、多挑戰、重負荷的活動,使個體面臨諸多風險與不確定性,尤其是機會型創業[21]。失敗恐懼會阻礙創業活動,因此,當個體對創業失敗風險持積極樂觀態度、勇于面對創業活動的高風險性與高不確定性時,會更積極參與機會型創業活動[22]。其次,主觀規范是指個體在綜合各種社會壓力等外部環境因素后產生的主觀認知[14]。社會規范是客觀存在的,而個體對社會規范的感知是主觀構建的。公眾認可和媒體關注等社會規范對創業活動的約束力和影響力甚至超過某些正式制度因素[23]。當創業被認為是一種理想的職業選擇且被媒體廣泛宣傳報道時,個體感受到良好的創業氛圍和創業合法性,進而有利于資源獲取和知識共享,降低創業進入門檻和退出壁壘[24],從而激發機會型創業行為。最后,知覺行為控制是指個體感知到對特定行為掌控的難易程度[25],主要包括自我效能和感知可控兩個方面[26]。創業自我效能是指個體對自己完成任務和發揮作用以取得創業成果能力的信心[27]。具有高創業自我效能的個體相信自己具有創業所需的能力和經驗,成為創業者的意愿更強,更有可能進行機會型創業。創業感知可控是指個體感知到對創業機會、創業關系等具有一定控制能力[18]。創業機會感知是一種重要創業能力和開始創業活動的關鍵因素(DeTienne等,2007),識別到高價值商業機會的個體更有可能參與機會型創業活動。當感知到一定創業關系支持時,個體可以與外部利益相關者建立更牢固的情感契約和信任,集聚、整合和利用稀缺、有價值的創業信息和創業資源,從而提高機會型創業的合法性,為機會型創業活動提供支持(Svendsen等,2004)。
機器學習主要包括監督學習、無監督學習和強化學習,其中,監督學習探究輸入數據與目標結果間的關系,因而采用監督學習方法研究機會型創業問題。集成學習不是單獨的機器學習方法,而是通過構建并結合多個機器學習器完成任務。Boosting方法通過分步迭代構建模型,各個預測函數順序生成,在每一步迭代時構建弱分類器,從而彌補已有模型的不足(王重仁等,2019)。
XGBoost全稱為eXtreme Gradient Boosting,是由陳天奇(2014)提出的基于Boosting集成學習算法的極端提升樹模型。其基本思想是通過不斷進行特征變量分裂生成樹,每生成一棵樹,都重新學習一個新函數,擬合上次預測的殘差,從而不斷提高學習質量[28]。XGBoost算法適用于機會型創業預測研究,主要體現在3個方面:首先,個人是否進行機會型創業本質上屬于一個二分類問題,該算法可以處理是否進行機會型創業這一分類問題。其次,XGBoost算法具有良好的性能,是對GBDT算法的一種改進,以CART作為基分類器,還可支持線性分類器,其損失函數采用二階泰勒展開,同時用到一階和二階導數,為控制復雜度,在目標函數中加入正則項,支持列抽樣,可以降低過擬合,減少計算,具有靈活性強、精度高、運算效率高等優點。因此,該算法可以處理機會型創業變量間的復雜關系和大規模數據,提高機會型創業的預測效果和運行效率[29]。最后,XGBoost算法可以評估自變量的相對重要性,反映自變量對機會型創業影響的大小。
全球創業觀察(Global Entrepreneurship Monitor,GEM)由美國百森商學院與英國倫敦商學院發起,是研究創業者特質、創業環境、創業行為等全球創業問題的權威數據來源[30],包括成年人口調查數據庫(Adult Population Survey,APS)和國家專家調查數據庫(National Expert Survey,NES)。由于GEM的完整數據集在數據收集3年后才對公眾開放,因而本文基于2018年APS數據庫獲取數據。該數據庫能夠反映個體創業特點、動機和抱負以及社會對創業的態度等信息。同時,全球競爭力報告將國家收入組劃分為低等收入國家、中等收入國家和高等收入國家3種類型。為使研究結論對中國等中等收入國家有借鑒意義,控制國家層面特征,確保案例總體之間具有充分的同質性[31]。因而,本文選取包括中國在內的中等收入國家作為研究樣本,使用2018年APS數據庫個體層面數據,剔除數據缺失的樣本,最終獲得12 829條個體數據。
進行機會型創業的個體為主要研究人群,將其定義為正類。本文具體采用準確率、精確率、召回率和F1值4個評價指標衡量模型預測效果,通過混淆矩陣對4個評價指標進行計算,TP和TN分別表示對進行機會型創業樣本和不進行機會型創業樣本預測正確的樣本數,FN和FP分別表示對進行機會型創業樣本和不進行機會型創業樣本預測錯誤的樣本數,混淆矩陣如表1所示。

表1 混淆矩陣Tab.1 Confusion matrix
準確率表示預測正確的樣本占總樣本的比例,計算公式如下:

(1)
精確率表示對進行機會型創業預測正確的樣本占被預測為進行機會型創業樣本的比例,計算公式如下:

(2)
召回率表示對進行機會型創業預測正確的樣本占實際進行機會型創業樣本的比例,計算公式如下:

(3)
在某些情況下,精確率和召回率會產生矛盾。為綜合評判模型的預測能力,使用F1值進行判定,F1是精確率和召回率的調和均值,即精確率與召回率乘積的兩倍除以兩者之和,其值越大,說明模型的預測能力越強,具體公式如下:

(4)
本文主要借鑒朱亞麗等[18]關于員工內部創業行為的研究框架,參考鄭馨等[23]、Ajzen[26]的研究,在行為態度層面選擇成就導向和風險承擔兩個特征指標,在知覺行為控制層面選擇創業自我效能、機會識別和關系感知3個特征指標,在主觀規范層面選擇媒體宣傳和公眾認可兩個特征指標,在行為層面選擇機會型創業特征指標。此外,性別、年齡等人口統計學特征是影響創業動機和行為的其它個人因素(Wood等, 1989)。因此,參考Dézsi-Benyovszki等[17]、Shabir等[19]的研究,選擇年齡、受教育水平、性別、家庭規模和家庭收入5個人口統計學特征指標,具體解釋如表2所示。

表2 特征指標及說明Tab.2 Characteristic indexes and description
考慮到變量可能存在共線性問題,從而影響預測效果,同時由于研究數據中存在非連續型變量,因而參考王言等[28]的研究,采用Spearman相關分析和方差膨脹因子(Variance Inflation Factor,VIF)兩種方法進行檢驗。結果顯示,各變量間的相關系數均小于0.6,各變量的VIF值及均值都小于3,說明不存在嚴重的共線性問題。
本文基礎數據共12 829個樣本,其中進行機會型創業的樣本有1 744個,不進行機會型創業的樣本有11 085個,樣本不平衡問題明顯。在樣本存在明顯不平衡的情況下,常見的機器學習算法絕大多數都不能很好地工作,模型對少數樣本的敏感性降低,預測效果受到嚴重影響(Kuhn等,2013)。進行機會型創業與不進行機會型創業的樣本數相差過大,可能導致在模型學習過程中,對不進行機會型創業的人群特征學習充分而對進行機會型創業的人群特征學習不夠,在識別機會型創業者時不準確,從而導致分類預測效果欠佳。因此,本文參考吳翌琳等(2021)的研究,采用過采樣方法,復用進行機會型創業的樣本4次,得到共計19 805個樣本進行建模分析。為更好地檢驗分類模型的預測能力,對樣本進行多組實驗,觀察擬合效果,最終確定將樣本數按7∶3的比例隨機拆分為訓練集和測試集,確保有足夠的數據量訓練模型。
3.1.1 參數設置
XGBoost算法主要包括控制宏觀函數的通用參數、控制booster細節的Booster參數和控制訓練目標的學習目標參數3類參數,具體涉及幾十個參數(曹睿等,2021)。建模的一個關鍵因素在于選擇適當的參數,為提高模型性能,本文基于XGBoost算法構建機會型創業預測模型并對參數進行優化調整,模型主要參數設置及說明如表3所示。

表3 基于XGBoost算法的參數設置Tab.3 Parameter settings based on XGBoost algorithm
3.1.2 運行結果
使用Python軟件,利用訓練集建立XGBoost模型,進而得到測試集的混淆矩陣,如表4所示。實際進行機會型創業的樣本共2 591人,其中,2 487人被模型判定為進行機會型創業,104人被誤判為不進行機會型創業。實際不進行機會型創業的樣本共3 351人,其中,2 799人被模型判定為不進行機會型創業,552人被誤判為進行機會型創業。通過計算得到模型的準確率為(2 487+2 799)/(2 591+3 351)=89.0%,表明XGBoost算法具有較高的準確率。從進行機會型創業的類別看,根據混淆矩陣計算模型的召回率為2 487/(2 487+104)=96.0%,表明XGBoost算法對實際進行機會型創業的人挖掘能力很強,挖掘率達到96.0%。精確率為2 487/(2 487+552)=81.8%,表明在被判定為進行機會型創業的人群中存在18.2%的人不進行機會型創業。根據精確率和召回率,得到F1值為2×96.0%×81.8%/(96.0%+81.8%)=88.3%??傮w來看,XGBoost算法在精確率、準確率、召回率和F1值4個評價指標上都達到較高水平,對機會型創業具有較好的預測效果。

表4 基于XGBoost算法的混淆矩陣Tab.4 Confusion matrix based on XGBoost algorithm
在此基礎上,根據真陽性率(True Positive Rate,TPR)和假陽性率(False Positive Rate,FPR)的值,進一步繪制ROC曲線(Receiver Operating Characteristic Curve)。其中,縱軸是真陽性率,橫軸是假陽性率,把不同的點連成曲線,如圖1所示。AUC(Area Under Curve)為ROC曲線下方與坐標軸圍成的面積,通過計算AUC值為0.94,大于0.85的閾值,說明XGBoost算法對機會型創業的預測效果較好。

圖1 基于XGBoost算法的ROC曲線Fig.1 ROC curve based on XGBoost algorithm
機器學習算法具有較強的領域適用性和效果良好的運算結果,本文選擇邏輯回歸、支持向量機、隨機森林3種機器學習算法與XGBoost算法進行對比,從而比較不同算法對機會型創業的預測效果。表5結果顯示,邏輯回歸算法的準確率為69.3%,支持向量機算法的準確率為72.8%,隨機森林算法的準確率為77.8%,XGBoost算法的準確率為89.0%,XGBoost算法最優,其次是隨機森林算法和支持向量機算法,最后是邏輯回歸算法。從召回率、精確率和F1值看,也呈現較一致的結果。這可能是因為,邏輯回歸是一種廣義的線性回歸模型,本質上是一個線性模型加上Sigmoid函數,服從伯努利分布,因而預測效果相對較差。這表明機會型創業具有較為復雜的非線性關系,使用基于非線性關系的模型可以獲得較好的預測效果。其它幾種機器學習方法可用于解決非線性問題,且不局限于某種分布[32],更適用于大數據下機會型創業的預測問題。在建模過程中,支持向量機算法可以解決非線性的二分類問題,對變量間的非線性關系進行一定程度的擬合,其準確率、精確率、召回率和F1值均比邏輯回歸高,但預測效果仍有待提高。從理論上看,集成分類器的性能總體上優于絕大多數單一分類器,基于集成學習的XGBoost算法和隨機森林算法預測效果較好。隨機森林算法基于Bagging集成學習算法,采用隨機方式建立一片森林,基于所有樹的分類結果進行綜合判別分類,可以處理高維度數據,模型抗噪聲能力強、泛化能力較強且訓練速度快[33]。在機會型創業預測上,XGBoost使用梯度提升框架,比邏輯回歸、支持向量機、隨機森林3種算法的預測效果更好,4個評價指標均為最優。這與Koumbarakis等(2022)的研究一致,相較于其它幾種算法,XGBoost算法在預測新企業孕育結果方面表現最佳。這也表明本文構建的影響因素框架是有效的,基于計劃行為理論和人口統計學特征深入挖掘影響因素可以較好地預測個體是否進行機會型創業。在此基礎上,本文進行五折交叉驗證,將樣本隨機均等劃分為5個數據集,輪流選取其中4個數據集作為訓練集,剩下的一個數據集作為測試集,依次進行迭代,并計算平均值。以準確率為例,XGBoost算法的平均準確率達到88.6%,比隨機森林算法的平均準確率高出約10%,比支持向量機算法的平均準確率高出約17%,比邏輯回歸算法的平均準確率高出約20%,再次驗證了XGBoost算法在預測機會型創業方面的良好效果。

表5 4種算法結果對比Tab.5 Comparison of the results of the four algorithms
通過比較XGBoost、邏輯回歸、支持向量機、隨機森林幾種機器學習算法,發現XGBoost算法對機會型創業具有良好的預測效果。同時,XGBoost算法可以通過數據分類回歸得到各特征變量的重要性大小。重要性本質上是指某個變量在迭代構建決策樹過程中被選擇的次數占所有自變量被選擇總次數的比例,所有特征變量的重要性之和為1[29]。因此,本文基于XGBoost算法評估各特征變量的重要性,結果如表6所示。結果顯示,機會型創業影響因素框架中的12個特征變量對機會型創業預測都具有作用,重要性最高的前3名分別為創業自我效能(0.250)、機會識別(0.097)和關系感知(0.081)。由此可見,創業自我效能在預測機會型創業時發揮最重要的作用,機會識別和關系感知也相當重要。

表6 變量重要性評估結果Tab.6 Assessment results of variable importance
首先,創業過程充滿挫折,需要創業者具備極高的心理素質,創業自我效能體現了創業者克服創業困難取得創業成功的信念(周鍵等,2019)。即使創業活動帶來的經濟效益可預期,個體也不一定選擇創業,而是首先評估自己是否有能力進行創業并實現創業目標[34]。因而,創業自我效能是創業開始的重要因素,能夠很好地預測機會型創業。例如,李彥宏在硅谷工作數年后,懷揣巨大的創業信心回到國內,憑借廣泛的資訊、豐富的經歷和開闊的視野,最終成功創立百度。李彥宏也提到,在面臨戰略機遇期和攻堅期時,創業者要樹立自信心,堅持不斷創新,堅定信仰,不跟風、不動搖。其次,創業本質上是由機會識別及相關活動和職能共同構成的(谷晨等,2019)。機會前瞻意識較強的個體可以基于個體偏好和外部環境敏銳識別創業機會,進而從事機會型創業活動。例如,馬云在創建阿里巴巴時,發現中小企業在互聯網消費市場占據巨大份額且急需互聯網銷售平臺的商業機會,進而開創了B2B的電子商務模式。最后,在轉型經濟國家,法律、法規等正式制度還不完善,因而個人社會關系等顯得尤為重要[35]。當個體感知到創業關系支持時,更容易集聚、整合和利用創業資源,進而從事機會型創業活動。例如,馬云積極擴展創業關系網絡,組建“十八羅漢”創業團隊,積極爭取軟銀和雅虎的投資資金支持,成就了阿里巴巴商業帝國。
值得注意的是,在5個人口統計學特征變量中,家庭收入最為重要,其次為年齡,而性別、受教育水平和家庭規模在判別機會型創業時發揮的作用較小。這說明機會型創業在初期往往難以獲得廣泛的外部資金支持,風險投資等外部資金占比較低,而個人的家庭收入往往成為機會型創業初始階段的重要資金來源[6]。創業自我效能、機會識別和關系感知作為知覺行為控制的3個具體維度,體現了知覺行為控制對機會型創業的重要影響。此外,已有研究強調社會規范對創業行為活動的重要作用,但在本文研究中,除人口統計學特征變量外,媒體宣傳和公眾認可作為主觀規范的兩個具體維度,在計劃行為理論框架下對機會型創業的影響最弱,這與已有研究有相似之處。Autio等[36]運用計劃行為理論分析芬蘭、瑞典、美國和英國大學生創業意向的影響因素發現,知覺行為控制是最重要的影響因素,而主觀規范的影響最弱。
本文將機器學習算法引入機會型創業領域,基于計劃行為理論,從主觀規范、行為態度、知覺行為控制3個方面,并結合年齡、受教育水平、性別、家庭規模和家庭收入5個人口統計學特征選擇12個特征變量。以2018年全球創業觀察數據庫的中等收入國家個體數據為研究樣本,使用Python軟件,運用XGBoost算法預測機會型創業并甄別關鍵影響因素。研究發現,基于準確率(89.0%)、精確率(81.8%)、召回率(96.0% )和F1值(88.3%)4個評估指標,XGBoost算法的預測效果較好,通過ROC曲線進一步計算AUC值為0.94,可以較好地反映機會型創業與各影響因素之間的非線性關系。XGBoost算法基于梯度提升框架,通過集成學習組成一個強學習器,利用決策樹集成優勢對龐大的創業數據進行非線性擬合,能夠更加快速準確地解決機會型創業預測等科學問題,優于支持向量機、隨機森林和邏輯回歸算法,五折交叉驗證也證明XGBoost算法具有較好的預測效果。此外,基于XGBoost算法評估12個特征變量的重要性發現,創業自我效能、機會識別和關系感知是影響機會型創業的重要因素,說明知覺行為控制對機會型創業具有重要影響,而性別等人口統計學特征影響較小。
基于計劃行為理論和人口統計學特征,通過多種影響因素的組合,使用XGBoost等機器學習算法預測機會型創業,本文研究貢獻如下:
(1)拓展了計劃行為理論的適用邊界。計劃行為理論作為社會心理學領域具有重要影響力的理論,已被廣泛應用于行為和意向研究中。創業領域學者也運用計劃行為理論研究創業意向和行為,但在機會型創業領域應用有限。同時,現有研究從個體、家庭和環境層面提出機會型創業的影響因素,相對比較零散,對于個人為什么進行機會型創業有待進一步探究。本文響應Shane等[5]加強機會型創業研究的號召,應用計劃行為理論并結合人口統計學特征,剖析機會型創業的影響因素,構建包含主觀規范、行為態度、知覺行為控制和人口統計學特征的整合性研究框架。這彌補了以往機會型創業研究缺乏系統性的不足,提高了對機會型創業復雜性的解釋力,驗證了計劃行為理論在解釋機會型創業上的適用性,為機會型創業研究提供了可行的理論切入點。
(2)擴展了機器學習算法在創業領域的應用?,F有關于機會型創業的研究主要運用傳統實證方法研究關系型問題,而自變量與機會型創業之間并不一定呈線性關系,可能存在復雜的非線性關系,因此難以實現有效預測,而且關于影響因素的相對重要性仍存在爭議。本文回應了Obschonka等[16]將人工智能與機會型創業結合的觀點,進行計算機科學與創業領域的學科交叉,關注這一新型創業領域。本文將機器學習方法應用到機會型創業預測中,構建個體是否參與機會型創業的預測模型。對比分析發現,XGBoost算法對機會型創業的預測效果最好,可以檢測輸入數據中變量交互的模糊性和非線性效應,擴展了機器學習方法在創業領域的應用,彌補了傳統計量分析方法的不足。此外,XGBoost算法還可以度量影響因素的重要性,豐富了創業研究中的優勢分析方法(Arin等,2015)。
有效的預測方法作為一種支持系統,有利于政府和外部投資者識別潛在的機會型創業,有利于政府針對性培育機會型創業,并指導個體從事機會型創業活動。針對本文研究結論,從以下方面提出實踐啟示:
(1)為政府和外部投資者有效甄別機會型創業提供科學方法。XGBoost等機器學習算法可以對機會型創業進行預測,在精確率、準確率、召回率和F1值4個方面都達到較高水平,預測效果較好。因此,政府可利用XGBoost算法挖掘潛在的機會型創業,從而將資源更多地分配給潛在的機會型創業者,以促進機會型創業實踐。同時,風險投資、天使投資等外部投資者可以基于XGBoost算法識別潛在的機會型創業,從而降低選擇成本,進行有效的創業投資。
(2)為政府針對性培育機會型創業提供實踐參考。本文利用XGBoost算法評估機會型創業各特征變量的重要性,發現創業自我效能、機會識別和關系感知是影響個體進行機會型創業的重要因素。因此,政府要加快營造有利于機會型創業的社會環境,不斷優化創業生態系統,完善創業教育體系,加大創業資金支持,營造寬容失敗的創業氛圍,搭建創業服務咨詢與交流協作平臺,為個體進行機會型創業創造條件。
(3)為個體積極從事機會型創業活動提供實踐啟示。對于個人而言,要特別注重提升個體創業自我效能、增強個體創業關系感知、提高個體創業機會識別能力。個體不僅要加強創業技能和理論知識學習,增強創業自信心,而且要注重創業關系的積累,積極與創業者進行交流互動,努力撬動社會資源支持。此外,個體要擅于尋找和發現創業機會,提高對創業機會的警覺性,積極識別創業機會進而轉化為機會型創業行為。
本研究存在一定不足,未來可以從兩個方面加以改進和完善。一方面,不同算法模型具有不同預測效果,只能逼近模型的最優效果,只有不斷納入更多數據維度,并進行特征變量選擇,才能提高模型的預測效果。創業是一項復雜且具有不確定性的活動,受限于數據的可得性,本文選擇的變量有限,與現實情況仍存在一定差距。未來可基于其它視角和數據庫,從多角度、多因素有效預測機會型創業,從而為政策制定提供更為全面科學的理論指導和實踐參考。另一方面,機器學習領域發展較快,新的算法模型不斷涌現,未來可以融合其它算法進一步完善機會型創業預測模型及其應用,提升研究結論的準確性和指導力。