999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

我國大學生創業意愿識別模型比較研究

2021-03-31 05:00:34戴冬陽
牡丹江大學學報 2021年3期
關鍵詞:分類大學生模型

石 峰 胡 燕 戴冬陽

(1.湖南工程學院管理學院,湖南 湘潭 411104;2.中南大學法學院,湖南 長沙 410012;3.中國人民解放軍陸軍勤務學院 國防經濟系,重慶 401331)

教育部公布的數據顯示,2020年我國高校畢業生高達847萬。在新冠疫情影響下,大學生就業形勢更加嚴峻。鼓勵大學生自主創業是擴大就業的重要渠道。創業不僅能創造就業機會,也是實現產業轉型升級的重要途徑。因此,構建大學生創業意愿識別模型,系統分析影響大學生創業意愿的各種因素,有利于科學把握大學生的創業動機和創業行為。同時對于激發大學生創新創業精神和推動形成“大眾創業,萬眾創新”的創新創業人才培養機制具有重要現實意義。

創業意愿是個人是否從事創業活動的態度和想法。創業意愿是一種有意識的精神狀態,表明潛在創業者為從事創業活動而做出的努力。關于大學生創業意愿的研究,國內外主要基于Shapero和Sokol的創業事件模型(SEE)、經Bird開創和Davidsson發展的心理經濟模型(MEP)以及Ajzen的計劃行為理論模型(TPB)。[1]由此將大學生創業意愿的影響因素概括為內在因素和外在因素。內在因素主要是創業者的個體特征、心理特質和認知,外在因素主要是指創業者所處的特定環境因素。國內外學者普遍認為,大學生創業意愿是內在和外在因素共同作用的結果。Duong(2020)等針對越南高校學生創業意愿的調查數據,運用結構方程模型實證研究表明:大學生個人特征和創業環境對創業意愿具有顯著正向影響。[2]Fragoso(2020)基于計劃行為理論框架對巴西和葡萄牙的大學生創業意愿進行實證檢驗發現:人格特質、自我效能感和創業態度是創業意愿的重要影響因素。[3]Mahfud(2020)根據印度尼西亞的理工類專業大學生調查數據,使用結構方程模型分析發現:個人認知、社會資本和心理資本共同影響大學生的創業意愿。[4]Sesen(2020)基于土耳其356名大學生的調查數據,運用回歸分析的實證結果表明:個人自我效能和家庭背景對大學生創業意愿具有顯著影響。[5]Ozaralli(2016)對美國和土耳其大學生創業意愿的比較研究表明,人格特質、個人教育背景和創業環境對創業意愿的影響存在顯著地區差異。[6]馬佚群(2020)等運用回歸分析認為,貧困經歷和創業動機對創業意愿具有顯著影響。[7]國內大多運用相關分析、多元回歸和邏輯回歸的方法探討人口統計學特征、財富稟賦、人力資本、社會資本、創業政策等因素對大學生創業意愿的影響。[8-10]

綜上,已有研究都是從內在或外在因素對大學生創業意愿的影響進行理論分析與實證檢驗,運用機器學習算法構建大學生創業意愿識別模型的相關研究還很難見到。本文從影響大學生創業意愿的諸多因素出發,同時考慮影響大學生創業意愿的內外在因素,構建多種算法的大學生創業意愿識別模型,并對識別效果進行對比,旨在找出一種更有效識別和預測大學生創業意愿的算法模型,為大學生創業準備和創業實踐提供幫助和政策支持。與大多研究不同的是,本文的創業意愿不是簡單的二進制變量,而是具有六個類別的分類變量。因此,本文構建的大學生創業意愿識別模型是一個多類別的識別模型。

二、數據、變量與模型

(一)數據與變量

本文構建的大學生創業意愿識別模型的數據來源于2015年中國綜合社會調查(CGSS)。本文首先根據該調查問卷中的題項“您目前最高教育程度的狀態”對數據進行篩選,其中,“正在讀”的大學生樣本占總體2.6%,“畢業”的大學生樣本占總體66%,“其它”的大學生樣本占總體31.4%。由于“畢業”的大學生樣本占總體的絕大多數,因此,本文僅將已畢業的大學生作為考察樣本。

本文根據2015年中國綜合社會調查(CGSS)數據,建立大學生創業意愿識別指標體系(見圖1所示),由此構建大學生創業意愿識別模型。

圖1 大學生創業意愿識別指標體系

由圖1看到,大學生創業意愿識別指標體系由個人認知能力、個人特征、創業環境、社會信任和資源稟賦等五個維度構成。其中,個人認知能力包括說英語的能力、聽英語的能力、說普通話的能力和聽普通話的能力;個人特征包括性別和戶籍類型;創業環境主要包括政府工作表現和社會公共服務,其中政府工作表現由維護公平、秉公辦事、環境保護和公平執法等四個維度衡量,社會公共服務由公共教育服務、基本住房保障服務、醫療衛生公共服務和社會管理公共服務衡量;社會信任由“總的來說,您同不同意在這個社會上,絕大多數人都是可以信任的”,即社會信任總體評價衡量;資源稟賦則由家庭經濟狀況和父親的教育程度衡量。

因此,本文納入大學生創業意愿識別模型的變量如下:

1.目標變量。本文的目標變量是創業意愿(busi),表示為“如果有機會和資源,您是否會去創業?”是多分類變量,其中,變量取值為“非常可能”“很可能”“有可能”“說不清可不可能”“不太可能”“很不可能”“非常不可能”等7個類別。由于選填“非常不可能”只有少量樣本,故刪除該類樣本,由此本文的創業意愿是6個類別的目標變量,分別用“1”“2”“3”“4”“5”“6”表示。

2.特征變量。本文的特征變量由個人認知能力、個人特征、創業環境、社會信任和資源稟賦等五個維度的指標構成。其中,個人認知能力(cogn)的取值是說英語的能力、聽英語的能力、說普通話的能力和聽普通話的能力等四項指標的平均值,該四項指標均由“完全不能”“比較差”“一般”“比較好”和“很好”衡量,取值均為1至5;個人特征有性別(gend)和戶籍類型(resi)兩個變量,其中,性別取值為1和2,分別表示男和女。戶籍類型取值為1至5,分別表示“農業戶口”“非農業戶口”“藍印戶口”“居民戶口(以前是農業戶口)”“居民戶口(以前是非農業戶口)”。創業環境由政府工作表現(gov)和社會公共服務(pubs)衡量。其中,政府工作表現的取值是維護公平、秉公辦事、環境保護和公平執法等四個指標的平均值,該四項指標的取值均為1至5,表示“非常低”、“比較低”“一般”“比較高”和“非常高”;社會公共服務的取值是取百分制(0至100)的四個指標(公共教育服務、基本住房保障服務、醫療衛生公共服務和社會管理公共服務)的平均值。社會信任(trus)由社會信任總體評價衡量,分別由“絕大多數不可信”“多數不可信”“可信者與不可信者各半”。“多數可信”和“絕大多數可信”表示,對應取值為1至5。資源稟賦由家庭經濟狀況(econ)和父親的最高教育程度(fedu)衡量。家庭經濟狀況由“遠低于平均水平”“低于平均水平”“平均水平”“高于平均水平”和“遠高于平均水平”表示,對應取值分別為1至5。父親的最高教育程度取值為 1至14,分別表示“沒有受過任何教育”“私塾、掃盲班”“小學”“初中”“職業高中”“普通高中”“中專”“技校”“大學專科(成人高等教育)”“大學專科(正規高等教育)”“大學本科(成人高等教育)”“大學本科(正規高等教育)”和“研究生及以上”。

(二)模型

本文構建的大學生創業意愿識別模型本質上一種分類技術與方法。分類技術是機器學習和數據挖掘的重要組成部分,本文運用邏輯回歸、支持向量機、決策樹和K最近鄰等四種算法構建大學生創業意愿識別模型。

1.邏輯回歸

邏輯回歸是一種有監督的學習方法,該算法通過將數據擬合到邏輯函數來預測事件發生的可能性。邏輯回歸本質是一種二進制分類算法,通常可以使用邏輯回歸的擴展模型(多項式邏輯回歸和有序邏輯回歸)解決具有多個類別的問題。本文的目標變量具有6個類別,因此可以通過擬合5個獨立的二進制邏輯分類器模型來處理多個類別問題。由于大學生的創業意愿具有不同的強弱程度,即存在大小順序,因此,本文使用有序多分類邏輯回歸構建具有5個二元的邏輯回歸模型。

2.支持向量機

支持向量機(Support Vector Machine,SVM)是一種分類方法,可以同時用于分類和回歸問題。SVM在多維空間中構造一個超平面以分隔不同的類。SVM以迭代方式生成最佳超平面,用于最小化誤差。SVM的核心思想是找到最大的邊際超平面,以最大程度地將數據集劃分為不同的類別。

3.決策樹

決策樹是基于分割規則將數據遞歸地劃分為更多子節點的非參數方法。運用決策樹進行識別分類,通常按照以下幾個步驟進行:(1)導入數據。(2)建立訓練集與測試集。在訓練集上訓練模型并在測試集上進行預測。(3)決策樹生成。使用信息增益、基尼系數或增益比率選擇最佳屬性,使該屬性成為決策節點,并將數據集分成較小的子集,同時通過對每個子集遞歸地重復此過程來開始樹的構建。(4)模型預測。運用決策樹模型進行預測。(5)模型評估。運用混淆矩陣評價監督式學習模型的精確性,常用的評估指標主要有準確率、召回率、誤差率和Kappa系數等。

4.K最近鄰

K最 近 鄰(K-Nearest Neighbor,KNN)算法是一種基本分類與回歸方法。通過給定測試實例,基于某種距離度量方法找出訓練集中與測試點最靠近的K個實例點,然后通過這K個最近鄰的信息預測測試實例的類別。歐幾里德距離和余弦相似性通常作為K最近鄰算法的分類器。本文使用歐幾里德距離實現大學生創業意愿識別模型的K最近鄰分類結果。

三、模型結果及比較

本文使用準確率(accuracy)和Kappa系數作為大學生創業意愿識別模型的結果評價指標。準確率是預測正確的樣本與所有樣本的比例。Kappa系數是基于混淆矩陣得到的指標,用于衡量分類的效果,即模型的預測結果與實際分類結果是否一致,取值在-1至1之間,值越大表明分類結果越準確。

本文使用R語言函數對邏輯回歸、支持向量機、決策樹和K最近鄰算法的大學生創業意愿識別模型進行估算。該四種算法都將256個樣本數據集中的三分之二樣本作為訓練集,剩余三分之一樣本作為測試集。

本文首先對基于有序多分類邏輯回歸的大學生創業意愿識別模型進行估算。在對模型進行估計之前,必須對大學生創業意愿識別模型中的8個特征變量進行多重共線性檢驗,以滿足有序多分類邏輯回歸模型的假設要求。共線性檢驗表明:8個特征變量的容忍度均大于0.1,且方差膨脹因子均遠遠小于10,所以不存在多重共線性。另外需要指出的是,使用有序多分類邏輯回歸模型,必須滿足比例優勢假設,即各特征變量對目標變量中6類別的系數相等。通過比例優勢假設的平行線檢驗表明:卡方值為32.605,P顯著性值為0.437(P>0.05),說明比例優勢假設成立,可以使用有序邏輯回歸進行分析。基于10次重復試驗的平均準確率為0.3108,即平均來看,31.08%的測試樣本被正確識別;10次重復試驗的Kappa系數平均值為0.0833,說明預測結果與實際分類結果相差較大(見表1所示)。

本文隨后分別對支持向量機、決策樹和K最近鄰的大學生創業意愿識別模型進行估計。本文使用R語言中的e1071包估算支持向量機(SVM)算法的大學生創業意愿識別模型。估計結果為:10次重復試驗的平均準確率為0.2871;Kappa系數平均值為0.0445。

關于決策樹的大學生創業意愿識別模型的估算,主要有ID3、C4.5、C5.0和rpart等算法。C5.0是基于ID3和C4.5實現生成決策樹的監督機器學習算法。C5.0算法使用信息熵作為確定最佳分組變量和分割點的標準。rpart算法使用基尼系數作為確定數據拆分的規則,從而實現最佳分組變量和分割點,輸出決策樹。本文使用rpart算法的估計結果為:平均準確率和Kappa系數平均值分別是0.2941和0.0577。可見,決策樹rpart算法的識別精度低于邏輯回歸算法。

本文使用R語言的caret包對K最近鄰算法的大學生創業意愿識別模型進行估計。估計結果為:10次重復試驗的平均準確率是0.3345;Kappa系數平均值為0.0863。

表1 10次重復試驗結果

由表1看到,基于四種算法的大學生創業意愿識別模型,通過10次重復試驗的結果表明:K最近鄰模型的平均準確率最高,支持向量機模型的平均準確率最低。按照平均準確率大小依次排序為:K最近鄰(0.3345)>有序多分類邏輯回歸(0.3108)>決策樹的rpart(0.2941)>SVM(0.2871)。其中,K最近鄰與有序多分類邏輯回歸在平均準確率上更接近;而決策樹的rpart與SVM在平均準確率上更靠近。從準確率的離散程度看,K最近鄰的標準差最小(0.0334),表明K最近鄰的準確率最穩定。同樣由表1看出:K最近鄰的Kappa系數平均值最大,表明四種模型的識別結果中K最近鄰的分類效果最好,依次排序為:K最近鄰(0.0863)>有序多分類邏輯回歸(0.0833)>決策樹的rpart(0.0577)>SVM(0.0445)。

綜上所述,無論從平均準確率,還是Kappa系數平均值看,基于K最近鄰算法的大學生創業意愿識別模型在大學生創業意愿識別上,相比邏輯回歸、決策樹的rpart以及支持向量機等算法具有更好的識別效果。但遺憾的是,本文基于四種算法構建的大學生創業意愿識別模型在識別效果上都不具有較好表現。原因在于:首先,本文是基于256個樣本構建的大學生創業意愿識別模型,樣本數太少。其次,創業意愿的六個類別在數據分布上不均衡,即有的樣本多,有的樣本少。第三,在大學生創業意愿識別指標體系的建立過程中,可能遺漏了一些重要指標。以上這些因素都可能影響到模型的識別效果。但本文構建的四種大學生創業意愿識別模型為創業意愿的識別研究提供了方法選擇。

四、結語

本文利用2015年中國綜合社會調查(CGSS)數據,建立包括個人認知能力、個人特征、創業環境、社會信任和資源稟賦等五個維度的大學生創業意愿識別指標體系,構建邏輯回歸、決策樹、支持向量機和K最近鄰等四種算法的大學生創業意愿識別模型。四種算法模型的結果表明:K最近鄰模型的平均準確率最高,支持向量機模型的平均準確率最低。基于10次重復試驗的平均準確率排序依次為:K最近鄰>有序多分類邏輯回歸>決策樹的rpart>支持向量機。從Kappa系數平均值看,也得到與平均準確率一致的結論,即K最近鄰模型的分類效果最好,支持向量機模型的分類效果最差。

可見,在四種算法構建的大學生創業意愿識別模型中,K最近鄰算法具有相對較高的準確性。K最近鄰算法是一種非參數模型,雖然不需要對數據做出嚴格的假設要求,但必須要找到一個最佳的K值。而邏輯回歸模型需要特征變量之間滿足相互獨立和比例優勢假設。若目標變量和特征變量之間的關系通過線性模型能很好地擬合,則線性模型的識別效果常優于決策樹模型。但決策樹作為一種非參數方法,不依賴于概率分布假設,能夠擬合復雜的數據集。支持向量機實現多分類的識別方法是將一個多分類問題轉化為多個二分類問題,常用的方法是“一對多法”和“一對一法”,但支持向量機的有效性依賴于核函數和核參數的選擇。因此,在構建大學生創業意愿識別模型的過程中,應充分考慮各種算法模型的優勢和缺陷,根據具體問題和數據特點選擇最適合的模型。

猜你喜歡
分類大學生模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
帶父求學的大學生
數據分析中的分類討論
教你一招:數的分類
大學生之歌
黃河之聲(2017年14期)2017-10-11 09:03:59
3D打印中的模型分割與打包
主站蜘蛛池模板: 四虎成人精品在永久免费| 免费aa毛片| 久久狠狠色噜噜狠狠狠狠97视色 | 青青久视频| 国产拍揄自揄精品视频网站| 中文字幕在线永久在线视频2020| 第一页亚洲| 国产欧美高清| 免费毛片全部不收费的| 欧美性猛交xxxx乱大交极品| 国产精品亚洲天堂| yy6080理论大片一级久久| 亚洲动漫h| AV不卡国产在线观看| 欧美日韩高清在线| 日本不卡视频在线| 亚洲一区第一页| 毛片免费试看| 99精品国产电影| 一区二区午夜| 国产在线精品人成导航| av在线无码浏览| 欧洲极品无码一区二区三区| 国产99视频精品免费观看9e| 美女裸体18禁网站| 天堂网国产| 亚洲中文字幕国产av| 亚洲美女一区二区三区| 性色在线视频精品| 久久一日本道色综合久久| 国产精品三区四区| 国产亚洲视频中文字幕视频| 亚洲一区二区日韩欧美gif| 久久国产高潮流白浆免费观看| 成年看免费观看视频拍拍| 91精品人妻一区二区| 国产在线一二三区| 国产精品久久久久鬼色| 无码精品福利一区二区三区| 欧美精品aⅴ在线视频| 国产成人精品2021欧美日韩| 伊人无码视屏| 日韩性网站| 国产精品美女在线| 精品国产自在在线在线观看| 国产乱子伦无码精品小说 | 真实国产乱子伦视频| 精品福利网| 免费一看一级毛片| 99热国产这里只有精品无卡顿"| 国产激情影院| 国产精品jizz在线观看软件| 国产在线麻豆波多野结衣| 四虎永久在线精品国产免费| 午夜啪啪网| 超清无码熟妇人妻AV在线绿巨人 | 婷婷综合在线观看丁香| 国产大全韩国亚洲一区二区三区| 欧美翘臀一区二区三区| 日韩无码视频网站| 日韩在线永久免费播放| 97在线免费| 久久窝窝国产精品午夜看片| 91人妻日韩人妻无码专区精品| 视频一本大道香蕉久在线播放| 精品一区二区三区视频免费观看| 国产人在线成免费视频| 91精品日韩人妻无码久久| 久久网综合| 成人国产免费| 亚洲免费黄色网| 欧美人人干| 欧美国产精品不卡在线观看 | 日韩精品一区二区三区大桥未久 | 999精品免费视频| 亚洲国产成人在线| 中文字幕在线观看日本| 一本无码在线观看| 久热re国产手机在线观看| 91色在线视频| 99精品高清在线播放| 国产成人狂喷潮在线观看2345|