999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)技術(shù)在高校創(chuàng)業(yè)生態(tài)建設(shè)中的應(yīng)用

2023-12-29 01:39:18寧高倩
關(guān)鍵詞:模型

寧高倩

(湖南環(huán)境生物職業(yè)技術(shù)學(xué)院,湖南 衡陽(yáng) 421005)

隨著全球信息化和數(shù)字經(jīng)濟(jì)的快速發(fā)展,大數(shù)據(jù)已經(jīng)成為人類社會(huì)的重要產(chǎn)業(yè)和基礎(chǔ)資源[1]。在該趨勢(shì)下,高校創(chuàng)業(yè)生態(tài)建設(shè)成為推動(dòng)新一輪創(chuàng)新驅(qū)動(dòng)發(fā)展的重要舉措之一。一方面高校創(chuàng)新、創(chuàng)業(yè)可以彌補(bǔ)國(guó)內(nèi)、外新興產(chǎn)業(yè)領(lǐng)域中的人才缺口,另一方面也可以促進(jìn)科學(xué)研究成果轉(zhuǎn)化,對(duì)推動(dòng)經(jīng)濟(jì)高質(zhì)量發(fā)展和實(shí)現(xiàn)創(chuàng)新驅(qū)動(dòng)發(fā)展具有重要的戰(zhàn)略意義[2-3]。

我國(guó)高校創(chuàng)新、創(chuàng)業(yè)生態(tài)建設(shè)仍存在很多不足,例如政策環(huán)境不友好、人才培養(yǎng)模式單一以及科技成果轉(zhuǎn)化難度大等[4]。

該文從面向大數(shù)據(jù)時(shí)代的角度對(duì)高校創(chuàng)業(yè)生態(tài)建設(shè)進(jìn)行研究,全面闡述相關(guān)概念、構(gòu)成要素、評(píng)價(jià)體系以及建設(shè)模式,分析大數(shù)據(jù)技術(shù)在高校創(chuàng)業(yè)生態(tài)中的作用,并對(duì)高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)集進(jìn)行建模。

1 大數(shù)據(jù)技術(shù)

1.1 大數(shù)據(jù)預(yù)處理

為了清洗、轉(zhuǎn)換原始數(shù)據(jù)對(duì)大數(shù)據(jù)進(jìn)行預(yù)處理,在后續(xù)的數(shù)據(jù)挖掘過(guò)程中可以更好地進(jìn)行分析。

對(duì)于存在缺失值的數(shù)據(jù),可以采用插補(bǔ)方法來(lái)填充缺失部分,其中常用方法之一是均值插補(bǔ),如公式(1)所示。

對(duì)于存在異常值的數(shù)據(jù),可以采用原則,將大于或小于3 倍標(biāo)準(zhǔn)差的樣本視為異常樣本,并通過(guò)刪除或替換異常值來(lái)修正數(shù)據(jù)。

數(shù)據(jù)集成的目的是將來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)集成為一個(gè)統(tǒng)一的數(shù)據(jù)集。在數(shù)據(jù)集成中,最基本的原理是數(shù)據(jù)匹配原則,即找到2 個(gè)數(shù)據(jù)集之間的聯(lián)系。例如可以使用聯(lián)合屬性或者主鍵等進(jìn)行數(shù)據(jù)匹配。

數(shù)據(jù)轉(zhuǎn)換是指將數(shù)據(jù)從一種格式或結(jié)構(gòu)轉(zhuǎn)換為另一種格式或結(jié)構(gòu)。數(shù)據(jù)轉(zhuǎn)換的基本原理是給每個(gè)指標(biāo)賦予一個(gè)統(tǒng)一的比例尺,進(jìn)行轉(zhuǎn)換之前需要對(duì)數(shù)值型指標(biāo)進(jìn)行標(biāo)準(zhǔn)化、歸一化或離散化等操作。標(biāo)準(zhǔn)化是將數(shù)據(jù)縮放到均值為0、標(biāo)準(zhǔn)差為1 的區(qū)間內(nèi),常用的標(biāo)準(zhǔn)化方法是z-score 標(biāo)準(zhǔn)化方法,如公式(2)所示。

式中:xi為原始數(shù)據(jù);為原始數(shù)據(jù)的平均值;σ為原始數(shù)據(jù)的標(biāo)準(zhǔn)差。

歸一化是將數(shù)據(jù)縮放到[0,1],最常用的歸一化方法是min-max 歸一化方法,如公式(3)所示。

式中:xi為原始數(shù)據(jù);min(X)和max(X)分別為原始數(shù)據(jù)的最小值和最大值。

數(shù)據(jù)規(guī)約是將大量的數(shù)據(jù)精簡(jiǎn)為更小的數(shù)據(jù)集,以減少計(jì)算和存儲(chǔ)開銷。常用的規(guī)約方法包括抽樣、聚合、分區(qū)和維度規(guī)約等,其中抽樣和聚合是最常用的規(guī)約方法。

1.2 大數(shù)據(jù)挖掘模型

1.2.1 回歸分析

線性回歸是回歸分析的一種經(jīng)典方法,可以預(yù)測(cè)因變量與一個(gè)或多個(gè)自變量之間的線性關(guān)系。其原理是尋找最佳擬合直線,使預(yù)測(cè)誤差最小。線性回歸如公式(4)所示。

式中:y是因變量(要預(yù)測(cè)的變量);xk是自變量;βk是回歸系數(shù);ε是誤差項(xiàng)。

1.2.2 分類

XGBoost 是一種基于梯度提升樹(Gradient Boosting Decision Tree)的集成學(xué)習(xí)算法,通過(guò)多個(gè)決策樹的集成構(gòu)建1 個(gè)強(qiáng)分類器,其主要優(yōu)點(diǎn)是高效、可擴(kuò)展性強(qiáng)以及在結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中表現(xiàn)良好等。

首先,對(duì)所有樣本賦予相同的權(quán)重,采用貪心算法,在當(dāng)前弱分類器的基礎(chǔ)上添加新的樹,并對(duì)樣本的權(quán)重進(jìn)行更新。其次,計(jì)算每個(gè)樹的貢獻(xiàn)和加權(quán)損失函數(shù),根據(jù)損失函數(shù)的梯度更新樹的葉子節(jié)點(diǎn)權(quán)重。最后,將多個(gè)樹的結(jié)果加權(quán)求和作為最終預(yù)測(cè)結(jié)果。XGBoost 常用的損失函數(shù)及其梯度公式如下。

均方誤差(Mean Squared Error,MSE)如公式(5)所示。

式中:yi為第i個(gè)樣本真實(shí)值;i為第i樣本預(yù)測(cè)值;梯度為-2(yi-i)。

二分類交叉熵(Binary Logistic Loss)如公式(6)所示。

式中:pi為屬于第i類的概率;,梯度為pi-yi。

多分類交叉熵(Multi-class Logistic Loss)如公式(7)所示。

式中:k為第k個(gè)樣本;yik為第i類中第k個(gè)樣本;pik為第k個(gè)樣本屬于第i類的概率;,梯度為pik-yik。

在XGBoost 中,每棵樹的生成通過(guò)貪心算法實(shí)現(xiàn)。每次添加一個(gè)節(jié)點(diǎn)時(shí),計(jì)算該節(jié)點(diǎn)對(duì)損失函數(shù)的增益,將最大增益對(duì)應(yīng)的特征和節(jié)點(diǎn)值作為分裂點(diǎn)。節(jié)點(diǎn)分裂后,樣本被分配到左、右子樹中,并按照上述方式計(jì)算子樹的節(jié)點(diǎn),反復(fù)迭代直到滿足終止條件。

XGBoost 通過(guò)多個(gè)弱分類器的集成來(lái)構(gòu)建一個(gè)強(qiáng)分類器,逐步減少模型誤差,具有高效、可擴(kuò)展性強(qiáng)、在結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中表現(xiàn)良好等優(yōu)點(diǎn),是一種非常實(shí)用的機(jī)器學(xué)習(xí)算法。

通過(guò)小米手環(huán)的功能更新,我們可以看到,公司研發(fā)過(guò)程中是向著大眾更易接受,且能夠更加科學(xué)化管理自己運(yùn)動(dòng)過(guò)程的,不斷的更新功能,讓手環(huán)的存在增加大眾運(yùn)動(dòng)的興趣性和精準(zhǔn)度,譬如心率的控制、卡路里的顯示、里程數(shù)的顯示等,都是努力地、無(wú)時(shí)不刻地提醒運(yùn)動(dòng)者運(yùn)動(dòng)要科學(xué)、要有數(shù)據(jù)、要精確。剛好這樣一個(gè)目標(biāo)與我們田徑教學(xué)的目標(biāo)有所契合,就是需要在教學(xué)過(guò)程中以教學(xué)目標(biāo)為指導(dǎo),精準(zhǔn)地制定教學(xué)內(nèi)容,而且能夠?qū)崟r(shí)控制教學(xué)節(jié)奏,幫助提高課程質(zhì)量,一切都不謀而合,所以引發(fā)我們的研究方向即小米手環(huán)在田徑教學(xué)過(guò)程中如何使用能夠讓田徑課程更加合理、科學(xué)化。

1.2.3 聚類

聚類模型是一種無(wú)監(jiān)督學(xué)習(xí)方法,用于將數(shù)據(jù)集中的樣本分為具有相似特征的群組或簇。聚類模型的目標(biāo)是在沒(méi)有事先標(biāo)記的情況下發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。

常見(jiàn)的聚類算法包括K 均值聚類、層次聚類和DBSCAN等。這些算法的操作通常基于樣本之間的相似性或距離。

1.2.4 關(guān)聯(lián)分析

關(guān)聯(lián)分析是一種用于發(fā)現(xiàn)數(shù)據(jù)集中頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則的方法。是關(guān)聯(lián)分析中常見(jiàn)的公式如下。

支持度(support)用于衡量一個(gè)項(xiàng)集在所有事務(wù)中出現(xiàn)的頻率。設(shè)D為數(shù)據(jù)集,X為項(xiàng)集,項(xiàng)集X的支持度如公式(8)所示。

式中:|D|為數(shù)據(jù)集D中的事務(wù)總數(shù);t為特定事務(wù)。

式中:support(X∪Y)為項(xiàng)集X與項(xiàng)集Y的并集在數(shù)據(jù)集D中的支持度;support(X)為項(xiàng)集X在數(shù)據(jù)集D中的支持度。

提升度(lift)用于衡量關(guān)聯(lián)規(guī)則中項(xiàng)集X對(duì)項(xiàng)集Y的提升程度。提升度如公式(10)所示。

式中:confidence(X->Y)為從項(xiàng)集X推導(dǎo)出項(xiàng)集Y的置信度;support(Y)為項(xiàng)集Y在數(shù)據(jù)集D中的支持度。

以上是關(guān)聯(lián)分析中比較常見(jiàn)的3 個(gè)公式,即支持度、置信度和提升度。這些公式可以用于發(fā)現(xiàn)頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則,并應(yīng)用于市場(chǎng)籃子分析、推薦系統(tǒng)等領(lǐng)域。

2 大數(shù)據(jù)技術(shù)在高校創(chuàng)業(yè)生態(tài)建設(shè)中的應(yīng)用

2.1 高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)集

高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)如下:1)高校創(chuàng)業(yè)團(tuán)隊(duì)數(shù)量和質(zhì)量數(shù)據(jù),包括創(chuàng)業(yè)團(tuán)隊(duì)總數(shù)、成立年限、核心成員人數(shù)以及所在院校專業(yè)領(lǐng)域等信息。2)創(chuàng)業(yè)項(xiàng)目數(shù)量和質(zhì)量數(shù)據(jù),包括創(chuàng)業(yè)項(xiàng)目總數(shù)、所屬行業(yè)和領(lǐng)域、是否完成融資以及投資金額等信息。3)學(xué)校與外部合作機(jī)構(gòu)的數(shù)量和質(zhì)量數(shù)據(jù),包括與政府、企業(yè)、投資機(jī)構(gòu)等合作的數(shù)量、合作內(nèi)容以及合作效果等信息。4)各類支持服務(wù)平臺(tái)的數(shù)量和質(zhì)量數(shù)據(jù),包括創(chuàng)業(yè)孵化器、加速器、投資機(jī)構(gòu)等以及其提供的資源、服務(wù)、支持等信息。5)成功案例數(shù)量和質(zhì)量數(shù)據(jù),包括已經(jīng)成功上市或并購(gòu)的公司數(shù)量、獲得過(guò)獎(jiǎng)項(xiàng)或榮譽(yù)的創(chuàng)業(yè)項(xiàng)目數(shù)量等。6)師資力量和教育資源的數(shù)據(jù),包括創(chuàng)業(yè)導(dǎo)師、創(chuàng)業(yè)課程、創(chuàng)新實(shí)驗(yàn)室等資源數(shù)量和質(zhì)量信息。

2.2 數(shù)據(jù)預(yù)處理

2.2.1 數(shù)據(jù)清洗

對(duì)高校創(chuàng)業(yè)生態(tài)檢測(cè)數(shù)據(jù)進(jìn)行去除重復(fù)數(shù)據(jù)、填補(bǔ)缺失值、修改數(shù)據(jù)類型等。對(duì)于“缺失值”,需要根據(jù)經(jīng)驗(yàn)進(jìn)行手工填寫;對(duì)于無(wú)法根據(jù)經(jīng)驗(yàn)填寫的“缺失值”,則采用該特征數(shù)據(jù)的平均值來(lái)代替。

2.2.2 數(shù)據(jù)集成

將高校創(chuàng)業(yè)團(tuán)隊(duì)、創(chuàng)業(yè)項(xiàng)目、學(xué)校與外部合作機(jī)構(gòu)、各類支持服務(wù)平臺(tái)、成功案例、師資力量和教育資源6 種類型數(shù)據(jù)的6 種表格進(jìn)行數(shù)據(jù)集成,集成到一個(gè)綜合數(shù)據(jù)集并存儲(chǔ)。

2.2.3 數(shù)據(jù)轉(zhuǎn)換

將數(shù)據(jù)集中字符型數(shù)據(jù)轉(zhuǎn)換成數(shù)值型數(shù)據(jù),如“創(chuàng)業(yè)團(tuán)隊(duì)”“所在院校專業(yè)領(lǐng)域”“政府”“企業(yè)”和“投資機(jī)構(gòu)”等字符型變量轉(zhuǎn)成數(shù)值型變量,便于后面數(shù)據(jù)處理和模型建立。

2.3 數(shù)據(jù)挖掘

2.3.1 數(shù)據(jù)集劃分

建立XGBoost 模型時(shí),先將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,用于模型訓(xùn)練、參數(shù)調(diào)整和模型評(píng)價(jià)。數(shù)據(jù)集劃分方法如下:1)訓(xùn)練集(Trainingset),用于模型的訓(xùn)練和參數(shù)估計(jì),占數(shù)據(jù)集的80%。2)驗(yàn)證集(Validationset),用于模型的選擇和調(diào)整,占數(shù)據(jù)集的10%。可以利用驗(yàn)證集來(lái)評(píng)估模型的泛化能力,選擇最優(yōu)的模型,并調(diào)整模型的超參數(shù)。3)測(cè)試集(Testset),用于模型的最終評(píng)價(jià)和預(yù)測(cè)精度的確定,占數(shù)據(jù)集的10%。使用測(cè)試集評(píng)估模型在未見(jiàn)過(guò)的新數(shù)據(jù)上的預(yù)測(cè)能力,以充分驗(yàn)證模型的有效性和泛化能力。

隨機(jī)打亂每個(gè)數(shù)據(jù)集的數(shù)據(jù)順序,以確保訓(xùn)練集、驗(yàn)證集和測(cè)試集的數(shù)據(jù)分布相似,并保持隨機(jī)性的一致性,提高模型的魯棒性和泛化能力。

2.3.2 特征提取和數(shù)據(jù)降維

由于數(shù)據(jù)集特征維度比較多,并且全國(guó)高校歷年數(shù)據(jù)量比較龐大,為了降低模型的復(fù)雜度,提高模型的計(jì)算速度,因此需要對(duì)高校創(chuàng)業(yè)生態(tài)建設(shè)6 個(gè)維度的數(shù)據(jù)進(jìn)行特征降維,主要采用主成分分析。訓(xùn)練集數(shù)據(jù)主成分分析中的前3 個(gè)主成分得分圖如圖1 所示。

圖1 主成分分析得分圖

2.3.3 分類模型

將創(chuàng)業(yè)生態(tài)建設(shè)成功的分為一類,標(biāo)記為0,創(chuàng)業(yè)生態(tài)建設(shè)失敗的分為另外一類,標(biāo)記為1。因此,該文是一個(gè)大數(shù)據(jù)挖掘技術(shù)的分類問(wèn)題,并且是二分類的模型,可以采用XGBoost 方法建立分類模型。將高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)集作為XGBoost 模型的訓(xùn)練數(shù)據(jù)集,利用樣本數(shù)據(jù)中的特征變量(如高校的師資力量、教育資源和創(chuàng)業(yè)項(xiàng)目質(zhì)量等)預(yù)測(cè)其類別變量(成功/失敗)。建模時(shí)采用交叉驗(yàn)證、正則化等技術(shù)來(lái)提高模型的預(yù)測(cè)精度和泛化能力。

XGBoost 訓(xùn)練參數(shù)設(shè)置如下:學(xué)習(xí)率(learningrate)為0.005,樹的數(shù)量(n_estimators)為100,最大樹深度(max_depth)為50,列采樣比例(colsample_bytree)為0.6,正則化參數(shù)(lambda)為L(zhǎng)2 正則化。

模型的ROC 曲線如圖2 所示。從圖2 可以看出曲線在左側(cè)和頂部的邊界很接近,說(shuō)明分類器在很大程度上正確地識(shí)別了正例且假正例率較低。曲線下的面積(Area Under Curve,AUC)越大,說(shuō)明模型的性能越好。圖2 的AUC 看起來(lái)比較高,表明分類器的性能較好。

圖2 XGBoost 模型ROC 曲線

2.3.4 結(jié)果與分析

XGBoost 是一種由多個(gè)弱分類器的集成構(gòu)建的強(qiáng)分類器,可用于高校創(chuàng)業(yè)生態(tài)數(shù)據(jù)的分類和預(yù)測(cè)。該文通過(guò)標(biāo)注成功和失敗的創(chuàng)業(yè)項(xiàng)目,并結(jié)合項(xiàng)目特征,對(duì)高校創(chuàng)業(yè)團(tuán)隊(duì)、創(chuàng)業(yè)項(xiàng)目、學(xué)校與外部合作機(jī)構(gòu)、各類支持服務(wù)平臺(tái)、成功案例、師資力量和教育資源6 種類型數(shù)據(jù)進(jìn)行建模,利用XGBoost 模型進(jìn)行訓(xùn)練,從而預(yù)測(cè)并分析未來(lái)的創(chuàng)業(yè)項(xiàng)目。

3 結(jié)論

隨著大數(shù)據(jù)時(shí)代的到來(lái),高校可以利用大數(shù)據(jù)分析技術(shù),對(duì)創(chuàng)業(yè)生態(tài)數(shù)據(jù)進(jìn)行分析,從而建立更準(zhǔn)確、全面的模型預(yù)測(cè)。在該過(guò)程中,高校需要有足夠的存儲(chǔ)和計(jì)算資源,能夠處理海量且多樣化的數(shù)據(jù)。同時(shí),有效的數(shù)據(jù)清洗、特征選擇與降維、模型評(píng)估與優(yōu)化等步驟也極為關(guān)鍵。只有在這些步驟都得到充分考慮和實(shí)踐的情況下,才能得到質(zhì)量可靠的模型,進(jìn)而有效支持高校的創(chuàng)業(yè)活動(dòng)。

利用大數(shù)據(jù)分析技術(shù)建立XGBoost 模型預(yù)測(cè),不僅可以輔助高校的創(chuàng)業(yè)支持工作,還可以幫助高校更好地理解創(chuàng)業(yè)生態(tài)、發(fā)現(xiàn)生態(tài)變化趨勢(shì)并及時(shí)調(diào)整創(chuàng)業(yè)政策和支持措施等,從而進(jìn)一步提升高校創(chuàng)業(yè)環(huán)境的競(jìng)爭(zhēng)力和吸引力,提高學(xué)校創(chuàng)新、創(chuàng)業(yè)的意識(shí)和能力。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲欧洲日产国产无码AV| 国产又粗又猛又爽视频| 亚洲第一综合天堂另类专| 色悠久久久| 国产美女一级毛片| 亚欧美国产综合| a国产精品| 制服丝袜一区| 宅男噜噜噜66国产在线观看| 91美女视频在线观看| 国产精品香蕉在线| 国产女人在线观看| 国产精品第一区在线观看| 中文字幕丝袜一区二区| 高清色本在线www| 先锋资源久久| 国产欧美日韩免费| 国产精品欧美日本韩免费一区二区三区不卡 | 亚洲成人精品久久| 最新无码专区超级碰碰碰| 亚洲无码熟妇人妻AV在线| 久久久久久久久18禁秘| 91九色最新地址| 亚洲欧美在线看片AI| 日韩久久精品无码aV| 欧美福利在线| 凹凸国产熟女精品视频| 亚洲欧美日本国产综合在线| 美女内射视频WWW网站午夜 | 91视频日本| 老色鬼久久亚洲AV综合| 日韩国产亚洲一区二区在线观看| 激情无码视频在线看| 三级国产在线观看| 六月婷婷激情综合| 国产资源免费观看| 天天摸天天操免费播放小视频| 欧美日韩一区二区在线播放| jizz在线免费播放| 免费高清a毛片| 日韩精品免费一线在线观看| 久久精品一品道久久精品| 国产免费久久精品99re丫丫一| 中文字幕66页| 亚洲最黄视频| 55夜色66夜色国产精品视频| 婷婷五月在线视频| 成人午夜视频免费看欧美| 亚洲日本在线免费观看| 国产精品嫩草影院视频| 好紧太爽了视频免费无码| 国产精品国产主播在线观看| 国产不卡一级毛片视频| 国产真实二区一区在线亚洲| 黄色福利在线| 亚洲中文字幕av无码区| 国产综合亚洲欧洲区精品无码| 精品一区二区三区中文字幕| 精品视频一区在线观看| 亚洲综合激情另类专区| 国产性猛交XXXX免费看| 亚洲成a人片| 国产靠逼视频| 亚洲视频免| 日本爱爱精品一区二区| 99这里只有精品在线| 丁香婷婷在线视频| 日韩精品免费在线视频| 波多野结衣无码视频在线观看| 国产一区二区三区精品欧美日韩| 国产午夜无码片在线观看网站| 免费一级成人毛片| 无码专区国产精品第一页| 黄片在线永久| 婷婷综合色| a级毛片视频免费观看| 国产后式a一视频| 欧美视频在线第一页| 香港一级毛片免费看| 中文字幕在线欧美| 5555国产在线观看| 91福利在线看|