999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于高考數(shù)據(jù)的分析和預(yù)測(cè)研究綜述

2020-11-25 13:45:57范佳琪王慧亞
現(xiàn)代計(jì)算機(jī) 2020年8期
關(guān)鍵詞:數(shù)據(jù)挖掘方法模型

范佳琪,王慧亞

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

0 引言

隨著信息時(shí)代的到來,作為全國(guó)參與人數(shù)最多和最受社會(huì)關(guān)注的考試,高考也開始不斷推進(jìn)信息化建設(shè),線上報(bào)考、網(wǎng)上評(píng)卷、線上填報(bào)志愿,高考的整個(gè)過程都與現(xiàn)代信息技術(shù)緊密聯(lián)系在一起。高考信息化使得各地教育部門累積了非常多與高考有關(guān)的數(shù)據(jù),也在不知不覺中使得互聯(lián)網(wǎng)中蘊(yùn)藏了海量高考數(shù)據(jù)。而眾所周知,在如今這個(gè)數(shù)據(jù)決定一切的大數(shù)據(jù)時(shí)代中,從海量高考數(shù)據(jù)中挖掘出對(duì)高考有所幫助的知識(shí)是教育部門和考生家長(zhǎng)共同的迫切需求。目前有許多研究人員從不同角度出發(fā),采用各種技術(shù)和方法致力于從高考數(shù)據(jù)中發(fā)現(xiàn)知識(shí)和規(guī)律,為考生、招生及教育部門在高考過程提供更科學(xué)、更合理的指導(dǎo)和服務(wù)。

本文對(duì)近年來基于高考數(shù)據(jù)進(jìn)行的各類分析和預(yù)測(cè)研究進(jìn)行概述,將該領(lǐng)域的相關(guān)研究按照研究技術(shù)和方法簡(jiǎn)單分為三類:基于統(tǒng)計(jì)分析的研究、基于數(shù)據(jù)挖掘的研究和基于機(jī)器學(xué)習(xí)的研究。

1 基于統(tǒng)計(jì)分析的研究

早期的基于高考數(shù)據(jù)的研究,大多是采用統(tǒng)計(jì)分析的方法,使用線性回歸、灰色模型等來處理和分析高考數(shù)據(jù),這些研究大多圍繞如何更好地預(yù)測(cè)高考分?jǐn)?shù)線這一問題進(jìn)行。

較早的,韓向峰等人[3]提出了一種基于關(guān)鍵字的Web 數(shù)字信息挖掘方法來預(yù)測(cè)考生的錄取概率。該方法首先通過設(shè)置關(guān)鍵詞爬取Web 頁(yè)面上的與高考招生相關(guān)的信息,然后基于獲取的數(shù)據(jù)采用曲線擬合和多元線性回歸對(duì)本專科分?jǐn)?shù)線以及院校最低分?jǐn)?shù)線進(jìn)行預(yù)測(cè)。

針對(duì)采用單一預(yù)測(cè)模型的實(shí)驗(yàn)結(jié)果并不理想的問題,周帆[17]提出將Power 模型、Logarithm 模型和Linear模型進(jìn)行組合,對(duì)每一個(gè)模型通過最小二乘法求得最佳變權(quán)系數(shù),然后建立變權(quán)重組合預(yù)測(cè)模型預(yù)測(cè)重慶市文科二批次高考分?jǐn)?shù)線。通過與單一模型進(jìn)行對(duì)比,變權(quán)重組合模型的準(zhǔn)確度得到提高。類似的,李敬文等人[16]也對(duì)組合模型預(yù)測(cè)進(jìn)行了研究,他們整合了模糊數(shù)學(xué)理論和灰色GM(1,1)理論模型,在層次指標(biāo)體系上提出了模糊灰色預(yù)測(cè)模型。研究結(jié)果表明模糊灰色組合預(yù)測(cè)結(jié)果較為準(zhǔn)確。

同樣基于灰色模型進(jìn)行預(yù)測(cè)研究的還有杜輕等人[14]與楊麗娟等人[15]。前者基于2008-2013 年的某高校理工類各專業(yè)錄取數(shù)據(jù)建立了GM(1,1)模型,預(yù)測(cè)了2014 年的各個(gè)專業(yè)的錄取線差,對(duì)比預(yù)測(cè)值與真實(shí)值發(fā)現(xiàn),相對(duì)誤差在5%之內(nèi)。而后者對(duì)現(xiàn)有研究中幾種常見的預(yù)測(cè)方法進(jìn)行了簡(jiǎn)單的實(shí)驗(yàn),包括算術(shù)平均法、移動(dòng)平均法、移動(dòng)加權(quán)平均法,指數(shù)平滑預(yù)測(cè)法以及灰色預(yù)測(cè)GM(1,1)模型,結(jié)果表明這些方法在某些年份的預(yù)測(cè)偏差較大,但在某些年份預(yù)測(cè)又比較精準(zhǔn)。

2 基于數(shù)據(jù)挖掘的研究

針對(duì)基于統(tǒng)計(jì)分析的研究存在的實(shí)驗(yàn)樣本集較小的問題,研究者開始采用數(shù)據(jù)挖掘技術(shù)來進(jìn)行研究。數(shù)據(jù)挖掘本身就是一種決策支持過程,這使得基于數(shù)據(jù)挖掘的研究大多圍繞如何向考生和招生部門在高考中提供更好、更科學(xué)的決策支持這一問題進(jìn)行,大多數(shù)研究偏向系統(tǒng)的設(shè)計(jì)與開發(fā)。

史貞軍[1]以幫助考生及家長(zhǎng)合理填報(bào)高考志愿為研究目標(biāo),提出開發(fā)一個(gè)高考志愿決策支持系統(tǒng)。其研究的關(guān)鍵技術(shù)是OLAP 和數(shù)據(jù)挖掘技術(shù)。他首先使用OLAP 構(gòu)建高考多維數(shù)據(jù)集,并進(jìn)行多維分析;然后采用SSAS 中的多元線性回歸算法來預(yù)測(cè)高考錄取分?jǐn)?shù)線,其準(zhǔn)確度在60%左右;采用樸素貝葉斯分類算法預(yù)測(cè)了考生報(bào)考專業(yè)的錄取概率,預(yù)測(cè)準(zhǔn)確率在70%到80%之間,同時(shí)還采用Apriori 關(guān)聯(lián)規(guī)則算法探究不同專業(yè)的報(bào)考熱度以及報(bào)考專業(yè)之間的關(guān)聯(lián)度。類似的,徐剛強(qiáng)等人[5]在實(shí)現(xiàn)高考輔助決策系統(tǒng)的研究中,也使用了OLAP 和數(shù)據(jù)挖掘技術(shù)。他們?cè)诶肙LAP 數(shù)據(jù)集上使用多元線性回歸算法預(yù)測(cè)新一年的高考錄取分?jǐn)?shù),并用偏差檢測(cè)方法對(duì)反常案例進(jìn)行檢測(cè)。

為了對(duì)現(xiàn)有志愿填報(bào)方式及其改革歷程進(jìn)行評(píng)估,曾錚[2]采用了將數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、OLAP 聯(lián)機(jī)分析技術(shù)和數(shù)據(jù)挖掘技術(shù)相結(jié)合的方法來進(jìn)行研究。他利用OLAP 建立多維數(shù)據(jù)集,從志愿覆蓋率、第一志愿的滿額情況、志愿匹配的情況和最低錄取分這四個(gè)方面對(duì)現(xiàn)行的志愿填報(bào)方式進(jìn)行多維分析和評(píng)估;并利用SQL Server 提供的Microsoft 決策樹算法和關(guān)聯(lián)規(guī)則算法在OLAP 數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘研究,重點(diǎn)對(duì)三個(gè)問題進(jìn)行了實(shí)驗(yàn)研究——預(yù)測(cè)考生是否被第一志愿錄取,挖掘2005 年前后影響考生錄取的因素以及預(yù)測(cè)前三個(gè)志愿的錄取情況。

以探究高考各科成績(jī)之間的關(guān)系為研究目的,曾水光[4]采用關(guān)聯(lián)規(guī)則挖掘和聚類分析來深入挖掘高考考生成績(jī)數(shù)據(jù)。他使用Weka 對(duì)高考各科成績(jī)之間的得分關(guān)系以及考生成績(jī)和考生屬性之間的關(guān)系進(jìn)行了關(guān)聯(lián)規(guī)則挖掘,此外,他還采用Weka 中的SimpleKMeans 聚類算法對(duì)考生進(jìn)行了聚類分析,探究同一類別的考生所具有的特征和不同類別考生之間區(qū)別。

在志愿填報(bào)環(huán)節(jié)中,為考生推薦合理、合適的院校,從而盡可能的避免考生在收集和分析信息上浪費(fèi)時(shí)間是很有必要的,因此嚴(yán)衛(wèi)[19]提出采用模糊聚類挖掘技術(shù)構(gòu)建更加科學(xué)的院校推薦模型。研究提出了基于減法聚類的模糊聚類算法初始聚類數(shù)目上限求解方法和基于有效性批判的最佳聚類數(shù)求解方法,并改進(jìn)了模糊聚類算法的最佳聚類數(shù)初始化方法,提出了基于合并聚類中心的初始化方法。研究在英國(guó)統(tǒng)計(jì)學(xué)家R.A.Fisher 的Iris 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),對(duì)改進(jìn)后的算法的有效性進(jìn)行了驗(yàn)證。除此之外,針對(duì)模糊聚類算法沒有考慮不同樣本特征指標(biāo)對(duì)聚類過程的貢獻(xiàn)程度不一致的問題,嚴(yán)衛(wèi)設(shè)計(jì)了一種基于特征加權(quán)的模糊聚類算法,實(shí)驗(yàn)結(jié)果表明與改進(jìn)前的模糊聚類算法相比,基于特征加權(quán)的模糊聚類算法的誤分率也降低了11.1%。

3 基于機(jī)器學(xué)習(xí)的研究

基于數(shù)據(jù)挖掘的研究雖然使用大量的數(shù)據(jù)進(jìn)行挖掘,但大多數(shù)研究停留在使用工具提供的基礎(chǔ)挖掘算法進(jìn)行挖掘,所使用的算法的實(shí)驗(yàn)效果并不令人滿意。隨著近年來人工智能、機(jī)器學(xué)習(xí)的火熱發(fā)展,有很多研究者開始采用基于機(jī)器學(xué)習(xí)的方法對(duì)高考整個(gè)過程中的成績(jī)預(yù)測(cè)、分?jǐn)?shù)線預(yù)測(cè)、志愿推薦等問題進(jìn)行研究。

周琦[7]提出一種改進(jìn)的決策樹算法用于根據(jù)考生歷年的高中成績(jī)來預(yù)測(cè)其高考成績(jī)。該研究以考生高中成績(jī)作為分析依據(jù),結(jié)合考生的個(gè)人信息等重要因素,采用C4.5 算法構(gòu)建決策樹;針對(duì)C4.5 算法中多次進(jìn)行對(duì)數(shù)函數(shù)運(yùn)算導(dǎo)致算法效率較低的缺點(diǎn),他提出對(duì)C4.5 算法中信息熵計(jì)算公式進(jìn)行改進(jìn),并用改進(jìn)的C4.5 算法再次構(gòu)建決策樹。通過對(duì)比改進(jìn)前后的算法構(gòu)建的決策樹,結(jié)果表明改進(jìn)后的C4.5 算法預(yù)測(cè)有效性達(dá)到80%以上,較改進(jìn)前的決策樹算法有所提升。

Rensong Dong 等人[9]提出了一種基于支持向量機(jī)學(xué)習(xí)算法的預(yù)測(cè)方法來預(yù)測(cè)根據(jù)考生的志愿,該考生最有可能被哪所學(xué)校錄取。研究基于2009-2010 年云南省的部分學(xué)生的高考和排名,大學(xué)招生計(jì)劃數(shù)和其他相關(guān)數(shù)據(jù),提出了包括高考成績(jī)、排名、最低入學(xué)率、所有批次的得分線、所有批次高校的入學(xué)計(jì)劃數(shù)量和入學(xué)率計(jì)劃等在內(nèi)的影響錄取的14 個(gè)特征,采用支持向量機(jī)算法訓(xùn)練預(yù)測(cè)分析模型,實(shí)驗(yàn)結(jié)果表明預(yù)測(cè)準(zhǔn)確率達(dá)到了90%。任建濤[21]采用支持向量回歸算法,基于各院校專業(yè)過去10 年的錄取平均分?jǐn)?shù)線數(shù)據(jù),對(duì)未來一年的院校專業(yè)線進(jìn)行了預(yù)測(cè)。

為了研究模擬考試成績(jī)與高考成績(jī)之間的關(guān)系,陸叢林[8]基于江蘇省海門市四甲中學(xué)538 名考生的六次模擬考試成績(jī),使用SVM 和神經(jīng)網(wǎng)絡(luò)兩種算法分別進(jìn)行了考生的高考成績(jī)預(yù)測(cè)和考生的高考錄取批次預(yù)測(cè),研究中還進(jìn)行了混合預(yù)測(cè)——第一步先依據(jù)考生??汲煽?jī)得到預(yù)測(cè)的高考成績(jī),第二步將??汲煽?jī)和第一步得到的高考預(yù)測(cè)成績(jī)相結(jié)合來預(yù)測(cè)考生的錄取批次。實(shí)驗(yàn)結(jié)果表明,??汲煽?jī)與高考成績(jī)存在強(qiáng)關(guān)聯(lián)關(guān)系,且支持向量機(jī)比神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)精度更好。

采用機(jī)器學(xué)習(xí)的方法來提升高考分?jǐn)?shù)線預(yù)測(cè)的準(zhǔn)確度是目前這個(gè)領(lǐng)域比較熱門的研究點(diǎn)。徐宗保[11]在其研究中提出了一種基于神經(jīng)網(wǎng)絡(luò)的院校投檔分?jǐn)?shù)線預(yù)測(cè)方法。該方法對(duì)粒子群算法相關(guān)參數(shù)進(jìn)行了改進(jìn),并利用改進(jìn)后的粒子群算法去優(yōu)化反向傳播神經(jīng)網(wǎng)絡(luò)模型,以此來提升預(yù)測(cè)效果。其實(shí)驗(yàn)結(jié)果表明,與原始神經(jīng)網(wǎng)絡(luò)相比,改進(jìn)的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的預(yù)測(cè)精度有所提高。此外,徐宗保還對(duì)C4.5 算法的屬性選擇進(jìn)行改進(jìn),提出了一種基于改進(jìn)C4.5 算法的六檔專業(yè)推薦法。研究表明該方法比傳統(tǒng)的線差專業(yè)推薦法的準(zhǔn)確率要高,且改進(jìn)后的C4.5 計(jì)算時(shí)間有一定縮短。

基于神經(jīng)網(wǎng)絡(luò)進(jìn)行研究的還有郭孝文等人[6]和任祥旭[13]。郭孝文等人[6]提出了一種基于改進(jìn)的反向傳播神經(jīng)網(wǎng)絡(luò)的分?jǐn)?shù)線預(yù)測(cè)方法。他們建立了一個(gè)使用反向傳播算法作為學(xué)習(xí)算法的自適應(yīng)神經(jīng)網(wǎng)絡(luò)。研究使用近三年西安工業(yè)大學(xué)的分?jǐn)?shù)線數(shù)據(jù)對(duì)模型的精度進(jìn)行了驗(yàn)證,與傳統(tǒng)分?jǐn)?shù)線預(yù)測(cè)方法相比,預(yù)測(cè)準(zhǔn)確度提高了20%。任祥旭[13]提出一種基于當(dāng)前熱門的人工神經(jīng)網(wǎng)絡(luò)對(duì)高校錄取分?jǐn)?shù)線進(jìn)行預(yù)測(cè)的方法。研究使用了2013 年到2015 年的高校及專業(yè)的錄取數(shù)據(jù),考慮了16 種影響錄取分?jǐn)?shù)線預(yù)測(cè)的特征,使用LSTM 技術(shù)搭建神經(jīng)網(wǎng)絡(luò)模型,最后使用多種模型性能指標(biāo)對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明,模型預(yù)測(cè)準(zhǔn)確率集中在誤差5 分以內(nèi),但是超過5 分以外的預(yù)測(cè)結(jié)果偏差值較大。

Zhenru Wang 等人[10]針對(duì)現(xiàn)有研究中高考省控線的預(yù)測(cè)誤差較大的問題提出了一種基于AdaBoost 算法的省控線預(yù)測(cè)方法。他們提出了多種影響省控線預(yù)測(cè)的特征,使用隨機(jī)森林算法來進(jìn)行特征選擇,并使用PCA 方法處理數(shù)據(jù)集中的特征值,最終得到5 種特征。研究基于2006 至2015 年四川省高考數(shù)據(jù),分別建立了AdaBoost 預(yù)測(cè)模型和隨機(jī)森林預(yù)測(cè)模型。通過實(shí)驗(yàn)對(duì)比,結(jié)果表明,AdaBoost 預(yù)測(cè)模型在預(yù)測(cè)高考省控線時(shí)準(zhǔn)確率超過90%,誤差不超過5 分。除了省控線預(yù)測(cè)研究,王振如[12]采用了深度學(xué)習(xí)的方法對(duì)院校專業(yè)錄取分?jǐn)?shù)線的預(yù)測(cè)進(jìn)行了研究,她基于北京郵電大學(xué)在北京地區(qū)2006 年到2015 年的高考數(shù)據(jù),分別使用人工神經(jīng)網(wǎng)絡(luò)和多隱層的多層感知器算法訓(xùn)練預(yù)測(cè)模型。實(shí)驗(yàn)表明,深度學(xué)習(xí)比人工神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)準(zhǔn)確度更高。

4 結(jié)語(yǔ)

通過對(duì)近年來該領(lǐng)域論文的總結(jié)發(fā)現(xiàn),目前針對(duì)高考數(shù)據(jù)的分析和預(yù)測(cè)研究已經(jīng)取得了一定的成果,但還存在一些問題亟需解決。

首先,大部分研究所使用的數(shù)據(jù)量有限,且部分研究使用從網(wǎng)絡(luò)上收集的數(shù)據(jù),難以避免錯(cuò)誤和缺失數(shù)據(jù),但是對(duì)于這類數(shù)據(jù)的處理方法在大部分研究中都沒有詳細(xì)研究。其次,現(xiàn)有研究缺乏對(duì)影響分?jǐn)?shù)線預(yù)測(cè)或者其他類型預(yù)測(cè)的因素的探究,而這一步是提升預(yù)測(cè)準(zhǔn)確度的關(guān)鍵。從早期的統(tǒng)計(jì)分析,到數(shù)據(jù)挖掘,再到如今的機(jī)器學(xué)習(xí)、深度學(xué)習(xí),雖然基于的高考數(shù)據(jù)分析與預(yù)測(cè)研究所采用的技術(shù)在不斷進(jìn)步,但大部分研究只停留在算法應(yīng)用層面,并沒有根據(jù)實(shí)際應(yīng)用場(chǎng)景和數(shù)據(jù)特征對(duì)算法進(jìn)行改進(jìn),這也是未來的一個(gè)研究方向。

猜你喜歡
數(shù)據(jù)挖掘方法模型
一半模型
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲第一成年网| 免费观看国产小粉嫩喷水| 99ri精品视频在线观看播放| 午夜一区二区三区| 久久大香伊蕉在人线观看热2| 亚洲欧美在线综合图区| 久久精品娱乐亚洲领先| 日韩高清在线观看不卡一区二区| 四虎影视库国产精品一区| 亚洲丝袜第一页| 午夜天堂视频| 97色婷婷成人综合在线观看| 高清乱码精品福利在线视频| 九九视频免费在线观看| 国产在线观看人成激情视频| 久久这里只有精品国产99| 国内精自线i品一区202| 国产探花在线视频| 亚洲精品免费网站| 精品国产成人三级在线观看| 亚洲国产精品不卡在线| 成人免费网站在线观看| jizz在线免费播放| 无码人中文字幕| 精品综合久久久久久97超人| 国产精品视频白浆免费视频| 玩两个丰满老熟女久久网| 国产免费久久精品99re丫丫一| 九九九精品成人免费视频7| 真实国产乱子伦高清| 不卡无码网| 色悠久久综合| 欧美国产日产一区二区| 国产区在线观看视频| 免费国产高清视频| 精品無碼一區在線觀看 | a级免费视频| 欧美自慰一级看片免费| 国产欧美成人不卡视频| 欧美激情视频一区| 国产精品亚洲αv天堂无码| 精品久久综合1区2区3区激情| 日韩精品中文字幕一区三区| 99福利视频导航| 欧美中文字幕无线码视频| 国产精品人莉莉成在线播放| 日韩二区三区| 久久香蕉国产线看观看亚洲片| 麻豆精品久久久久久久99蜜桃| 亚洲欧美自拍一区| 亚洲免费毛片| 国产日韩丝袜一二三区| 国产视频你懂得| 国产免费羞羞视频| 日韩毛片基地| 欧美精品二区| 久久精品国产在热久久2019| 九色视频一区| 亚洲色欲色欲www在线观看| 一区二区三区毛片无码| 亚洲最新在线| 日本高清免费一本在线观看 | 久久综合九九亚洲一区| 四虎永久免费在线| 毛片免费在线| 永久免费精品视频| 国产丝袜无码精品| 国产午夜一级淫片| 亚洲欧美日韩成人在线| 欧美午夜小视频| 亚洲一区色| 2022国产无码在线| 大香伊人久久| 精品国产一区二区三区在线观看| 青青操视频在线| 18黑白丝水手服自慰喷水网站| 国产欧美日韩18| 成人综合在线观看| 在线不卡免费视频| 亚洲日韩久久综合中文字幕| 91精品国产福利| 97视频在线精品国自产拍|