
(5)

圖1 干擾數(shù)據(jù)挖掘流程圖Fig.1 Flow chart of interference data mining
將Yj從DK中刪除并寫入M后,需要重新計算DK的聚類中心點[11],其相應(yīng)函數(shù)表達(dá)式為
(6)
式中:mk為DK中的數(shù)據(jù)點數(shù)量;x為大數(shù)據(jù)聚類分析層數(shù);t為K類數(shù)據(jù)總量.
為了更加精準(zhǔn)地挖掘干擾數(shù)據(jù),可以設(shè)置一個挖掘精度閾值α,當(dāng)挖掘精度小于α?xí)r,應(yīng)利用式(5)進(jìn)行二次挖掘[12].在干擾數(shù)據(jù)挖掘過程中挖掘精度的函數(shù)表達(dá)式為
(7)
2 基于大數(shù)據(jù)分析的最優(yōu)教學(xué)方式選取模型設(shè)計
利用數(shù)據(jù)估計量挖掘模型進(jìn)行運算,不同服務(wù)器數(shù)據(jù)在大數(shù)據(jù)分析技術(shù)下可被分門別類,但由于挖掘出來的數(shù)據(jù)參數(shù)特征過多,無法直接利用這些挖掘結(jié)果設(shè)計最優(yōu)選取模型[13],因而需要依據(jù)以下兩點進(jìn)行篩選:
1) 挖掘出的數(shù)據(jù)具有的特征是否具有獨特性;
2) 該參數(shù)特征是否值得選取.
對此,需要額外構(gòu)建一個數(shù)據(jù)特征歸納集合R和數(shù)據(jù)特征選取標(biāo)準(zhǔn)集合T,目的是在大量數(shù)據(jù)參數(shù)特征挖掘下,以高精準(zhǔn)度選取效率對數(shù)據(jù)進(jìn)行融合[14].R中主要包括特征點集、數(shù)據(jù)擬合精度評估與參數(shù)特征,T中主要包括被挖掘的干擾數(shù)據(jù)和特征整合結(jié)果.
基于大數(shù)據(jù)分析的最優(yōu)選取模型由數(shù)據(jù)源整合、數(shù)據(jù)擬合與濾除干擾三方面共同作用,大數(shù)據(jù)分析技術(shù)通過采取相關(guān)性定義[15]對最優(yōu)數(shù)據(jù)的選擇幾率進(jìn)行計算,最優(yōu)選取模型可以表示為
(8)
式中:rp、cp、dij分別為集合R、T、D中的數(shù)據(jù)點;w為集合T中的數(shù)據(jù)點數(shù)量.
為了提高模型精度,大數(shù)據(jù)分析技術(shù)提出采用一個調(diào)整系數(shù)來平衡計算條件的方法.調(diào)整系數(shù)的作用是將數(shù)據(jù)特征集合中與教學(xué)科目完全無關(guān)的數(shù)據(jù)進(jìn)行權(quán)重調(diào)整,這樣既節(jié)省了模型存儲空間,又不會刪除有用資源.調(diào)整系數(shù)的函數(shù)表達(dá)式為
(9)
可見,調(diào)整系數(shù)與t成反比,與w成正比.加入調(diào)整系數(shù)后,最優(yōu)選取教學(xué)方式模型表達(dá)式可以調(diào)整為
(10)
3 實驗評估
3.1 實驗數(shù)據(jù)準(zhǔn)備
將基于大數(shù)據(jù)分析的最優(yōu)教學(xué)方式選取模型應(yīng)用在教學(xué)中,通過對教學(xué)方式的最優(yōu)選取來判斷所設(shè)計模型的有效性,且需要一個計算機硬件平臺與數(shù)據(jù)庫對其進(jìn)行支持.計算機硬件平臺采用NEXTSTEP系統(tǒng)實現(xiàn)開發(fā),其開發(fā)成果完善且獨立,能夠最大限度抵御外界干擾,防火墻功能十分強勁.數(shù)據(jù)庫的語言類型為結(jié)構(gòu)化查詢語言SQL,SQL數(shù)據(jù)庫的靈活性與穩(wěn)定性較強,即便是在存儲大數(shù)據(jù)時也無需了解存儲方式便可提供便捷的搜索功能.
將海量數(shù)據(jù)信息存儲到SQL數(shù)據(jù)庫中,數(shù)據(jù)樣本采用5萬條學(xué)生樣本,每條樣本中都含有2016年一整年的學(xué)生個人信息、班級、歷史考試成績、教師評價與學(xué)生評價.教學(xué)科目包括高數(shù)、英語與語文.對樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)擬合,利用本文所設(shè)計的基于大數(shù)據(jù)分析的學(xué)生偏好挖掘模型獲取上述數(shù)據(jù)的學(xué)生長期偏好與短期偏好,同時根據(jù)實際情況構(gòu)造教學(xué)資源集合,并采取調(diào)查問卷的方式構(gòu)造教師偏好集合.
3.2 評估標(biāo)準(zhǔn)
本文旨在進(jìn)行基于大數(shù)據(jù)分析的最優(yōu)選取模型的教學(xué)方式選取能力評估與模型復(fù)雜度評估,并分別采用偏好查準(zhǔn)率與模糊評估法實現(xiàn).在選取教學(xué)方式的過程中,偏好查準(zhǔn)率定義為學(xué)生偏好與教學(xué)方式選取結(jié)果的契合比率.可見,查準(zhǔn)率并不以教學(xué)資源和教師偏好的選取為主導(dǎo),而是建立在學(xué)生偏好表達(dá)能力之上,其函數(shù)表達(dá)式為
(11)
式中:o為存在于學(xué)生偏好集合中的結(jié)果數(shù);g為教學(xué)方式推薦數(shù)量.
模糊評估法是指在復(fù)雜大數(shù)據(jù)環(huán)境中對模型做出的綜合評估.由于基于大數(shù)據(jù)分析的教學(xué)方式選取模型在處理過程中涉及到的數(shù)據(jù)點數(shù)據(jù)極多,所以選擇模糊評估法進(jìn)行模型復(fù)雜度評估是比較合理的.模糊評估法需要構(gòu)建可能對評估對象造成影響的參數(shù)集合與評估項目集合,其表達(dá)式分別為
U={u1,u2,…,um+n}
(12)
V={v1,v2,…,vm+n}
(13)
利用專家評估法設(shè)置參數(shù)集合中數(shù)據(jù)的比重集合,其表達(dá)式為
A={A1,A2,…,Am+n}
(14)
式中,A1+A2+…+Am+n=1.
模糊評估法的評估結(jié)果是評估項目集合條件下的一個模糊集合,相應(yīng)表達(dá)式為
G=AUV
(15)
若想獲取基于大數(shù)據(jù)分析的最優(yōu)教學(xué)方式選取模型復(fù)雜度,評估標(biāo)準(zhǔn)集合中需要包含最優(yōu)教學(xué)方式選取時間、偏好計算時間以及數(shù)據(jù)傳輸時間.參數(shù)集合中包含學(xué)生歷史成績增長率和學(xué)生思維偏好.
3.3 查準(zhǔn)率評估結(jié)果
基于蟻群算法的最優(yōu)教學(xué)方式選取模型和基于雙層神經(jīng)網(wǎng)絡(luò)的教學(xué)方式選取模型的理論架構(gòu)與實際應(yīng)用效果均比較完善,利用這兩種模型與本文設(shè)計的基于大數(shù)據(jù)分析的教學(xué)方式選取模型共同進(jìn)行評估具有一定代表性.采用三種模型對SQL數(shù)據(jù)庫內(nèi)容進(jìn)行教學(xué)方式選取,將結(jié)果中的o、g值提取出來.由于學(xué)生樣本數(shù)量太多,故對結(jié)果進(jìn)行隨機抽取,從學(xué)號為00001的學(xué)生開始抽取10個學(xué)生,所得到的具體評估值分別如表1~3所示.

表1 蟻群算法模型評估值Tab.1 Evaluation values with ant colony algorithm model

表2 雙層神經(jīng)網(wǎng)絡(luò)模型評估值Tab.2 Evaluation values with double-layer neural network model

表3 大數(shù)據(jù)分析模型評估值Tab.3 Evaluation values with big data analysis model
根據(jù)查準(zhǔn)率公式,將三個模型的查準(zhǔn)率計算結(jié)果進(jìn)行對比,結(jié)果如圖2所示.由圖2可見,基于大數(shù)據(jù)分析的教學(xué)方式選取模型查準(zhǔn)率最高,表明利用所提方法設(shè)計的最優(yōu)選取模型具有更高的選取精度.
3.4 復(fù)雜度評估結(jié)果
在模糊評估法中最優(yōu)教學(xué)方式選取時間、偏好計算時間與數(shù)據(jù)傳輸時間(包括收發(fā)延遲)為基于大數(shù)據(jù)分析的最優(yōu)教學(xué)方式選取模型的復(fù)雜度評估項目.對于基于蟻群算法和基于雙層神經(jīng)網(wǎng)絡(luò)的教學(xué)方式選取模型而言,并不存在對學(xué)生偏好的計算過程,因此,為了方便對比,將本文模型的教學(xué)方式選取時間和偏好計算時間統(tǒng)一看作“計算時間”,因而模型復(fù)雜度將主要取決于模型計算時間與數(shù)據(jù)傳輸時間.

圖2 三種模型查準(zhǔn)率對比Fig.2 Comparison in precision ratio of three models
任意抽取20個學(xué)生后,三個模型的計算時間和數(shù)據(jù)傳輸時間統(tǒng)計結(jié)果分別如表4~6所示.模型復(fù)雜度統(tǒng)計值和平均值對比結(jié)果如表7所示.由表7可見,本文模型復(fù)雜度具有明顯優(yōu)勢.

表4 蟻群算法模型復(fù)雜度Tab.4 Complexity of ant colony algorithm model

表5 雙層神經(jīng)網(wǎng)絡(luò)模型復(fù)雜度Tab.5 Complexity of double-layer neural network model

表6 大數(shù)據(jù)分析模型復(fù)雜度Tab.6 Complexity of big data analysis model

表7 模型復(fù)雜度統(tǒng)計值和平均值Tab.7 Statistical and average values of model complexity
4 結(jié) 論
本文設(shè)計了最優(yōu)教學(xué)方式選取模型,在大數(shù)據(jù)分析的基礎(chǔ)上分析了不同服務(wù)器大數(shù)據(jù)信息,預(yù)測了高噪聲干擾數(shù)據(jù),分析了干擾數(shù)據(jù)點濾除前后統(tǒng)計量的變化,對數(shù)據(jù)估計量進(jìn)行了高效挖掘,構(gòu)造出由數(shù)據(jù)源整合、數(shù)據(jù)擬合與濾除干擾三方面相結(jié)合的最優(yōu)選取模型,并利用調(diào)整系數(shù)進(jìn)一步提高了模型精度.實驗結(jié)果表明,所設(shè)計模型能夠有效選取最優(yōu)教學(xué)方式,且模型復(fù)雜度不高,同時具有較高實用性.