楊 超
(遼寧民族師范高等??茖W(xué)校 民族文化與職業(yè)教育系,遼寧 沈陽 110032)
信息技術(shù)能力是師范生需要掌握的重要職業(yè)技能,如何提高師范生信息技術(shù)能力一直是計(jì)算機(jī)教師不斷探索的課題.為此,以調(diào)查問卷的方式對(duì)師范生計(jì)算機(jī)相關(guān)課程內(nèi)容的調(diào)研,客觀地分析調(diào)查問卷數(shù)據(jù)不僅為計(jì)算機(jī)課程優(yōu)化提供參考,更可為某項(xiàng)重點(diǎn)改革提供導(dǎo)向依據(jù)[1].因此,采用科學(xué)的計(jì)算方法對(duì)計(jì)算機(jī)調(diào)查問卷進(jìn)行數(shù)據(jù)分析有著重要意義.
Apriori算法指關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法,旨在從大量數(shù)據(jù)集中發(fā)現(xiàn)隱藏?cái)?shù)據(jù)之間的聯(lián)系[2].這種聯(lián)系有兩種形式:一是頻繁項(xiàng)集,指經(jīng)常在一起出現(xiàn)的元素;二是關(guān)聯(lián)規(guī)則,暗示兩種元素間可能存在很強(qiáng)的聯(lián)系.通常用支持度、置信度和提升度來描述對(duì)形式的判斷及對(duì)關(guān)聯(lián)性強(qiáng)度的分析.
支持度是一個(gè)項(xiàng)集或規(guī)則在所有事務(wù)中出現(xiàn)的概率,用支持度計(jì)數(shù)/總事務(wù)數(shù)表示該規(guī)則在全部記錄中出現(xiàn)的概率.支持度是確定強(qiáng)關(guān)聯(lián)規(guī)則的第一個(gè)重要門檻,衡量了所考查的關(guān)聯(lián)規(guī)則在“量”上的多少,并且子集的支持度大于項(xiàng)集的支持度[2].支持度表達(dá)式為:
其中:s(X→Y)表示規(guī)則X→Y的支持度=(X和Y一起出現(xiàn)的項(xiàng)集支持度計(jì)數(shù))/總事務(wù)數(shù).
置信度表示在先決條件X發(fā)生的前提下關(guān)聯(lián)項(xiàng)目Y發(fā)生的概率,即指在項(xiàng)集Y確定的條件中包含X的事務(wù)出現(xiàn)的頻率.置信度是通過規(guī)則進(jìn)行推理的,因此具有可靠性,也就是說,對(duì)于給定的規(guī)則X→Y,置信度越高則在項(xiàng)集Y中出現(xiàn)項(xiàng)集X的概率越大,即P(Y|X)越大.置信度表達(dá)式為:
提升度表示在含有X的前提下同時(shí)含有Y的可能性與無此前提條件下項(xiàng)集中含有Y的可能性之比,即假如X→Y的提升度是1.15,表明“選擇X后再選擇Y的可能性”是“沒有選擇X但選擇Y的可能性”的1.15倍,也就是說選擇X對(duì)選擇Y起到一定的提升作用.一般地,提升度lift>1就說規(guī)則X→Y是有效強(qiáng)關(guān)聯(lián)規(guī)則,提升度lift=1就說規(guī)則X與Y相互獨(dú)立,提升度lift<1就說規(guī)則X→Y是無效強(qiáng)關(guān)聯(lián)規(guī)則.提升度表達(dá)式為:
本文數(shù)據(jù)來源于省內(nèi)某高職師范院校師范生計(jì)算機(jī)調(diào)查問卷.問卷內(nèi)容主要調(diào)查當(dāng)前師范生對(duì)計(jì)算機(jī)基礎(chǔ)課程的感受情況,共涉及18道題73個(gè)選項(xiàng).應(yīng)用R語言中的Apriori算法對(duì)調(diào)查問卷數(shù)據(jù)進(jìn)行分析[3],進(jìn)而為計(jì)算機(jī)基礎(chǔ)課程改革提供更為客觀的依據(jù).
在默認(rèn)生成的調(diào)查問卷中,數(shù)據(jù)內(nèi)的行、列分別由參與者、選題選項(xiàng)構(gòu)成,這種文字形式的數(shù)據(jù)在算法中不能直接進(jìn)行計(jì)算,需轉(zhuǎn)成“0”“1”形式的數(shù)據(jù)矩陣和特定的數(shù)據(jù)類型.本文設(shè)定選擇選項(xiàng)即為“1”,沒有選擇即為“0”,對(duì)18道題中涉及的所有選項(xiàng)進(jìn)行數(shù)據(jù)清洗,同時(shí)對(duì)空項(xiàng)或無意義數(shù)據(jù)進(jìn)行處理,生成可導(dǎo)入數(shù)據(jù)的xlsx、csv或txt類型文件,再通過表1中的代碼可將數(shù)據(jù)文件導(dǎo)入R語言中,導(dǎo)入的數(shù)據(jù)文件以數(shù)據(jù)框類型存在.
表1 數(shù)據(jù)集代碼表
數(shù)據(jù)概況為結(jié)果分析、導(dǎo)向策略制定提供重要參考.通過R語言中summary()方法可對(duì)數(shù)據(jù)集進(jìn)行頻率查看,結(jié)果如表2所示.從表2結(jié)果可看出,數(shù)據(jù)集是項(xiàng)矩陣以稀疏的形式生成413行73項(xiàng)數(shù)據(jù),并且依據(jù)頻率大小進(jìn)行排序,其中第29選項(xiàng)被選擇了358次,占86.68%,說明絕大多數(shù)學(xué)生認(rèn)為Office辦公軟件在計(jì)算機(jī)基礎(chǔ)課程中尤為重要.這種以直接方式顯示出的數(shù)據(jù)信息便于決策者從高頻率項(xiàng)與高頻率項(xiàng)、高頻率項(xiàng)與低頻率項(xiàng)之間尋找隱藏的信息[4],為下一步的導(dǎo)向分析提供重要參考.另外,項(xiàng)集長度也間接反映出參與者對(duì)調(diào)查問卷填寫的考慮,如表3結(jié)果中顯示有48人選擇17個(gè)選項(xiàng),16人選擇18個(gè)選項(xiàng),后面以此類推,說明大部分參與者在填寫問卷時(shí)對(duì)選項(xiàng)涉及的內(nèi)容有多方面的考慮,對(duì)待一些特定的選項(xiàng)存在多選情況.因此,后續(xù)的導(dǎo)向分析中應(yīng)多作綜合考慮.
表2 頻率結(jié)果
表3 選項(xiàng)選擇人數(shù)
基于建立的數(shù)據(jù)集矩陣,利用R語言中Apriori算法對(duì)數(shù)據(jù)集進(jìn)行深入分析.由于數(shù)據(jù)分析結(jié)果共111個(gè),限于文章篇幅,這里只展示前10條數(shù)據(jù)并進(jìn)行說明,代碼及生成的數(shù)學(xué)模型如表4所示.通過表4發(fā)現(xiàn),數(shù)學(xué)模型條件規(guī)則是以支持度為0.2、置信度為1、最小項(xiàng)集所包含元素的個(gè)數(shù)為2建立的,說明滿足條件規(guī)則的項(xiàng)集均與29號(hào)選項(xiàng)有關(guān)聯(lián),并且在選擇lhs中的項(xiàng)集元素時(shí)就一定會(huì)選擇rhs項(xiàng)集中的元素.在眾多參與者中,至少100人存在表4中的選擇關(guān)聯(lián),選擇lhs項(xiàng)集中元素的概率均大于24%,提升度大于1,這體現(xiàn)了lhs項(xiàng)集中元素與rhs項(xiàng)集中的元素有關(guān)聯(lián).
表4 Apriori算法代碼及數(shù)學(xué)模型
在Apriori算法數(shù)學(xué)模型中共有111條關(guān)聯(lián)規(guī)則,但從表4可以看到,選擇選項(xiàng)30、31、41就一定會(huì)選擇選項(xiàng)29,支持度為0.2687,提升度為1.15,而選擇選項(xiàng)28、30、31、41也同樣會(huì)選擇選項(xiàng)29,支持度為0.2615,提升度為1.15,符合第四個(gè)結(jié)果中的lhs和rhs包含于第二個(gè)結(jié)果中的lhs和rhs,并且第四個(gè)結(jié)果中的提升度與第二個(gè)結(jié)果的提升度相同,說明第四個(gè)結(jié)果是第二個(gè)結(jié)果的冗余規(guī)則,因此需對(duì)模型進(jìn)行冗余規(guī)則優(yōu)化,代碼、生成數(shù)據(jù)結(jié)果及選項(xiàng)說明如表5、表6所示.經(jīng)優(yōu)化后共生成48條關(guān)聯(lián)規(guī)則,因生成規(guī)則數(shù)據(jù)過多,這里只針對(duì)支持度排序前五的數(shù)據(jù)進(jìn)行說明.通過優(yōu)化的數(shù)學(xué)模型可以了解,無論是認(rèn)為計(jì)算機(jī)基礎(chǔ)知識(shí)重要、計(jì)算機(jī)網(wǎng)絡(luò)知識(shí)重要的師范生,還是認(rèn)為計(jì)算機(jī)系統(tǒng)操作重要的師范生,都認(rèn)為Office辦公軟件重要.表5的結(jié)果也說明,接觸過相關(guān)計(jì)算機(jī)基礎(chǔ)課程或經(jīng)常使用計(jì)算機(jī)的師范生均認(rèn)為Office辦公軟件尤為重要,說明師范生對(duì)Office重要性的認(rèn)知可能根據(jù)應(yīng)用需求判定而來[5].在認(rèn)識(shí)到計(jì)算機(jī)基礎(chǔ)課程重要性的同時(shí),師范生認(rèn)為課程中Office辦公軟件的操作講解需要加強(qiáng),說明目前Office辦公軟件的操作講解可能不能滿足師范生的學(xué)習(xí)需求,需要提出具有針對(duì)性的策略.通過圖1中的Graph模型可以看出,在特定條件下師范生計(jì)算機(jī)基礎(chǔ)課程調(diào)查問卷各選項(xiàng)均與Office辦公軟件重要性有關(guān)聯(lián),因此在后續(xù)的計(jì)算機(jī)基礎(chǔ)課程改革中,應(yīng)重點(diǎn)考慮多安排有關(guān)Office辦公軟件的教學(xué)內(nèi)容.
表5 數(shù)學(xué)模型序號(hào)含義及優(yōu)化代碼
表6 序號(hào)含義及頻率
本文運(yùn)用Apriori算法對(duì)師范生計(jì)算機(jī)調(diào)查問卷進(jìn)行數(shù)據(jù)分析,通過對(duì)數(shù)據(jù)模型優(yōu)化、圖形構(gòu)建及數(shù)據(jù)分析,在支持度、置信度、提升度等屬性顯示中大多數(shù)項(xiàng)集元素與Office辦公軟件重要性相關(guān)聯(lián),為后續(xù)計(jì)算機(jī)基礎(chǔ)課程改革提供重要參考.