基于文本挖掘的主觀類(lèi)型電子作業(yè)智能輔助評(píng)分方法研究

2023-11-09 10:50:22張大為王琦菲

微型電腦應(yīng)用 2023年10期

張大為, 王琦菲

(遼寧師范大學(xué),計(jì)算機(jī)與信息技術(shù)學(xué)院,遼寧,大連 116000)

0 引言

提高教學(xué)質(zhì)量是高等教育發(fā)展的核心任務(wù),也是建設(shè)教育強(qiáng)國(guó)的基本要求[1]。為了提高教學(xué)質(zhì)量,必須在教學(xué)環(huán)節(jié)中正確認(rèn)識(shí)課程作業(yè)的重要性。課程作業(yè)的布置和批改是教學(xué)過(guò)程中的基本環(huán)節(jié):一方面有助于學(xué)生鞏固所學(xué)知識(shí)、了解階段性學(xué)習(xí)效果、提高學(xué)業(yè)成績(jī)、修正日后的學(xué)習(xí)規(guī)劃;另一方面還可以幫助教師了解教學(xué)成果、調(diào)整教學(xué)進(jìn)度,是改進(jìn)教學(xué)和開(kāi)展教學(xué)活動(dòng)的重要依據(jù)[2]。由此可見(jiàn),客觀合理的作業(yè)評(píng)價(jià)是提高教學(xué)質(zhì)量的必要條件。

主觀類(lèi)型作業(yè)在教育測(cè)量方面具有以下兩個(gè)優(yōu)點(diǎn):一是有利于考察學(xué)生更深層次的能力;二是方便檢驗(yàn)學(xué)生對(duì)課堂知識(shí)的綜合掌握程度。但主觀類(lèi)型作業(yè)具有文檔特征:一方面該類(lèi)型作業(yè)開(kāi)放性更強(qiáng),寫(xiě)作排版風(fēng)格統(tǒng)一困難,完成質(zhì)量差距更大;另一方面易受評(píng)閱人知識(shí)水平、心理活動(dòng)等主觀因素影響,難以保證評(píng)分的客觀準(zhǔn)確性[3]。教師長(zhǎng)時(shí)間高強(qiáng)度地評(píng)閱作業(yè),很容易產(chǎn)生視覺(jué)和精神疲勞,進(jìn)一步影響評(píng)價(jià)結(jié)果的準(zhǔn)確性。教師為作業(yè)的評(píng)閱付出大量的時(shí)間和精力,勢(shì)必會(huì)對(duì)教學(xué)和科研產(chǎn)生影響,故將評(píng)閱工作智能化、自動(dòng)化、便捷化是當(dāng)前的趨勢(shì),也是亟待解決的問(wèn)題之一[4]。

隨著人工智能的發(fā)展,自動(dòng)評(píng)閱技術(shù)逐漸成為研究熱點(diǎn)。文本挖掘技術(shù)是從諸多復(fù)雜的非結(jié)構(gòu)化文本數(shù)據(jù)中獲取隱形、有用的數(shù)據(jù)信息,進(jìn)而實(shí)現(xiàn)文本數(shù)據(jù)自動(dòng)化處理的技術(shù)[5]。利用文本挖掘技術(shù)處理文本數(shù)據(jù)的能力,設(shè)計(jì)實(shí)現(xiàn)自動(dòng)化文本作業(yè)評(píng)價(jià)方法,輔助教師給出客觀合理的評(píng)價(jià)結(jié)果是充分利用主觀作業(yè)幫助提高教學(xué)質(zhì)量的關(guān)鍵,具有重大研究意義。

1 相關(guān)工作

國(guó)外對(duì)主觀題的自動(dòng)評(píng)分研究早于國(guó)內(nèi),包括使用淺層文本分析方法的PEG作文評(píng)分系統(tǒng)[6];通過(guò)解析候選答案,設(shè)計(jì)并匹配對(duì)應(yīng)評(píng)分模板,實(shí)現(xiàn)開(kāi)放型自動(dòng)批改系統(tǒng)Auto Mark[7]等。受中文的復(fù)雜性和獨(dú)特性等因素影響,現(xiàn)有的國(guó)外研究成果不能直接應(yīng)用,且對(duì)于答案開(kāi)放的主觀題自動(dòng)評(píng)分的研究較少。陳賢武等[8]以語(yǔ)義為核心,建立多特征語(yǔ)句的相似度模型,設(shè)計(jì)一個(gè)面向主觀題的自動(dòng)評(píng)閱系統(tǒng)。吳芳穎[9]采用雙向Bi-LSTM和CNN-LSTM對(duì)文本進(jìn)行建模得到兩個(gè)向量,并對(duì)其進(jìn)行相似度計(jì)算預(yù)測(cè)文本質(zhì)量。

上述評(píng)分方法效果較好,但大多為有標(biāo)準(zhǔn)答案的簡(jiǎn)答題或無(wú)參考答案的作文,且應(yīng)用成本較高,無(wú)法運(yùn)用于開(kāi)放型主觀作業(yè)的在線評(píng)閱。本文提出的ASM評(píng)分模型及其軟件實(shí)現(xiàn)不需要提前預(yù)設(shè)答案或評(píng)分模板即可實(shí)現(xiàn)自動(dòng)評(píng)閱,提高評(píng)閱效率和客觀性。通過(guò)近10年的實(shí)踐表明,自動(dòng)作業(yè)評(píng)價(jià)結(jié)果在教師和學(xué)生兩個(gè)維度的滿(mǎn)意程度均達(dá)到98%以上。

2 相關(guān)技術(shù)

2.1 文本預(yù)處理

作業(yè)文本需要進(jìn)行預(yù)處理,將其標(biāo)準(zhǔn)化和格式化,即數(shù)據(jù)清洗[10]后,才能對(duì)各項(xiàng)評(píng)價(jià)指標(biāo)評(píng)分。首先要對(duì)每份作業(yè)(以下簡(jiǎn)稱(chēng)樣本)進(jìn)行讀取并分詞處理,然后建立學(xué)科領(lǐng)域停用詞庫(kù),過(guò)濾停用詞,最后統(tǒng)計(jì)詞頻,生成“文檔-詞頻”矩陣,記作D:

(1)

其中,D的每一行表示一個(gè)樣本,即第i行表示第i個(gè)樣本,記作doci。D的每一列為特定詞語(yǔ)的詞頻,例如docij表示第i行的第j列,也就是指第i個(gè)樣本的第j個(gè)詞語(yǔ)的詞頻。m為樣本的總數(shù),n為所有樣本詞語(yǔ)集合的大小。

2.2 余弦相似度

余弦相似度指的是在向量空間中通過(guò)計(jì)算兩個(gè)向量之間夾角的余弦值來(lái)度量其相似程度[11]。本文使用余弦相似度計(jì)算兩個(gè)樣本之間的相似性,計(jì)算公式為

(2)

其中,docik和docjk分別為樣本doci和樣本docj在“文檔-詞頻”矩陣D中第k列對(duì)應(yīng)的詞頻。當(dāng)余弦相似度值越接近1時(shí),兩個(gè)向量之間的夾角越接近0°,其相似度越大。

2.3 TextRank主題詞提取

TextRank本質(zhì)是一種基于詞圖模型的排序算法,具有較好的關(guān)鍵詞提取效果,在一定程度下接近有監(jiān)督方法的效率。TextRank算法將文本抽象為詞圖模型記作G=(E,V),其中V為節(jié)點(diǎn)集,即由候選關(guān)鍵詞矩陣組成,E是利用共現(xiàn)窗口構(gòu)建圖中兩節(jié)點(diǎn)之間的邊,迭代計(jì)算每個(gè)頂點(diǎn)的權(quán)值,收斂時(shí)權(quán)值排名在前的點(diǎn)即為文本關(guān)鍵詞[12]。每個(gè)頂點(diǎn)權(quán)值的計(jì)算公式為

(3)

其中,d為阻尼系數(shù),vi和vj均為詞語(yǔ)節(jié)點(diǎn),ln(vi)是指向詞語(yǔ)節(jié)點(diǎn)vi的詞語(yǔ)節(jié)點(diǎn)集合,Out(vj)是詞語(yǔ)節(jié)點(diǎn)vj指向的詞語(yǔ)節(jié)點(diǎn)集合。

3 主觀文本類(lèi)型作業(yè)智能輔助評(píng)分模型

主觀文本類(lèi)型作業(yè)智能輔助評(píng)分模型Automatic Scoring Model(ASM)的基本內(nèi)容是構(gòu)建核心評(píng)價(jià)指標(biāo),并給出不同作業(yè)的合理的評(píng)價(jià)方法,流程如圖1所示。首先對(duì)所有作業(yè)進(jìn)行預(yù)處理,得到詞頻矩陣。然后根據(jù)作業(yè)類(lèi)型組織適用的評(píng)價(jià)指標(biāo),最后生成評(píng)分公式并計(jì)算成績(jī)。

該模型的合理性前提是每份作業(yè)所具有的獨(dú)立性。所謂作業(yè)獨(dú)立性,就是我們?cè)诓贾米鳂I(yè)時(shí)要求的每份作業(yè)必須由作業(yè)完成人獨(dú)立完成。如果某份作業(yè)不具備獨(dú)立性,可以通過(guò)相似度指標(biāo)和主題貼合度指標(biāo)進(jìn)行識(shí)別和排除。當(dāng)所有作業(yè)具有獨(dú)立性時(shí),幾乎不可能出現(xiàn)所有作業(yè)工作量相同的情況。作業(yè)獨(dú)立性是工作量指標(biāo)和篇幅結(jié)構(gòu)指標(biāo)能對(duì)作業(yè)進(jìn)行合理評(píng)價(jià)的前提和基礎(chǔ)。工作量和篇幅結(jié)構(gòu)指標(biāo)(量化指標(biāo))與主題貼合度和相似度指標(biāo)(決定性指標(biāo))形成互相制約的評(píng)價(jià)體系。也就是說(shuō),某作業(yè)完成人(個(gè)人或團(tuán)隊(duì))希望通過(guò)突出某項(xiàng)評(píng)價(jià)指標(biāo)而獲得高分的行為在現(xiàn)實(shí)中很難實(shí)現(xiàn)。

3.1 相似度評(píng)價(jià)指標(biāo)

通過(guò)相似度評(píng)價(jià)指標(biāo)Similarity Index(SI)可以有效地檢測(cè)出一次提交的所有作業(yè)中是否存在過(guò)度雷同的作業(yè)。首先采用式(2)計(jì)算doci與其他作業(yè)的余弦相似度S(doci,docj),取最大值作為doci的相似度值,計(jì)算公式為

JSi=max{S(doci,docj)},1≤i,j≤n,i≠j

(4)

其中,doci為第i份作業(yè),docj指與doci同組的不同作業(yè)。JSi表示第i份作業(yè)的相似度值。相似度指標(biāo)值的計(jì)算公式如下:

(5)

其中,SIi為第i份作業(yè)的相似度指標(biāo)值,0或1的取值使該指標(biāo)具有決定性,k為判定SI取值為1或0的閾值,k值的大小根據(jù)作業(yè)的特點(diǎn)和對(duì)作業(yè)的要求不同而不同,需要根據(jù)經(jīng)驗(yàn)做適當(dāng)?shù)膰L試和調(diào)整。如主題發(fā)散型作業(yè)的k值取0.98左右,主題聚焦型作業(yè)的k值取0.95左右。

3.2 主題貼合度評(píng)價(jià)指標(biāo)

通過(guò)主題貼合度評(píng)價(jià)指標(biāo)Theme Index(TI)判斷一份作業(yè)是否存在“張冠李戴”或“濫竽充數(shù)”的情況。首先采用式(3)計(jì)算所有作業(yè)的核心關(guān)鍵詞,取一定比例的詞頻排名靠前的詞作為本次作業(yè)的核心詞AC。然后根據(jù)式(3)計(jì)算每份作業(yè)doci的核心詞DCi,同時(shí)根據(jù)式(2)計(jì)算DCi與AC之間的余弦距離作為作業(yè)doci的主題相似度值TSi。相似度指標(biāo)值TIi的計(jì)算公式如下:

(6)

其中,TIi為第i份作業(yè)的主題貼合度指標(biāo)值,0或1的取值使該指標(biāo)具有決定性,t是判定TIi取值為1或0的閾值,t值的大小根據(jù)作業(yè)的特點(diǎn)和對(duì)作業(yè)的要求不同而不同,需要根據(jù)經(jīng)驗(yàn)做適當(dāng)?shù)膰L試和調(diào)整。如主題發(fā)散型作業(yè)的t值取0.2左右,主題聚焦型作業(yè)的t值取0.5左右。

3.3 工作量評(píng)價(jià)指標(biāo)

通過(guò)工作量指標(biāo)Workload Index(WI)來(lái)判斷作業(yè)完成工作量的多少,是最終成績(jī)的重要組成部分。首先利用正則表達(dá)式統(tǒng)計(jì)作業(yè)doci的中文、英文和其他字符數(shù)量,將過(guò)濾停用詞后的中英文詞數(shù)之和作為有效字符數(shù)Wi。然后去掉集合{Wi}中一定比例的最大值和最小值,計(jì)算剩余部分的平均值Wa作為所有作業(yè)的工作量修正平均值。最后按下面公式計(jì)算工作量指標(biāo)值:

(7)

其中,WIi為第i份作業(yè)的工作量指標(biāo)值。當(dāng)Wi小于Wa時(shí),WIi成績(jī)隨著Wi減少而減少,即WIi值取Wi和Wa的比例。當(dāng)Wi大于或等于Wa時(shí),WIi的值為1,表示該作業(yè)達(dá)到平均工作量的基本要求。

3.4 篇章結(jié)構(gòu)評(píng)價(jià)指標(biāo)

篇章結(jié)構(gòu)評(píng)價(jià)指標(biāo)包括圖片指標(biāo)Figure Indicator(FI)和中英文比例指標(biāo)Ratio Index(RI),其目標(biāo)是評(píng)價(jià)作業(yè)中圖表、程序代碼等內(nèi)容組織的合理性。首先利用正則表達(dá)式統(tǒng)計(jì)作業(yè)doci中的圖片數(shù)量Fi、中文詞數(shù)Ci和英文詞數(shù)Ei,并計(jì)算中英文比例Ri=Ci/Ei。然后計(jì)算Fi和Ri的修正平均值Fa和Ra(具體計(jì)算方法參考Wa)作為評(píng)價(jià)基準(zhǔn)值。篇章結(jié)構(gòu)評(píng)價(jià)指標(biāo)FI和RI的計(jì)算公式如下:

(8)

(9)

其中,FIi為第i份作業(yè)的圖片指標(biāo)值。當(dāng)Fi大于Fa或Fi小于Fa時(shí)表示該作業(yè)的圖片數(shù)量過(guò)多或者過(guò)少,FIi值變小。只有Fi接近Fa時(shí),表示該作業(yè)的圖片數(shù)量符合平均數(shù)量,FIi值接近1。

中英文比例指標(biāo)RI作為可選指標(biāo),主要用于評(píng)價(jià)以中文為主的作業(yè)。RIi為第i份作業(yè)的中英文比例指標(biāo)值。當(dāng)Ri小于Ra時(shí)表示該作業(yè)的英文過(guò)多,此時(shí)RIi=Ri,即RIi成績(jī)隨著Ri減小而減少。當(dāng)Ri大于或等于Ra時(shí)表示該作業(yè)主要以中文描述為主,取值為1,表示作業(yè)內(nèi)容符合文字比例要求。

3.5 綜合成績(jī)計(jì)算

上述評(píng)價(jià)指標(biāo)依據(jù)其評(píng)價(jià)方式和性質(zhì),分為決定性指標(biāo)和量化指標(biāo)兩個(gè)類(lèi)別。其中,決定性指標(biāo)采用乘法原則,量化指標(biāo)采用加法原則。第i份樣本的成績(jī)SC(Score)計(jì)算公式如下:

SCi=Total×SIi×TIi×(a×WIi+b×FIi+

c×RIi),0≤a,b,c≤1,1≤i≤n

(10)

其中,Total為評(píng)分分值,n為樣本數(shù)量,a、b、c均為指標(biāo)所占總分值的比例,根據(jù)作業(yè)要求不同,可以做適當(dāng)?shù)慕M合調(diào)整,符合a+b+c=1即可。

4 實(shí)驗(yàn)與結(jié)果分析

本研究工作已經(jīng)在我校計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)的軟件工程、軟件工程課程設(shè)計(jì)、JavaWeb高級(jí)編程等3門(mén)課程的作業(yè)評(píng)價(jià)中嘗試應(yīng)用和改進(jìn)多年。實(shí)驗(yàn)選取我校2015級(jí)至2018級(jí)上述課程的作業(yè)作為實(shí)驗(yàn)數(shù)據(jù),作業(yè)詳細(xì)信息以及實(shí)驗(yàn)所采用的評(píng)價(jià)參數(shù)如表1所示,每組作業(yè)在40～60份之間,一共20組,合計(jì)1049份。

表1 作業(yè)類(lèi)型及其評(píng)分參數(shù)表

為了驗(yàn)證ASM模型的評(píng)分有效性,每份作業(yè)由5人評(píng)價(jià),取平均值作為人工評(píng)價(jià)結(jié)果,并從指標(biāo)得分相關(guān)性、個(gè)人成績(jī)標(biāo)準(zhǔn)差、人機(jī)評(píng)分結(jié)果分布圖、人機(jī)評(píng)分相對(duì)誤差等4個(gè)方面進(jìn)行分析論證。評(píng)價(jià)系統(tǒng)及實(shí)驗(yàn)分析可以參考網(wǎng)站:https://willow.net.cn/score。

4.1 指標(biāo)得分相關(guān)性分析

最終成績(jī)由指標(biāo)SI、TI、WI、FI和RI共同參與計(jì)算完成,使得最終評(píng)分結(jié)果的合理性與上述指標(biāo)的綜合貢獻(xiàn)有著直接關(guān)系,這意味著各項(xiàng)指標(biāo)與最終成績(jī)的相關(guān)性越強(qiáng),評(píng)價(jià)結(jié)果越合理。對(duì)SI和TI的識(shí)別正確率進(jìn)行統(tǒng)計(jì),所得結(jié)果見(jiàn)表2。

政府作為國(guó)家組織的具體形式，對(duì)一個(gè)專(zhuān)業(yè)社會(huì)地位的確立發(fā)揮了極為重要的法權(quán)作用，離開(kāi)了政府賦權(quán)以及與此相關(guān)的外部保障條件，專(zhuān)業(yè)工作者及其專(zhuān)業(yè)組織就很難爭(zhēng)取到自身合理的利益，正是由于政府行動(dòng)的滲透，使得某些不具有專(zhuān)業(yè)地位的職業(yè)不斷提升自主權(quán)，取得合法性專(zhuān)業(yè)資格[18]。政府作為專(zhuān)業(yè)化框架的實(shí)施主體，最重要的作用體現(xiàn)在政府的頂層設(shè)計(jì)上，將指導(dǎo)和規(guī)范體育教師教育專(zhuān)業(yè)化體系建設(shè)。只有當(dāng)國(guó)家規(guī)定了所有主體的角色時(shí)，建立在社會(huì)合作關(guān)系的原則基礎(chǔ)上的體系才能運(yùn)轉(zhuǎn)起來(lái)[19]。因此，需要政府來(lái)進(jìn)行整體的規(guī)劃，完善有關(guān)法規(guī)制度，建立合理的配套機(jī)制并提供一定的財(cái)政支持來(lái)促進(jìn)專(zhuān)業(yè)化框架的構(gòu)建。

表2 識(shí)別正確率情況統(tǒng)計(jì)報(bào)表單位:%

由表2可知,隨筆、需求、實(shí)驗(yàn)報(bào)告1、實(shí)驗(yàn)報(bào)告2的SI正確率均為100%,課程設(shè)計(jì)SI的正確識(shí)別率為99.53%。即針對(duì)同組作業(yè)大篇幅抄襲現(xiàn)象能夠有效地識(shí)別,存在少量的誤判是由于課程設(shè)計(jì)的文本內(nèi)容相對(duì)集中造成的。全部作業(yè)的TI正確率為99%以上,即總體表現(xiàn)良好。存在少量誤判現(xiàn)象是由于部分樣本主題較為分散造成的。例如需求的作業(yè)中,可能包含“訂餐管理系統(tǒng)”,也可能有“圖書(shū)管理系統(tǒng)”。隨筆作業(yè)看似要求發(fā)散,但學(xué)生提交的作業(yè)內(nèi)容非常相近,通過(guò)其TI正確率100%也可得到體現(xiàn)。嚴(yán)格設(shè)定SI和TI的閾值k和t可以有效防止漏判,對(duì)于誤判作業(yè)可以通過(guò)人工復(fù)查加以糾正。

針對(duì)指標(biāo)WI、FI和RI檢驗(yàn)是評(píng)價(jià)指標(biāo)值與最終成績(jī)之間的相關(guān)性是否合理,結(jié)果見(jiàn)圖2。

圖2 WI、FI和RI指標(biāo)值與其對(duì)應(yīng)成績(jī)關(guān)系圖

由圖2可知,WI和RI的機(jī)器評(píng)分與對(duì)應(yīng)的指標(biāo)值并不完全呈線性增長(zhǎng)關(guān)系,其成績(jī)分布受到樣本內(nèi)部修正平均值的影響,反映樣本內(nèi)相對(duì)成績(jī),即當(dāng)指標(biāo)值超過(guò)修正平均值時(shí),縱坐標(biāo)趨于水平不再增長(zhǎng),表示該指標(biāo)成績(jī)?yōu)闈M(mǎn)分。這種非完全線性的指標(biāo)成績(jī)相關(guān)性與理想的評(píng)價(jià)預(yù)期更為接近。

4.2 個(gè)人成績(jī)標(biāo)準(zhǔn)差分析

對(duì)個(gè)人所有作業(yè)成績(jī)標(biāo)準(zhǔn)差進(jìn)行分析。例如,A同學(xué)學(xué)習(xí)成績(jī)穩(wěn)定,每次提交作業(yè)的評(píng)分趨于平穩(wěn),則A同學(xué)所有作業(yè)成績(jī)的標(biāo)準(zhǔn)差趨于合理。如果B同學(xué)提交作業(yè)自動(dòng)評(píng)分的標(biāo)準(zhǔn)差過(guò)大,表明每次作業(yè)的得分偏差較大。標(biāo)準(zhǔn)差過(guò)大的原因可能有兩種:一是該同學(xué)學(xué)習(xí)成績(jī)不夠穩(wěn)定;二是自動(dòng)評(píng)分存在誤差。個(gè)人成績(jī)標(biāo)準(zhǔn)差RMSE計(jì)算方法如下:

(11)

其中,Pi和P分別為該學(xué)生第i份作業(yè)成績(jī)和全部作業(yè)平均成績(jī)。統(tǒng)計(jì)所有學(xué)生RMSE的分布情況見(jiàn)圖3。

圖3 所有學(xué)生個(gè)人成績(jī)標(biāo)準(zhǔn)差分布圖

由圖3可知,RMSE在20以下的學(xué)生占82.18%。對(duì)于RMSE在20以上的學(xué)生,經(jīng)過(guò)人工復(fù)查均存在描述型作業(yè)分?jǐn)?shù)較高,實(shí)驗(yàn)類(lèi)型作業(yè)分?jǐn)?shù)偏低這一現(xiàn)象,即反映出學(xué)生綜合實(shí)驗(yàn)?zāi)芰Φ牟蛔?教師需要在教學(xué)過(guò)程中著重培養(yǎng)學(xué)生的實(shí)驗(yàn)分析能力。綜上所述采用ASM模型的評(píng)分結(jié)果合理有效,可以很好地反映出學(xué)生的綜合水平和學(xué)習(xí)效果。

4.3 人機(jī)評(píng)分對(duì)比分析

主觀類(lèi)型作業(yè)即使人工評(píng)分也會(huì)存在一定誤差。統(tǒng)計(jì)人機(jī)評(píng)分在不同分?jǐn)?shù)段上的樣本數(shù)量見(jiàn)圖4。分析二者的趨同性,如果二者的趨勢(shì)有很大不同,說(shuō)明各個(gè)分?jǐn)?shù)段上的人數(shù)差距過(guò)大,表明人機(jī)評(píng)分結(jié)果的分歧較大,反之同理。

圖4 人機(jī)評(píng)分在不同分?jǐn)?shù)段上的作業(yè)數(shù)量對(duì)比圖

由圖4可知,描述型作業(yè)如隨筆、需求,僅考察SI、TI和WI三項(xiàng)指標(biāo),故大部分學(xué)生可以拿到較高的分?jǐn)?shù),且人機(jī)評(píng)分結(jié)果分歧較小。而針對(duì)實(shí)驗(yàn)報(bào)告類(lèi)型作業(yè),對(duì)比機(jī)器評(píng)分增加的篇章結(jié)構(gòu)指標(biāo)FI和RI,人工評(píng)分對(duì)這兩個(gè)指標(biāo)的判別更加模糊,易受到各種因素的干擾,無(wú)法做到像機(jī)器評(píng)分一樣的精準(zhǔn)性。因此采用ASM模型得到的評(píng)分結(jié)果在主要分?jǐn)?shù)段基本呈線性分布,在全部分?jǐn)?shù)段趨于正態(tài)分布,即兩邊分?jǐn)?shù)段的作業(yè)數(shù)量較少,中間分?jǐn)?shù)段的作業(yè)數(shù)量較多。因此,本文提出的ASM模型自動(dòng)評(píng)分結(jié)果更具客觀性。

4.4 人機(jī)評(píng)分相對(duì)誤差分析

(12)

其中,Ai和Pi分別為第i份作業(yè)的人機(jī)評(píng)分結(jié)果,n為樣本大小,s為作業(yè)分值。計(jì)算20組樣本的MAE見(jiàn)表3。

表3 20組樣本人機(jī)評(píng)分的平均相對(duì)誤差表

由表3可知,部分人機(jī)評(píng)分的結(jié)果具有一定的差距。分析MAE較大的原因有下幾點(diǎn)。

(1) 文本主觀類(lèi)型作業(yè)比其他短文本主觀作業(yè)具有開(kāi)放性更強(qiáng)、篇幅更長(zhǎng)、寫(xiě)作元素更多等特點(diǎn),人工評(píng)閱過(guò)程中難以統(tǒng)一評(píng)分標(biāo)準(zhǔn),導(dǎo)致評(píng)分結(jié)果主觀性過(guò)強(qiáng)。

(2) 針對(duì)抄襲或偏離主題的作業(yè),教師可能會(huì)根據(jù)具體寫(xiě)作情況給予一定分?jǐn)?shù),而ASM模型的評(píng)分結(jié)果直接為零。

(3) 人工評(píng)閱時(shí)容易受到字體、格式、排版風(fēng)格等因素影響,評(píng)分結(jié)果存在一定主觀性,ASM模型通過(guò)對(duì)篇章結(jié)構(gòu)的評(píng)分結(jié)果更加客觀合理。

5 總結(jié)

本文針對(duì)人工方式評(píng)閱文本主觀作業(yè)時(shí)存在的問(wèn)題,提出了一種基于文本挖掘的智能輔助評(píng)分模型,可針對(duì)不同類(lèi)型作業(yè)組織適用的評(píng)價(jià)指標(biāo)。通過(guò)實(shí)驗(yàn)分析表明,ASM模型評(píng)分更加客觀公正、準(zhǔn)確高效,彌補(bǔ)了以往人工評(píng)分存在的局限性。作為主觀類(lèi)型電子作業(yè)的輔助評(píng)價(jià)方法,本系統(tǒng)具有推廣應(yīng)用價(jià)值,對(duì)提高教學(xué)質(zhì)量有著重大意義。