摘要 研究有關在線考試系統的閱卷系統,分析主觀題人工閱卷的思維習慣。根據模糊數學中貼近度理論和單向貼近度的理論,設計一個關鍵字匹配和關鍵字貼近度匹配相結合的主觀題自動評分的算法。
關鍵詞 主觀題;自動閱卷;關鍵字;貼近度
中圖分類號:TP301.6 文獻標識碼:A 文章編號:1671-489X(2008)24-0113-02
Internet技術的發展使得考試的技術手段和載體發生了劃時代的變化,計算機技術、網絡技術和考試理論的日漸成熟,使考試從傳統的紙筆考試到計算機輔助考試再發展到基于Web的在線考試成為現實。基于Web技術的在線考試系統可以借助遍布全球的因特網,考試既可在本地進行,也可能在異地進行,大大拓展了考試的靈活性。而且,智能組卷系統,自動閱卷評分和試卷分析將教師從繁重的工作中解脫出來,大大提高了工作效率,真正的實現了無紙化考試。其涉及到多個重要組成部分,如題庫的建立與維護、試卷的自動生成、試卷的自動批閱等。其中試卷的自動批閱對于大規模的考試來說意義非常重大,涉及到計算機領域的人工智能、模式識別以及自然語言理解等方面的理論和知識。
1 主觀題自動閱卷的現狀
1.1 國內外閱卷算法自從20世紀出現計算機以來,國外許多專家和學者就致力于基于任意文本答案的主觀題計算機自動批改技術的研究,同時也相應出現了各種不同的自動閱卷系統:如Elis Page等人開發的Project Easay Grade(PEG)系統,它依靠統計方法來評定文章的質量和寫作風格;Callear D等人開發的Automated Text Marker(ATM)系統是一種針對非多項選擇、有明確答案且答案簡短類試題的計算機輔助評分方法,它可以對用自然語言書寫的答案內容進行評判,并且能夠應用在各種具體的學科上[1]。
國內針對各類非標準化試題自動批改技術的研究雖然剛剛起步,但有些學者專家也提出一些較好的觀點:針對計算機基礎上機考試中文錄入題,根據學生所錄入字數的多少以及錯錄、漏錄等提出了字符串匹配的方法;基于關系的帶權匹配技術來實現計算機輔助教學中簡單論述題的正誤判定等;針對當前計算機水平考試和等級考試中普遍采用的程序填空類試題,提出將學生答案與標準答案在語義上進行匹配來實現計算機自動批改填空題的方法,等等。
1.2 在線考試系統中的閱卷現狀網上考試的優點之一是可以快速、客觀地給出考試成績,有效地縮短考試周期,這一優點主要得益于網上考試的自動閱卷評分。考試系統試題的類型主要有兩大類:一類是客觀題,答案比較明確、具有惟一性;另一類就是主觀題,答案沒有惟一標準。前一類客觀題的評分通常采用精確匹配算法,答案相同則得分,否則不得分。但是主觀題一般是敘述方式答題,個人對知識的理解程度不同,思考習慣和表述也不一致,即便學生的答案正確,也很難做到與專家或教師給出的參考答案完全精確匹配。目前已存在的在線考試系統只能實現對客觀題的自動評分,而對于論述題(主觀題)的評判方法國內外提出的還是比較少見。在線考試系統僅實現了學生答題的自動化,而閱卷還是通過老師人工操作的。
2 自動閱卷系統的思想
2.1 主觀題的人工閱卷過程分析主觀題的答案具有不惟一性,即有一定的模糊性,如何才能判斷學生答案的正誤,就要求能分析學生的答案,理解其意義,再將其與參考答案進行對比分析,然后給出評價。學生在回答問題時,雖然其表達方式、論述的前后順序可能不同,但萬變不離其宗,其主要觀點是確定的,而人工評閱主觀題時正是利用這一點作為主要的評分依據。在人工閱卷過程中,教師明確理解該題答案的知識要點和完整表述。批改時首先檢查學生答案中有幾個要點吻合,吻合得分點多則分數高,然后看學生的答案和標準答案在表達上的相似程度,相似度高則分數高,最后再考慮學生答案語言是否通順,條理性是否強等因素,適當對分數進行調整。分析教師的閱卷過程,教師在人工評閱主觀題時一般是預先制定好一套評分標準,然后將每道試題的總分劃分成若干部分,將分數分配到試題的求解過程中的一些關鍵的步驟或關鍵的詞語上,通常稱之為得分點,評閱時看學生的答案和標準答案的各個得分點的貼近度,貼近度高則得分高,最后查看一下學生答案的語句是否通順、是否有條理性等,綜合地給出一個適當的分數。
2.2 自動閱卷的理論原則根據對人工閱卷的分析可以發現影響主觀題評分的因素主要有兩個:一是標準答案及評分標準的組織,另一個是得分點吻合的多少,學生答案和標準答案的相似程度。
因此,在主觀題自動評閱系統中,可以先將標準答案分成若干個要素(即關鍵字),每個關鍵字與不同的分值相對應,閱卷系統的主要任務就是在學生答案中進行關鍵字的提取,分析其關鍵字與各標準答案關鍵字的貼近度,按照各標準答案關鍵字在整個試題得分中所占的比例,評定其小分,最后累加答案中各關鍵字的得分即可。得分點吻合多少的處理可以采用知識點關鍵詞的方法來解決。具體方法是將每個得分點轉化為關鍵詞,通過判斷學生答案中關鍵詞的多少來計算分數。采用關鍵字模糊匹配方式,也就是系統把能決定該主觀題答案的關鍵詞逐一找出來,存儲在一個臨時數組里,然后將此數組中的字符與考生的答案進行匹配,在考生答案中找這些關鍵詞,再根據匹配的程度來對考生的試卷進行打分。
學生答案和標準答案的貼近度可以采用模糊數學中的貼近度來描述[2-3],而對于語法結構則不做過多考慮,這樣,一方面可以避免對句子進行復雜的句法分析,另一方面也可增加系統的健壯性,如學生答案中出現無關大局的語法錯誤時,只要其概念表述正確,系統仍然可以給出相應的貼近度評價,這與教師的閱卷過程是相符合的。
3 自動閱卷系統的設計
3.1 相關定義[4-5]為解決學生答案和標準答案的單向貼近度表示問題,可以把學生答案和標準答案均看成字符串,下面對單向貼近度的概念進行定義。
把一個字符串分解為單個字符,并把它們構成的有序集合稱為一個模糊集,U={u1,u2,...,un}稱為論域,論域U上的全體模糊集子集所組成的集合記作F(U)(也叫模糊冪集)。
為度量兩模糊冪集的貼近程度,引入單向貼近度的概念。
定義1:設U={u1,u2,u3,…,un},A,B屬于F(U)。若映射D:F(U)×F(U)->y[0,1];滿足條件:1)D(A,A)=1;2)D(B,B)=1;3)若A包含于B包含于C或A包含B包含C,則D(A,B)>=D(A,C)稱D(A,B)為A貼近于B的單向貼近度。
定義2:設A、B是字符串,A中包含n個字符,D(A,B)表示A貼近于B的單向貼近度,按照從左到右的順序,集合A中的每個元素在集合中出現的有效次數和記為m,則D(A,B)=m/n,容易驗證,它滿足單向貼近度的定義。
3.2 算法設計
1)對于每道主觀題,在系統試題答案庫中提前設置關鍵詞數組,再把考生的主觀題答案提出來和數組進行比較,循環查詢數組中的關鍵詞是否在考生的答案中,然后根據存在于考生答案中的關鍵詞的比例進行計分。
2)不存在的關鍵詞根據以上定義計算與關鍵字的貼近度進行計分,以下是對該對定義的具體設計。
為說明方便,以字符串s1和s2為例介紹計算字符串s1貼近于字符串s2的單向貼近度D(s1,s2),步驟如下。
①把查找字符串s1分解為單個有效宇符。在分解前,首先判斷左邊第一個字符是雙字節字符還是單字節字符,如果是雙字節字符按2個字節截取,如果是單字節字符則按1個字節截取,把字符串s1分解為若干個有效字符ul,u2…un。
②判斷s1分解后的單字符是否包含在被查詢的字符串中。這里假定所要查找的字符串分解前和分解后是有順序的,所以不能簡單地使用是否包含來判斷。本文的做法是:判斷第一個字符u1是否包含在字符串s2中,如果不包含則標記為0,否則標記為1,并從s2中去掉包含u1的字符,對s2進行第二個字符u2的相同處理,一直把u1,u2…un判斷完畢。
③計算單向貼近度D(s1,s2)。計算s1分解后的單字符u1,u2…un在s2中出現的次數之和m占s1總有效字符數n的比值,并記為D(s1,s2)。
4 結束語
在線考試系統中,目前人工智能技術中自然語言理解這一領域尚無突破性進展,因而要實現計算機完全的理解評閱確實有難度。但是本文提出的根據關鍵字與各標準答案關鍵字的貼近度,按照各標準答案關鍵字在整個試題得分中所占的比例,評定其小分,最后累加答案中各關鍵字得分的算法思想對主觀題的評判更加準確。
參考文獻
[1]丁衛平,管致錦,陳建平.基于程序設計主觀題智能閱卷算法的應用研究[J].計算機技術與發展,2007(11)
[2]張曉平.基于貼近度的模糊綜合評判結果的集化[J].山東大學學報:理學版,2004,39(2)
[3]程莉,盧正鼎,文坤梅,李娟.基于語義的模糊匹配探索與應用[J].華中科技大學學報:自然科學版,2003(2):31
[4]張燕姑.論模糊概念的度量[J].計算機工程與應用,2004(1)
[5]孟愛國,卜勝賢,李鷹,甘文.一種網絡考試系統中主觀題自動評分的算法設計與實現[J].計算機與數字工程,2005(7):33