胡慧君 劉茂福
摘 要 文章針對組卷系統中容易對同一語義內容但不同形式的題目多次出現在同一張試卷中的問題,提出了基于差分優化語義相似度模型的組卷系統。此系統引入語義相似度模型,在組卷的過程較好地避免了重復知識點的考查,增加了組卷的成功率;在語義相似度模型的基礎上,對一些參數不再用手動的方式調整,采用差分算法對模型中的相關參數進行動態的調控,不僅可以避免手動調整參數的辛苦,又在全局范圍中獲得最優化的參數,從而保證了自動組卷系統的科學性、公正性、高效性,該系統對題目知識結構,數據延展進行全方位的跟蹤管理,多種考試形式豐富組織方式。
關鍵詞 自動組卷系統 語義相似度模型 余弦相似度 差分優化
中圖分類號:TP391.3 文獻標識碼:A DOI:10.16400/j.cnki.kjdks.2016.02.073
0 引言
現階段,有不斷增加的考試類型和不斷提高的考試要求,隨即而來,也越來越增加了教師的工作量。為適應現代考試的需要,傳統的考試方法應該慢慢地被淘汰了。目前有著迅速發展的計算機應用,網絡應用不斷擴大,如遠程教育和虛擬大學的出現等等,且這些應用正逐步深入到千家萬戶。在線考試都會需要這些網絡應用技術,期待減輕教師的工作負擔以及提高工作效率,與此同時提高了考試的質量,從而使考試更趨于公正、客觀,更加激發學生的學習興趣。鑒于以上現狀和結合當前市面上考試系統的特點與不足,一種新型的語義相似度模型的自動組卷系統應運而生。
1 基于差分優化語義相似度模型的自動組卷系統
針對現有自動組卷系統的不足,本論文提出基于差分優化語義相似度模型的自動組卷系統,以提高所組試卷的質量。例如避免在組卷過程中產生選擇、填空、判斷三者之間對同一知識點考查多次的問題;改進傳統的組卷系統,借助語義相似度模型實現對填空,問答的審閱,使得組卷變得更科學、更智能,以減輕老師負擔和提高系統工作效率。基于差分優化語義相似度模型的自動組卷系統具有以下特點:
(1)引入語義相似度模型;(2)具有普適性,基于語義層面的相似度模型使得系統不再局限于少數幾門學科;(3)提高組卷效率,借助語義相似度模型,在組卷的過程較好地避免了重復知識點的考查,增加了組卷的成功率;(4)題型更加全面,借助文本相似度的計算實現了對填空,問答等主觀題的組卷;(5)組卷具有高效性,省去了人工組卷環節,系統的工作效率得到了質的飛躍;(6)采用差分算法對模型中的相關參數進行動態的調控,不僅可以避免手動調整參數的辛苦,又在全局范圍中獲得最優化的參數,從而保證了自動組卷系統的科學性、公正性、高效性。
1.1 語義相似度模型的設計與實現
文本語義相似度量方法大多將文比文本看作一組詞的集合體,分析每個詞在文本中出現的次數以及在整個文本集合中出現的次數,進而利用這些詞頻信息將文本建模為一個向量,并利用向量間的余弦相似度、Jaccard相似度等方法計算文本之間的相似度。基于語義的文本相似度量方法則通過同義詞、冗余和蘊涵等語義關系來考查文本之間的相似度。
鑒于已經存在的問題的一些不足,在本文中將采用一種能有效降低文本表示模型的維度,又能結合詞項語義信息進行相似度量計算的方法。
1.2 語義相似度模型具體算法
對于語義相似度模型的算法,主要有兩個關鍵操作:關鍵詞的提取、關鍵詞項向量間的相似度計算。
1.2.1 關鍵詞的提取
(1)首先預處理文本中的人名、地名、無實意的常用字(在TF-IDF方法中有相關識別技術),將它們用per,loc,org等詞代替,因為這類詞具有較高的TF-IDF值,從而容易導致對文本關鍵詞項的錯誤選擇;然后,必須對文本中的詞項進行詞性分析,給出詞項的語義屬性,即該詞項是名詞、動詞還是副詞等。
(2)關鍵詞項的選擇:文本預處理完成后,需要對整個文本集合中的詞項進行TF-IDF值計算,并將詞項的TF-IDF值進行排序,選取TF-IDF值大于P(P為百分比)的名詞動詞詞項作為關鍵詞項。
(3)由于關鍵詞項代表了一篇文本中最重要的信息,因此文本的相似度就可以由關鍵詞項向量間的相似度來描述。因此,文本之間的相似度就轉換為關鍵詞項向量間的相似度。
1.2.2 關鍵詞項向量間的相似度計算
借助HowNet中的思想,將詞語理解為多個義原(語義的最小原子)的集合,兩個義原集合相似度即詞項相似度,先尋找最優匹配,集合中批次最相似的元素兩兩組合,然后加權值就是整體相似度。每個義原在定義概念中的作用大小不同,義原所攜帶的語義信息越豐富,權值越大。義原相似度的計算則使用劉群的公式:sSim(S1,S2)=a/(a+distance(S1,S2))計算。若詞項整體相似度>0.5則判定為相似。然后,以類似的方法,借用權值在得出關鍵詞項相似度的情況下,計算文本相似度。
1.3 將語義相似度模型應用到組卷模塊
為了避免題目內容上的重復,把語義相似度模型應用到組卷系統中,以實現組卷系統的試題在內容上的非冗余性和形式上的科學性,其步驟如下:
獲取某一問答題考生所給答案文本及標準答案文本;
若試題標準答案已設置關鍵字,將考生所給答案文本與關鍵字做匹配,匹配成功率直接與最后評分關聯。若未預先設置關鍵字,直接進行下一步;
將考生所給答案文本與標準答案文本做相似度計算,根據文本相似度計算結果以及提前設置的評分算法進行評分。(評分算法:舉例 score=S1a%+S2b%,Score為此題最后得分,S1為中匹配成功率S2為中文本相似度計算結果a,b為權重比)
1.4 差分算法優化語義相似度模型的相關參數
由于差分算法采用對個體進行方向擾動,以達到對個體的函數值進行下降的目的,此算法不利用函數的梯度信息,因此對函數的可導性甚至連續性沒有要求,適用性很強。對于詞項相似度的參數、文本相似度的參數,通過差分算法自動尋優找到最優的參數,擯棄傳統的手動主觀控制參數方式,從而得到更科學的語義相似度模型,進而得到更智能、更客觀的組卷系統,這是手動組卷方法所不能企及的。
2 結論
針對組卷系統中容易對同一語義內容但不同形式的題目多次出現在同一張試卷中的問題,提出了基于差分優化語義相似度模型的組卷系統。采用一種能有效降低文本表示模型的維度,又能結合詞項語義信息進行相似度量計算的方法進行自動組卷,以提高自動組卷的質量,實現自動組卷的科學性;通過差分算法自動尋優找到最優的參數,擯棄傳統的手動控制參數方式,從而得到更科學的語義相似度模型,進而得到更智能、更客觀的組卷系統。
參考文獻
[1] Mikolov T. Word2vec project [EB/OL].(2014-09-03) [2015-04-10].http://code.google.com/p/word2vec/.
[2] 谷波,劉開瑛.中文文本分類中一種簡單高效的特征詞選擇方法[C].//2005第一屆中國分類技術與應用研討會(CSCA).2005:356-360.
[3] 周練.Word2vec的工作原理及應用探究[J].科技情報開發與經濟,2015(2):145-148.
[4] 鄭文超,徐鵬.利用word2vec對中文詞進行聚類的研究[J].軟件,2013(12):160-162.