999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于中文分詞的主觀題自動評分優化算法研究*

2014-10-10 07:33:20胡恩博余臘生
長沙大學學報 2014年5期
關鍵詞:單詞

胡恩博,余臘生

(1.中南大學信息科學與工程學院,湖南長沙 410083;2.湖南第一師范學院信息科學與工程學院,湖南長沙 410205)

一種基于中文分詞的主觀題自動評分優化算法研究*

胡恩博1,2,余臘生1

(1.中南大學信息科學與工程學院,湖南長沙 410083;2.湖南第一師范學院信息科學與工程學院,湖南長沙 410205)

論述了一種基于中文分詞的主觀題自動評分優化算法的設計與實現,詳細介紹了中文分詞技術及實現方法,對單詞串匹配度從單詞長度、單詞詞形、單詞順序及影響因子四個方面進行算法設計與分析,最后進行實驗測試,測試結果表明采用此優化算法進行的自動評分準確率有顯著提升.

中文分詞;自動評分;相似度

考試是高校教育中的一個重要環節,考試后的閱卷評分工作,特別是涉及到全校性質的基礎課程的閱卷評分工作給教師帶來沉重負擔的同時,還會帶來效率低下,以及人為因素影響的公平公正問題.

現今社會的考試系統對于客觀題的評分技術已經相當成熟,但在主觀題的評分上由于受到很多因素,如算法復雜度、人類自然語言等的影響,還存在很多缺陷.現有研究基于最優指派問題的匈牙利算法[1]能較好地解決主觀題評分的準確率問題,但運算速度有待提高;基于LSA(Latent Semantic Analysis,用于文本語義分析的潛在語義分析算法)的算法又過于繁瑣,難于實現.

基于此,本文設計了一種易實現、且運算效率佳的基于中文分詞的主觀題自動評分優化算法,其原理圖如圖1所示,經測驗,該算法能滿足一般通用課程的主觀題評分準確與效率可行的要求.

圖1 算法原理圖

1 中文分詞技術

隨著國內計算機的發展與應用的普及,中文分詞的發展與應用也突飛猛進,衍生出了很多不同的算法,歸納其特點可分為:字符串匹配分詞算法、理解分詞算法、統計分詞算法及語義分詞算法四類[2].

其基本原理是將答案文件先做去標點、表格及圖形的初始預處理,從《知網》知識庫中獲取各詞的概念定義[3],然后利用分詞技術,對其進行分詞處理,得到單詞串文件.其原理如下圖2所示.

圖2 分詞處理流程

預處理與分詞技術已經比較成熟,以分詞技術為例,目前網絡上有很多開源的分詞軟件,如跨平臺的IKAnalyzer、Paoding和LibMMSeg等,以及基于Windows平臺的FreeICTCLAS和CRF等,圖3為利用基于跨平臺的Paoding開源分詞技術對“中華人民共和國萬歲”這一語句進行分詞計算的結果示例.

圖3 分詞示例

2 單詞串匹配度計算

單詞匹配度是衡量單詞串A與單詞串B相似程度的標準.匹配度越高表明兩個單詞串的意思越相近.單詞串匹配度是用來判斷考生答案文件和標準答案文件的相近程度.

單詞串匹配中語義相似度的算法一般分為兩類:基于語義詞典的詞語相似度算法和基于語料庫的詞語語義相似度算法[4].這兩種方法共同的問題是過于依賴各自的詞典以及語料庫.

基于人工智能的理論思想,本文設計了一種從單詞串長度、順序和形狀三者相結合的多層次比較算法,在提升了單詞串匹配度計算的性能的同時,對主觀題評分的準確率有明顯改善.

3 算法實現

對于主觀題的閱卷,教師一般先觀察答案的字數夠不夠,有沒有足夠的篇幅,這一問題可描述為單詞串的長度相似計算.其次是看有沒有關鍵點,把這一問可分解描述為單詞串的詞形相似、詞序相似及詞點相似問題.將這三者綜合,便是人工閱卷評分的思想.

以上四點可用四個算法解決,四個算法彼此約束,綜合評分,現將算法實現如下:

3.1 單詞串A長度與單詞串B長度相似計算算法

式(1)中用Length(StringA)來表示標準答案文件經過預處理和分詞技術分詞后得到的單詞串A,Length(StringB)表示考生答案文件經過同樣處理后得到的單詞串B,String-LengthSimila表示兩者的長度相似度.

例1:Question:中國的全稱是?

A1:中華人民(不完全得分答案)

A2:中華人民共和國(標準答案)

A3:北京人民大會堂(不得分答案)

以上標準答案A2經過分詞處理后得到的分詞結果見圖3,則可知Length(StringA)=5,假設考生答案文件為A1,則Length(StringB)=3,若考生答案文件為A2,則Length(StringB)=5,由此得到StringLengthSimila分別為0.75和1.

由此可見,StringLengthSimila值越大,考生答案就與標準答案越相近.當然,如果僅憑這一項來評分就有可能出現完全錯誤的評分結果,例如如果考生答案是A3,分詞后的結果為:北京|北京人|人民|大會|大會堂,得到的長度為5,如果僅憑長度評分的話,這個完全錯誤的答案會得到滿分.

3.2 單詞串A與單詞串B詞形相似計算算法

式(2)中用CharSimila表示單詞串A與單詞串B的詞形相似度,SimilaChar表示兩者相似詞形的個數,MaxLength表示兩者最大的單詞個數.同樣以例1為例,由此算法可知A1的詞形相似度約為0.6,A2的詞形相度為1,A3的詞形相似度約為0.2.

由此可見,CharSimila的值越大,兩個單詞串就越相似,這樣考生答案就越接近標準答案.

3.3 單詞串A與單詞串B的詞序相似計算算法

式(3)中用SortSimila表示單詞串A與單詞串B的詞序相似度,COUNT用來統計兩個單詞串的逆序數,Only1用來計算單詞串A與單詞串B中都出現并且僅出現1次的單詞的集合.以例1為例,

由此算法可知A1、A2及A3的SortSimila均為1,顯然SortSimila針對此一類答案的評分是有很大偏差的,但是否就該完全無視SortSimila呢,顯然不能,比如學生的答案是A4(美利堅合眾國),則Only1<1,故SortSimila=0,針對這一類答案,SortSimila的評判就尤為準確與重要.

3.4 字符串A與字符串B的綜合相似計算算法

式(4)中α、β、γ分別為字符串長度、詞形及詞序相似度的影響因子,可根據不同的考試科目特點自定義,最后綜合三者評分.

4 測試結果

依據以上算法,在點上對本文提及的四個答案進行綜合相似度計算,對α、β、γ分別賦值0.2、0.7、0.1,則計算到的四個答案的綜合相似度A1=0.67、A2=1、A3=0.42、A4=0.07.

在面上,通過4個實驗進行測試,試卷題目分別為4個Office簡答題,標準答案控制在100字內,每個實驗回收電子試卷50份,與使用原算法的實驗結果進行比對,結果如表1所示:

表1 原算法與優化算法準確率測試比對

通過以上測試結果可知,優化后的算法準確率在實驗1、2和4上有明顯提高,但在實驗3上提高百分點不大.究其原因,在人工查看實驗3的每個答案后,發現是由于實驗3的答案在SortSimila度上已經很接近標準答案,故評分差距不大.

5 結語

本文算法由3個小算法綜合而成,評分在綜合考慮長度、詞形與詞序相似度的同時,還要根據考試科目的特性相對設置影響因子α、β、γ的值.一般而言,影響因子β的值所占比重要遠遠高于α、γ,即詞形相似度的比重應充分考慮.本文在詞形相似度較高的情況下的評分效果與原算法差距不大,依然有改進的空間.

[1]張旭輝,朱宏輝.最優指派問題匈牙利算法的探討與C++實現[J].技術交流,2004,(5):67-69.

[2]張啟宇,朱玲,張雅萍.中文分詞算法研究綜述[J].情報探索,2008,(11):53-56.

[3]張以利.匈牙利算法在主觀題自動批閱中的應用研究[J].南京工業職業技術學院學報,2007,(2):73-75.

[4]李玉紅,柴林燕,張琪.結合分詞技術與語句相似度的主觀題自動判分算法[J].計算機工程與設計,2010,(11):251-254.

(責任編校:晴川)

An Optim ization Algorithm of Automatic Grading for Subjective Questions Based on Chinese W ords Segmentation

HU Enbo1,2,YU Lasheng1
(1.School of Information Science and Engineering,Central South University,Changsha Hunan 410083,China;2.School of Information Science and Engineering,Hunan First Normal University,Changsha Hunan 410205,China)

The paper discusses the design and implementation ofan optimization algorithm ofautomatic grading for subjective questions based on Chinese words segmentation,introduces the Chinese segmentation technology and implementation method in detail,designs and analyses the word stringmatching algorithm from four aspects of the word length,word formation,word order and influencing factors,and finally the experiment is tested.The test results show that automatic grading accuracy is significantly improved with this optimization algorithm.

Chinese words segmentation;automatic grading;similarity

TP301

A

1008-4681(2014)05-0059-03

2014-06-11

胡恩博(1980-),男,湖北咸寧人,湖南第一師范學院信息科學與工程學院講師,中南大學信息科學與工程學院碩士生.研究方向:軟件工程.

猜你喜歡
單詞
What’s This?
Exercise 2
Exercise 4
Exercise 6
Exercise 1
Exercise 3
Exercise 5
單詞連一連
看圖填單詞
看完這些單詞的翻譯,整個人都不好了
主站蜘蛛池模板: 国产精品成人不卡在线观看| 久久久噜噜噜久久中文字幕色伊伊| 久草视频一区| 香蕉在线视频网站| 在线观看网站国产| 人人爽人人爽人人片| 99这里只有精品免费视频| 亚洲成人手机在线| 欧美国产日产一区二区| 九九这里只有精品视频| 欧美视频在线不卡| 欧美曰批视频免费播放免费| 国产激情国语对白普通话| 国产屁屁影院| 欧美一道本| 亚洲成AV人手机在线观看网站| 久久综合干| 亚洲性网站| aⅴ免费在线观看| 美女视频黄频a免费高清不卡| 尤物特级无码毛片免费| 97一区二区在线播放| 日本欧美午夜| 日韩在线1| 在线国产91| 国产在线观看一区精品| 国产精品九九视频| 干中文字幕| 亚洲欧美日韩视频一区| 久久综合九九亚洲一区| AⅤ色综合久久天堂AV色综合| 欧美日韩在线成人| 在线亚洲小视频| a毛片在线播放| a在线亚洲男人的天堂试看| 日韩福利在线观看| 亚洲精选无码久久久| 久久无码高潮喷水| 国产啪在线| 久久这里只精品国产99热8| 国产精品香蕉| 欧美国产精品不卡在线观看| 国产在线观看91精品| 亚洲一区二区约美女探花| 国产麻豆福利av在线播放| 亚洲日韩高清无码| 91精品久久久久久无码人妻| 国产视频 第一页| 国产凹凸视频在线观看| 日韩a在线观看免费观看| 91久久国产成人免费观看| 幺女国产一级毛片| 国产日本欧美亚洲精品视| 亚洲欧洲日产无码AV| 激情综合婷婷丁香五月尤物| 91口爆吞精国产对白第三集| 91丨九色丨首页在线播放| 亚洲综合网在线观看| 久久国产黑丝袜视频| 99国产精品一区二区| 人妻丰满熟妇啪啪| 91丨九色丨首页在线播放 | 国产日韩欧美视频| 国产激情在线视频| 熟女成人国产精品视频| 四虎亚洲国产成人久久精品| 亚洲无线国产观看| 免费一级毛片在线播放傲雪网| 青青青视频91在线 | 一级毛片a女人刺激视频免费| 黄色网站在线观看无码| 无码国内精品人妻少妇蜜桃视频 | 免费人成黄页在线观看国产| 欧美一区二区三区欧美日韩亚洲 | 天天摸夜夜操| 伊人成人在线| 国产xx在线观看| 99精品伊人久久久大香线蕉| 国产主播一区二区三区| 久久青青草原亚洲av无码| 青青草原国产免费av观看| 国产成人综合在线视频|