999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞法分析和XML技術的多媒體試題批量導入研究

2016-07-19 02:07:21符云清
計算機應用與軟件 2016年6期
關鍵詞:多媒體分析方法

俞 婷 符云清

(重慶大學軟件學院 重慶 401331)

?

基于詞法分析和XML技術的多媒體試題批量導入研究

俞婷符云清

(重慶大學軟件學院重慶 401331)

摘要試題導入是當前在線教育面臨的一個難點問題。傳統的在線試題導入效率較低而且出錯率較高。目前一些基于詞法、語法分析的試題導入研究側重于純文本試題的導入。通過對聯通內訓平臺試題庫的分析發現包含圖片、視頻的多媒體試題出現較為頻繁。為了解決這一問題,提出一種基于詞法分析和XML技術的多媒體試題批量導入方法。該方法首先對試卷進行預處理得到標準的試卷模型,然后通過試題解析得到HTML格式的試卷并根據HTML的標簽信息分解出題目與答案,最后將“題目-答案”以XML格式存入數據庫中并完成試題導入。該方法成功運用到聯通內訓平臺,高效地解決了多媒體試題導入的問題。相比于現有的試題導入方法,該試題導入方法支持的試題類型更多,導入效率和準確率也有所提高。

關鍵詞試題導入詞法分析JACOB

0引言

隨著在線教育的進一步發展,試題庫中的題目越來越多。自動化的試題導入能夠大大減小試題導入人員的工作負擔,同時提高試題準確率。李靜梅[1]利用Microsoft公司提供的VBA技術來處理word文檔中試題的導入問題。這種處理方式效率較高,處理過程也相對簡單,但是在試題文檔的類型上存在著明顯的局限性。王甲[2]利用詞法、語法分析技術逐個字符讀入試題,然后對這些字符進行歸類和封裝,最后通過構建語法樹來驗證和還原試題。這種方法在一定程度上解決了試題導入過程中數據的安全性、試題文檔類型等問題,但是這類方法沒有很好地考慮到多媒體試題的導入問題。

當前許多題庫系統僅包含純文本格式的試題,在題干或試題選項部分都不能支持復雜的公式、特殊符號以及圖片、音視頻等多媒體內容,從而限制了題庫系統的應用和推廣;且大多試題庫系統僅支持人工錄入,其不僅效率低下,還容易在輸入過程中出錯。在這種背景下,若能將這些試卷以多媒體試題形式批量導入到題庫系統中,則將大大提高題庫系統建設的效率,實現題庫資源在更大范圍內的共享和重用,從而為各類教育培育的教學評價奠定堅實基礎。

本文在王甲等人工作的基礎上研究了傳統的分詞技術[3]、詞法分析技術[4],提出了基于詞法分析[5]和XML技術[6]的多媒試題批量導入方法。首先通過詞法分析為試題打上唯一標識并得到試題的題干及選項部分,然后以XML形式存儲到數據庫中,同時提供對多媒體試題的支持。作者在中國聯通重慶分公司員工內訓平臺中題庫及考試模塊中對提出的方法予以了具體實現,并驗證了該方法的可行性和高效性。

1相關研究

1.1詞法分析

詞是中文中最小的能夠獨立活動的有意義的語言成分,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區分標記。因此,中文詞語分析[7]是信息處理的基礎和關鍵。其中分詞的方法又是多種多樣的,包括基于字符串匹配的分詞方法[8]、基于統計的分詞方法[9]、基于語法規則的分詞方法等。在目前試題導入的研究中,詞法分析被應用到試卷的預處理中。一些研究者利用詞法分析技術把試卷以詞為單位進行分解[2,10],然后導入試題庫。本文綜合考慮試卷導入的實際情況和詞法分析特點,將傳統的詞擴大到‘試題’,以試題為單位進行分‘詞’。

1.2基于單詞流的試題導入

一些試題導入方法將試題分解為一組詞,然后將一個個詞導入系統,出題時對這些詞進行重新組裝。王甲[2]通過詞法分析將試題文本打斷為孤立的單詞,進而將各個單詞進行歸類和封裝,然后使用預定義的語法樹對封裝后的單詞對象進行匹配和驗證。同時,單詞表對整個過程涉及到的臨時數據進行存儲和必要支持。潘旭[10]把試卷內容作為源代碼來處理,提出了一種基于ANTLR的試題導入方法。潘旭通過對詞法、語法的分析生成試卷模型并完成試題導入工作。

這類試題導入方法需要對試題進行打亂處理,然后重新組裝。一個試題庫中需要導入的試題可能數量極大,如果都要進行試題打亂和重新組裝需要耗費大量時間。此外,王甲在文中也提到試題打亂組裝的過程中可能會造成元素重復、元素缺失等錯誤。

1.3基于純文本文檔的試題導入

在一些課程平臺系統中需要導入以TXT格式或者PDF格式的培訓試題[11]。導入文本文件時首先是需要選擇存儲試題的文檔,培訓試題的類別,培訓內容所屬的章節,輸入培訓試題的數量。這樣,通過后臺一系列的操作,培訓問題就會被導入到數據庫中,避免了繁瑣的手動打字的問題。在進行試題導入的過程中,首先要進行培訓試題格式的預處理,比如TXT格式的文件,因為是純文本文件,所以只需要使用輸入/輸出流讀取文本內容。比如DOC格式的文本,需要導入專門分析用戶DOC文檔的POI包。通過調用POI包的方法,則可以更容易地分析其文檔中的內容,將題目解析過后存入數據庫中。李靜梅[1]在文中采用了Microsoft提供的文檔解析包來處理word文檔。在此類導入方法中,雖然實現方便,但對試卷文檔類型要求比較苛刻,且不支持含有圖片、符號等的多媒體試題導入。

2多媒體試題導入模型的建立

以上提及了多種試題導入的方法。在試題導入的過程中,基于單詞流的試題導入方法效率不高。特別是在出題過程中,試題重組將會花費較大的時間,而且重組過程中會帶來元素重復、元素缺失等問題?;诩兾谋疚臋n的試題導入在方法實現上和導入效率上有所提高,但是并不能很好地支持含有多媒體類型的試題導入。試題導入的主要目的是將各種類型的試題快速存入數據庫中,在出題時能夠快速地從題庫中提取出所需要的試題。如果將試題全部逐字逐句進行詞法分析,不但效率非常低下,而且詞語與詞語之間將會出現非常大的歧義。同時,在實際的應用中,我們不需要對每一道試題中的每一個詞都進行單獨的分析,我們關注的是一道試題。

本文在分析了基于單詞流和基于純文本文檔的試題導入方法的優缺點之后,提出了一種基于詞法分析和XML技術的多媒體試題導入模型。該模型的構建主要分為三步(詳見圖1所示)。

圖1 試題導入模型

該方法首先構建試卷模型,對試卷解析,將其轉化成HTML格式文檔,然后再以XML形式存儲到數據庫中。通過將試卷文檔解析成HTML,不僅避免了分詞所帶來的極大的歧義問題,也提高了試題導入的效率,試題存儲不再以詞為單位,而是以題為單位。下面對試卷導入模型進行詳細的分析。

2.1試卷模型構建

在進行試題導入前,需要對試題做一個統一的規定,以減小在導入過程中的出錯率。一份試卷包含多種類型的試題、試題數量以及試題答案。為了更好地描述,文中用E表示試卷,Q表示試題,N表示試題數量,A表示試題答案。那么一份試卷可以用式(1)進行簡單表示。

E=Q∪N∪A

(1)

試卷中試題類型多樣,文中用Qi來分別表示單選題、多選題、判斷題、簡答題、填空題,其中i為1、2、3、4、5。對五類題型進行分析可以發現一定的規律。Q1、Q2由題干和選項兩部分組成,而Q3、Q4、Q5則只有題干一個部分。故在試題標注和導入時需要特別注意Q1、Q2的完整性。

同樣的,一份試卷中總的試題數量N是試卷中各個類型試題總量之和,我們定義了如下試題總量公式。

(2)

其中[Qi]為一份試卷中第i類題型對應的試題數目。N能夠反應出一份試卷的容量,在系統出題時可以用來評定一份卷子的難度系數。

在確定了一份試卷的組成內容和題量后一份試卷的總體結構構件完成。本文提出的試卷導入方法以試題為單位,故在試卷模型構建過程中需對每一道試題進行標注。

定義標注的試題格式為:

$Qi-Q-n$

(3)

其中Qi為題目類型,Q表示題目,n(n≤[Qi])表示題目序號。例如$Q1-Q-30$表示第30道單選題。判斷題和簡答題的標注規定與單選題和多選題類似。如果文檔中含有答案,則將答案和前面的題目相對應起來,在試卷解析和分解完成后以結構化形式存入到數據庫中。定義答案的標注格式為:

$Qi-A-n$

(4)

比如$Q1-A-30$表示的是題目序號為30的單項選擇題答案。

2.2試卷解析

用戶選擇不同類型的試卷文檔并導入系統后,系統需要對這些文檔進行解析。以word文檔為例,圖2為聯通五級認證試卷中的部分試題,試題由單選題、多選題、判斷題和簡答題四部分構成。

圖2 聯通等級認證試題(加入標注前)

在試卷解析步驟中最為重要的是試題題型和試題數量的解析。因為在試題導入的過程中要保證試題答案的導入,而試題類型和試題數量是保證試題和答案對應的關鍵。為了更好地區分試題題型、提取試題數量。本文在試卷解析的過程中對每道試題進行標注。例如,在選擇題題型前面的標注:“$Q[1-5]{1}-Q-[ ]+$”。其中Q表示題型,n表示該類題型數量。圖3為加入標注后的試卷(詳見2.1試卷模型構建)。

圖3 聯通等級認證試卷(加入標注后)

在試卷類型前面加入標注可以認為是在原始word文檔中加入相應的html標簽,這是后面word文檔解析成HTML文檔的前提。

為了更好地將試題以題為單位存入數據庫中,以數據流形式讀取word文檔可能效率不是很高,這里將word文檔解析成HTML文檔。這是因為HTML文檔結構化信息鮮明,方便了試題的提取。在將試卷解析成HTML文檔的過程中,主要使用的是JACOB(JAVA-COMBridege)組件[12]。用戶通過JACOB來調用本地COM自動化組件。圖4就是JACOB調用本地COM自動化組件的詳細機制[13]。為了提高下一階段中試卷分解的效率,解析生成的HTML文檔會先緩存到系統服務器中,在試題導入數據庫后刪除。

圖4 JACOB調用COM工作原理圖

在進行試題解析的過程中,除了處理純文本試題,還需要處理包括圖片、特殊公式、符號、音頻、視頻等多媒體試題。例如,在解析含有圖片的試題過程中,試卷解析器將試卷中的文本試題轉換成HTML格式,同時將圖片上傳至資源服務器,最后將圖片在資源服務器中的地址寫入到原來的圖片的位置。若試題中含有一些特殊的符號和公式,試卷解析器將這些符號和公式轉換為特定的編碼格式,最后將原來的符號和公式替換為特定的編碼格式。

如下為試卷解析部分的偽碼:

BEGIN(算法開始)

IMPORT:試卷

EXPORT:HTML文檔

IFType=Text則TEXT→HTML

IFType=Multimedia則Multimedia→MediaService,ChangeSRC

……

HTML→ScratchFile

END(算法結束)

2.3試卷分解

在解析成HTML后,試卷以HTML形式表示。若將試卷以HTML格式存入數據庫,則在出題時不能重新組題。為了解決這一問題,對試卷解析完成后的HTML格式的試卷以試題為單位進行分解,得到題目和答案。試卷分解的主要依據是試卷解析階段中的標簽信息。試卷分解完成后的試題及對應答案被整合封裝成XML格式,最后存入數據庫。

如下為試卷分解部分的偽碼:

BEGIN(算法開始)

IMPORT:HTML文檔

EXPORT:題目-答案

IFcurrentType=SingleAnswer、Multipleanswer,則(SingleAnswer||Multipleanswer) →Tmain&&Toption&&SetType

IFcurrentType=ShortAnswer、TrueorFalse則(ShortAnswer||TrueorFalse) →Key&&SetType

IFcurrentType=Multimedia則GetPath&&SetType

……

Questions→Database

END(算法結束)

3實驗與結果

在以往的試題導入研究中較少考慮到多媒體試題,一般觀念認為多媒體試題導入將會消耗巨額的時間。為了更好地比較包含多媒體試題的試卷和純文本試卷導入效率。本文首先驗證了基于題的試題導入效率與試題類型的關系。取100份word文檔的聯通模擬試卷,將每一份完整試卷拆分成單選題、多選題、判斷題、簡答題四個部分分別導入數據庫,并統計各類題型導入消耗的時間(每類題型總數量相同)。結果表明試題導入的效率并不依賴于試題類型。然后分別取出100份包含多媒體試題和不包含多媒體試題的完整試卷,統計兩類試卷導入的準確率和時間。實驗結果如圖5所示。

圖5 多媒體試卷與純文本試卷導入效率、準確率對比圖

上述實驗結果表明基于詞法分析和XML技術的試題導入方法在處理多媒體試題時所消耗的時間與處理純文本試題所消耗的時間差距不大。

為了更好地分析和對比,本文實現了基于單詞流、基于純文本的試題導入方法,同時還記錄了人工試題導入的時間和出錯率。實驗數據為100份word文檔的聯通模擬試卷(不包含多媒體試題)。其中每份試卷共含有40個題目:10個單選題,10個多選題,5個判斷題,10個填空題,5個簡答題。實驗結果如圖6、圖7所示。

圖6 耗費時間對比圖

圖7 出錯率對比圖

通過圖6可以發現本文提出的多媒體試題導入方法相比于手工的試題導入和基于單詞流的試題導入方法在處理相同數量的試題時具有較大的優勢,兩者消耗的時間都比較少。通過對比四種試題導入方法的出錯率(見圖7所示),基于純文本試題導入和本文提出的基于詞法分析和XML技術的試題導入方法出錯率明顯低于基于手工的試題導入和基于單詞流的試題導入方法。雖然基于純文本的試題導入方法在時間消耗和出錯率上與本文提出的方法持平,但是本文提出的多媒體試題導入方法在試題的類型上卻有著較大的優勢。

此外,本文提出的基于詞法分析和XML技術的多媒體試題批量導入方法在中國聯通重慶分公司員工內訓平臺中予以了具體實現,從實際中驗證了該方法的可行性和高效性。

4結語

本文闡述了基于詞法分析和XML技術的多媒體試題批量導入方法,并通過該方法完成文本格式及其他媒體格式的試題導入工作。在試卷模型的構建過程中,采用題為單位的試卷導入思想,規避了以詞為單位的試題導入帶來的低效率問題,符合實際的試題導入應用要求。試卷解析和分解階段通過對試題的標注并結合JACOB技術將文本文檔解析成HTML文檔,組裝試題-答案存入數據庫。該試題方法目前成功應用到聯通內部培訓平臺,實現了高效導入試題、高效重組試題的目標,得到了聯通上下員工的認可。同時,通過與當前的存在的試題導入方法對比也可以發現本文提出的多媒體試題導入方法在批量處理和效率上有一定的優勢。

參考文獻

[1] 李靜梅,冉祥金,姚成浪,等.基于PB與VBA的試題導入方法研究[J].應用科技,2006,33(4):51-53.

[2] 王甲,康慕寧.基于詞法、語法分析的試題導入系統的研究[J].微型機與應用,2010,29(4):65-67,70.

[3] 葉繼平,張桂珠.中文分詞詞典結構的研究與改進[J].計算機工程與應用,2012,48(23):139-142.

[4] 劉群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語詞法分析[J].計算機研究與發展,2004,41(8):1421-1429.

[5] 黃小斌,余悅蒙.一種詞法分析與字標注分詞結合的方法[J].電腦知識與技術,2012,8(8):1814-1817.

[6]WangX.XMLintheapplicationofnetworktestsystem[C]//ElectricalandControlEngineering:Yichang,2011:937-940.

[7] 吳棟,滕育平.中文信息檢索引擎中的分詞與檢索技術[J].計算機應用,2004,24(7):128-131.

[8]LiuL,WangC,BaiL,etal.Studyofontologytechnologyinfieldwordsegmentationsystemofdigitallibrary[C]//Shanghai,China:ComputerSupportedCooperativeWorkinDesign,2010:223-227.

[9]LiuH,WangZ.Post-processingmethodofunknownwordsegmentationbasedonstatisticofwordfrequency[C]//InformationScienceandEngineering,2010:1386-1389.

[10] 潘旭,康慕寧.基于ANTLR的試卷識別和導入系統的研究[J].電子設計工程,2011,19(7):45-49.

[11]LiY,ZhuL,WangX.Designandimplementationofanonlineself-trainingsystemfortheComputerSystemPlatformcourse[C]//Harbin:AdvancedComputationalIntelligence(ICACI),2012:194-197.

[12] 車曉波,閏旭琴,劉曉建.基于JACOB的WORD文檔操作技術[J].科技創新導報,2013(4):29-30.

[13] 李瑞,李永剛.JAVA中基于JACOB的COM組件調用研究[J].微計算機信息,2007,23(15):168-170.

STUDY ON BATCH MULTIMEDIA QUESTIONS IMPORTING BASED ONLEXICALANALYSISANDXMLTECHNOLOGY

Yu TingFu Yunqing

(College of Software Engineering,Chongqing University,Chongqing 401331,China)

AbstractQuestion importing is a nodus facing by current online education. Traditional online question importing is characterised by low efficiency and high error ratio. At present, some researches on question importing based on lexical and syntax analysis focus on the plain text-oriented questions importing. However, through analysing the item bank of China Unicom internal training platform, it is found that the multimedia questions including pictures and videos appear frequently. In order to address this problem, in the paper we put forward a batch importing method for multimedia questions, it is based on lexical analysis and XML technology. First, the method pre-treatments the paper to get a standard test paper model. Secondly, by questions analysing it gets a test paper in HTML format and disassembles the questions and answers according to HTML tag information. Finally, it stores the “questions-answers” to database in XML format and completes the question importing. This method has been successfully applied to China Unicom internal training platform, which efficiently solves the problem of multimedia questions importing. Compared with existing questions importing methods, this one supports more question types and has higher importing efficiency and accuracy.

KeywordsQuestions importingLexical analysisJACOB

收稿日期:2014-12-31。俞婷,碩士,主研領域:E-Learning,計算機網絡。符云清,教授。

中圖分類號TP393

文獻標識碼A

DOI:10.3969/j.issn.1000-386x.2016.06.033

猜你喜歡
多媒體分析方法
借助多媒體探尋有效設問的“四度”
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
多媒體在《機械制圖》課中的應用
消費導刊(2018年10期)2018-08-20 02:56:28
電力系統及其自動化發展趨勢分析
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
多媒體達人煉成記
河南電力(2016年5期)2016-02-06 02:11:40
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
適切 適時 適度——說說語文課堂的多媒體使用
語文知識(2015年9期)2015-02-28 22:01:42
主站蜘蛛池模板: m男亚洲一区中文字幕| 华人在线亚洲欧美精品| 亚洲日韩精品欧美中文字幕| 日本日韩欧美| 黄色三级网站免费| 精品福利国产| 久久这里只精品热免费99| 国产拍在线| 久久综合九色综合97网| 99热这里只有精品免费国产| 91精品国产无线乱码在线| 成人av专区精品无码国产| 久久久久人妻一区精品色奶水| 国产一区二区三区在线精品专区| 亚洲色无码专线精品观看| 欧美激情第一欧美在线| 欧美日韩精品在线播放| 国产精品亚洲五月天高清| 国产性精品| 亚洲首页在线观看| 欧美日韩在线观看一区二区三区| 欧美在线观看不卡| 激情午夜婷婷| 日本五区在线不卡精品| 国产va欧美va在线观看| 国产91透明丝袜美腿在线| 国产黑丝视频在线观看| 青青操国产视频| 国产成人AV综合久久| 成人免费网站久久久| 成人一级免费视频| 国产高清又黄又嫩的免费视频网站| 久久夜夜视频| 亚洲国产精品国自产拍A| 国产九九精品视频| 91久久偷偷做嫩草影院精品| 国产精品亚欧美一区二区| 欧美亚洲国产精品第一页| 青青青国产精品国产精品美女| 国产呦视频免费视频在线观看| 黄片在线永久| 免费中文字幕一级毛片| 污网站免费在线观看| 热久久这里是精品6免费观看| 国产亚洲现在一区二区中文| 免费人成又黄又爽的视频网站| 5555国产在线观看| 午夜在线不卡| 在线观看91香蕉国产免费| 国产精品手机在线播放| 日本www在线视频| 97精品国产高清久久久久蜜芽 | 91在线播放免费不卡无毒| 亚洲色图欧美激情| 毛片网站在线看| 天堂成人在线| 99精品一区二区免费视频| 波多野吉衣一区二区三区av| 噜噜噜久久| 国产久操视频| 久久青草精品一区二区三区| 青青青视频蜜桃一区二区| 国产精品美女网站| 国产精品蜜臀| 成年人国产视频| 免费毛片视频| 色网在线视频| 国产精品久久久免费视频| 欧美成人一级| 成人国产精品一级毛片天堂| 98超碰在线观看| 国产在线精品99一区不卡| 亚洲不卡影院| 亚洲福利片无码最新在线播放| 中文字幕在线观| 狠狠做深爱婷婷久久一区| yjizz国产在线视频网| 国产欧美视频综合二区| 免费a级毛片视频| 亚洲人成网7777777国产| 免费中文字幕一级毛片| 久久五月天综合|