張再軍
【摘 要】研究了基于圖像處理的試卷切割方法,根據試題題號、線框等在答題卡圖像中的紋理及邊距特征,使用投影法對試題進行了精確分割。實驗結果表明,該算法速度快、效率高,能夠滿足自動化閱卷系統的實時性及準確性要求。
【關鍵詞】試題切割;自動化閱卷系統;圖像處理
中圖分類號: TP391.41 文獻標識碼: A文章編號: 2095-2457(2019)17-0077-002
DOI:10.19694/j.cnki.issn2095-2457.2019.17.037
Research on Paper Cutting Method Based on Image Processing
ZHANG Zai-jun
(School of mathematics and statistics, Qiannan Normal University for Nationalities, Guizhou Duyun 5580000, China)
【Abstract】This paper studies the paper cutting method based on image processing. According to the texture and margin features of question number and wireframe in the answer card image, the projection method is used to segment the question accurately. Experimental results show that the algorithm is fast and efficient, and can meet the real-time and accuracy requirements of automatic marking system.
【Key words】Examination questions; Automatic marking system; Image processing
0 引言
卷面考試已成為教學活動中檢驗學生成績的重要環節之一,傳統的人工閱卷方式不僅量大、速度慢、效率低,而且也容易出現客觀上的人為差錯,浪費了大量的人力物力。因此對考試后的閱卷形式進行研究和改進具有重要的意義。目前,市場上已經出現了大量的自動化閱卷系統,具有閱卷速度快,效率高等優點,但這些系統大多采用的是OMR(Optical Mark Recognition)技術[1-3],這種技術需要光電式閱讀機和專用機讀卡,具有成本高、操作復雜、設備利用率低、日久易出現故障的缺點,至今還未普及到各類學校。基于圖像處理的自動化閱卷系統恰好彌補了光電式閱讀機閱卷系統的不足,它采用圖像處理的技術進行自動化閱卷,對相應設備的要求也較為簡單,只要能掃描出答題卡的圖像即可,成本低,操作方便。
試題切割是基于圖像處理的自動化閱卷系統的關鍵步驟,主要完成的功能是將考生的整個答題卡圖像以題為單位分割成若干小部分,切割的好壞將直接影響后面電腦自動閱卷的準確率。文獻[2-4]等對此進行了研究,它們側重于答題卡主觀題的分割與識別,對客觀題部分還未有涉及。因此,本文從圖像處理的角度出發,對答題卡圖像中的試題分割方法進行了探討。
1 預備知識
1.1 顏色空間轉換
一般掃描得到的答題卡圖像為RGB圖像,為方便后續試題特征提取,將RGB圖像轉換到HSV顏色空間圖像,公式如下:
上式中r,g,b分別代表RGB顏色空間各顏色對應的分量,max表示r,g,b中的最大值,min表示r,g,b中最小值。
1.2 Hough變換
基于Hough變換的傾斜校正算法是圖像處理的常用方法,其基本思想是點線的對偶性。采用極坐標方程ρ=xcosθ+ysinθ,將原二維平面中的點對應參數平面中的一條曲線。 二維平面中的直線則可由參數平面內兩條曲線的交點確定[5]。
具體步驟為:(1)讀取圖像,并將其轉化為灰度圖像;(2)灰度圖像二值化,并對得到的結果進行邊緣檢測;(3)對邊緣檢測圖像作Hough變換,計算偏離角θ;(4)根據θ校正原圖像。
1.3 圖像投影
在試題圖像切割中,投影的作用是找出答題卡中不同頁碼和不同題目之間的邊距。圖像水平和垂直投影分別為對二值化后的圖像矩陣作橫向和縱向求和。
2 試題分割
2.1 試題粗分割
一般試題答題卡的每一面都有幾個頁面或者模塊,為區分每個頁面,將預處理后的答題卡圖像即傾斜校正后的二值化灰度圖像作垂直投影,根據投影矩陣找出各個頁面之間的邊距。
具體算法描述為:
(1)給定閾值T1,自左向右掃描投影圖像H,若H中的某個值大于T1,則記錄下這個值對應的下標i;
(2)繼續掃描,直至結束,最后得到了一個存放下標的行矩陣;
(3)給定閾值T2,自左向右掃描此下標行矩陣,若相鄰兩元素間的差值小于T2,則去掉其中一個值,另一值用這兩個元素的平均值代替,然后以此值為初始點繼續掃描行矩陣,直至結束;
(4)按此行矩陣角標的順序對原始圖像進行分割。
算法第(2)步得到的下標行矩陣中可能會出現相鄰角標之間對應的投影值都大于閾值T1的情況,如果此時按角標之間的順序對原始圖像進行分割,就會出現若干細條,這會干擾和影響后面試題切割的準確性,因此,對此行矩陣作了第(3)步處理,這樣就完成了對試題的頁碼分割。
由于答題卡圖像的不同試題之間會用題號或者內容進行標識,為區別出不同題號,可對每個頁面的答題卡圖像作水平投影,算法同上,根據投影矩陣找出各題號對應的位置。
2.2 試題精分割
由2.1中算法切割出的試題圖像較為粗糙,對一個題目有幾個小題的情況,該方法切割失效,會導致一個題目的幾個小題分別被切成幾個部分,從而造成切割的試題不完整。這部分結果將在后續實驗部分進行展示。為避免出現這種錯誤,將2.1中算法進行改進,描述如下:
(1)對2.1步驟中得到的頁面圖像作垂直投影,切除邊框,尋找試題題號與線框距離的大致范圍;
(2)在上述范圍內,從上到下,自左向右掃描圖像,將像素值不為0的點的行數記錄下來,并將其存放到一矩陣中,該行即為各試題對應的起始行或上一題的終止行;
(3)再對圖像做水平投影,找到有關試題所在的行,將其存放到另一矩陣中;
(4)對兩行矩陣取交運算,得到試題所對應的完整行,然后按行的順序對試題進行精分割。
改進后的算法考慮了不同類型題目的邊距特征,避免了初分割中直接水平投影造成的試題分割不完整性,從而對不同題目進行了精分割。
3 實驗結果
為了驗證算法的有效性,本文選取了32張答題卡圖像在一般實驗室計算機平臺上,采用matlab軟件編寫代碼進行實驗,圖1顯示了其中一張答題卡的切割效果。掃描得到的答題卡圖像由于人工或機器等放置不當,會出現不用程度的傾斜。因此,先將圖像用hough變換進行校正,然后將該圖像轉換到HSV顏色空間,在H分量下對圖像二值化,接著對二值化的圖像作垂直投影,然后按文中粗分割方法對試題進行頁碼和題目分割,最后按改進方法進行精分割。
從圖1中可以看出,粗分割方法對一個大題中含有幾個小題的題目切割不準確,導致分割不完整,改進的算法能夠有效避免這種情況。本實驗所選取的32張答題卡圖像,運用該算法都能準確分割出其中的試題,且在實驗室電腦上(內存4G,處理器AMD.3.10GHZ)運行的最大時間不超多7.1秒,能夠滿足自動閱卷系統的實時性要求。
4 小結
試題切割作為基于圖像處理的自動化閱卷系統的關鍵步驟,切割的好壞將直接影響系統的開發和測評。本文從圖像處理的角度出發,對答題卡圖像中的試題切割方法進行了探究,在傾斜校正的基礎上,結合試題題號、線框等在答題卡圖像中的紋理及邊距特征,使用投影法對答題卡試題進行了準確分割。該方法的研究,為進一步開發基于圖像處理的自動化閱卷系統奠定了基礎。
【參考文獻】
[1]王紅玉.基于網上閱卷的OMR掃描圖像識別系統的設計與實現[D].武漢理工大學,2007.
[2]高育鵬,楊俊等.基于圖像識別的自動閱卷研究[J].現代電子技術.2006.30(11):119-127.
[3]張香讓.擊中/擊不中變換在標準答題卡分割中的應用[J].計算機應用,2004,24(10):141-144.
[4]楊青燕,等.基于灰度圖像的答題卡識別技術[J].計算機工程與設計,2009.
[5]李慧鵬,朱偉偉,譚朦曦,鄭曉.基于改進Hough變換的直線檢測算法[J].半導體光電,2017,38(04):603-608.