丁一
摘 ?要:隨著新型冠狀病毒的蔓延,各大高校都普遍嘗試和采用了線上教學的方式進行授課和評價。目前各高校普遍實行的過程化考核作為課程分數的評價標準之一。傳統的查重工具著重于文字的重復率,忽視了圖片這一關鍵的信息載體,因此急需以圖像識別匹配技術作為基礎的圖像查重算法。文章將SURF算法應用于學生作業及實驗報告等文本評價載體中的圖片相似度匹配上,結合平時的實踐經驗,用RANSAC算法去掉錯誤的匹配結果,匹配算法對于SURF特征點進行優化,從而實現了對SIFT算法匹配速度以及精確度的改善,最終實現了完善的實驗報告圖像匹配算法,并且對實驗中出現的問題進行討論和總結,對系統實施的改進和未來的拓展性也進行了充分的論述。
關鍵詞:SURF算法;圖像查重;圖片匹配度
中圖分類號:TP391.4 文獻標志碼:A 文章編號:2095-2945(2020)32-0025-04
Abstract: With the popularity of novel coronavirus, colleges and universities have generally tried and adopted online teaching and evaluation. At present, the process assessment, which is widely implemented in colleges and universities, is one of the evaluation criteria of curriculum scores. The traditional duplicate checking tools focus on the repetition rate of the text, ignoring the picture as a key information carrier, so there is an urgent need for an image repetition checking algorithm based on image recognition and matching technology. In this paper, the SURF algorithm is applied to the image similarity matching in the text evaluation carriers such as students' homework and experimental reports, combined with the usual practical experience, the wrong matching results are removed by the RANSAC algorithm, and the matching algorithm is optimized for the SURF feature points, thus the matching speed and accuracy of the SIFT algorithm are improved, and finally a perfect experimental report image matching algorithm is realized. And the problems in the experiment are discussed and summarized, and the improvement of the implementation of the system and the expansion in the future are also fully discussed.
Keywords: SURF algorithm; image duplicate checking; picture matching degree
前言
隨著線上教學的發展和各大遠程教學平臺的建立,在線教育的模式和形式已經非常完善,目前可以達到根據人們的需要選擇直播、錄播、不同時間、不同地點、不同設備進行教學的可能。隨著2020年初新型冠狀肺炎病毒疫情的蔓延,各大高校也將傳統的線下課程逐步過渡到線上課程的教育上。利用互聯網為載體進行線上教學,不僅將方便快捷帶到了校園和課堂,同時也出現了剽竊、偽造、篡改等學術不端的這類不和諧現象。這種現象不僅造成了教學考核方面的不公平,同時也給學生未來學習和個人發展軌跡方面造成了一定的影響。傳統的查重方式往往更加專注于文字的查重。無論是人工方式核對還是線上的查重平臺,對于圖片查重和匹配這方面涉獵較少且不是十分完善。如果仍然進行人工核對,這不僅考驗的是教師的學術水平,這種重復性的勞動對于教師的精神壓力也是成倍增加的。隨著人工智能技術的成熟普及和完善,人們往往將大量傳統重復而又無意義的勞動以人工智能的方式替代,特別是將人工智能思想和技術應用于圖像處理之后,很多算法和應用也得到了充分的發展和完善,如神經網絡、強化學習等。在這些領域中圖像匹配算法往往是人們比較常關注的基礎算法,他對于人工智能算法學習數據的篩選和提取也有著非常重要的意義?;谝陨系挠^點,本文提出了一個以人工智能技術替代傳統核對,基于SURF的學生實驗報告圖像匹配度算法。希望通過此算法能夠因此改善甚至最終會替代傳統對實驗報告手工校驗的方式。
SIFT算法是一種關鍵點檢測和描述算法,但這種算法在批量的執行速度方面會落后很多,在大批量的圖像匹配應用中,速度往往是十分重要的因素。Bay,H.,Tuytelaars,T. 和 Van Gool,L 在2006年發表了 SURF(加速穩健特征)算法[1]。這個算法從某種意義上說可以被看作是一個加速版的SIFT算法。SIFT將構建尺度空間時使用Difference of Gaussian對Laplacian of Gaussian進行近似。SURF使用box filter對Laplacian of Gaussian進行近似,使用積分圖像進行卷積計算,積分圖像可以在不同的尺度空間計算圖像中像素和的計算量的大小與其本身大小無關。SIFT算法通過圖片的特征提取來實現圖片的匹配度實現,穩定可擴展性強,該算法首先計算出128維度特征的向量歐幾里得的距離,這個計算需要算算術平方根相對SURF來說有些耗費時間。SURF 算法計算關鍵點通過Determinant of Hessian 也就是使用每個像素Hessian矩陣的行列式的近似值構成,即其尺度和位置通過Hessian矩陣行列式獲取。
1 SURF算法應用案例及優勢分析
SURF在圖像匹配的過程中仍然著重關注在圖像的特征點而對于圖像的大小角度等幾何方面的信息并不關注。往往在學生實驗報告圖片這種大量圖像數據集當中,獲取數據的速度不僅依賴于硬件設定的條件,同時也依賴于算法的穩定性和速度上。而SURF對于特征值的計算都是簡單的加減法單單相對于算數平方根的計算來說就更顯得有優勢。夏磊等[2]在基于改進SURF算法的紅外圖像拼接一文中,提出基于雙向匹配策略的自適應閾值配準算法,將特征點通過相似性度量準則匹配圖像對應的像素點,并將過程中匹配的最小和次小歐幾里得距離最小比值作為參數,從而在特定紅外圖像拼接的條件下保證精確性的基礎上提高了算法的速度。王陽萍等[3]在結合加速魯棒特征的遙感影像半全局立體匹配一文中,提出了利用改進加權聯合雙邊濾波算法進行視差的優化以便去除圖像的噪點等不需要的信息,將弱紋理以及視差不連續區域產生噪點的問題有效解決。黃春鳳等[4]在改進的SURF算法在圖像匹配的應用中,通過臨近搜索算法結合雙向唯一性匹配方法在視差約束下對初始特征值預處理,并通過二次優化和降噪之后將匹配成功度提高。
在本文中提出了SURF算法為基礎,實現了學生實驗報告及作業等圖像的匹配查重,利用大量學生平時的實驗報告和作業的圖像作為數據整理成實驗數據集。利用SURF和RANSAC算法各自的優勢,將兩者優勢相結合進行實驗報告圖像匹配的算法。利用SURF算法提取特征點,并利用SURF算法進行預匹配。然后用RANSAC算法去掉錯誤的匹配結果。從而實現了針對SURF算法上的優化。在實驗中,充分考慮了現實中可能出現的特征作為實驗基準數據,根據閾值以及參數的設定和選擇優化并實現實驗報告和作業圖像的匹配查重算法。
2 SURF算法及匹配算法比較
SURF算法[1]在本文的實踐當中可以分解為如下幾個步驟:
(1)構造高斯金字塔尺度空間
同一個Hessian矩陣和同一個像素點存在一一對應關系。
(2)利用非極大值抑制初步確定特征點
將經過上一步矩陣處理過的像素點與它的三維中26個點大小進行比較。
(3)精確定位極值點
采用三維線性插值取得像素級的點,對于設定的閾值,也去除小于它的點。
(4)選取特征點的主方向
統計特征點領域內的harr小波特征。
(5)構造surf特征點描述算子
每個特征點就是16*4=64維的向量。
SIFT算法對于提取圖像的局部特征點,對于幾何特性諸如平移、旋轉、尺度縮放以及光學特性諸如亮度變化、甚至遮擋和噪聲等具有不變性的特點,對視點改變也具有穩定性。SURF從SIFT基礎上發展而來是針對SIFT的改進,在算法速度和魯棒性方面普遍占優。而FAST算法提取了大量的特征點算法速度卻十分快速,但在幾何方面不變性的適應方面不及SIFT和SURF算法。ORB算法是基于FAST算法并減少了特征點數目并提高了質量在幾何特征方面具有一定的穩定性。特別是對于SIFT算法,SURF算法在針對一些繁瑣的工作進行了精簡,對于SIFT的描述特征子SURF算法特別做了降維處理,SIFT計算描述特征子采樣16*16并分為4*4的區域,從而計算各區域的幅值和向量方向,也就是SIFT的描述特征子是4*4*8=128維。而SURF算法在生成特征描述子時將20s*20s(s=1.2*L/9為特征點的尺度)的正方形分割成4*4的區域,在小區域中提取25個特征點計算小波HAAR響應,即SURF的描述特征子是4*4*4=64維。將計算特征點作為整個算法的核心??傊?,在計算速度、旋轉魯棒性、模糊魯棒性、尺度變換魯棒性等方面相對以上算法,SURF算法十分占優勢。
3 SURF算法在本文中的應用及優化方法
對于SURF算法特征點匹配結果的篩選方面,在大概率發生匹配錯誤的前提下就需要分析錯誤的可能性。一種是選取的特征點發生錯誤,另一種是匹配的特征點對之間不符合。實際匹配結果的分析和篩選過程中往往以反向查找特征點算法以便于能夠正確的找到對應的特征點,一般分為Brute Force匹配和FLANN匹配,前者總是嘗試所有的可能性以便于查找到最佳的匹配方法,而后者是一種近似法,采用最臨近近似匹配。本文的例子中是需要找到一個較好的,但是不需要找到最佳的匹配,當然,也可以調整參數來提高匹配的精度或者提高算法的速度。但相對來說,提高速度的結果往往就意味著精度的降低。本文采用RANSAC算法消除匹配圖像過程中的誤匹配結果,因為錯誤的匹配可能性有噪聲極值、錯誤的量度以及錯誤的假設。該算法采用擬合直線的方法觀測數據中的局內局外點,往往簡單的最小二乘法不能找到適應的局內點直線,但該算法能從包含大量局外點數據集中估算出高精度的參數。學生作品特征點示例如圖1,圖1左圖為目標同學1的某項實驗報告的答案圖片之一,圖1右圖為目標同學2的某項實驗報告的答案圖片。采用算法匹配的結果如圖2,如圖可見,將錯誤的特征點篩選過濾之后不同同學針對同一題目的結果圖片盡管有相似的地方,但仍然有大量的特征點沒有匹配到。而對于圖3在目標同學3借鑒了目標同學1的圖片結果之后,發現匹配了大量的特征點。SURF算法具有幾何特性方面的不變性在論文圖片匹配度對比查重中即便將同一副圖放大縮小或者更改縱橫比,也可以得到極佳的匹配效果,如圖4在圖片修改了縱橫比之后仍然可以匹配到大量特征點。由此可見實驗的結果驗證了經過改進后的SURF的實驗報告圖像匹配算法的可行性。
4 結論
本文將SURF算法優化改進后應用于學生實驗報告及作業等作品中圖片的查重匹配,補充了傳統查重系統只關注文字的單一性,將功能擴展為可以通過人工智能的方法進行圖片查重和匹配。圖片的查重可以針對學生學習中的抄襲現象有所遏制,同時針對課程實驗報告及作業的人工智能方法審核可以減輕教師的大量精力。本文在SURF算法的基礎上通過FLANN匹配和采用RANSAC算法消除匹配圖像過程中的誤匹配結果,采用平時中真實學生實驗作品圖像作為實驗數據集,實驗結果顯示優化方法是高效率而且具有較高的精度。在今后的研究中會進一步探討多種算法結合的情況下優化圖像匹配結果的可能。
參考文獻:
[1]SURF: Speeded up robust features. Bay H, Tuytelaars T,van Gool L. Lecture Notes in Computer Science,2006.
[2]夏磊,胡欣宇,岳亞偉,等.基于改進SURF算法的紅外圖像拼接[J].物聯網技術,2020,10(06):48-51.
[3]王陽萍,秦安娜,郝旗,等.結合加速魯棒特征的遙感影像半全局立體匹配[J/OL].光學學報,2020(16):163-171.
[4]黃春鳳,劉守山,別治峰,等.改進的SURF算法在圖像匹配中的應用[J].現代電子技術,2020,43(10):111-115.