向德輝
(蘇州大學電子信息學院,江蘇 蘇州 215006)
2012年,AlexNet在ImageNet大型圖像識別挑戰賽中精度了顯著的精度提升,這是卷積神經網絡在圖像處理中取得的第一次巨大成功。后來,更多的網絡模型比如Unet,VGGNet,GoogLeNet和ResNet相繼被提出并進一步成功地應用于圖像處理領域。人工智能技術的學習與研究成為熱點,多媒體、互聯網、醫學、制造業和遙感等許多行業也因此正在發生著前所未有的變化,其中圖像處理技術的蓬勃發展尤為突出。
數字圖像處理是信息學領域的熱門方向,也是電子信息、計算機、醫學影像等多個專業的重要課程,并涉及多門學科領域包括數學、模式識別、計算機科學、物理學以及機器學習等。通過學習本課程,信息類專業的本科生不僅可以掌握圖像處理的基本概念和原理,而且可以結合實驗與應用體會到創新的樂趣。由于數字圖像處理課程涉及了眾多學科,內容多,交叉性強,技術更新速度快,理論晦澀難懂,實踐要求高,學生在學習這門課程中容易產生厭學、棄學的情緒,因此,如何改進教學內容與教學模式,順應新技術的發展,激發學生的學習興趣,提高教學效率,是這門課程實踐教學和研究中需要考慮的重要問題。本文旨在探討和構建數字圖像處理課程的教學模式,不僅重視課程的基礎理論教學,而且也要增強大學生的工程實踐與創新能力。
傳統教學中,教師一般按照教材中數字圖像基礎、圖像增強、頻率域濾波、圖像復原與重構、圖像分割等章節依次講授知識點,重點介紹數字圖像處理的數學理論、算法流程、實驗演示以及驗證。學生在課堂上主要學習理論與流程,在上機實驗中主要使用Matlab驗證算法的效果,在考試中主要以考察學生對簡單理論知識點的掌握為主。采用這種傳統教學模式,較難激發學生的學習興趣,培養學生創新實踐能力,主要體現在以下幾個方面:
(1)內容陳舊。國內高校采用的教材普遍是岡薩雷斯版,雖然內容豐富,但是缺少相關技術(例如,人工智能等)的介紹,學生很難接觸到科研的熱點與動態,從而降低學習好奇心、主動性和積極性。
(2)知識點分散。各章節之間的相關性不大,每一章對應著圖像處理領域一個重要研究方向,在傳統的教學中,通常對每章知識點進行逐一講解,從公式推導到算法流程,理論性較強,需要學生扎實的數學功底與算法設計的能力,容易讓學生產生畏懼的心理。這讓學生學習興趣大大降低,同時,很難意識到知識點之間聯系,導致學生很容易陷入“只見樹木,不見森林”的境地。
(3)理論基礎薄弱。每一章節都涉及大量復雜的數學理論,教學過程中很容易與矩陣、微積分、信號與系統等相關課程脫節,在考試中僅涉及簡單理論知識點,使得學生的理論算法的基礎與功底并不扎實,難以培養創新思維。
(4)實驗教學薄弱。作為理論教學的輔助手段,大多僅安排了少量的實驗學時,有不少學校也沒有安排。然而,很多實驗教學使用Matlab,以驗證為目的,在實際應用過程中當遇到新問題時,很多學生很難根據相關的理論、算法與工程項目結合起來,導致學生缺乏實際問題分析能力與動手解決能力。
張穎以興趣為導向從教學內容、教學方式和考試方式三個角度提出了教學改革策略,酒明遠指出應以圖像處理的經典問題為切入點,結合人工智能進行教學方法改革,激發學生興趣。陳章寶等人以單層感知機模型、多層神經網絡到卷積神經網絡案例介紹了深度學習的漸進式教學方法。王立等人也指出課程需要教學與機器學習有機融合,并介紹了卷積的拓展教學方法。劉東等人探討人工智能視域下數字圖像處理課程內容、教學方法到實驗實施。李新利等人將理論講解與程序演示、教師講解與學生編程等方式結合,以便能夠達到理論與實踐緊密結合的目的。
結合當前課程教學現狀,本文提出一種自頂向下的教學模式,如圖1所示。首先,以圖像分類為出發點,通過卷積神經網絡模型的搭建、訓練與測試,讓學生能夠接觸到科研的前沿,激發學生的學習興趣。然后,針對卷積神經網絡中的核心技術,講解數字圖像處理中卷積運算的工程實現及其擴展。最后,回歸到卷積的數學本質,讓學生與前期課程聯系起來,從而重視理論基礎,并意識到數學理論的重要性。

圖1 一種自頂向下的教學模式
在教學過程中,學習積極性和主動性的提高是教學成功的關鍵手段之一,也是大學培養創新型人才的基本保證。人工智能是當前的前沿研究,因此,將前沿研究融入教學內容之中,可以使得數字圖像處理這門課程能夠更好地與前沿知識接軌,吸收國內外最新的研究成果,提升課程教學內容的質量,讓學生感受到與科研之間的零距離。因此,最新的研究熱點應該適當地選擇并加入教學內容,以跟上圖像處理技術的發展。下面以MNIST數據集圖像分類為講解案例。
MNIST(Modified National Institute of Standards and Technology database,美國國家標準技術研究院的修改數據庫)手寫數字圖像分類問題是圖像處理和深度學習中使用大型的標準數據集。它是根據采集的不同人手寫數字筆跡數字圖像為研究人員提供圖像處理算法訓練與測試的開放數據,如圖2所示,包含60000張訓練圖像和10000張測試圖像。結合該數據庫,可以講解圖像感知、圖像取樣與量化、像素等數字圖像基礎,以及彩色模型、偽彩色處理、彩色變換等彩色圖像處理。

圖2 MNIST數據集手寫數字圖像
針對上述圖像分類問題,可以使用目前最流行的卷積神經網絡,學習和練習如何開發人工智能技術。定義一個卷積神經網絡模型,如圖3所示:由卷積和池化層組成的圖像特征提取器以及進行預測的分類器。

圖3 MNIST卷積神經網絡分類器模型
模型中圖像特征提取器以卷積層為主。綠色第一卷積層接收了尺寸為28×28的1通道灰度圖像,選擇的卷積核大小為3×3,步長為1,輸出通道設置為32個(將使用32個卷積核提取32個特征圖)。以1的填充大小填充圖像,以使輸入和輸出尺寸相同,因此,該層的輸出尺寸為32×28×28。對第一層卷積輸出應用RelU激活,然后是核大小為2且步長為2的最大池化層,將圖像特征映射下采樣為32×14×14的尺寸。第二卷積層接收了尺寸為32×14×14的特征圖像,選擇的卷積核大小為3×3,步長為1,輸出通道設置為64個(提取64個特征圖)。以1的填充大小填充圖像,以使輸入和輸出尺寸相同,因此,該層的輸出尺寸為64×14×14。對第二層卷積輸出應用RelU激活,然后是核大小為2且步長為2的最大池化層,將圖像特征映射下采樣為64×7×7的尺寸。最后,使用兩個全連接層。從而使輸出尺寸與總分類類別數10匹配。教學中,可以在深度學習庫pytorch、tensorFlow、caffe,實現、訓練與測試卷積神經網絡。在構建MNIST卷積神經網絡分類器的同時,學生可以學習深度學習庫的基本構建模塊。這樣將最前沿的生動實例和最新的編程練習方式融合在一起,形成了獨特的學習體驗。另外,通過圖像分類這一任務介紹,可以推廣到圖像分割。
離散卷積是卷積神經網絡的核心操作之一,它是卷積神經網絡能夠在底層的圖像特征到高層次的圖像處理的基礎。卷積神經網絡中的卷積層提取圖像局部區域的特征,不同的卷積核可以提取不同的圖像特征。在數字圖像處理中,卷積操作是利用卷積核(也稱卷積模板)在圖像上逐步滑動,將圖像像素的灰度值與對應的卷積核上的數值相乘,將所有相乘后的值相加,作為卷積核中間像素對應的圖像上像素的灰度值,從上到下、從左到右依次完成圖像所有像素的滑動過程,如圖4所示。在卷積的標準定義基礎上,卷積神經網絡中引入了卷積核的零填充和滑動步長來增加卷積的多樣性,可以更靈活地進行特征提取。根據輸入與輸出尺寸,卷積可以分為窄卷積、寬卷積與等寬卷積。根據卷積與原始圖像像素對應關系,除了標準的方式,還可以擴展為膨脹卷積、平鋪卷積等形式。通過離散卷積運算的擴展,使學生對卷積的理解有了更加開闊的視野。

圖4 離散卷積操作
在傳統的圖像處理教學過程中,離散卷積通常是空間域的圖像增強內容,可以進行圖像平滑與銳化的操作。卷積核中所有值都一樣,則是均值濾波;如果值的分布按照高斯函數,那么高斯濾波,這些都可以用來對圖像進行平滑去噪。卷積核若被定義為一階微分算子(例如Sobel算子、Prewitt算子)、二階微分算子(例如Laplacian算子、LOG算子)可以對圖像銳化,同時也可以增強與檢測圖像的邊緣,如圖5中所示低階特征;Canny算子為了降低噪聲干擾,在用高斯濾波器平滑圖像的基礎之上,增加了非極大值抑制和雙閾值提高邊緣檢測性能。

圖5 手寫數字圖像的卷積后的特征
在卷積神經網絡中,卷積則是作為特征提取的有效方法。圖像或者圖像特征在經過小窗口的代數加權運算,實現對圖像局部特征的提取與抽象表示。通過滑動一個卷積核(即濾波器),卷積操作得到一組新的特征,使用的卷積核數目越多,提取到新特征的可能性越大。隨著卷積層深度的提升,圖像低階的局部細小特征到高階的抽象特征逐漸被網絡提取到,如圖5所示的低階到高階特征。將卷積加入神經網絡模型,就可以將特征提取和識別聯系起來完成識別任務。
卷積是數學中一種重要的運算。對于一幅數字圖像X∈R(M×N)和 一 個 卷 積 核W∈R(U×V),U<<M,V<<N,輸入圖像X和濾波器W的二維卷積定義為

式中,*表示二維卷積運算。離散卷積的輸出像素計算方式為

式中,i,j是輸出圖像F索引;u,v是二維卷積核的索引。因此,在離散卷積的計算過程中,需要進行卷積核翻轉。相似地,互相關輸出像素計算方式為

在圖像處理或者卷積神經網絡中,一般用互相關來代替卷積,從而會減少一些不必要的運算。另外,對于卷積神經網絡來說,卷積核的參數是根據優化算法調整,卷積核是否進行翻轉與其特征提取的能力無關。
由于很多數字圖像為一個二維結構,式(2)使用了兩重求和,該式來自于數字信號處理中的一維離散卷積。對于離散線性時不變系統來說,系統的響應可以表示為如下的卷積:

式中,n是離散系統響應o索引;k是一維卷積核的索引;h是離散系統的沖激響應;s是輸入離散信號。對于信號與系統中的線性時不變系統來說,一維連續信號的卷積運算定義為:

式中,t是連續系統響應o索引;τ是一維卷積核函數的積分變量;h是連續系統的沖激響應;s是輸入連續信號。根據卷積的性質,兩個信號在時域的卷積積分對應于頻域中該信號傅里葉變換的乘積。對于數字圖像處理來說,空域中根據卷積實現的圖像平滑與銳化,在頻域中,則對應于低通濾波、高通濾波、帶通濾波、帶阻濾波等。
在人工智能技術顯著發展的背景下,本文分析了數字圖像處理這門課程在教學中存在的問題以及面臨的挑戰。首先,結合當前科學研究的熱點問題,以學生的興趣為出發點,將圖像處理與卷積神經網絡緊密結合,課程內容既包含傳統的圖像處理內容,又包含了最新的圖像處理方法。同時,學生可以了解到主流的卷積神經網絡設計平臺,也可以通過搭建自己的網絡模型,提升動手能力。然后,通過卷積的工程實現,論述了卷積的實現及其擴展、卷積與濾波、特征提取之間的聯系。最后,在數學理論層面將卷積運算與相關運算、數字信號處理、信號與系統、頻域濾波聯系起來,讓學生意識到以前學習的知識與理論是當下課程的基礎,技術的創新來源于理論的支撐。因此,結合最新技術與應用案例到數學基礎的自頂向下的教學方式,既可以激發學生的興趣,又可以讓學生知其所以然,從而使學生能夠適應新技術快速的發展,提高學生的綜合實踐能力與理論水平。