巨志勇,何曉蕾,王超男
(上海理工大學 光電信息與計算機工程學院 ,上海 200093)
文本圖像的傾斜角檢測在教學方法改革中的應用
巨志勇,何曉蕾,王超男
(上海理工大學 光電信息與計算機工程學院 ,上海 200093)
為了加強學生對于基礎知識的理解和應用,以文本圖像的傾斜角檢測為例,提出在教學環節中引進一種不同于傳統經典傾斜角檢測的算法,即一種基于文本行基線的傾斜角檢測算法,闡述此方法和傳統方法相比具有的優勢,最后說明該方法利于培養學生在學術理論上的創新性。
教學實踐;直線擬合;傾斜校正;智能科學與技術
智能科學與技術是一門新誕生的學科和專業,旨在培養寬口徑、高素質、復合型的智能工程科技人才,反映信息科學及其交叉學科的最新進展和國家對新專業的人才培養需求,肩負著智能科學技術專業人才培養的重任,而課程教學是培養相關人才的必由之路。人才培養和科學研究之間存在顯著的正相關性,特別是人才的創新應用能力培養。智能科學與技術專業人才培養體系建設的思路:依托學院控制科學與工程等學科的優勢,聯合學院各個科研團隊,將課程教學和承擔的科研項目緊密結合,進行研教融合的專業人才培養體系建設,以達到培養創新型應用人才的目的[12]。
圖像的傾斜以及后續的傾斜角檢測和校正是圖像處理的基礎,和圖像的預處理(二值化、去除噪聲等)一樣,是圖像處理和研究過程中不可避免的一個環節,而文本圖像的傾斜檢測和校正是OCR系統中極其重要的一步。關于傾斜角檢測,已經有很多經典的算法可以使用,主要分為以下幾類:基于投影的方法、基于Hough變換的方法、基于K-最近鄰簇法和基于傅里葉變換的方法。為了突出基礎知識在學科學習過程中的重要性,我們堅持加強學生對于基礎知識的深刻理解和應用,并且鼓勵學生開拓思維。在理解經典算法的基礎上,我們將一種基于文本行基線的傾斜角檢測方法應用到教學環節中,既可以強調傾斜角檢測這類基礎知識的重要性,又能突破傳統教學理念。
這種傾斜角檢測算法的主要思想就是用處理單行文字替代處理整幅文字圖像,重點分為2個步驟。
1.1 特征點選擇
設一行文本圖像T由n個字符Ci組成,字符按照從左向右的順序排列,即T={C1,C2…,Cn}。設Pi=(xi, yi)是字符Ci邊框底邊中點,而P={P1,P2…,Pn}表示這些邊框底邊中點的集合。由于文本中大多數字符為上行字符和中行字符,它們都以基線為基準,因此集合P為基線的基礎,此時的集合P只是初始字符的集合。字符的書寫格式和行高參考如圖1所示,行文本中可能出現“a”“o”等在中上基線內的字符,也有“T”“h”等最高點超出上基線的字符以及“p” “g”等最低點低于基線的字符。不剔除這些最低點低于基線的字符,將會影響基線檢測的可信度,也會對后續傾斜角的檢測產生嚴重的誤導。
根據字符的書寫格式,筆者對文本行進行切分,如圖1所示。設中線和上基線之間的距離為h,則字符的行高為H1=3h或者H2=2h,由字符的邊框可以得到字符的高度,則h=H1-H2,本文規定以h作為剔除的依據;若相鄰字符的邊框底邊中點的縱坐標差△y≥h,則剔除行高大的那個字符。

圖1 字符的書寫格式和行高參考
除了刪除像“p”“g”這種最低點低于基線的字符,本文還要刪除像“i”“j”這種由多個非連通區域組成的字符。由于非連通,自動機跟蹤時會分別標記,并不會識別出這些部分屬于同一個字符,而標記出的“i”“j”上面的點同樣會對基線檢測產生很大的干擾。在標記出字符的最小外接矩形后,通過比較這些區域的面積,剔除區域面積格外小的這些區域;刪除完冗余部分,剩下的點用藍色‘.’標記。
1.2 基線定位
確定了集合P,下面進行直線擬合。
設基線方程

其中Pi=(xi,yi)∈P,k代表直線的斜率,b代表直線在y軸上的截距。我們用Matlab自帶的直線擬合函數進行擬合,可以求得k和b。

其中的x和y是上文已經確定好的特征點的橫坐標和縱坐標。

智能科學與技術在專業的培養目標上,以夯實計算機科學技術為核心,以加強智能科學理論方法和應用技術為核心,以促進學生知識、能力和素質協調發展為目標,注重培養學生良好的科學研究素養和技術應用能力[3]。把“文本傾斜角檢測”這一基礎性實踐融人教學,一是可以突出基礎學科在專業未來培養中的重要性,二是能夠結合不同于經典算法的一種方法,提高學生對于專業的學習興趣。
筆者運用到教學實踐環節中的算法,旨在培養學生解決生活實際問題的計算思維。與表1中的4種經典算法相比,基于基線的方法不受圖形和排版的限制,內存占用和運算時間也很小。從上節內容可以看出,筆者提到的方法有兩個重點,以圖2為例:一是文本圖像中特征點的選取直接關系到擬合基線的準確性,學生通過理解特征點選取的思路,可以個性地理解實際工程解決辦法的思維。圖2(a)是要進行傾斜角檢測的行文本,圖2(b)是標記的各個字符的邊框,以此就能按照第2節中的理論篩選特征點。二是直線擬合,筆者所使用的擬合語句是Matlab軟件自帶的,這樣既可降低算法的實踐難度,符合本科生的知識水平,又能讓學生學會充分利用已有資源輔助實現工程目標。圖2(c)是擬合完基線的行文本,基線標記成紅色。

表1 4種經典類型算法的特點

圖2 行文本的傾斜角檢測
智能科學與技術專業融合了計算機軟硬件、人工智能、智能系統集成等眾多先進技術,是現代檢測技術、電子技術、計算機技術、自動化技術、光學工程/機械工程等學科相互交叉融合的綜合科學[4]。在教學過程中,把機器視覺和圖像處理的相關知識融人教學實踐環節中,以圖像處理的基本步驟為教學的切人點,既可讓學生實際感受并解決與專業相關的工程問題,又能讓學生對專業基礎知識的應用有一定程度的理解。在教學環節,引人一種不同于傳統算法的理論,有利于提高學生對于專業相關問題的學習興趣和探索熱情。在實際教學過程中,教師可以適當地結合課后任務,訓練學生舉一反三的能力,使學生脫離被動學習的窘境,提高創新能力,更加迎合社會人才的需求。將基于文本行基線的傾斜角檢測算法和智能科學與技術專業的教學實踐環節相結合,可以突破書本與傳統的教學理念,提升學生對已有成熟技術的理解,激發學生對未來先進技術的興趣。
現如今,用人單位更加看重應屆畢業生的綜合素質,其中就包括基礎知識、專業技能、理論知識和時間能力的結合、創新意識等。上海理工大學的智能科學與技術專業也致力于為社會和用人單位培養復合型科技人才。將這種新穎的算法應用到教學環節中,不僅可以體現學科專業基礎知識和理論知識的重要性,若再加上教師對學生的積極引導,還可以鍛煉和培養學生的實踐能力和創新性,這無疑可以提升學校智能科學與技術專業復合型科技人才計劃的執行效果,同時也為國家和社會輸出高質量的科技型人才打下良好的教育基礎。
文本圖像的傾斜角檢測是OCR(光學字符識別)系統不可缺少的一步,是圖像處理領域中不可忽略的一個技術問題。將一種基于文本行基線的傾斜角檢測算法融人智能科學與技術專業的教學環節,同樣是加強學生對于基礎知識的理解和應用,不同的是突破了傳統的教學理念,引人一種新的不同于傳統經典算法的方法,在一定程度上培養學生的計算思維,提高學生學習專業知識的興趣和解決實際工程問題的創新性,而且激發了學生學習專業領域先進技術的興趣,緊跟信息時代技術發展的潮流,滿足社會對技術人才的需求。
[1] 陳雯柏, 李擎, 王萬森. 工程型智能科學與技術專業知識體系與課程研究[J]. 計算機教育, 2014(19): 29-33.
[2] 楊青, 黨選舉, 周萍. 智能科學與技術專業人才培養調查分析與研究[J]. 計算機教育, 2014(19): 34-37.
[3] 劉麗珍, 王函石, 劉杰, 等. 智能科學與技術專業學科發展與核心課程群建設的研究[J]. 計算機教育, 2014(19): 70-73.
[4] 巨志勇, 孫紅, 陳瑋, 等. 彩碼技術在智能科學與技術專業教學中的應用[J]. 計算機教育, 2013(19): 88-90.
(編輯:宋文婷)
1672-5913(2017)01-0128-03
G642
國家自然科學基金項目“基于虛擬雙能量減影軟組織胸片計算機輔助檢測肺結節研究”(81101116)。
巨志勇,男,講師,研究方向為智能科學與技術和機器視覺,juzy@usst.edu.cn;
何曉蕾(通信作者),女,在讀碩士生,研究方向為模式識別與圖像處理,15850695057@163.com。