朱桂斌,鐘劉翔
?
基于視頻文字識別的跑步成績自動測量系統研究*
朱桂斌,鐘劉翔
(陸軍工程大學通信士官學校,重慶 400035)
目前,對于體育考核中跑步成績的測量仍采用人工計時的方法,其結果不夠客觀、準確。針對這些問題,以機器視覺分析技術為核心,通過采集現場的視頻,實時識別參考人員的號牌,自動記錄參考人員的圈數、用時和最終成績,以提高考核手段的科學性和客觀性。
自然場景;文字檢測;文字識別;背景檢測
隨著配備數碼相機的移動電話終端的廣泛使用,視頻和圖像的采集更加方便。目前,網絡上有大量的視頻素材都是用消費級終端在沒有嚴格光照、拍攝角度等條件拍攝的。這些視頻中的文字為后續的視頻分析和數據挖掘提供了可靠的信息來源。從自然場景中提取并識別文字在行人再識別、盲人輔助系統以及視頻字幕提取等領域應用廣泛,成為計算機視覺領域的一個研究熱點[1-8]。
在體育比賽或體能考核中經常需要對人員進行自動識別,這是一個典型的行人再識別問題[1]。對運動員進行識別有2種方法,即人臉識別或號碼識別。在拍攝場地,通常人員較多,采用人臉識別需要檢測和跟蹤識別的對象較多,對運算能力的要求較高。號碼識別相對人臉識別運算復雜度較低,便于在低成本的終端上實現。以此為基礎實現的運動成績自動測量系統相對于人臉識別來說精度更高。
基于傳統OCR技術的文字檢測與識別效果已基本滿足要求,但是自然場景文字檢測與識別仍然有許多問題,特別是對運動目標的文字識別尤其突出。主要原因有:①自然場景中通常含有許多干擾圖案,比如樹干、柵欄和標志等;②自然場景圖像中文字的大小、方向、顏色各不相同;③拍攝的圖像會因運動員的快速運動或聚焦位置固定而變模糊,尤其是在拍攝分辨率較低時更加嚴重;④人員跑動時身體姿勢和方向的變化甚至手臂的遮擋,將導致號碼區域的正確檢測和識別困難[1]。
自然場景文字識別包含2個過程,即文字檢測和文字識別。文字檢測的作用是從圖像中檢測文字的存在與否,并確定文字區域的邊框。文字識別可完成圖像信息到文字信息的映射。文本檢測和文本定位從本質上來說都屬于有監督的分類問題,區別在于類別的數量不同。分類問題通常由2個步驟組成,即特征提取和識別。常用特征包括邊緣特征、筆畫特征、結構特征等,特征通常由人工設計。常用的分類器包括隨機森林、SVM和ANN等。近年來,隨著深度學習技術的發展,有許多基于深度網絡的研究工作獲得了較大的進步[6,8]。基于深度網絡的文本定位和識別技術通過對樣本的學習,自動完成特征的提取和識別工作,性能較好。尤其是近年來由統一的深度網絡框架完成定位和識別2個任務,性能得到進一步提高。
傳統的人工特征提取方法計算量一般較小,但性能有待提高;基于深度網絡的文本識別技術性能較好,但計算量較大,一般不容易在便攜式終端上實現。本文研究的內容結合了兩者的優點,傳統的方法完成文本的粗定位,保證系統有高的召回率(Recall);用CNN實現定位后文本的識別,確保系統有較高的準確率(Precision)。
本文研究內容總體方案包含文本區域檢測和號碼識別兩大部分,各部分又各自包括3個模塊。
文本檢測方案包括的文本區域定位、SVM訓練和文本區域定位判斷3個部分,具體內容如圖1所示。
文字區域定位的主要作用是盡可能可靠地檢測出文字所在的區域。該系統設計有2個功能:①在構造訓練數據集時,可以輔助人工實現文字區域的預選;②在實際檢測時可以為后續的識別模塊提供處理對象。
通過文字區域定位可以獲得大量圖像塊,對這些圖像塊進行人工判別與標注,可以作為訓練集的一部分。用這些訓練集中的數據對SVM模型進行訓練,可以得到SVM模型。本文研究內容經過實際調試后,選用高斯核函數的SVM。對于實際的文本檢測任務,用變尺度的滑動窗口遍歷所有可能的位置,并對窗口內圖像經特征提取后送入訓練好的SVM模型判斷,得到大部分可能是文字區域的圖像塊。為了確保系統有較高的召回率,檢測的圖像塊中可能包含非文字區域,該部分區域通過后續的文字識別模塊識別并剔除。
文字識別部分包括字符分割、ANN訓練和字符識別3個部分,具體如圖2所示。

圖2 號碼識別方案
在文字識別過程中,首先對文字區域檢測獲得的圖像塊進行二值化,分割出文字前景和背景部分,然后經過方向投影極值檢測的方法獲得只包含1個字符的圖像塊,對這些圖像塊進行人工判別與標注,可作為訓練集的一部分。用這些訓練數據對深度神經網絡進行訓練,可以得到用于文字識別的DNN模型。在最終的文字識別中,可以將得到的字符圖像塊輸入訓練好的DNN,就可以得到每個圖像中的具體字符,如圖2中輸出了的“33”。以上是本文研究的整體方案,在實現過程中還有許多具體方法,以下介紹其中的關鍵技術。
實際拍攝的圖像有時會因運動員的快速運動或聚焦位置固定而變模糊,尤其是在拍攝分辨率較低時情況更嚴重。另外,運動員跑動時身體姿勢和方向的變化甚至手臂的遮擋都會對拍攝圖像質量造成很大的影響。為提高后續文本區域檢測和識別的準確率,必須對視頻圖像進行預處理,提高視頻圖像的質量。本文采用文獻[10]的方法改善拍攝視頻質量。
由于現場有許多干擾圖像,比如標語、彩旗等常含有文字,為了提高運動員號碼牌識別的準確性,必須將這些包含干擾文字的區域濾除。本文采用結合運動估計的模糊最大類間方差的圖像分割算法[11]分割前景和背景,過濾干擾區域。同時,采用此方法對文字的前景和背景進行分割,以供后續的識別任務。
系統實時性問題的解決可從3個方面實現:①用文獻[12]的方法對視頻中已經識別的號碼進行跟蹤,對新出現的號碼進行識別,降低了系統的計算復雜度;②對SVM和ANN的網絡結構進行優化,減少其中冗余的層次和節點;③具體實現上,盡可能利用多核CPU的并行能力,利用多線程技術,實現流水線操作。
復雜背景下的文s本檢測和文字識別技術是本文研究的主要內容,其核心內容是SVM模型和ANN模型的結構以及訓練。目前,深度神經網絡進展迅速,其典型的網絡結構和預先訓練模型均已開源。本文模型訓練時在此基礎上,利用遷移學習方法進一步對網絡結構和參數進行調優。
網絡訓練的另一大問題就是數據集。本文的訓練數據集一部分來自于本校體能訓練和考核的現場錄像;另一部分來自于各類運動競賽視頻,可以滿足模型的訓練要求。測試數據集全部來自于本校體能考核視頻。
本文提出了利用機器視覺和深度學習的技術實現跑步成績自動測量系統。系統利用運動信息進行圖像融合,實現號碼圖像的增強與重構,提高了圖像的分辨率、號碼分割效果、識別率。通過SVM實現復雜背景下文本區域檢測,利用深度網絡實現變形字符識別,并實現了在低運算能力終端上的實時識別。
本項目的硬件成本較低,目前,全國中小學的體能考核甚至運動會還沒有采用這一方案實現成績的自動測量。全國中學有60 000多所,普通高校有2 000多所,而體能考核的自動化是一個大的趨勢,本項目有廣闊的市場和較高的推廣價值。
[1]趙麗科,鄭順義,馬浩,等.田徑運動員號碼牌圖像的號碼識別[J].華東師范大學學報(自然科學版),2017(03):64-77,86.
[2]哈恩楠,吉立新,高超.基于對象建議算法的自然場景文本檢測[J].計算機應用研究,2018(02):624-627,636.
[3]唐有寶,卜巍,鄔向前.多層次MSER自然場景文本檢測[J].浙江大學學報(工學版),2016(06):1134-1140.
[4]易堯華,申春輝,劉菊華,等.結合MSCRs與MSERs的自然場景文本檢測[J].中國圖象圖形學報,2017(02):154-160.
[5]王夢迪,張友梅,常發亮.基于邊緣檢測和特征融合的自然場景文本定位[J].計算機科學,2017(09):300-303,314.
[6]Xinyu. Zhou,Cong Yao,He Wen,et al.“EAST:An Efficient and Accurate Scene Text Detector”[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),Honolulu,Hawaii,USA,2017:2642-2651.
[7]S. Lee,C. Koch,J. Lee,et al. Yuille,“AdaBoost for Text Detection in Natural Scene”[C]//2011 International Conference on Document Analysis and Recognition(ICDAR),Beijing,China,2011:429-434.
[8]王林,張曉鋒.卷積深度置信網絡的場景文本檢測[J].計算機系統應用,2018(06):231-235.
[9]張日升,朱桂斌,張燕琴.基于卷積神經網絡的衛星遙感圖像區域識別[J].信息技術,2017(11):83-86.
[10]戚曹,朱桂斌,陽溢,等.基于局部自相似性的視頻圖像超分辨率算法[J].重慶郵電大學學報(自然科學版),2015,(05):692-699.
[11]曾偉,袁寶峰,朱桂斌.基于模糊最大類間方差的圖像分割算法[J].實驗科學與技術,2008(06):22-24,31.
[12]曾偉,朱桂斌,李瑤.基于Kalman點匹配估計的運動目標跟蹤[J].計算機應用,2009(06):1677-1682.
TH744.5
A
10.15913/j.cnki.kjycx.2018.22.045
2095-6835(2018)22-0045-03
本文獲陸軍工程大學通信士官學校科研項目(編號:TZ-CQTY-Y-C-2017-035),重慶市社會事業與民生保障科技創新專項(cstc2017shmsA00003)資助
朱桂斌(1972—),男,河北涿鹿人,教授,2004年畢業于重慶大學(博士),主要從事圖像分析和識別方面的研究。
〔編輯:張思楠〕