杜振龍,周 飛,沈海洋,李曉麗
電子筆記本:一種從會議、報告及講演的手機照片生成PPT的方法
杜振龍,周 飛,沈海洋,李曉麗
(南京工業大學計算機科學與技術學院,江蘇 南京 211816)
智能手機已成為人們生活的有力助手,將手機拍攝的會議、報告以及演講圖像生成PPT具有迫切的現實需求,方便人們有效快捷地瀏覽會議、報告及演講內容。為此,提出了一種從會議、報告及演講的手機照片生成PPT方法,包括有效區域提取、內容區域重投影和補全內容區域。有效區域提取用大核形態學操作處理圖像,突出內容區域和背景區域的差異,便于準確提取有效內容區域。基于角點約束恢復相機參數,以虛擬視角方式將內容區進行正投影。內容區域補全用inpainting方法去除內容區域的遮擋物。在多種會議、報告及演講場所的多種情景測試了該算法,能夠將會議、報告及演講的手機照片生成PPT。
PPT生成;有效內容區域;重投影
手機已成為現代人們學習、工作和生活的重要輔助工具,方便了人們用影像、文字等數據形式記錄學習、工作、生活軌跡或有意義的事件。人們在參加會議、聆聽報告、演講時,經常用手機拍攝會議、報告、講演相關的多張圖像,并在會后通過系列圖像了解和熟悉會議、報告、講演內容。由于拍攝的手機圖像存在無序、區域不完整等問題,不可避免地造成人們需花費雙倍甚至更多時間了解會議、報告、講演內容,人們迫切需要一種能夠從手機拍攝的會議、報告、講演相關的圖像中自動提取內容的方法,從而方便人們高效地掌握會議、報告、講演內容。本文提出一種從會議、報告及講演現場所拍攝圖像自動生成PPT的方法,即如何從手機拍攝的會議、報告、講演系列手機圖像生成相關PPT文檔。
采用傳統的字符識別OCR方法識別圖像包含文字內容不可行,因為圖像中不僅包含文字,且包含圖像、公式等內容,另即使識別部分文字,而分析文字的格式仍十分困難。用高精度光流法[1]、稠密SIFT流法[2]、面片匹配[3]等方法在多角點的文字型場景低效、易失效。本文關注的是如何將手機拍攝的現場圖像變形為理想拍攝的圖像,將會議、報告、講演的內容區域提取并生成PPT,因此將內容區域作為整體處理。采用大核腐蝕、膨脹,開、閉等形態學操作,以整體方式處理圖像,削弱文字、圖像特征對提取操作的不利影響,使有效內容區域和周圍區域區形成明顯邊界,方便定位出有效內容區域,實現提取內容區域。
由于視角、距離、光照、遮擋等因素的影響,手機拍攝的會議、報告、講演相關圖像不可避免的包含一些無關的內容,干擾、影響目標影像的提取。會議、報告及講演內容的“電子筆記本”包括其內容提取、重投影內容和補全內容,最終以PPT形式輸出。
從多張會議、報告、講演現場拍攝圖像生成相關內容PPT首先需恢復相機拍攝參數。從多張圖像反演相機參數已有較多方法,但需要至少2張以上的場景相關的圖像,而本文所處理的問題很多情況是單張圖像,且圖像間的相關性隨機性很大。Bundle方法集成了相機參數反求、圖像深度配準、圖像變形等關鍵算法,用Bundle算法可方便、快速地將輸入的若干張圖像即刻生成2.5D或3D場景,但Bunldle方法適合處理稠密采樣場景。
隨著手機逐漸成為信息獲取的重要工具,圖像約束合成[4]與變形[5-6]、多視點視頻摘要[7]、室內家具布置的增強現實[8-9]等均可利用手機獲取數據。諸多和現實生活相關的應用使用SLAM算法反演相機參數,并利用并行、GPU加速等方式加速SLAM執行效率。近來SLAM算法已在位置依賴應用[8-9]、無人駕駛等方面得到快速拓展。本文所處理圖像的拍攝位置變化不大,運用SLAM算法會額外引入計算代價。本文所處理的內容區域呈平面矩形,因此利用區域的矩形約束給出了一種重投影算法,可高效地將圖像內容區域正投影為無畸變的圖像。
傳統方法從相關圖像序列生成PPT文檔是利用圖像匹配、恢復相機參數、重建深度圖像、進而生成PPT文檔。檢測圖像SIFT特征點[2,10]、SURF特征點[11],光流法[1]、微匹配[12]、面片匹配PatchMatch[3]等確定圖像間的對應關系,根據匹配點應用最小二乘法確定相機參數,并利用深度圖像準確給出圖像變換結果,該方法優點是結果精確,但計算量較大,不適合嵌入式設備和APP端應用。另外,本文所處理的圖像來自于會議、報告、講演現場,文字中細小角點特征多,且圖像間的特征點對應關系不固定,因此,選用內容區域的矩形框為約束,在保證生成PPT質量前提下避開了繁多的特點匹配計算。
多張會議、報告、講演現場拍攝圖像存在亮度差異,文獻[6]在中間域和共性內容為確定圖像最終亮度。文獻[13]將圖像分解為光照圖應的圖像域進行,有效防止了圖像材質和光照編輯的相互影響。且根據源圖像的平均亮度確定生成PPT亮度。
從多張手機拍攝圖像生成PPT文檔算法包括3個階段:有效內容區提取、對內容區的重投影以及內容區補全。從每張圖像提取出包含演講、會議和報告內容的有效區域[14];內容區域的重投影是把獲取視點與投影屏幕不垂直造成的圖像畸變通過視點垂直屏幕的重投影糾正畸變;內容區補全是填補[15]遮擋部分形成完整PPT,如圖1所示。
首先利用大核腐蝕、膨脹,開、閉形態學操作,模糊圖像中的文字,在有效內容區和周圍區形成明顯邊界,便于提取矩形內容區域邊界,對邊界擬合,形成由若干線段封閉的有效區域,進而提取出有效內容區域;對有效區域內容矩形區域進行角點提取,得到相機的內外參數和畸變系數,并利用這些參數和系數恢復相機的正面投影,從而實現內容區域的重投影;最后恢復圖像和文字內容,并且補全遮擋部分[15]。

圖1 算法流程
受會議場地、布置,燈光、人員、拍攝位置等因素的影響,用手機從會議、報告、演講場所拍攝的圖像,存在很大的差異,主要有:①通常投影屏幕上方有會議條幅,條幅或多或少地會出現在拍攝圖像中,如圖2(a)和圖2(c)所示;②有時投影屏幕前會有嘉賓主席臺,造成在獲取的圖像下方包含主席臺的桌、椅,如圖2(b)和圖2(c)所示;③多數情況下投影屏幕區的亮度高于周圍區域,但有些報告內容采用深色背景,致使獲取圖像的亮度與周圍亮度相差不大,如圖2(d)所示;④報告人采用的PPT模板相差很大,有的采用純底色嵌對比度大的文字,有的采用多種色調搭配,······,還有的存在一些背景圖片或者Logo等。

(a) 投影幕上方有橫幅(b) 演講者在屏幕前方 (c) 投影幕下方有嘉賓桌椅(d) 背景與周圍亮度較接近
提取會議、報告、演講圖像的內容區域、剔除無關區域,可降低算法處理時間。會議、報告、演講圖像中內容區域亮度高于周圍環境以便于觀眾觀看,本文利用該性質界定有效內容區域,采用迭代腐蝕、膨脹輔以開、閉形態學操作模糊、弱化文字細節,突出內容區域和周圍環境的分界以提取有效內容區域(圖3)。


其中,為Oj算子作用半徑。




