一種多模態跨媒體檢索的融媒體影視系統

2021-10-28 03:36:04李春芳劉永久王楷翔楊睿張凌飛李敏鄧智銘石民勇

中國傳媒大學學報(自然科學版) 2021年4期

李春芳,劉永久,王楷翔,楊睿,張凌飛,李敏,鄧智銘,石民勇

（中國傳媒大學計算機與網絡空間安全學院，北京 100024）

1 引言

媒體融合發展已上升至國家戰略，影像為王的媒介時代，有視頻有真相。視頻具有時序播放的特點，知識密集型視頻，如紀錄片、正史影視，很多受眾不能在呈現的幾秒內理解視頻的全部信息。另一方面，用戶也會常感到觀看線性視頻的信息過少、浪費時間。2018 年11 月，教育部、中宣部印發了《關于加強中小學影視教育的指導意見》，體現了政府對影視教育的重視。如何找到與課程內容密切關聯的影視作品及視頻片段，是應用影視教育中的瓶頸。

本文著重研究了面向應用場景的視頻字幕提取和人臉識別，對重要實體，鏈接外部知識庫和電子課本；對視頻做知識增強，支持視頻非線性檢索，構建一種富信息融媒影視新形式，滿足深度知識獲取，改善用戶收視體驗。本文面向教育文化傳播，以近代史電影、中國詩詞大會和科技記錄片三個場景實現視頻融媒應用，嘗試應對網絡時代的文明恐慌，為新型主流媒體智能化發展賦能。

2 相關研究

2.1 字幕提取

字幕形式的對白或解說詞，有場景說明、畫面補充、深化內涵的作用，可用于視頻非線性檢索。字幕提取包括：字幕事件檢測、字幕區域定位、字幕分割、基于OCR(Optical Character Recognition)的文本識別。

字幕識別首先將視頻生成盡可能不重復、不遺漏的字幕圖像序列。從視頻提取字幕幀的方法包括三種：逐幀、等幀間隔、幀差法（或字幕事件檢測）。從單張圖像檢測文本區域的方法大致分為四種：基于紋理特征，基于邊緣特征，基于連通域和基于深度學習的方法。

2012 年，曹喜信研究了基于邊緣強度的字幕提取［1］。2017 年，袁聞研究了網絡視頻字幕關鍵詞提取與檢索［2］。2018 年，石民勇、艾莫爾夫等研究了抽幀和圖像分割的字幕提取［3］，王智慧等提出了先監測字幕幀再鎖定區域的字幕提取方法［4］。

從英文文獻看，側重對字幕和視頻的融合應用。2018 年，呂金娜等用識別人臉和字幕實現了一個StoryRoleNet，自動構建影視劇的人物關系［5］。2019 年，Tapu 等基于人臉識別、視頻分鏡、語音識別及字幕識別，把字幕文本標注到說話人附近，實現了幫助聾啞人看視頻的Deep-Hear 系統［6］。2020 年，曠視科技Wan Zhaoyi 等提出一種針對泛場景文字識別的深度神經網絡方法TextScanner［7］。

與深度學習方法相比，基于邊緣特征定位字幕區幾乎無學習代價，輕量簡潔。本文基于等幀間隔和幀差法，利用多幀字幕邊緣特征的統計特性，提高字幕塊定位精度和效率。

字幕塊文字識別由OCR 處理。2020 年百度基于深度學習的OCR 識別率達99%，并提供云端API。此外中文識別還包括漢王OCR、文通OCR 和開源OCR引擎Tesseract。本文字幕OCR采用了Tesseract。

2.2 人臉識別

從字幕文本可檢索包含關鍵詞的視頻時間點，然而存在大量畫面人物和字幕人物不一致情況，如字幕包含“毛澤東”的畫面，大部分是他人的對白中提到“毛澤東”，為此需基于人臉識別檢索畫面。

人臉識別包括：人臉檢測，人臉對齊和人臉識別。人臉識別包括1:1 比較的人臉驗證和1:k 比較的人臉識別，影視人臉識別是一個1:k 問題。2014 年Facebook 的研究者提出了DeepFace，用三維人臉對齊，交叉熵作為損失函數，在人臉庫LFW(Labeled Faces in the Wild)上識別率達到97.35%［8］。2015 年，Google的研究者提出了FaceNet，構建（圖像，正例，反例）三元組，人臉圖像與正例距離近與反例距離遠作為目標函數的訓練方法，在LFW 上識別率達到99.65%［9］。2016 年，Google 提出了GoogLeNet 的升級版Inception-ResNet，PyTorch 實現該算法用于人臉識別［10］。2016 年，Zhang Kaipeng 等提出構建圖像金字塔，將人臉檢測與人臉關鍵點對齊的多任務MTCNN 模型［11］。此外，還可采用視頻ReID技術跟蹤識別人臉［12］。

隨著算法到API 的快速迭代，專家認為，AI 創新重點在于應用場景，然而技術遠沒被應用到主流視頻媒體，大量制作精良的視頻不能被便利地檢索、挖掘和傳播，傳統媒體內容王者地位受到嚴峻挑戰。

2.3 跨媒體語義檢索

跨媒體檢索旨在以任意媒體數據檢索其他媒體的相關數據，實現圖像、文本等不同媒體的語義互通和交叉檢索。2018年，彭宇新綜述了跨媒體檢索的概念方法和挑戰［13-14］，認為學習圖像和文本間精確的關聯關系，提高跨媒體檢索準確率。同年，王述和史忠植研究了基于深度典型相關性分析的跨媒體語義檢索，從多媒體數據中抽取概念及標簽訓練，語義映射實現跨媒體檢索［15］。2019年，卓昀侃等提出跨媒體循環神經網絡，挖掘包括圖像、視頻、文本、音頻和3D 模型的細粒度信息，提升了跨媒體檢索的準確率［16］。

2018年，許斌團隊自動抽取加眾包構建了小初高全學科基礎教育知識圖譜edukg.cn，用于智慧教育［17］。與跨媒體理論研究相比，本文工程上實現了一個跨媒體檢索系統；與教育知識圖譜圖文表達相比，本文是以視頻為核心的融媒系統。

以下分別論述視頻字幕提取、視頻的人臉識別、電子書識別，以及集成實現的融媒影視系統。

3 基于統計特征的視頻字幕提取

本節利用字幕區的邊緣統計特征，設計實現了一個高識別率的字幕提取算法，分析了實驗結果。

3.1 多幀邊緣統計特征用于確定字幕上下邊界

圖1(a)是字幕區域Y方向的邊緣特征構造的二值矩陣的行和，可以明顯的分辨出字幕的上下邊界。在字幕幀字數少，且遇到特殊文字，單獨取一幀定位不準確。為此，采用多幀字幕統計特征，即取眾數（眾數，指在統計分布上具有明顯集中趨勢點的數值，也是一組數據中出現次數最多的數值），見圖1(b)，多幀字幕眾數的上下邊界作為整個視頻字幕上下邊界，剔除了字形差異的干擾。

圖1 基于多幀字幕邊緣特征定位字幕上下邊界

基于以上分析，初始化先確定字幕上下邊界。隨機選擇視頻中的N 幀（N=50），取幀圖像的下1/5 和左1/2 區域，對該區域做灰度化、中值濾波、用Sobel 算子提取Y 方向的邊緣特征，進一步二值化（閾值可調，默認150），構建一個邊緣特征存在與否的one-hot 二值矩陣，計算行和，從行和最大值逐像素向兩端滑動檢測當前幀的上下邊界。對N 幀樣本的邊界統計，用眾數作為字幕上下邊界。

3.2 基于多幀統計特征確定字幕對齊方式

影視字幕對齊方式分兩種，左對齊和居中對齊，即非左即中。隨機抽取多幀字幕，灰度化、二值化，用二值化one-hot 矩陣的列和確定字幕左邊界，從列和最大的像素點開始向左按字寬滑動，左側邊界比較集中判斷為左對齊，非常分散判斷為居中對齊。字幕邊緣特征如圖2 所示，從最大的列和開始向左滑動獲得左邊界。

圖2 基于二值化矩陣列和確定字幕對齊方式

3.3 基于統計特征的視頻字幕定位算法

算法1，輸入為影視視頻文件，輸出字幕文件。

算法1 基于統計特征的視頻字幕提取算法輸入:帶有字幕的視頻文件（如*.mp4）輸出:字幕文件.srt①初始化：統計多幀經Sobel 算子生成邊緣one-hot 矩陣確定視頻字幕上下邊界。②初始化：根據多幀字幕統計特征確定左邊界，確定對齊方式。③每隔0.5 秒讀取視頻的一幀，根據上下邊界和對齊方式，確定左右邊界，確定是否為字幕幀。非字幕幀則丟棄，繼續循環③。④計算當前字幕圖像灰度化、二值化矩陣，one-hot 矩陣的中間行與上一幀字幕圖像中間行的余弦距離，如果兩幀的余弦距離>0.7 認為是重復字幕，認為是相同字幕幀則丟棄，跳轉③。⑤根據上下和左右邊界分割圖像取出當前幀的字幕區域，經灰度化、色階調整、二值化、黑白翻轉、得到白背景黑字的字幕圖像。⑥對判定為非重復的字幕幀，經OCR識別輸出文本。⑦字幕區域圖像生成的文本行經正則表達式過濾非中文和數字字符亂碼，經萊溫斯坦（Levenshtein）字符編輯距離再次去重。⑧計算字幕幀的毫秒時間，按字幕格式寫入字幕文件.srt。⑨判斷是否超過視頻長度，是則結束，否則轉③繼續提取下一個可能的字幕幀文本。

字幕定位算法的流程如圖3所示，說明如下：

圖3 字幕識別算法流程圖

(1) 步驟③參數0.5 秒的選擇由實驗統計確定。根據統計規律，字幕行停留時間一般在0.5-7 秒，識別原則是不丟字幕幀并盡可能減少重復字幕幀。

(2) 步驟③會有極少量的無字幕幀被判為有字幕，原因是背景紋理過于復雜造成的干擾，這樣無字幕幀經OCR識別為亂碼，通過正則表達式濾除。

(3) 步驟④重復字幕幀的判定。擁有相同字幕的圖像幀，必然有極為相似的邊緣特征，對比兩幀字幕區域Y 軸方向邊緣one-hot 矩陣中間行向量的余弦相似度，判斷字幕是否重復，本文設定余弦相似度>0.7，為相同字幕幀，重復字幕檢測波形參見圖4。此處仍可能產生少量的重復字幕，后續再次去重。

(4) 本算法沒有單獨處理字幕事件檢測，目的是通過抽幀提高識別效率。通過余弦相似度判斷抽幀時刻字幕是否改變，圖4的波形圖和字幕序列為《舌尖上的中國》的600 幀，每12 幀取一幀，取50 幀作為樣本，共有11個波峰，即11個對比的抽幀中one-hot矩陣中間行的余弦相似度>0.7，每個波峰表示一組相同字幕，代表了一條不同字幕，共12條字幕，波形跳變與字幕一致，即為幀差去重復。

圖4 重復字幕檢測的波形圖示例

(5)步驟⑤當判定字幕區域包含字幕且和上一幀不同，對字幕區域灰度化處理。色階是用直方圖描述整張圖像的明暗信息。色階調整使字幕圖像與背景色調分離，提高字幕辨識度，如公式(1)所示，含三個參數：像素灰度值Input，高光值Highlight 和陰影值Shadow，該像素輸出值Output。

實驗表明色階調整對OCR 識別率影響較大。圖5 是視頻一幀灰度圖調整色階前后對比，并把字幕區域突出顯示。可以看出，色階調整后，圖像的對比度下降，但是字幕辨識度改善。以《互聯網時代》為例，色階調整字幕圖像可以使得OCR 識別率由70%提升到95%以上。

圖5 色階調整對圖像和文字清晰度的影響

(6) 步驟⑤對字幕圖像二值化，本文設定灰度>150 映射為255，否則為0，再反色處理。處理過程參見圖6，可以看出有效剔除了背景干擾。

(7)步驟⑦依據正則表達式剔除亂碼。使用OCR識別文字，仍有部分重復字幕或無字幕的亂碼。為提高識別精度，本文針對單一語言字幕識別，OCR 識別中文時將標點、符號、英文字符等視為噪聲。

中文編碼范圍是［u4e00-u9fa5］，且字幕大都不包括標點，但有數字。本文根據Unicode的中文編碼表，re.compile(r'［^u4e00-u9fa5+0-9］+')匹配，結果只保留中文字符和數字。對于英文字幕使用re.compile(r'^w+$')，去除中文和亂碼。

(8)Levenshtein 距離指字符串轉成另一字符串所需的最少編輯次數，包括：替換、插入和刪除。如：將“中央電視臺”轉化為“中央廣播電視總臺”，編輯距離為3。步驟⑦依據Levenshtein 編輯距離和字符串相似度過濾OCR后的少量重復字幕。

3.4 字幕提取實驗

(1)實驗環境

2.面板AR根檢驗。本文對京津冀城市群土地綜合承載力與區域經濟發展系統的PVAR模型進行面板AR根檢驗(見圖1)，系統PVAR模型共有6個根，且所有根模的倒數都位于單位圓內，表明系統PVAR模型滿足穩定性條件。[17]因此，對系統PVAR模型進行面板Granger因果檢驗、面板脈沖響應函數和面板方差分解技術分析是科學的。

實驗采用Python3.7 和OpenCV，主要函數包括VideoCapture、cvtColor、medianBlur、Sobel、threshold，分別用于讀取視頻、灰度化、中值濾波、提取特征邊緣和二值化操作。所用OCR 為Tesseract-OCR4.0.0。

(2)字幕塊識別率

本文用5 部中文和2 部英文視頻作為實驗數據。對識別字幕塊定義：查全率=正確識別字幕條數/字幕總條數，查準率=正確識別字幕條數/識別字幕條數。實驗如表1 所示，《建軍大業》總字幕1750 條，查全率99.83%，漏識別3 條，查準率98.20%。《The Lion King》的查全率為99.72%，查準率為99.81%。

表1 字幕條數提取實驗結果

(3)字幕文字識別率

開源OCR 引擎Tesseract 的中文識別率約為97%。本文文字識別率實驗如表2 所示，《中國通史》貞觀之治的文字查全率95.81%，查準率95.43%，《舌尖上的中國》單集文字查全率95.92%，查準率94.33%，《互聯網時代》文字查全率96.04%，查準率94.20%。《建軍大業》共11767 字，查全率98.6%，查準率97.73%。

表2 字幕文字識別率實驗結果

本文實驗數據規模遠高于已有文獻，表3 中與文獻［1］和［4］相比，本文中英文字幕塊查全率最高，達到99.65%以上，中文平均查準率達到97.6%，英文查準率達到99.8%。

表3 字幕塊提取與已有文獻的對比

4 影視視頻人臉識別

為實現影視人臉識別，以《建軍大業》為例，在豆瓣爬取主要角色照片，以“編號-演員名-角色名”格式存儲，用于人臉識別。主要角色及演員共57 名，部分數據如表4所示。

表4《建軍大業》人臉識別的演員與角色

圖7 統計角色出場時間流程圖

輸入原視頻，每隔0.2 秒抽一幀，若當前幀檢測到人臉，則用演員照片識別對應角色，記錄幀時刻，沒有檢測到人臉繼續抽幀，結果以.srt字幕存儲。

PyTorch 以高度易用被工程中廣泛采用，本文采用其實現的人臉檢測和對齊一體的MTCNN［11］算法和Inception-ResNet［10］算法實現人臉識別，掛載的預訓練參數為VGGFace2。

視頻檢索在秒級精度即可，本文忽略毫秒把人臉識別的起始時間和字幕起始時間對應，寫入字幕subtitle 數據表，實現基于字幕和人臉并行的視頻非線性檢索。表5中第一行指在該字幕處，畫面出現人物“毛澤東”和“周恩來”。對《建軍大業》識別角色人臉，對應到字幕時間，共540條字幕附近有角色出現，檢索正確率為98%。

5 電子書PDF的數據化

為實現電子書與影視視頻的跨媒體關聯檢索，需要對圖像格式的電子書數據化。處理流程見圖8，基于Python Wand 庫和C++的ImageMagick 對PDF 電子書逐頁轉為圖片，圖片經過灰度化、邊緣提取、二值化、兩次膨脹和腐蝕，聚合成一個文字框或者圖片區域，獲取輪廓后生成切塊，并濾掉噪聲小塊，切割文字或圖片區域，記錄塊的坐標，對切割后的文字區域，經Baidu-Aip的OCR識別為文字。

表5《建軍大業》字幕和人物出場時間表

圖8 圖像格式電子書PDF的數據化

表6 為3 本電子書數據化的實驗結果，以初中歷史八年級上冊為例，132 頁，采用72×72 分辨率，拆為圖片用時32 秒，用時5.9 秒劃分為660 個圖文塊，對其中文字塊OCR 識別共用時729.2 秒，手工隨機抽取5頁檢測，識別率約98.87%。《人工智能簡史》OCR 識別率為99.18%。

表6 電子書數據化實驗結果

6 多模態跨媒體檢索的融媒體影視架構

6.1 系統架構

本節設計實現了基于字幕提取、人臉識別、電子書數據化、詞頻統計的支持視頻內容理解、非線性檢索和知識增強的融媒影視系統。架構見圖9，演示地址www.yingshinet.com。

圖9 多模態跨媒體檢索的融媒體影視系統架構

系統以3 個應用為例構建了融合知識庫的數據庫，實現跨媒體檢索，以下分別論述實現過程。

6.2 近代史融媒體影視的跨媒體語義檢索

圖10(a)是《建軍大業》視頻，左下是主要歷史人物的字幕加人臉數，右上是人物信息，抽取自思知(Ownthink)知識圖譜，存入本地數據庫。

圖10 支持非線性檢索的融媒影視系統

圖10(a)視頻下方是課本圖片和數據化的文字，對人物實體添加鏈接，點擊實現跨媒體檢索。右下是字幕檢索區，顯示了字幕第一幀、時間和文字。

為提高跨媒體檢索的準確率，根據對白特點對人物實體添加了檢索別名。人物實體名詞、別名和人臉識別三者的語義一致，采用“或”關系查詢提高了檢索準確率。在《建軍大業》中“毛澤東”的別名為“潤之”，檢索字幕查詢到12 條，檢索別名返回4 條，檢索人臉返回139 條，總計155 條，總數與獻禮電影主題一致，角色戲份代表領袖人物的歷史地位。在數據化的電子課本中對重要實體添加超鏈接，實現從電子書文字檢索視頻e-book2video，解決了中小學影視教育中與教材關聯的視頻片段查找難題。

使用人物詞云和字幕詞云導航檢索，實現點擊鼠標代替鍵盤輸入，并提供了對視頻的概覽理解。對單片視頻字幕文本分詞、統計詞頻，生成字幕詞云導航檢索，參見圖10，點擊詞條返回跨媒體協同檢索結果。

6.3 綜藝融媒視頻《中國詩詞大會》

《中國詩詞大會》在詩詞選擇上力求達到“熟悉的陌生題”，強化普及性，增強參與感和代入感，然而有詩詞專家認為摘句尋章有明顯不足，影響整首詩詞的文化意蘊和藝術奧妙表達。

本節以《中國詩詞大會》1-5 季共50 集視頻為例，通過字幕提取（Subtitle 表），融合全唐宋詩詞庫（Poem表，33.2 萬）、中小學語文課本（Ebook 表，22 本）、哈佛大學的中國歷代人物傳記資料庫（抽取了詩人子集構建CDBDPoet 表，1.24 萬詩人），通過字幕實現視頻與知識庫的跨庫協同，構建了一種富信息融媒綜藝視頻，參見圖10(b)，視頻播放時下面顯示與字幕詩句同步的整首詩詞和詩人作品，以知識補全解決視頻節目中摘句尋章的不足，提供跨媒體關聯理解。

6.4 互聯網科技融媒紀錄片

紀錄片是典型知識密集型視頻。以《互聯網時代》為例，匯聚全球14 個國家互聯網領域200 多位重要人物觀點，形成宏觀視角、全景式描繪，極具重復學習和反復使用價值，然而線性檢索限制了傳播，查找文字和人物都非常困難。

本節對紀錄片提取字幕和對重要人物做人臉識別，實現視頻的非線性檢索。從維基百科抽取了計算機科學家實體做知識增強，寫入Entity表，用電子書全文對視頻提供跨媒體的佐證和補充。

6.5 基于眾包的數據校正

盡管字幕文字查全率超過95%，電子書識別率超過98.5%，但是錯誤率需要低于出版標準的0.01%。本節采用基于眾包的人工校對和審核，采用多數人投票原則，即2人以上修改相同自動審核通過，不足2人的修改等待管理員人工審核。

6.6 知識庫管理

對人物實體的增刪改查，設計了數據管理模塊。依據數據來源的權威性，按照課本、教師用書、思知知識圖譜和CDBD 的順序修改，并盡可能提供數據來源說明。對于詩人、詩詞設計了增刪改查管理，擴充唐朝以前的詩詞、明清詩詞和毛澤東詩詞等。

7 小結

本文融合字幕識別、人臉識別、電子書識別，實現對影視視頻的內容理解、非線性檢索和知識增強，構建了一個跨媒體協同的視頻融媒播放系統。主要工作包括：(1) 提出了一種基于多統計特征的字幕提取方法；(2) 設計了以字幕格式為基準的人物和字幕協同的非線性影視檢索方法，解決視頻內容檢索難題，通過視頻溯源課本，通過課本概念定位視頻起點；(3)實現了知識庫和電子書協同檢索和知識增強的融媒影視播放系統，解決視頻信息補全問題，實現視頻與多源知識庫的跨媒體檢索。本文的研究可用于影視作品制播后的深度開發和傳播，并提供了一種教育教學中應用影視視頻的便利形式，也可為主流媒體的融媒體全媒體傳播賦能。

跨庫檢索的難題是語義對齊，本文基于隱形的跨媒體公共子空間實現了協同檢索，后續將構建顯性的多種媒體資源公共子空間以實現跨媒體關聯檢索。