胡 燕
(國家知識產權局,北京 102206)
隨著互聯網和計算機設備的日益普及,尤其是近年來移動互聯網和具有視頻拍攝和播放功能的移動終端的廣泛使用,人們在工作、生活的方方面面都已經離不開包括網絡視頻在內的各類視頻,視頻的數據量也隨之呈爆炸式增長,視頻信息開始變得過載。因此,視頻提供者如何提高視頻的有效性、可用性及可訪問性,視頻使用者如何迅速地獲取所需要的視頻數據,并高效地從中獲得所期望的信息或用戶體驗,成為一個亟待解決的問題。視頻摘要技術正是解決這個問題的一項重要手段。
視頻摘要是在20世紀90年代被提出的一個概念,是指利用計算機技術分析視頻結構、理解視頻內容,并從原始的多媒體數據中選取具有代表性的、有意義的部分,將它們以某種方式組合并生成緊湊的、用戶可讀的原始視頻的縮略。視頻摘要一般可依據最終的呈現形式分為靜態(tài)視頻摘要和動態(tài)視頻摘要。靜態(tài)視頻摘要又稱關鍵幀集,由原始視頻中具有代表性的圖像幀組成,以直接、分層或縮放的方式進行組合;動態(tài)視頻摘要是從原始視頻中選取可表達語義內容的視頻片段拼接編輯得到[1]。
本文針對目前視頻摘要的技術進行專利檢索,結合對檢索結果進行分析來探討視頻摘要技術在中國的專利布局、技術發(fā)展現狀和趨勢,以期為相關科研人員的研發(fā)提供參考。本文采用中國專利摘要數據庫(CNABS)進行檢索,之后對檢索結果進行人工瀏覽降噪。本文檢索時間截止2022年7月23日,共獲得882件視頻摘要技術領域的專利申請。
圖1為視頻摘要專利申請量年度變化趨勢圖。在該技術領域,最早的中國專利申請出現在1997年,基本與國際同步。該領域的專利申請量整體呈上升趨勢:在2011年以前較為平穩(wěn),屬于平穩(wěn)發(fā)展期,每年的專利申請量不超過20件;從2011年開始,專利申請量突飛猛進,進入了爆發(fā)式發(fā)展期,2015年的專利申請量已高達94件;2015年之后,每年的專利申請量有所波動,但是依然維持在70件以上,仍處于快速發(fā)展期(由于2021年、2022年申請的專利申請僅公開了一部分,因此,2021年、2022年的專利申請量數據不完整)。從歷年的發(fā)展趨勢來看,視頻摘要技術的相關專利申請數量仍會不斷增長。

圖1 視頻摘要技術領域專利申請量年度變化趨勢圖
1.2.1 申請人分布情況
圖2顯示了視頻摘要技術領域專利申請量排名前15位的專利申請人的排名情況,從中可以看出申請量排名靠前的以企業(yè)為主,排名前14位的均為企業(yè),高校和科研院所中僅有天津大學入圍,排名第15位。其中,三星的申請量達到了30件,位列第一名,其次是騰訊和索尼,分別擁有23件和22件申請。在這些專利申請人中,8個是國外申請人,7個是國內申請人,國內外申請人數量基本持平。

圖2 視頻摘要技術領域專利申請量排名情況
1.2.2 主要申請人的專利技術分析
1.2.2.1 三 星
三星集團于1938年成立于韓國,是全球知名的、韓國最大的跨國企業(yè)集團。三星的業(yè)務涉及電子、金融、機械及化學等眾多領域。三星在視頻摘要方面申請的專利涉及多方面的改進,包括運動視頻集錦、與用戶意圖相結合、視頻搜索等,舉例如下。
CN1658663A提供一種用于對多個幀進行摘錄的方法和設備,其根據幀的相似性來將多個幀分類,并通過從分類后的幀中選擇代表幀來輸出幀摘要,以便通過執(zhí)行將多個靜止圖像或視頻流概括為某個數目的幀的功能,來解決傳統(tǒng)問題并為圖像再現設備的用戶提供便利[2]。
CN103856833A提供一種視頻處理方法和設備。該方法包括:在捕捉或顯示第二視頻時捕捉用戶的至少一個圖像;從用戶的至少一個圖像識別用戶的面部,并分析用戶的面部特征;基于分析的用戶的面部特征,提取用戶的面部的面部表情因子以計算估計值;記錄將被映射到第二視頻的時間線的估計值;基于估計值從第二視頻提取部分視頻以產生第二視頻的視頻摘要。該方法生成的視頻摘要可以準確反映用戶意圖[3]。
CN104123396A涉及一種基于云電視的足球視頻摘要生成方法及裝置。該方法包括:對足球視頻進行實時精彩度分析,確定精彩視頻片段,將精彩視頻片段上傳至云端,形成視頻摘要。該方法能夠將實時視頻摘要與Cloud PVR技術結合起來,減輕網絡及云端壓力[4]。
CN104636413A提供一種視頻搜索系統(tǒng)和方法。該方法包括:從原始視頻提取與搜索條件匹配的視頻數據;基于提取的視頻數據產生摘要視頻,按照原始視頻中的對象出現順序以重疊方式在背景模型上渲染摘要視頻中的多個對象,并顯示渲染的對象。該方法允許用戶方便地進行視頻搜索[5]。
1.2.2.2 騰 訊
騰訊公司成立于1998年,總部位于深圳,是一家世界領先的互聯網科技公司。其通信和社交服務業(yè)務覆蓋了逾10億人,其業(yè)務還包括電子游戲及其他數字內容的發(fā)行、云計算、廣告以及金融科技等企業(yè)服務。在視頻摘要領域,騰訊的專利申請主要涉及節(jié)目預覽和與機器學習相結合方面的改進,舉例如下。
CN101308501A提供一種生成視頻摘要的方法、系統(tǒng)及設備。該方法在生成視頻摘要的過程中,首先求取每個視頻幀的特征向量,并通過分級聚類方式篩選出跳躍時間點序列,再基于跳躍時間點序列提取對應的視頻幀組成視頻摘要,從而可覆蓋盡可能多的鏡頭且視頻幀之間畫面差異性最大,增強了視頻摘要的信息完備性。另外,該方法對視頻類型無要求,提高了技術應用的普適性[6]。
CN108419145A涉及一種視頻摘要的生成方法和裝置以及計算機可讀存儲介質。該方法可以獲取待處理的目標視頻,目標視頻包括連續(xù)多個的圖像幀;使用圖像分類預測模型對連續(xù)多個的圖像幀進行識別,從連續(xù)多個的圖像幀中識別出至少一個目標圖像幀,圖像分類預測模型使用屬于預設目標類型的畫面樣本和不屬于預設目標類型的畫面樣本通過機器學習算法完成模型訓練;從目標視頻中分別截取至少一個目標圖像幀對應的視頻片段,視頻片段包括目標圖像幀以及與目標圖像幀相鄰的圖像幀;根據截取到的至少一個目標圖像幀對應的視頻片段,生成目標視頻的視頻摘要,視頻摘要包括視頻片段。該方法可以提高視頻摘要的處理速度,實現視頻摘要的快速生成[7]。
CN103546828A涉及一種節(jié)目預覽的生成方法和裝置。該方法根據預先設置的生成節(jié)目預覽所需的預覽片段的數量和原始節(jié)目的總時長,設置預覽片段之間的時間間隔;根據時間間隔,從原始節(jié)目中提取預先設置的預覽片段的數量的預覽片段;將提取出的預先設置的預覽片段的數量的預覽片段組合,生成節(jié)目預覽。該方法摘取了完整的節(jié)目信息,從而使得這個節(jié)目預覽在情節(jié)上具有一定的連貫性和完整性[8]。
CN109803180A描述了一種視頻預覽圖生成方法、裝置、計算機設備及存儲介質。該方法獲取視頻的字幕文件,字幕文件包含視頻的各句臺詞以及各句臺詞各自的展示時間段;根據字幕文件,從視頻中提取各句臺詞分別對應的圖像幀;根據各句臺詞分別對應的圖像幀的展示時間順序以及相鄰圖像幀之間的圖像差異度,對各句臺詞分別對應的圖像幀進行分組,獲得至少一個圖像幀組;生成每一個圖像幀組對應的臺詞拼接圖片,根據臺詞拼接圖片生成視頻預覽圖。該方法生成的視頻預覽圖對視頻內容具有較好的展示效果,能夠顯著地提高生成的視頻預覽圖的準確性[9]。
1.2.2.3 索 尼
索尼集團公司于1946年成立于日本,是一家全球知名的大型綜合性跨國企業(yè)集團。索尼的業(yè)務主要涉及電子、娛樂、金融及信息技術等。索尼的專利申請主要涉及節(jié)目索引以及目標對象檢測方面對視頻摘要技術進行的改進,舉例如下。
CN102981733A涉及一種信息處理裝置和方法。該方法利用用戶界面顯示控制單元來顯示圖像庫中的各個出現的素材。顯示內容包括:按照空間關系將各個出現的素材顯示在顯示器上,接收輸入到用戶界面顯示控制單元的空間關系的變化;響應于接收,改變各個出現的素材之間的相應關系值。該方法能夠自動地播放通過收集出現與在運動畫面中出現的人物中的指定人物相關的人物的場景來獲得的文摘電影[10]。
CN102857810A提供一種信息處理設備和方法。該方法獲取用于指示每一個目標對象出現在視頻中的出現區(qū)間的區(qū)間元數據;利用區(qū)間元數據來顯示區(qū)間信息,區(qū)間信息可視地表達在構成視頻的所有區(qū)間中出現每一個目標對象的區(qū)間;在用戶從被顯示作為關于特定目標對象的多個區(qū)間信息的各區(qū)間中選擇了一個區(qū)間的情況下,再現所選擇的區(qū)間的視頻幀。該方法可以提供利用高度精確的元數據來執(zhí)行內容再現控制的應用[11]。
CN101847205A提供一種圖像處理裝置、圖像處理方法和程序。該方法生成用于再生可被分為多個區(qū)間的圖像內容的源信息,將多個區(qū)間中的每一個設定為目標區(qū)間,從目標區(qū)間中生成靜止圖像,確定被確定連續(xù)出現在目標區(qū)間之前的至少一個區(qū)間中的特定人物的面部是否包含在從目標區(qū)間中生成的靜止圖像中;基于對多個區(qū)間的每一個獲得的確定結果,將特定人物的面部連續(xù)出現在其中的至少一個區(qū)間指定為面部區(qū)間,并生成關于面部區(qū)間的信息作為源信息的一項。該方法可以將用于展現動畫內容中出現的人物和人物位置的源信息提供給用戶,以便用戶容易地了解和識別他們[12]。
CN101329766A涉及一種運動圖像分析裝置、方法及系統(tǒng)。該方法讀入運動圖像,從運動圖像的各幀圖像中提取關注區(qū)域,在關注區(qū)域內或與關注區(qū)域相鄰的區(qū)域內提取對象特征,根據圖像的色彩特征、關注區(qū)域的對象特征以及運動信息在各幀圖像之間的差別來檢測鏡頭剪接。該方法可以除去根據色彩分布特征和關注區(qū)域的尺寸特征而誤檢測出的鏡頭剪接,提高鏡頭剪接的檢測精度[13]。
1.2.2.4 華 為
華為技術有限公司成立于1987年,總部位于深圳,是全球領先的信息與通信基礎設施和智能終端提供商,業(yè)務遍及170多個國家和地區(qū)。華為的業(yè)務涵蓋了無線接入、固定接入、核心網、數據通信及終端等諸多領域。在視頻摘要方面,華為的專利申請主要涉及摘要生成效率和在線預覽方面的改進,舉例如下。
CN103210651A提供一種視頻概要方法和系統(tǒng)。該方法將視頻劃分成多個視頻鏡頭,對來自多個視頻鏡頭的一個視頻鏡頭中的每個幀進行分析,確定視頻鏡頭的每個幀的顯著性,基于視頻鏡頭的每個幀的顯著性確定視頻鏡頭的關鍵幀,從關鍵幀中提取視覺特征,基于視覺特征對多個視頻鏡頭執(zhí)行鏡頭聚類以確定概念模式,使用顯著性調諧方法來融合不同的概念模式,基于全局優(yōu)化方法生成視頻的概要。該方法可以在保留視頻精彩場景的同時,實現足夠的信息覆蓋[14]。
CN101013444A涉及一種自適應生成足球視頻摘要的方法和裝置。該方法接收輸入的足球視頻流,應用基于滑動平均窗幀差的鏡頭邊界檢測方法對足球視頻流進行鏡頭邊界檢測,得到鏡頭集;應用基于子窗口區(qū)域的鏡頭分類方法將鏡頭集進行鏡頭分類,對已經分類的鏡頭集進行精彩鏡頭檢測,將檢測到的精彩鏡頭作為視頻摘要輸出。該方法能夠提高足球視頻摘要生成的效率以及準確率[15]。
CN102576248A提供一種用于在線媒體預覽的系統(tǒng)和方法。該方法從媒體文件的某個分段中提取一幀作為預覽幀,將若干個預覽幀存儲在若干個層中,向用戶傳輸媒體文件和若干個預覽幀。該方法提供了移動預覽功能,能夠將預覽擴展到整個視頻,而不僅僅是視頻的已下載部分[16]。
CN101431689A提供一種生成視頻摘要的方法及裝置。該方法接收視頻文件,對視頻文件的視覺精彩度進行處理,對視頻文件的聲音精彩度進行處理,將滿足視覺精彩度和聲音精彩度的關聯鏡頭組聚合成視頻片段。該方法對視頻文件的視覺精彩度、聲音精彩度進行處理,減少了特征種類,降低了計算復雜度,提高了視頻摘要生成的效率和準確率[17]。
1.2.2.5 百 度
百度公司于2000年1月1日創(chuàng)立于中關村,是全球最大的中文搜索引擎公司、國際知名的大型科技互聯網公司。百度在深度學習技術、智能語音、自然語言處理、自動駕駛、知識圖譜及智能推薦等多個領域處于世界領先水平。百度在視頻摘要方面申請的專利主要涉及在線預覽、個性化推薦等,舉例如下。
CN103634605A提供一種視頻畫面的處理方法及裝置。該方法獲得當前視頻的信息,根據當前視頻的信息截取當前視頻的關鍵畫面,關鍵畫面包括帶有完整字幕的視頻幀畫面;對關鍵畫面進行排序,生成畫面庫;接收播放請求,根據播放請求從畫面庫中讀取對應的關鍵畫面進行播放。該方法在節(jié)省流量的同時,保證了在網絡卡頓的情況下,用戶能夠對視頻進行預覽,以使用戶快捷、方便、完整地了解劇情[18]。
CN109218835A提供一種精華視頻的生成方法、裝置、設備及存儲介質。該方法獲取影視劇的劇情簡介中的劇情關鍵詞,根據劇情關鍵詞,獲取劇情關鍵詞對應的第一劇情片段;獲取熱度滿足預設條件的第二劇情片段,第二劇情片段不同于第一劇情片段;根據第一劇情片段和第二劇情片段生成精華視頻。該方法能夠獲得拼接自然、劇情發(fā)展合乎邏輯且包括熱度較高的劇情片段的精華視頻[19]。
CN109743589A提供一種文章生成方法及裝置。該方法獲取視頻以及對應的語音,對語音進行識別,得到各個句子;獲取各個句子的特征信息,根據特征信息對各個句子進行段落劃分,得到段落序列;針對段落序列中的每個段落,獲取段落中的關鍵句子;獲取關鍵句子對應的時間段,從視頻中時間段對應的視頻段內選擇關鍵視頻幀作為段落對應的圖片;根據段落序列中的各個段落以及對應的圖片生成文章。該方法使得用戶容易選擇到想要觀看的視頻,提高了視頻播放效率[20]。
CN113660541A提供一種新聞視頻的摘要生成方法及裝置。該方法獲取新聞文本庫和待生成摘要的新聞視頻,對新聞視頻識別標題得到原始標題,對新聞視頻提取摘要得到新聞視頻的原始摘要;根據原始標題、原始摘要,在新聞文本庫中檢索得到至少一篇候選新聞文本;根據原始摘要、原始標題與至少一篇候選新聞文本的相似度,從至少一篇候選新聞文本中確定目標新聞;根據目標新聞,生成新聞視頻的摘要。該方法有效提高了新聞視頻摘要生成的準確度[21]。
在當前信息時代,視頻摘要技術可以降低人們在海量的視頻信息中判斷和獲取所需要的信息的成本。因此,該技術的提升蘊含著巨大的社會價值和商業(yè)價值。為此,專利申請人們已經圍繞視頻摘要技術進行了大量的研究。最近幾年,該領域的專利申請量增長尤為顯著。由此可見,視頻摘要技術已經是業(yè)內的一個熱點。
從歷年專利申請量的變化趨勢來看,國內視頻摘要技術相對國外來說基本同步且發(fā)展速度較快。從對專利申請人的分析來看,申請量排名靠前的以企業(yè)為主,可見,企業(yè)對視頻摘要技術的發(fā)展發(fā)揮了主要推動作用。申請排名靠前的申請人中,國內、國外申請人占比基本持平,國內申請人主要是以騰訊、華為、百度等為代表的國內高新科技企業(yè),國外申請人主要是以三星、索尼、微軟等為代表的大型跨國企業(yè)。從中可以看出,在該領域的專利布局中,國內企業(yè)與國外企業(yè)不相上下,勢均力敵。
視頻摘要方面的大多數專利申請主要涉及關鍵幀的選取,例如,根據不同的應用場景選擇更合適的特征或屬性進行提取以及采用更合適的摘要算法。此外,還包括使摘要更個性化,例如根據用戶的偏好信息來生成視頻的標題。近年來,公共場所和家用視頻監(jiān)控設備的數量均大幅增加,因此業(yè)界在主要應用于安防場景的視頻摘要技術,即利用視頻摘要對異常事件進行檢測、搜索和回溯的技術方向上投入了較多的研發(fā),并有一定數量的專利申請。
最近,隨著機器學習技術的迅猛發(fā)展,專注于與深度學習算法相結合的視頻摘要技術也開始在專利申請中涌現,如使用卷積神經網絡、循環(huán)神經網絡等模型來進行分類和預測。一些與以BERT模型為代表的預訓練技術、知識圖譜技術相結合的視頻摘要的專利申請開始出現。盡管目前涉及這兩個新興技術點的專利申請還不是很多,但也體現出未來的技術發(fā)展趨勢。
視頻摘要技術是當前的熱點研究領域,已經取得了很大的進步,但仍然存在很多的困難與不足,例如,針對數據量大的數據集處理速度慢,模型訓練時間長,對數據要求較高,連貫性有待提高等等。或許,進一步改進深度學習算法,針對不同的場景進行更加具有針對性的調整能夠改善上述問題。期待開發(fā)出性能更優(yōu)、更貼合用戶需求的視頻摘要技術。