洪濤



摘要:國內IPTV業務發展迅速,運營商掌握了巨量的視頻數據,對視頻數據的高效分析、利用,可以提高用戶體驗,為廣大用戶以及社會各界提供更優質服務。基于語義的視頻檢索技術,可以使視頻數據結構化,實現高層語義與低層視覺特征映射,應用前景廣闊,或將成為運營商高效管理視頻數據的必要手段。
關鍵詞:智能管道;高層語義;視頻檢索;特征提取;深度學習;大數據
中圖分類號:TN914 文獻標識碼:A 文章編號:1007-9416(2017)05-0113-04
A Survey of Semantic-based Video Retrieval
Hong Tao
(Fuzhou Rockchip Electronics Co., Ltd, Fuzhou China,Fuzhou Fujian 350003)
Abstract:Operators own a huge amount of video data because of the rapid development of IPTV. By analyzing and utilizing the video data efficiently, operators can provide high-quality service for the majority of users and the community with better user experience. The semantic-based video retrieval technology can structure video content data efficiently, implement the high-level semantics and low-level vision features mapping. It has prospect applications and may become a necessary means of video data to the management of operators.
Key Words:intelligence pipeline;High-level Semantics;Video Retrieval;Feature Extraction;Deep Learning;Big Data
1 概述
工信部官網發布的統計公報顯示,我國IPTV全網用戶已達8673萬戶[1]。運營商在進行管網升級改造的同時,也在積極的拓展大視頻服務,基于視頻的增值服務業務逐步獲得終端客戶的青睞。但前行之路仍有挑戰,海量的多媒體資源如何更高效,更經濟的存儲、檢索,如何提升用戶體驗,如何發展行業視頻應用,如何完成管道智能化轉型,都亟待運營商去解鎖。
基于語義的視頻檢索融合了圖像處理、計算機視覺、圖像理解等技術,根據視頻內容的上下文關系,引入新的媒體數據表示和數據模型描述非結構化的視頻內容,建立低層視覺特征與高層語義的映射,從而填補低層視覺特征與高層語義之間的“鴻溝”[2],具備高效分類,系統結構可靠以及人機界面友好等技術特點[3]。基于語義的視頻檢索系統,可以接受自然語言指令,提供更精確的檢索結果,運用該項技術可以幫助運營商加速管道智能化轉型,快速提升用戶體驗。
2 基于語義的視頻檢索技術應用
基于語義的視頻檢索技術具有廣闊的應用前景,列舉若干領域的應用。
2.1 智能化搜索應用
目前的搜索引擎多是反饋通過標簽匹配到的結果,人工標注后的視頻信息,才有可能匹配。用戶體驗差,對用戶的操作水平要求也較高,不適合老人、兒童使用。基于語義的視頻檢索系統,人們可以使用自然語言發出檢索命令,通過視頻的語義信息檢索具有相同語義的視頻,檢索視頻結果更接近用戶期望,人機互動更人性化,搜索動作更簡便,提升用戶體驗。例如用戶語音發出指令,搜索“葡萄酒”,基于語義的檢索系統不但可以為用戶搜索到以“葡萄酒”命名的視頻,還能搜索到電影中人們飲用“葡萄酒”的視頻片段,甚至可以根據“葡萄”種類對檢索結果進行分類。
2.2 智慧化城市應用
智慧化城市作為一個生態系統,感知是重要的部分[4],以視頻監控為基礎搭建的感知物聯網是數據收集的重要節點,而如何對海量的監控數據進行存儲、檢索、分析成為當前技術研究的熱點。基于語義的視頻檢索技術,可以從海量視頻信息中,獲取人、車、物的非結構化信息,通過對信息的特征提取,自動化標注,實現對特定對象的快速、準確的檢索、跟蹤,結合百萬物聯網傳感器數據,真正的實現“萬物皆互聯”[5]。在城市的治安、交通、醫療、教育等眾多領域發揮重要作用。
2.3 廣告智能投送應用
基于視頻的廣告投放存在兩個問題:一個在影視作品拍攝過程中,廣告需要前期投入,而影視作品是否能夠成功不得而知,投資有很大風險;另外,投放的廣告一般在視頻正片的開頭結尾加,或者在視頻播放過程中打斷視頻正片強制加廣告。終端用戶整體抱怨廣告多,廣告投放收益很低,甚至起到反作用。愛奇藝公司使用基于語義的視頻檢索系統實現了廣告智能投放,如圖1所示。廣告商可以根據影視作品的受歡迎程度以及作品的受眾,精準的把握消費者定位,實時地選擇合適的影視作品進行廣告投放。視頻檢索系統,將視頻場景中物品與廣告商品進行匹配,相似度高的物品,可以替換成產品或者打上品牌商標,廣告與視頻場景完全融合,不影響用戶的觀影體驗。同時,如果用戶希望搜索相關產品時,只要將交互焦點移動到物體上,檢索系統迅速提供購買鏈接[6]。既降低了廣告投放成本,又方便了終端用戶選擇,提高了用戶體驗。
2.4 體育教學智能應用
體育視頻分析對于運動員訓練是非常重要的,傳統的體育教學過程中,需要以人工標注的方式,對視頻中的場景特征、場地特征、人物特征、特定動作、姿態分析等進行整理,相關數據的存儲、檢索存在較大困難,數據的分析也因教練員、運動員理解水平層次不齊。使用基于內容的視頻檢索系統,可以對訓練錄像進行鏡頭分割、特征提取,特征聚類計算,視頻疊加對比,從而實現場景分類、人物分類、精彩提取、特定動作智能化標注,并形成特征數據庫,對變化的特征數據進行自動跟蹤和計算,大大節省了人力資源,提高了學習效率。如圖2所示,RockChip與某體育衛視合作,以深度學習技術為基礎,提取場地、球員底層視覺特征以及鏡頭運動特征信息,并結合籃球常規戰術,實現錄像視頻自動標注籃球戰術功能,節省了球員的學習成本,提高了效率。endprint
2.5 智能化農業信息管理
現代化農業的目標就是盡一切降低生產成本,提高經濟效益[7]。視頻檢索技術也廣泛應用在現代化農業耕作各個環節。例如:深圳大疆創新科技有限公司基于ROCKCHIP-RK3288 開發了無人機精準噴灑解決方案,如圖3所示。無人機攜帶彩色成像儀以及GPS、風向、溫度、濕度等眾多傳感器,對水稻田進行視頻掃描。多媒體處理單元對視頻進行鏡頭分割、目標背景分離、特征提取(顏色、紋理、株高、葉片形狀),并融合各個傳感器數據,通過4G網絡上傳至云端分析系統分析系統針對視頻特征對稗草、莎草、雨久花、水稻病株等常見雜草進行識別歸類,結合GPS信息進行面積計算,繪制出雜草分布圖和無人機根據分布圖,并針對雜草分布面積、雜草種類進行精確的農藥噴灑,可以有效降低農藥使用量和減少生態環境污染。
3 視頻搜索關鍵技術簡述
3.1 視頻檢索系統的基本原理
非結構化視頻數據按語義概念可以抽象表示成 4 層,自上而下分別是視頻層 、場景層 、鏡頭以及關鍵幀[8],如圖4所示。場景是相鄰的連續鏡頭序列,是語義分析的最小單位。場景中的鏡頭在語義、時間上是相關聯的,比如人們可以理解的高層語義“灌籃”,“飛機降落”等;鏡頭由連續視頻幀組成,視頻幀之間在時間、空間上很強的相關性;關鍵幀是能夠反映一個鏡頭主要內容的視頻幀。
基于語義的視頻檢索, 即對視頻關鍵內容進行特征提取,并結構化描述的過程。圖5所示,描述了特征提取的主要過程。首先利用鏡頭自動檢測技術將視頻分割成各個鏡頭,并在鏡頭中提取最具內容代表性的關鍵幀。特征提取則是在關鍵幀中提取視覺特征和鏡頭的運動特征。視覺特征主要包括顏色、紋理、形狀等低層視覺特征。運動特性主要包括鏡頭的運動變化、 觀察目標的大小變化,觀察目標運動軌跡等動態特征。特征的結構化描述是對特征進行聚類、標注、排序以實現低層特征與高層語義的映射[9]。最終,用戶可以通過更自然的方式檢索視頻。檢索系統的整體模塊圖如圖6所示。下面將就其一些關鍵技術進行分析介紹。
3.2 鏡頭分割
鏡頭分割是在連續鏡頭中找到相鄰兩個鏡頭邊界的過程。鏡頭邊界分類主要有突變和漸變兩種方式。鏡頭分割技術經過十幾年的發展,檢測方法較為成熟。因為目前視頻多為壓縮的,所以常用的方法多是以壓縮域視頻DCT系數檢測為基礎,通過比較相鄰視頻幀的DC系數,并采用優化預測模型判斷鏡頭邊界[10],該類方法具有檢測計算量少、識別率高特點,適用于嵌入式平臺。
3.3 關鍵幀提取
關鍵幀提取依據鏡頭內容的復雜程度選擇一個或多個關鍵幀代表鏡頭。關鍵幀提取方法也較成熟。常用的方法有:把鏡頭的首尾幀選作關鍵幀的方法[11];利用幀的直方圖進行比較,選擇變化最大的或者選擇最接近直方圖均值的方法[12];通過圖像關鍵對象進行提取的方法[13]等。
3.4 視頻特征提取
特征提取可分為提取關鍵幀視覺特征和提取鏡頭的運動特征。關鍵幀視覺特征,主要包括顏色、紋理、形狀等較底層的視覺特征。在視頻的底層視覺特征中顏色是最穩定、最顯著的特征,顏色特征定義明確,分析算法較多,抽取最容易,應用廣泛。常用的顏色特征有顏色直方圖、顏色矩、顏色集等。
運動特征是視頻數據有別于其他媒體數據的重要特征。早期采用塊匹配的方式提取運動矢量[14],隨后采用光流法做運動估計[15],后續主流的特征提取方法是由法國國家信息與自動化研究所提出的密集軌跡方法[16-17]。最近幾年利用深度學習技術提取運動特征成為研究的主流方向,當前的難點是視頻中長段運動信息識別不足的問題。
3.5 基于語義特征的匹配
常用的語義特征有:描述顏色、紋理、結構、形狀、運動等感知信息的底層視覺特征語義;描述視頻中人物、動物、物體等信息的對象語義;描述視頻中具體事物間空間關系的空間關系語義;描述人物情感變化的情感語義;描述事物周邊環境的場景語義;描述具體對象行為表現的行為語義等。目前,主流的匹配方法是基于機器學習的方法提取底層特征,并完成底層特征與語義的映射。應用于圖像語義映射的技術已有很多,主要包括:貝葉斯、卷積神經網絡、遺傳算法、聚類、支持向量機等[18]。
4 結語
運營商發展大數據業務具有天然優勢,電信領域中數以億計的用戶基數保證了數據的海量和多元性;基礎網絡的不斷擴容,視頻業務及支付業務等快速發展,又保證了數據的持續性以及增長速度。隨著多媒體和網絡技術的迅速發展,多媒體信息與日俱增,運營商對多媒體數據如何有效的分析,有效利用,更精確、高效的把握用戶需求,必將成為主要的發展方向。基于語義的視頻搜索,將視頻非結構化的數據,轉換成結構化特征信息,并對視頻特征聚類、標注、排序,填補了視覺特征與自然語言間的“鴻溝”,有著廣泛的應用前景,或將成為運營商實現管道智能化的必要技術手段,最終為廣大用戶以及社會各界提供高品質的服務。
參考文獻
[1]中國產業調研網.中國IPTV市場調研與發展前景預測報告[R].中國產業調研網,2016.
[2]張治國,劉懷亮,馬志輝等.基于高層語義的視頻檢索研究[J].計算機工程與應用,2007,43(18):168-170.
[3]徐梅.基于內容的圖像數據庫檢索技術分析[J].通訊世界,2016(6):277-278.
[4]顧冬明.物聯網、云計算構建智慧城市信息系統[J].信息系統工程,2016(11):27.
[5]趙麗.多語義非線性農業咨詢視頻檢索系統的研究和實現[D].西北農林科技大學,2015.
[6]王婷.大數據時代的精準網絡廣告投放——以愛奇藝“一搜百映”為例[J].現代視聽,2014(2):19-23.
[7]國務院.中華人民共和國國民經濟和社會發展第十一個五年規劃綱要第二篇簡述社會主義新農村[Z].2006.endprint
[8]彭宇新,NgoChong-Wah,郭宗明等.基于內容的視頻檢索關鍵技術[J].計算機工程,2004,30(1):14-16.
[9]吳飛,朱文武,于俊清.多媒體技術研究:2014——深度學習與媒體計算[J].中國圖象圖形學報,2015,20(11):1423-1433.
[10]蔡騁,王萍,林健文,等.基于時域局部線性預測的視頻鏡頭變換檢測[J].西安交通大學學報,2006,40(10):1060-1064.
[11]朱映映,周洞汝.一種從壓縮視頻流中提取關鍵幀的方法[J].計算機工程與應用,2003,39(18):13-14.
[12]Zhang H J,Wu J, Zhong D,et al.An integrated system for content-based video retrieval and browsing[J].Pattern Recognition,1997,30(4):643-658.
[13]Zhuang Y,Yong R,Huang T S,et al.Adaptive key frame extraction using unsupervised clustering[C].International Conference on Image Processing,1998.ICIP98.Proceedings.IEEE Xplore,1998:866-870vol.1.
[14]鐘玉琢,等.MPEG-2運動圖像壓縮編碼國際標準及MPEG的新標準[M],北京:清華大學出版社,2002.
[15]Horn BKP and Schunck BG.Determining optical flow,Artificial Intelligence[J].1981,17,185-204.
[16]Wang H,Klaser A,Schmid C,et al.Action recognition by dense trajectories[C].IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society, 2011:3169-3176.
[17]Wang H,Schmid C.Action Recognition with Improved Trajectories[C].IEEE International Conference on Computer Vision. IEEE,2013:3551-3558.
[18]陳秀新.基于內容的視頻檢索技術淺析[J].信息技術與信息化,2011(2):56-58.endprint