摘要:針對多媒體情報處理的現狀,指出了多媒體情報處理過程中需要解決的主要問題,并在此基礎上將多媒體情報的處理流程劃分為多媒體情報收集、情報處理、情報服務三個階段。以新聞視頻為例對多媒體情報系統的體系結構進行了詳細設計,重點設計了其中的多媒體情報處理與情報服務子系統,并對其中涉及的部分關鍵技術進行了研究。
關鍵詞:多媒體; 情報處理; 情報服務; 體系結構
中圖分類號:TP391
文獻標志碼:A
文章編號:1001-3695(2008)06-1773-03
隨著多媒體技術的發展,多媒體情報日益增多。與傳統的文本數據不同,多媒體數據具有數據量大、數據結構復雜、數據內容豐富等特點,因此難以直接對其進行查詢與檢索。隨著未來多媒體情報資料的逐步增加,需要著重解決兩個問題:a)建立數字化的多媒體情報處理與管理系統體系。目前多媒體情報的處理仍然以模擬數據為主,從采集、處理、加工到存貯都是圍繞模擬的形式進行。隨著時間的推移,面對堆積如山的錄像帶、錄音帶,長期保存和快速檢索所需的信息越來越困難。因此,迫切希望能夠實現多媒體情報處理與管理過程的全數字化。b)對多媒體數據的內容進行有效的處理與管理。從實際需求來看,對多媒體數據的內容要求能夠進行自動或半自動的處理,如結構化分析、內容分析、語義分析、摘要生成等,并能夠對其實施有效的管理,如存儲、海量索引,以便用戶能通過良好的接口快速獲取相關情報信息。
新聞視頻作為一種公開的情報資料,不僅易于獲取而且含有豐富的情報信息。本文以新聞視頻為例,設計多媒體情報系統的體系結構。
圖1是多媒體情報處理系統的流程示意圖。由圖1可見,多媒體情報處理大致需要經歷三個階段:a)情報的收集階段。該階段的目標是收集有用的多媒體情報源數據。b)情報的處理階段。該階段通過對視音頻內容以及文檔內容的綜合分析,對多媒體情報進行分析與處理,獲取部分的語義內容。c)情報的服務階段。該階段將分析處理后的多媒體情報以可視化的形式進行表現,并為用戶提供一種可以選擇、組織、協調和定制的個性化工具,實現用戶的瀏覽、檢索、預警等多種情報信息服務。
1多媒體情報系統體系結構
眾所周知,單一的某個技術如果能在一個統一的框架下進行綜合集成,將更好地發揮其效能。筆者希望能夠提供一個開放的、可擴展的體系結構以解決不同媒體的處理、索引、檢索與表現問題,從而一方面增強媒體中抽取出信息的可重用性;另一方面允許單獨的媒體信息處理與抽取以及多重的媒體內容的傳輸與表現。舉個簡單的例子,從媒體處理的角度而言,從新聞視頻中抽取出的標題字幕不僅可以用于視頻摘要,而且還可以用于視頻故事單元的分割;抽取出的人臉不僅可以用于表現重要的視頻內容,而且還可以結合字幕或文本進行人物的識別;從媒體服務角度而言,按照重要度規則生成的媒體摘要不僅可以用于媒體的瀏覽,而且還可以用于媒體檢索等。
事實上從各種媒體中抽取出來的內容是極其豐富的,包括視頻流、場景、攝像機運動、文本、人臉、對象以及語音文檔等;使用的處理技術也千差萬別,如語音識別、OCR識別、字幕探測、人臉探測等。這些技術雖然各不相同,抽取出的內容也不同,但它們都具備一個共同的特征,即在媒體處理與服務系統中的生命周期是相似的,都需要經過特征的抽取、存儲、索引、檢索與表現等各個階段。這些模塊之間并非彼此孤立,而是相互之間存在關聯。如何獲取它們之間的關聯,如何利用這種關聯實現多個模塊之間的協作以提高多媒體服務的性能是需要考慮并解決的一個問題。要實現多個模態之間的協作,需要建立一個統一的框架,使得各個模塊開發者之間可以方便地理解、溝通并交換信息,從而增加信息的可重用性,并最大限度地發揮各個模態的性能。
圖2是本文設計的多媒體情報系統體系結構圖。整個系統由兩部分組成,即多媒體情報處理子系統和多媒體情報服務子系統。其中,多媒體情報處理子系統主要負責媒體中各種模態的處理,這部分工作由模態處理器離線完成,處理后的結果統一存儲在數據庫中。用戶編輯器可以對數據庫進行在線的編輯處理,索引/過濾器則負責完成數據庫的索引與過濾功能。多媒體情報服務子系統主要提供多媒體信息的各種服務,包括瀏覽、檢索、情報摘要、個性化定制以及對各種設備(如PC機、網絡以及無線環境等)的自適應服務,情報處理與情報服務這兩個子系統之間通過數據庫進行溝通。特別需要指出的是,圖2所示的體系結構圖只是示意性地說明了文本與視頻這兩種模態的處理、索引/過濾以及服務的過程,而事實上需要處理的模態還很多,包括圖像、音頻等。采用這樣的設計將保證系統的可擴充性,隨著新模態的不斷加入,整個系統將逐漸趨于充實與完善。以下將分別對這兩個子系統的結構進行詳細的設計與說明。
1.1多媒體情報處理子系統結構
圖3是多媒體情報處理子系統的結構圖。多媒體情報處理是多媒體內容提取的一個關鍵。對于不同的模態而言,信息抽取的方法不盡相同。例如,對于場景模態,需要采用場景探測的方法;對于人臉模態,需要采用人臉識別的方法,等。這些不同的模態處理方法之間如果能夠進行很好的協作,將大大提高媒體處理的性能。筆者認為,在多媒體情報處理階段,模態之間的協作主要體現在信息交換層。具體包括兩個方面,即不同模態之間信息的融合和模態自身知識的不斷擴充。例如要完成人物識別這個任務,首先需要對視頻流中的人臉進行探測,得到人臉區域;然后借助字幕或者語音等模態的輔助來提供文本信息,最終人臉與文本信息的融合可以告訴我們視頻中的人臉對應的人名。這個例子說明了協作的一個方面。同樣也很好理解協作的另一方面,比如地名庫的擴充。隨著語音識別得到的文本中地名的不斷增加,地名庫也處在不斷的擴充之中。
1.2多媒體情報服務子系統結構
多媒體情報服務子系統主要提供多媒體情報的瀏覽、檢索、摘要以及個性化定制等服務。圖4是該子系統的結構圖。由圖4可見,多媒體情報服務子系統能夠根據用戶的查詢請求,提供多媒體情報的瀏覽;用戶可以通過選擇感興趣的情報信息來查看情報的詳細內容;同時也可根據用戶的喜好選擇文本、視頻、名字實體等不同的摘要形式;系統能夠根據用戶的個性化定制信息以及用戶對情報的選取信息生成興趣或喜好模型,從而逐步獲取用戶的需求,為其提供個性化的專題情報,并將其以可視的方式進行展現。
2關鍵技術
以下將簡要介紹以新聞視頻為代表的多媒體情報系統體系結構中所涉及到的部分關鍵技術,包括多媒體情報處理階段的新聞故事單元探測技術與字幕探測技術以及多媒體情報服務階段的多媒體情報摘要技術等,這些關鍵技術大多已經實現[1~6]。
2.1故事單元探測
視頻的結構從低到高可以分為幀、鏡頭、場景、故事單元以及視頻流等多個層次。其中,鏡頭是視頻檢索的基本結構單元;場景由鏡頭組成,帶有部分的語義信息,在內容上具有相似的對象或包含類似的背景;故事單元則是多個場景的組合,語義上講述一個故事。在多媒體情報內容處理階段,一個關鍵的技術就是視音頻分段,即通過多模態融合的視音頻內容分析[7,8],抽取出視頻中的結構特征,特別是含有高層語義信息的故事單元。對于新聞視頻而言,一個故事單元通常就是一則新聞。因此,故事單元探測問題也就是新聞條目的抽取問題,即如何從一段新聞視頻流中準確地提取出每則新聞的故事邊界。
2.2字幕探測
新聞視頻中的字幕信息對于情報分析工作具有重要價值。一般的新聞視頻都會在新聞開始處的左下角位置出現新聞的標題,說明該則新聞的主要內容。這里筆者將字幕分為兩類:a)用于新聞視頻結構與內容分析的標題字幕幀,即新聞開始階段的字幕幀,稱之為標題幀;b)僅用于視頻內容分析的字幕幀,即新聞內部出現字幕的幀,如民眾示威游行所高舉的標語牌。前者通常是經過編輯后加入的字幕,屬編輯字幕;后者則為錄制時就存在的字幕,屬源字幕。由于標題字幕的出現往往可以作為新聞故事邊界的標志,亦可以通過后續的OCR識別抽取出該條新聞的內容信息,因此是字幕探測技術中研究的重點。
2.3多媒體情報摘要
多媒體情報一般信息量都比較大,尤其是視頻數據,持續時間往往比較長。多媒體情報摘要的目的就是通過自動或半自動的方式對多媒體的內容和結構進行分析,從原始媒體中提取出有意義的部分,并將它們以某種方式進行組合,形成簡潔的能夠充分表現多媒體語義內容的概要,從而使用戶能夠迅速準確地把握一段多媒體情報的主要內容。
以視頻為例,從表現形式上看,主要包括兩種不同的摘要形式[9,10]:a)靜態視頻摘要,又稱為視頻概要,是以靜態的方式來表現視頻的內容,如標題、關鍵幀、故事板、幻燈片及場景轉移圖等,它是從視頻流中抽取或生成的有代表性的圖像;b)動態視頻摘要,又稱縮略視頻,是圖像序列及其伴音的集合,它本身也是一段視頻,但比原視頻要短得多。前者通常只考慮視覺信息,不考慮音頻和文本信息,以及時間與同步問題,因此它的構建與表現都相對簡單。縮略視頻則不同,它含有豐富的時間和音頻信息,因而更加符合用戶的感知。
多媒體情報處理和服務涉及的關鍵技術還有很多,在這里將不再詳述。
3結束語
隨著多媒體技術以及網絡通信技術的迅速發展,未來的情報將不再局限于傳統的文本形式,而是向圖像、視頻、音頻等多媒體形式發展。人們獲取信息的來源也將更加豐富,包括報刊、雜志、廣播、電視、網絡及手機等。在這種形勢下,傳統的文本情報處理系統將不再符合多媒體情報處理與管理的要求,因此迫切需要研究新的符合多媒體情報特點的體系結構及處理方法,以解決大量涌現的多媒體情報的處理及管理問題。
本文在分析多媒體情報處理現狀的基礎上對多媒體情報系統的體系結構進行了詳細設計。重點設計了其中的多媒體情報處理與情報服務子系統,并對其中的部分關鍵技術進行了研究,希望能夠起到拋磚引玉的作用,引發情報分析人員以及技術人員的深入研究與思考。
參考文獻:
[1]謝毓湘,欒悉道,吳玲達,等. 一種基于解壓的鏡頭探測方法[J]. 系統工程與電子技術,2003,25(8):1028-1031.
[2]謝毓湘,欒悉道,吳玲達,等. 新聞視頻幀中的字幕探測[J]. 計算機工程,2004,30(20):167-168.
[3]XIE Yu-xiang, LUAN Xi-dao, LAO Song-yang, et al. EDU:a model of video summarization[C] //Proc ofInternational Conference on Image and Video Retrieval (CIVR’04). 2004:106-114.
[4]謝毓湘,欒悉道,吳玲達,等. 視頻摘要技術研究[J]. 計算機應用研究,2004,21(11):1-4.
[5]肖鵬,謝毓湘,吳玲達,等. 基于com技術的新聞視頻摘要系統設計與實現[J]. 計算機應用研究,2004,21(Z):398-400.
[6]LUAN Xi-Dao, XIE Yu-xiang, WU Ling-da, et al.AnchorClu: an anchorperson shot detection method based on clustering[C]// Proc of the 6th International Conference on Parallel and Distributed Computing, Applications and Technologies. Washington DC:IEEE Computer Society, 2005:840-844.
[7]LYU M R, YAU E, SZE S.A multilingual, multimodal digital video library system[C] //Proc of the 2nd ACM/IEEE CS Joint Conference on Digital Libraries. New York:ACM Press, 2002:145-153.
[8]MARC L,MARK T M.Personalized multimedia information access[J]. Communications of the ACM, 2002,45(5):54-59.
[9]HOWARD D W.New directions in video information extraction and summarization[C]// Proc of the 10th DELOS Workshop. Santorini, Greece:[s.n.], 1999:24-25.
[10]SUNDARAM H. Segmentation, structure detection and summarization of multimedia sequences[D]. New York: Dept of Electrical Engineering, Columbia University, 2002:331.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文