鄭文艷
摘 要:近年來,計算機圖形學和計算機視覺領域在基于互聯網的視頻媒體資源中提供了具有重大意義的幫助。直播因為不受時間、地域、場所的限制,越來越多人投身到直播行業,主播更是隨處可見,數以萬計的人上傳了巨大數量的圖片和視頻,刺激了各種各樣地對視頻媒體創建和編輯的應用程序的問世,然而這也是對這些資源的取回、組織和利用的重大挑戰。文章討論了計算機圖形學和視覺應用在互聯網視頻媒體處理應用中所涉及的問題,并且給出了在這一新興研究領域的未來發展方向的建議。
關鍵詞:互聯網視頻媒體;大數據;圖像;視頻
1 互聯網視頻媒體處理中存在的問題
隨著在互聯網構建的應用程序和技術的迅速發展,越來越多的圖像和視頻都可以自由地在互聯網上使用。我們將這些圖像和視頻稱作互聯網視頻媒體,它們形成了一個很大的在線數據庫。這創造了一個創建各種新的數據驅動應用程序的機遇,使得非專業的用戶可以輕松地創建和編輯視覺媒體。然而,大多數互聯網視頻媒體的資源都是非結構化的,并沒有考慮結構就上傳了。此外,大多數資源都是簡單的(而且經常是不準確的)通過文字檢索[1]。以上情況對充分地利用這些資源構成了嚴峻的挑戰。例如,如果用戶利用圖片搜索引擎搜索“狗跳”,最好的結果通常包含了一些不相關的用戶最初搜索的結果,有些可能包含一只狗以不同的姿勢來跳,有的可能會含有其他跳躍的動物,有些可能包含卡通狗,有的甚至可能包含一個產品,其品牌名稱是“跳狗”。用戶須慎重選擇其中的許多檢索結果,這是一項繁瑣而耗時的任務,導致用戶的搜索效率非常低。此外,大多數用戶希望應用程序提供交互功能。雖然這只是簡單地達到了小的圖片視頻數據庫的目的,但是對于大型的數據庫而言,將會成為一個很大的難題。但是解決這個難題會帶來巨大的應用效益,目前用戶對于這個方面的需求日益增長,這個問題的解決迫在眉睫。
2 管道網絡視頻媒體處理
互聯網視覺媒體檢索的大門打開了各種視覺媒體應用,產生許多必須以交互速率響應的用戶。然而,檢索過程通常是耗時的,尤其是對于大規模的數據而言。一個典型的管道網絡視頻媒體處理由3個步驟組成:內容檢索,數據組織和索引,數據驅動的應用程序。在第一步中,有意義的對象從選擇的互聯網視頻媒體資源中被檢索出來,例如對場景中的每個圖像或視頻進行分類,并提取視覺顯著的對象的輪廓。這一步可以提供更好的可視媒體的標簽內容的感知應用程序,并且可以彌補缺乏準確的文字標簽,以及識別顯著的內容缺陷。在第二步中,在視覺媒體資源以及文字之間提取它們的相關關系和不同的尺度,例如找出局部特征的相似性,提供對象級別的分類,確定目標水平的相似性和密集的文字等相似之處。這一信息允許對大型視覺媒體集合構建一個高效的索引和查詢計劃。簡單起見,我們將其稱為數據庫結構,它保證了所需的可視內容并可以迅速地進行檢索。在第三步中,互聯網視頻媒體應用程序中可以使用這些數據。傳統的圖像和視頻處理方法必須進行修改,以適應這種類型的數據,并且還需要新的方法來支持新的應用程序。該方法應該是:(1)相似性,這是為了有效地處理因特網視覺媒體的豐富性。例如,一個計算的結果可以通過查找圖像相似的外觀來替代,以達到期望的結果。(2)魯棒性的變異,這是用以有效地應對視覺媒體的變化。例如狗,可以有各種各樣的外觀,這些外觀之間的差異性可以很大。圖1表示了一個典型的管道網絡視頻媒體的處理結果。
3 計算機圖形學和視覺應用存在的問題
總結了近期的研究,組織和利用大集合或圖像和視頻資料庫的目的是幫助視覺媒體進行分析、處理、合成、重建和理解。我們認為最終的應用領域是對視覺媒體的理解。除了像合成、編輯和重建的具體應用,許多因特網視覺媒體應用的目標是提供視覺媒體的使用或更好地理解視覺媒體的使用,無論是單一的產品,例如圖像,或者一大組相關的視覺媒體,這里的目標確定可以是一個共同的屬性,或以某種方式匯總的媒體。
算法效率也限制了大量網絡視頻媒體的充分利用。目前的方法以數以萬計的因特網圖像來說,大多數工作僅代表一小部分。更多的圖像,可以使用更好預期的結果。雖然并行算法會有幫助,但是它只是解決方案的一部分,以及諸如分割、特征提取和分類等很多核心圖像處理技術仍然存在技術瓶頸。進一步的工作是需要對這些話題進行討論的。
有研究試圖利用各種在大規模數據集中的信息,不僅是視覺信息的數量不斷增加,而且還有元數據,例如文本標記、地理標記信息和時間信息。在社交網絡網址,圖像的事件標簽是信息的另一個有用的潛在信息來源,并在較長時期內,它可能從此類網站提取有用的信息,例如以照片的內容提供的上下文信息,其中根據用戶居住可以為度假提供線索。
最后,我們注意到,利用視頻大集合的工作仍然是稀缺的。雖然這很自然地想到大多數圖像應用程序應該擴展到視頻(參見最近的工作,探索著名的場景視頻[2]),但是有幾個原因限制做到這一點的能力。除了處理時間具有明顯的局限性,在應用到許多視頻圖像處理和視覺算法上給出的結果不穩定,或至少產生較差的時間相干性的結果。時間相干性,可以實施在優化框架中,但是這比處理一幀的數據更消耗計算內存。即使是國家最先進的視頻對象提取方法可以很好地工作以及具有最少的用戶交互的一些例子,但是如果應用到一個大集合的視頻數據中可能會失敗。此外,迫切需要高效的專門用于互聯網上大規模視頻集合的算法,其實在2017年發表的一篇文章[3]上體現了有效的視頻合成。使用“算法友好”計劃修剪視頻不能自動處理視頻,目前這想法還沒有被應用。
4 結語
近年興起的直播事業,促使用戶對于視頻媒體的處理速度、方式等提出更高、更苛刻的要求,這些要求會隨著技術的發展不斷更新,使得越來越多的人關注這個領域的研究,也有一批優秀的一線程序員投身到這個領域當中來,相關的研究、算法都以更快的速度在發展、更新,互聯網的發展速度決定了視頻媒體的發展速度。在相關的研究中我們不難發現,目前計算機圖形學和視覺應用對于處理互聯網視頻媒體已經產生不可替代的作用。然而,目前計算機圖形學和視覺應用的發展相對不夠成熟,在互聯網視頻媒體處理中的應用依然存在很多問題需要解決克服,甚至在這個過程中還會出現新的問題,但是從目前的發展態勢來看,計算機圖形學和視覺應用與互聯網視頻媒體的結合會是一個潮流。隨著圖形學和視覺應用的不斷發展,技術的不斷成熟,互聯網視頻媒體在處理方式上、在算法邏輯上、在運行結果上可以有更多的可能性,可以突破更多現在暫時還無法克服的限制,屆時,互聯網視頻媒體對于我們的生活、工作來說,將會是一種全新的存在,它可能帶給我們一種現在還無法想象的全新的生活體驗,無論如何,這都是一個值得期待的未來,并且是一個終究會來到我們身邊的未來。
[參考文獻]
[1]胡珍珍.關于互聯網視覺媒體若干問題的研究和應用[D].合肥:合肥工業大學,2014.
[2]TOMPKIN J,KIM K I,KAUTZ J,et al.Videoscapes: exploring sparse, unstructured video collections[J].ACM Transactions on Graphics,2012(4):1-12.
[3]XIE Z F,SHEN Y,MA L Z,et al.Seamless video composition using optimized mean-value cloning[J].The Visual Computer,2010(6/7/8):1123-1134.