李凱敏 齊赫 苗莉 ??诮洕鷮W院
在整個多媒體數據的研究中,多媒體數據得到了大量的涌現,因此也產生了各種各樣的多媒體數據庫,這些數據庫的容量十分之大,內容也越來越豐富多彩,和過去的一些多媒體的數據研究相比較起來,過去的多媒體研究的側重點在于對基本內容的一些檢索和探索,這雖然在一定程度上,可以解決信息搜索和信息資源發現的問題,但是另外一方面,人們對于信息的需求程度越來越高,對于信息的處理應用方面也越來越廣泛,因此這種以前的多媒體數據研究不能夠很好地滿足這些問題。
在多媒體數據挖掘研究的過程中,將其與傳統的數據挖掘進行比較的話,我們會發現其中有幾個需要我們去解決的問題,比如多媒體數據地非結構化的問題,我們應當在這些數據上進行一定的挖掘,從而獲取相關的一些知識,除此以外,在多媒體數據中,其特征向量往往是數十維,有時候甚至是數百維的,那么我們對于如何對于高維矢量進行數據的挖掘,也是一項重要的問題。
在多媒體的數據挖掘中,有很多種的系統結構,需要我們對其進行一一分析,首先就是多媒體的數據收集。一般來說,對于一些大型的多媒體的數據集,其可能會包含幾十萬幅的照片以及上千個小時的音視頻文件等等,而對于這些文件,其媒體的結構和元數據庫中的描述是相關聯的,這樣便可以用于可視化的表現和存取了。
在這種模塊中,其主要是針對多媒體中的一些原始數據進行相關的預處理,并且從中提取出數據的有效特征,進而可以將特征矢量,通過元數據的這種形式記錄在整個元數據庫之中。而關于元數據庫的話,這是一種按照挖掘的一些相關要求,進行組織起來的,一種多維的、多層次的、多媒體屬性的數據庫,其可以起到支持高效率多媒體挖掘的作用。
在多媒體的數據挖掘中,往往要涉及到關于挖掘引擎的相關內容,關于挖掘引擎,其包含著一組快速的挖掘算法,這其中比如分類、聚類、關聯等等,在這種挖掘引擎種,系統是可以根據一些具體的應用,來對于一些挖掘算法進行選擇,其可以選擇一個算法,同時也可以選擇多種相對應的算法,同時對于元數據庫進行一定的挖掘。在元數據庫中,這里面的特征矢量一般情況下來講,其都是高維的,然而對于一些傳統的數據挖掘方法來說,其一般情況下來將,都是只適用于一些比較低緯的數據,那么在這個時候,如果我們仍然使用這些方法來對于這些高緯矢量進行處理,那么將會起到一些非常不理想的效果,那么這也就是我們經常性講到的維度災難。那么我們為了避免這種唯獨災難,或者是克服這種維度災難的影響,便有很多的針對高維數據引結構的一些經典的算法被提了出來。
最后涉及到的系統就是用戶接口系統了,在這種用戶接口系統中,我們一般可以實現挖掘結果的可視化以及界面的解釋,同時也可以實現為用戶提供的相關便捷措施和系統。由于多媒體具有試聽的特性以及時空的特性這兩種特點,因此挖掘出來的一些模式應當用一種新的表現方式加以呈現,比如導航式的知識開展以及交互式的問題求解等等,除此以外,還有提供挖掘結果的可視化的接口。
在多媒體數據挖掘中,比較廣泛應用的就是圖像挖掘的技術了,然而原始的圖像是不能夠被直接挖掘的,因此我們便需要對于這些原始圖像進行一定的處理,在對這些圖像進行預處理完成之后,再得以生成一些可以供一些高層挖掘模塊使用的一些圖像特征,并且通過綜合處理形成一個數據庫,最后便可以在形成的數據庫的基礎之上,完成對于一些圖像的數據挖掘的相關操作。
除了圖像挖掘以外,視頻挖掘也是其中的一個重要的內容,對于視頻的挖掘一般具有兩種,其一是根據視頻的結構進行的預處理,這種處理模式,其原理在于針對某些視頻在內容構造上的結構特性,通過一定的規則算法來將這些視頻進行劃分。其次是視頻運動的目標識別,這種模式的原理則在于,通過從視頻種對于跟蹤運動目標的分割,從而提取出運動目標的一些本質上的特征以及運動上的特征,由此實現視頻的挖掘。
作為一種聽覺媒體,音頻具有很多特征,其中包括基音、音調、旋律等等,而對于音頻的哇據也是重要的一個研究方向,其挖掘通常也有兩種途徑,其一是運用語音識別的技術,來將一段語音識別成文字,進而將音頻挖掘轉換成文字挖掘。其二則是直接從一段音頻種提取聲音特征,進而對音頻實現挖掘。
在多媒體挖掘和發展的整個過程中,我們面臨了很多問題,也解決了很多問題,在目前,多媒體的挖掘技術已經取得了很大的進展,而針對不同的媒體,比如圖像、視頻、音頻等等,我們應當采取不同的挖掘辦法,那么同時,我們對于多媒體挖掘技術的深入研究,也將成為未來發展的一個重要點,同時也會為將來的多媒體發展起到重要的作用。
[1]易黎,楊長春,馮建彪.基于多媒體數據庫的數據挖掘模型和方法[J].江蘇工業學院學報,2010,22(01):35-39.
[2]康健輝.多媒體數據挖掘技術淺析[J].重慶科技學院學報(自然科學版),2007(04):85-88.
[3]王志鋒,李殿偉.多媒體數據庫的管理與數據挖掘研究[J].計算機與數字工程,2007(10):50-53+188.