劉 靖,趙逢禹
(上海理工大學 光電信息與計算機工程學院,上海 200093)
隨著多媒體技術和計算機技術的高速發展,大規模的數據維度呈爆炸性增長。伴隨著數據維數的增長,使得目標函數優化、參數估計、模型選擇變得越來越困難,這類問題已普遍地影響到諸多領域,如機器學習[1]、圖像處理[2]、模式識別[3]、文本分析[4]等,這種現象被稱為維度災難[5]。
維度災難帶來的問題主要表現在3個方面:(1)愈加增加的數據維數導致空間數據點分布更稀疏,使得空間的參數優化越來越棘手;(2)維數的升高使得高維數據索引組織效果變差,數據節點的重疊性呈指數級遞增,導致數據檢索時,增加過多的訪問路徑,造成檢索效率低下;(3)高維數據處理對計算機的運算與存儲能力要求較高,目前計算機的運算與存儲能力仍不能完全滿足其運算與存儲要求。
上述問題給高維數據處理中的數據分析帶來了重大挑戰,同時維數的膨脹也給模式識別帶來了較大的困難。為降低、消除維度災難的影響,研究者提出了一系列的解決方法。為了準確把握降維技術的發展方向,本文研究了自2010年以來降維技術相關的大量國內外文獻,結果表明,近年來越來越多的研究者開始致力于降維技術的研究并取得了可觀的成果。
降維技術旨在將高維數據映射到更低維的數據空間上以尋求數據緊湊表示,這種技術有利于對數據做進一步處理。例如在基于內容的圖像檢索中,將提取的高維圖像特征向量數據通過降維處理降低到一定的維度,則可以使用相關的索引機制組織數據以進行更高效的檢索。……