劉凱偉,張冬梅
中國地質大學 計算機學院,武漢 430074
基于流形學習的異常檢測算法研究
劉凱偉,張冬梅
中國地質大學 計算機學院,武漢 430074
化探異常識別是成礦預測和資源評價的關鍵。傳統地質統計方法具有無偏、最優等特點,但要求數據呈正態分布,而實際應用往往不符合統計假設;近年來分形理論被大量應用于地球化學異常確定,但基本思路還是采取單元素值來確定背景值,存在需要平滑處理數據以及對樣品中特高品位敏感等問題。因此,尋找能體現地球化學數據空間結構和非線形特征的異常識別方法具有重要的研究價值。
針對地質異常現象的不平穩性,即地理空間的有礦樣本的數目遠遠小于無礦樣本的數目,化探異常識別從本質上來看是一種不均衡數據的分類問題。傳統機器學習分類算法往往基于三點假設[1]:(1)追求最大分類正確率;(2)不同分類錯誤代價相同;(3)數據集中不同類別包含的樣本數目大致相當。在區域化探數據集中有礦、無礦樣本數目并不均衡,不符合上述假設,如果采用傳統研究方法,處理往往會“偏向”多數類樣本即無礦樣本而忽略少數類樣本即有礦樣本,導致將測試樣本全部判別為大類,雖然總體分類正確率很高但小類有礦異常樣本識別率卻非常低。而在成礦識別中,人們更關心的是少數類即有礦樣本的分類正確率,因此有效提高少數類的分類性能是成礦異常識別亟待解決的問題。……