













摘要:礦產勘查既是新質生產力的重要組成,又是推動新質生產力發展的重要力量。為了改善礦產勘查中金礦化預測面臨的由于已知礦化樣本數量少導致的樣本類不平衡問題及礦化信息稀缺問題,提出SMOTified-BRF模型,該模型使用SMOTE方法對極少數已知礦化樣本進行數量增強并使用平衡隨機森林方法進行預測。以漢濱—旬陽地區為研究區,對水系沉積物地球化學數據分別使用SMOTified-BRF模型和BRF模型進行金礦化預測效果和模型性能對比研究。研究結果表明:SMOTified-BRF模型的AUC值(0.9875)高于BRF模型的AUC值(0.9726),且在約登指數指示的最優閾值下SMOTified-BRF模型預測的礦化面積占比(1.95%)相較于BRF模型(12.23%)更小,說明SMOTified-BRF模型相比于BRF模型具有更準確高效的金礦化異常預測性能。
關鍵詞:金礦化;異常;預測;平衡隨機森林法;SMOTE;地球化學;漢濱—旬陽地區
中圖分類號:TD11 P618.51文章編號:1001-1277(2025)01-0011-09
文獻標志碼:A doi:10.11792/hj20250103
2023年9月,習近平總書記在主持召開新時代推動東北全面振興座談會時提出,積極培育戰略性新興產業和未來產業,加快形成新質生產力,增強發展新動能。礦產勘查處于礦產資源產業鏈供應鏈的最前端,關系到現代化產業體系發展的能量與物質基礎,在發展新質生產力中具有重要的基礎地位和支撐作用。礦產勘查通過發現和查明礦產資源,既為現代產業體系構建提供物質基礎,又是現代產業體系的一部分,自身生產力的提升也是發展新質生產力的重要內容,對于保障資源安全,增強發展新動能具有重要意義3。作為礦業行業新質生產力的重要組成,人工智能找礦方興未艾。
地球化學數據是一類重要的找礦信息,在礦產勘查與評價中具有非常關鍵的作用。基于地球化學數據處理的人工智能方法研究一直是地球化學研究領域的熱門方向之一。使用先進的方法從大量地球化學數據中挖掘礦致信息并進行礦化預測,有助于推動礦產勘查發展。
成礦系統的復雜性及成礦作用的多期多階段特征導致地球化學數據往往具有復雜、未知的空間與頻率分布特征。近年來,由于機器學習、深度學習方法在處理具有復雜分布特性非線性數據的分類與回歸預測問題中具有良好表現”,越來越多的學者將先進的機器學習、深度學習方法引入地球化學礦化預測領域,如支持向量機、隨機森林、受限玻爾茲曼機等。然而,地球化學數據中的已知礦化樣本(陽性樣本)數量稀缺背景樣本(性樣本)數量占比大,使用一般的機器學習和深度學習方法對類不平衡的地球化學數據進行礦化預測面臨著挑戰。已有學者將關注點放在解決地球化學數據類別、數量不平衡問題的方法研究上,此類研究包括從數據處理角度引進各類采樣方法平衡數據類別比例和從算法角度引進類不平衡學習集成算法進行數據的分類任務處理。例如,SHAYILAN等利用合成少數類過采樣技術進行過采樣以平衡數據類別比例,CHEN等引入自定步集成框架來處理類不平衡問題。
考慮到已有模型大多單獨關注從數據或者算法角度解決樣本類不平衡的問題,因此本研究同時從數據處理角度和算法角度出發,結合合成少數類過采樣技術(Synthetic Minority Oversampling Technique, SMOTE)和平衡隨機森林算法(Balanced Random Forest,BRF),提出采用SMOTified-BRF模型進行 類不平衡地球化學數據的礦化預測研究。平衡隨機森林算法是一種類不平衡學習集成算法,它在隨機森林算法(Random Forest,RF)的基礎上引進了隨機欠采樣策略[20]。平衡隨機森林算法在訓練每棵決策樹(Decision Tree,DT)之前通過對數量占多數的類別數據進行隨機欠采樣,以此來平衡用于訓練每棵決策樹的訓練子集類別比例。平衡隨機森林算法建立在傳統隨機森林算法的基礎上,使用多棵決策樹的集成來提高預測的準確性和穩定性。平衡隨機森林算法不僅具有隨機森林算法的準確率高、善于處理離散數據等優點[2],同時更善于處理類不平衡數據。平衡隨機森林算法適合用于類不平衡地球化學數據的異常識別與分類。然而,在已知礦化樣本極度稀缺的地球化學數據中,平衡隨機森林算法在訓練每棵決策樹前為了構建類別平衡的訓練子集,會隨機剔除過多的背景樣本,導致丟失具有重要信息的背景樣本。同時,已知礦化樣本的稀缺容易導致決策樹在學習已知礦化樣本特征的過程中出現過擬合問題。因此,本研究引進SMOTE,對地球化學數據中的已知礦化樣本進行數量增強,并使用增強后的地球化學數據作為平衡隨機森林算法的訓練集,構建基于SMOTE增強的平衡隨機森林金礦化預測模型(SMOTified-BRF模型)。
本研究以漢濱—旬陽地區作為研究區,對1:5萬水系沉積物地球化學數據分別構建SMOTified-BRF模型和BRF模型進行金礦化預測和對比研究。研究結果證明,SMOTified-BRF模型預測的金礦化區比BRF模型預測的金礦化區具有更小的范圍和更高的準確性。
1地質概況
漢濱—旬陽地區位于陜西省安康市(見圖1-C),大地構造位置位于秦嶺地塊南緣,屬揚子板塊(Ⅲ)秦嶺—大別山新元古代—中生代造山帶(Ⅲ?)北大巴山—西傾山早古生代裂谷帶(Ⅲ2)舟曲—安康早古生代裂谷帶(Ⅲ2-1)(見圖1-B)。研究區主要發育斷裂有北西向展布脆性斷裂,近南北向次級小型脆性斷裂及北西向脆韌性剪切帶,由北向南劃分為趙家山—斜山寨滑脫逆沖推覆體、將軍山—爛木溝滑脫逆沖推覆體和安康斷陷盆地3個次級構造單元。研究區出露地層有寒武系魯家坪巖組(Z?-E?l)、箭竹壩組(Z?-E?j),奧陶系洞河巖組(Odh),奧陶系—志留系斑鳩關巖組(O?-S?b),志留系梅子埡巖組(S?-2m),泥盆系大楓溝組(D?d)、古道嶺組(D?-3g)、星紅鋪組(D?x),以及第四系(Q)等(見圖1-A)[22]。研究區內火山巖建造不發育,僅在圖幅中部神灘河—爛木溝一帶魯家坪巖組中有少量出露;侵入巖極不發育,未見巖體出露,僅見酸性巖脈出露[23]。研究區主體為變質巖建造區,占70%以上,氣-液變質巖不可見,熱接觸變質巖極不發育,變質巖主要為區域變質巖和動力變質巖。
研究區共發現典型金礦床(點)5處(見表1),成因類型均為韌性剪切帶型,主要分布于區域性韌性剪切帶兩側的次級構造帶中。區域內金礦床(點)主要分布于斑鳩關巖組、洞河巖組、梅子埡巖組、魯家坪巖組地層中。含礦巖性主要為含碳黑云母絹云母石英片巖、絹云石英片巖、硅質板巖、碳質板巖等。研究區內與金成礦關系密切的蝕變主要有硅化、絹云母化、黃鐵礦化等,表現為蝕變越強,規模越大[24]。
2地球化學數據預處理與指示元素選擇
研究區的地球化學數據來源于安康幅1:5萬水系沉積物調查樣本,樣本數量為1828件。對樣本測試了14種元素,分別為Au、Ag、As、Bi、Cd、Co、Cr、Hg、Mo、Pb、Zn、W、Sn、Ni。對1828件水系沉積物樣本的14種元素數據進行網格化處理,為每種元素生成379×476(180404)個網格數據。
許多元素在空間的濃度分布與特定類型的礦化相關,其有助于指導地質專家發現特定類型礦床[25]。本研究旨在通過分析研究區與金礦化相關的地球化學數據來指導金礦勘查。基于前人研究結果,本文使用ROC(Receiver Operating Characteristic)曲線來評價研究區地球化學模式與已知金礦床(點)位置之間的空間相關性[26-28]。結合ROC曲線下面積(AUC)和對應的滿足標準正態分布的隨機變量值(ZAuc)選擇指示研究區金礦化的元素[14-17]。基于14種元素的濃度值及已知礦化點的對應組成元素濃度繪制了ROC曲線,結果見圖2;計算了14種元素AUC值和ZAuc值,結果見表2。由圖2可知,Au、Co、Ni、Pb和Zn 5種元素的ROC曲線更加接近ROC空間的左上角,表明該5種元素的濃度分布模式與已知金礦床(點)的位置分布具有較強的空間相關性。由表2可知,Au、Co、Ni、Pb和Zn5種元素的AUC值和ZAuc值分別大于0.5和1.96。因此,就AUC值和Zuc值而言,這5種元素與成礦具有正相關關系[25]。本研究選擇Au、Co、Ni、Pb和Zn5種元素作為指示研究區金礦化的地球化學元素。
所選5種指示元素的濃度等值線圖見圖3。由圖3可知,除Au分布較為零散外,剩余4種元素大體呈北西向分布,與韌性剪切帶展布方向一致,這5種元素的濃度分布與5個已知金礦床(點)的分布有較強的空間相關性。
3基本算法
3.1 SMOTE算法
SMOTE算法是由CHAWLA等[18]提出的一種過采樣方法,旨在通過數量增強來解決數據的類不平衡問題。該算法受K近鄰算法啟發,核心思想是對每個少數類樣本,在特征空間中使用歐幾里得距離來確定其k個最近的同類樣本。對于選定的少數類樣本及其近鄰樣本,SMOTE算法通過在它們之間的連線上進行隨機插值來合成新的少數類樣本。具體而言,對于每個少數類樣本x;∈R?,首先確定其在同類樣本中的k個近鄰樣本,然后從這k個近鄰樣本中隨機選擇1個樣本(x,,=1,2,3,…,k)。在樣本x?與x,連接的線段上隨機插值生成1個新的樣本點xnw。其中,x:,為少數類樣本x,的第p個屬性值,x,p為近鄰樣本x.的第p個特征值,p=1,2,3,…,d。新樣本xne的第p個特征可通過式(1)計算得出:
式中:λ為介于0和1之間的隨機數。
通過上述方法,SMOTE算法創造性地引入新的信息點,增強了數據集中少數類樣本的表達。SMOTE算法在特征空間合成少數類樣本的過程見圖4。
3.2 BRF算法
BRF算法是由YOUSRA等[19]提出的一種為了解決訓練數據中類不平衡問題而設計的改進RF算法。該算法基于bagging算法的集成思想,同時迭代訓練多棵相互獨立的決策樹(CART)弱分類器,然后使用訓練過的每棵決策樹對測試集數據進行分類預測并對預測結果通過投票或求平均值的方式進行集成。
在二分類問題中,通常將少數類樣本設定為陽性樣本,將多數類樣本設定為陰性樣本。針對二分類問題,給定訓練樣本集D=(x?,y?),(x?,y?),(x3,y3),…,(xn,yn)。其中,y,為樣本x,的類標簽(i=1,2,3,…,n),取0或1(0代表陰性樣本,1代表陽性樣本),樣本集D中陽性樣本數量為m;測試集U={x?,x?,x3,…,x。;決策樹弱分類器迭代次數T,BRF算法的步驟為:
1)對于第t(t=1,2,3,…,T)棵決策樹而言,①從訓練集的陽性樣本中隨機有放回地抽取m個引導(bootstrap)樣本,同時基于隨機欠采樣的策略從多數類樣本中隨機有放回地抽取相同數量的樣本;②將抽取相同數量的2類樣本組合成一個類平衡的訓練子集D,;③從訓練子集D,中誘導1棵決策樹f,,使其達到指定的最大生長深度,不進行剪枝。
2)將步驟(1)重復多次,直到訓練出指定數量(T)的決策樹弱分類器。
3)使用T棵訓練過的決策樹對測試集數據U進行分類預測,令f,(x;)表示第t棵決策樹f,預測樣本x;(i=1,2,3,…,c)為陽性的概率。
4)對T棵決策樹的預測結果通過求平均值得到最終預測結果。其中,T棵決策樹對測試樣本x;(i=1,2,3,…,c)為陽性樣本的概率預測結果表示為:
(2)
上述決策樹基于CART算法構建,但進行了部分修改,即在每個節點上不再搜索所有特征變量以獲得最佳分割點,而是隨機選取部分特征變量進行搜索,有助于增加決策樹模型的多樣性。BRF算法流程見圖5。
4金礦化預測
4.1 SMOTified-BRF模型與BRF模型
為了解決樣本中存在的類比平衡問題,首先,使用SMOTE技術對研究區地球化學數據中的5個金礦床(點)樣本進行過采樣,通過生成一定數量的合成礦化樣本,增加了原始地球化學數據集中的已知金礦化樣本數量。其次,將包含合成礦化樣本的地球化學數據集作為BRF算法的訓練集,構建了SMOTified-BRF模型。模型的參數設置對于模型的最終性能具有決定性作用,本研究以模型正確預測已知金礦床(點)的能力作為參數優化指標,使用GridSearchCV進行參數優化。SMOTified-BRF模型的參數設置見表3。訓練結束后,將研究區所有樣本作為測試數據,使用SMOTified-BRF模型對測試數據進行類別預測。SMOTified-BRF模型輸出的是一個向量,表示測試樣本屬于背景樣本的概率與金礦床(點)樣本的概率,2類樣本的預測概率和為1。同時,使用BRF算法對研究區原始地球化學數據進行建模,構建BRF模型,參數設置與SMOTified-BRF模型的BRF分類器相同。BRF模型輸出的是一個向量,表示測試樣本屬于背景樣本的概率與金礦床(點)樣本的概率,2類樣本的預測概率和為1。
本研究基于SMOTified-BRF模型和BRF模型對研究區地球化學數據進行預測,這2個模型的性能評估指標值見表4。
4.2模型性能評估
ROC常用于評估二分類器的分類性能,已被用于地球化學礦化預測模型的性能評估[15,17,29]。本研究繪制了SMOTified-BRF模型和BRF模型的ROC曲線(見圖6)并計算了對應的AUC值和ZAvc值(見表4)。由圖6可知,SMOTified-BRF模型的ROC曲線更接近ROC空間的左上角。由表4可知,SMOTi-fied-BRF模型的AUC值為0.9875,高于BRF模型的AUC值(0.9726)。同時,SMOTified-BRF模型(ZAuc=13.8914)和BRF模型(ZAuc=9.2232)的ZAuc值均高于1.96,說明在0.05的顯著性水平下,SMOTified-BRF模型和BRF模型的分類性能顯著高于隨機猜測模型。
4.3礦化區圈定
本文引進約登指數(Youden Index,YI)圈定模型預測最優閾值下的研究區金礦化情況[15,29]。約登指數是一種適用于選擇最佳分類閾值的統計度量,YI為真陽性率減去假陽性率。在本文中,真陽性率是指所有已知金礦化樣本中被模型正確預測出來的已知金礦化樣本的比例,假陽性率是指背景樣本中被模型預測為已知金礦化樣本的比例。約登指數取值為0~1,約登指數值越大,代表模型的分類性能越好。最大約登指數對應的閾值被確定為劃分預測礦化區的最優閾值,結果見圖7。由圖7可知,SMOTified-BRF模型的最大約登指數為0.9806,其對應的最優閾值為0.8136;BRF模型的最大約登指數為0.8777,其對應的最優閾值為0.6782。
SMOTified-BRF模型和BRF模型預測的金礦化概率分布見圖8。基于圖7中最高約登指數對應的最優閾值,在圖8-a中圈定了金礦化概率大于0.8136的礦化區,在圖8-b中圈定了金礦化概率大于0.6782的礦化區。礦化區呈北西向分布,且與已知金礦床(點)的空間分布一致。通過對比圖8-a和圖8-b可以發現,礦化區覆蓋了5個已知金礦床(點)。從圈定面積來看,圖8-a圈定的礦化面積占研究區總面積的1.95%,小于圖8-b的12.23%。
同時,為避免由于選取不同最優閾值導致的圈定面積差異問題,選取SMOTified-BRF模型的最優閾值0.8136同時作為BRF模型的高礦化概率邊界值,預測的礦化概率不小于0.8136的金礦化區分布見圖9。由圖9可知:SMOTified-BRF模型圈定的礦化區覆蓋了5個已知金礦床(點),BRF模型圈定的礦化區僅覆蓋了4個已知金礦床(點);在準確性存在差異的情況下,SMOTified-BRF模型圈定的礦化區面積占比(1.9 5%)仍小于BRF模型中圈定的面積占比(3.96%)。由此可見,SMOTified-BRF模型具有更準確的金礦化相關地球化學金礦化預測性能。
從圈定區域的合理性考慮,圖8-a圈定的礦化范圍覆蓋地層為斑鳩關巖組、洞河巖組、梅子埡巖組;圖8-b圈定的礦化范圍覆蓋地層為斑鳩關巖組、洞河巖組、梅子埡巖組、魯家坪巖組;圖9-b圈定的礦化范圍覆蓋的地層為斑鳩關巖組、洞河巖組、梅子埡巖組、魯家坪巖組。從圈定地層與含礦地層情況對比可知,SMOTified-BRF模型和BRF模型所圈定的金礦化預測結果與含礦地層吻合程度較好;從圈定區域與構造的對比情況來看,SMOTified-BRF模型和BRF模型圈定的礦化區整體上沿北西向分布,與韌性剪切帶分布一致。以上結果證明,圈定的金礦化預測區具有一定的可靠性。
以SMOTified-BRF模型圈定的金礦化預測區中(見圖8-a),除原有金礦床(點)外,另圈定出3處不含已知金礦床(點)的找礦遠景區,分別為P1、P2與P3。
找礦遠景區P1所處地層為斑鳩關巖組、洞河巖組和魯家坪巖組,巖性主要為黑色碳質板巖、黑色板巖、絹云石英片巖等,在空間分布上大體沿韌性剪切帶分布,且靠近1處石英脈強變形疊加強硅化區界線;找礦遠景區P2所處地層為魯家坪巖組和洞河巖組,巖性主要為絹云石英片巖、黑色板巖等,在空間分布上大體沿韌性剪切帶分布,且靠近1處石英脈強變形疊加強硅化區界線;找礦遠景區P3所處地層為魯家坪巖組和洞河巖組,巖性主要為絹云石英片巖、黑色板巖等,在空間分布上,沿韌性剪切帶分布,且靠近2處石英脈強變形疊加強硅化區界線。
通過對比地層、巖性、分布及蝕變等情況,圈定的3處找礦遠景區具有較好的合理性,可以作為下一步找礦依據。
5結論
1)SMOTified-BRF模型與BRF模型地球化學金礦化預測均能取得較好效果,且預測金礦化區的地層情況與含礦地層一致,分布區域與韌性剪切帶吻合,說明具有較好的可靠性,為礦產勘查方面新質生產力的發展提供了新思路。
2)在本次預測中,SMOTified-BRF模型表現優于BRF模型,以AUC值作為評價指標的情況下,SMOTified-BRF模型(0.9875)的表現優于BRF模型(0.9726);基于約登指數指示的最優閾值的情況下,SMOTified-BRF模型圈定出了更為精確的礦化面積占比(1.95%),相較于BRF模型(12.23%)更為準確。
3)基于SMOTified-BRF模型在漢濱—旬陽地區圈定了3處未包含已知金礦床點的找礦遠景區,為進一步找礦提供了新方向。
[參考文獻]
[1]習近平主持召開新時代推動東北全面振興座談會強調:牢牢把握東北的重要使命奮力譜寫東北全面振興新篇章[N].人民日報,2023-09-10(01).
[2]楊建鋒,余韻,姚曉峰,等.礦產勘查推動新質生產力發展路徑初探[J].中國礦業,2024,33(5):39-45.
[3]王登紅.試論稀散金屬礦產與新質生產力[J].中國礦業,2024,33(4):2-12,1.
[4]朱清.發展AI找礦這種新質生產力[N].中國礦業報,2024-03-09.
[5]張七道,肖長源,李致偉,等.黔北普宜地區水系沉積物地球化學特征及成礦預測[J].地質與勘探,2021,57(5):1040-1052.
[6]安朝,李德彪,柴云,等.青海省東昆侖納赤臺地區正、負異常特征及找礦方向[J].黃金,2019,40(3):23-29.
[7]張凱倫,溫守欽,汪徽,等.遼寧阜新排山樓金礦床深穿透地球化學找礦方法的應用研究[J].黃金,2023,44(9):111-116.
[8]ZUOR G.Exploration geochemical data mining and weak geochemi-cal anomalies identification[J].Earth Science Frontiers,2019,26(4):65-75.
[9]zUORG,XIONG YH.Big data analytics of identifying geochemical anomalies supported by machine learning methods[J].Natural Resources Research,2018,27:5-13.
[10]zUO RG,CARRANZA EJ M.Support vector machine:A tool for mapping mineral prospectivity[J].Computers and Geosciences,2011,37:1967-1975.
[11]ABEDI M,NOROUZI GH,BAHROUDI A.Support vector machine for multi-classification of mineral prospectivity areas[J].Computers and Geosciences,2012,46:272-283.
[12]RODRIGUEZ-GALIANO VF,CHICA-OLMO M,CHICA-RIVAS M.Predictive modelling of gold potential with the integration of mul-tisource information based on random forest:A case study on the Rodalquilar Area,Southern Spain[J].International Journal of Geo-graphical Information Science,2014,28:1336-1354.
[13]CARRANZA EJM,LABORTE A G.Random forest predictive modeling of mineral prospectivity with small number of prospects and data with missing values in Abra(Philippines)[J].Computer and Geosciences,2015,74:60-70.
[14]CHEN Y L.Mineral potential mapping with a restricted boltzmann machine[J].0re Geology Reviews,2015,71:749760.
[15]SHAYILAN A,CHEN Y L.A smotified extreme learning machine for identifying mineralization anomalies from geochemical explora-tion data:A case study from the Yeniugou Area,Xinjiang,China[J].Earth Science Informatics,2024,17:1329-1343.
[16]CHEN YL,DUXD,GUO M.Self-paced ensemble for constructing an efficient robust high-performance classification model for detec-ting mineralization anomalies from geochemical exploration data[J]Ore Geology Reviews,2023,157:105418.
[17]GUO M,CHEN Y L.High-performance imbalanced learning ensem-bles of decision trees for detecting mineralization anomalies from geochemical exploration data[J].Journal of Geochemical Explora-tion,2024,259:107443.
[18]CHAWLANV,BOWYER KW,HALLLO,et al.SMOTE:Synthetic minority over-sampling technique[J].Jounal of Artificial Intelli-gence Research,2002,16:321-357
[19]YOUSRA A,AHMAD KM,BASIT R,et al.Predicting influential blogger's by a novel,hybrid and optimized case based reasoning approach with balanced random forest using imbalanced data[J].IEEE Access,2021,9:6836-6854.
[20]姜萬錄,馬歆宇,岳毅,等.類間數據不均衡條件下基于平衡隨機森林的軸向柱塞泵故障診斷方法[J].液壓與氣動,2022,46(3):45-54.
[21]胡學敏,曾晟,宋良靈.基于灰狼算法改進隨機森林算法的爆破振動速度預測研究[J].黃金,2024,45(1):12-16.
[22]廖華.陜西旬陽爛木溝金礦控礦構造與礦床成因[D].北京:中國地質大學(北京),2020.
[23]許鋒,李衛波,宋公社,等.陜西石泉—旬陽地區金礦床控礦因素與成礦模式[J].礦產勘查,2018,9(1):70-78.
[24]鄒海洋,陳松嶺,胡祥昭.陜西旬陽淋湘金礦床成礦機制[J].大地構造與成礦學,1997,21(3):221-227.
[25]ZUO RG.Selection of an elemen tal association related to minerali-zation using spatial analysis[J].Journal of Geochemical Explora-tion,2018,184:150-157.
[26]CHEN Y L.Mineral potential mapping with a restricted boltzmann machine[J].0re Geology Reviews,2015,71:749-760.
[27]CHEN YL,WU W.Application of one-class support vector machine to quickly identify multivariate anomalies from geochemica exploration data[J].Geochemistry:Exploration,Environment,Analysis,2017,17(3):231-238.
[28]PARSA M,MAGHSOUDI A,YOUSEFI M.A receiver operating characteristics-based geochemical data fusion technique for targe-ting undiscovered mineral deposits[J].Natural Resources Research,2017,27(1):15-28.
[29]CHEN YL,AN A.Application of ant colony algorithm to geochemi-cal anomaly detection[J].Journal of Geochemical Exploration,2016,164:75-85.
Research on geochemical gold mineralization anomaly prediction based on theSMOTified-BRF model
—A case study of the Hanbin-Xunyang area,Shaanxi Province
Xu Zhenglin',Wang Xi1,Xue Linfu1,Ran Xiangjin',Yan Qun1,Li Yongsheng2,3,Yu Xiaofei23
(1.College of Earth Sciences,Jilin University;2.Development and Research Center,China Geological Survey;3.Mineral Exploration Technology Guidance Center,Ministry of Natural Resources)
Abstract:Mineral exploration is not only a critical component of new quality productive forces but also a driving force for their development.To address the challenges of sample imbalance caused by the limited number of known mineralization samples and the scarcity of mineralization information in gold mineralization prediction during mineral exploration,this study proposes the SMOTified-BRF model.This model applies the SMOTE method to augment the extremely limited known mineralization samples and employs the balanced random forest(BRF)method for prediction.Using the Hanbin-Xunyang area as the study area,geochemical data from stream sediments were analyzed using the SMOTified-BRF and BRF models and compared the gold mineralization prediction outcome and model performance.The results show that the SMOTified-BRF model achieves a higher AUC value(0.9875)compared to the BRF model(0.9726).Additionally,at the optimal threshold indicated by the Youden index,the predicted mineralized area ratio of the SMOTified-BRF model(1.95%)is significantly smaller than that of the BRF model(12.23%),demonstrating that the SMOTified-BRF model offers more accurate and efficient performance in predicting gold mineralization anomalies.
Keywords:gold mineralization;anomaly;prediction;balanced random forest;SMOTE;geochemistry;Hanbin-Xunyang area