汪 濤
(甘肅省地質礦產勘查開發局水文地質工程地質勘察院,甘肅 張掖 734000)
大數據是在二十世紀八十年代由全球知名咨詢公司麥肯錫在研究報告中首次提出,在該研究報告中定義大數據為通過網絡技術對數據進行獲取、處理、分析,從中提取到海量的有價值的交易數據或傳感數據[1]。
麥肯錫在研究報告中指出,大數據已經滲透到各行各業中,逐漸成為重要的生產因素,預示大數據時代即將到來。隨著網絡技術的快速發展,大數據技術正在逐漸成熟,國內外相關研究中又對大數據有了新的定義,是從大量的網絡數據中提取出有用的數據進行處理,并且提取到的數據具有一定的關聯關系和分析價值。
大數據因具有處理效率快、存儲安全性高、分析精度高等優點,已經被廣泛應用到各個領域中,其中就包括地質礦產。大數據在地質礦產中的應用,有效提高了地質礦產勘查數字化水平,使地質礦產行業邁向了一個新的階段,為此提出大數據在地質礦產中的應用探究。
地質礦產勘查從數據化到信息化轉變的過程,離不開數據處理、存儲、分析,本文主要對大數據在地質礦產數據處理、存儲及分析三方面的應用進行詳細研究。

圖1 基于大數據的地質礦產數據清洗路徑圖
大數據對礦產地質數據處理主要分為數據清洗、數據降維兩部分,其中大數據技術對地質礦產數據清洗主要體現在以下兩個方面:一是利用大數據技術檢查并消除異常數據;二是利用大數據技術檢查并消除比較相似的數據。大數據對于地質礦產數據清洗處理過程如下:首先將地質礦產數據導入到大數據處理工具中,如果地質礦產數量達到千萬級以上,可以使用大數據處理軟件中的Python操作處理。在Python操作界面中可以觀察到元數據屬性,查看到格式、內容、邏輯錯誤的數據。對于該類數據清洗處理的方式有兩種,一種是直接將其刪除,另一種是對其進行修改。兩種處理方法應當根據數據的重要性進行選擇,如果出現錯誤的地質礦產數據對后續地質礦產分析不造成影響,可以選擇第一種;如果出現錯誤的地質礦產數據對后續地質礦產分析結果造成直接影響,選擇第二種處理方式,采用插補的方式對殘缺和錯誤的數據進行補全完整,選取與殘缺數據相同屬性的一組數據,計算出該組數據的均值、眾數以及中間數,然后使用該屬性的計算值對殘缺數據進行插補,圖1為基于大數據的地質礦產數據清洗路徑圖。
對于清洗過后的地質礦產數據還需要利用大數據技術對其進行降維處理,降維處理的目的是為了簡化地質礦產數據屬性,為后續地質礦產數據存儲提供方便。大數據技術對地質礦產數據降維處理具體操作為:首先將一個大型地質礦產數據集劃分為多個不同的小數據集,然后建立一個目標數據特征子集模型,假設地質礦產數據中包含了F個特征信息,通過特征選擇選出H個最具有代表性的特征構成新的特征矢量D,在進行特征選擇的過程中,不會丟失掉單個重要信息的特征,但若需要較小一部分的特征子集,且在原始的地質礦產數據特征又不相同的情況下,應當選擇不會造成信息丟失的特征[2]。為了避免地質礦產數據在降維處理過程中丟失,當原始的地質礦產數據特征不相同時,需要利用大數據特征提取技術進行降維處理,大數據特征提取是利用映射函數將特征從原始的數據空間映射到新的特征子空間當中。提取的特征矢量可表示為K,K經過變換函數變換降維后得到新的特征矢量。特征提取能夠在不丟失原始數據特征空間信息的情況下,減小原始大數據特征空間的規模,從而達到降低特征維度的目的。當利用大數據技術對復雜屬性地質礦產數據進行降維處理時,要根據地質礦產數據的特征選用適當的方法,若地質礦產數據中的特征是相互獨立的個體,則選用大數據特征選擇技術更加方便快捷;若地質礦產數據中的特征之間具有關聯性、不獨立,則應選用大數據特征提取技術對礦山地質數據進行降維處理,通過執行特征的函數變換,消除特征之間的相關性。在進行數據降維時也可將兩者綜合利用,首先進行特征選擇,將選出的一部分具有代表性的特征施加數學映射變換,其次,再將原始數據空間映射到新的子空間中,達到雙重降維處理的效果,完成大數據技術對地質礦產數據處理。
大數據對礦產地質數據主要采取分類存儲的方式,將處理過后的礦產地質數據進行分類。首先將處理后的地質礦產數據進行排序,對于排序的準則函數設定一個閾值,方便后續的分類篩查工作。在排列好的地質礦產數據中,將對應的屬性特征集合定義如下:

公式(1)中,D1、D2表示降維處理數據的特征矢量值。通過改變設定的數據準則閾值,篩選出與其相符合的數據。然后根據設定的判斷閾值對數據樣本的特征進行合理的排序,并以此作為分類依據,將處理后的地質礦產數據進行分類,將統一屬性的數據整合到一個文件中。地質礦產數據主要分為地質礦石數據、地質化學數據、地質三維數據、地質影像數據以及地質圖像數據五種,將地質礦山數據文件設定為CFH類型;將地質化學數據設定為CFHL類型;將地質三維數據文件類型設定為DID類型;將地質影像數據文化類型設定為SDIR;將地質圖像數據文件類型設定為DIDI類型,將分類的數據以表格的形式存儲到大數據分布式數據庫中,下表為基于大數據的地質礦產數據分類存儲表。

表1 基于大數據的地質礦產數據分類存儲表
大數據在地質礦產數據分析中的應用,主要利用大數據中的三維建模及可視化技術,利用該兩種大數據技術建立地質礦產三維可視化模型,并對模型進行分析,其過程如下:首先調取大數據分布式數據庫中的礦產地質三維數據,運用HIGGV6.4軟件對三維地質數據進行網格化,生成網格化數據集,網格化具體過程為:采用自然鄰點法進行網格化,步長設定為250m;當網絡小格數據大于或等于2時,用平均值對該小格進行賦值;將每個網絡小格各元素的含量值歸網至該小格中心點處,由此可以得到地質礦產三維模型。然后再將地質礦石數據、地質化學數據輸入到建立好的三維模型中,對礦產地質數據進行曲線反演。通常做法是先做已知剖面或剖面已知地段的反演,總結出反演的原則和方法,再對未知區域進行反演,以此可以清楚的觀看到礦產分布情況、礦床實際情況,推斷出礦產具有分布位置,為后續礦產開采、確定靶區提供準確依據,實現基于大數據地質礦產數據分析,完成大數據在地質礦產中的應用探究。
本文根據大數據在地質礦產中應用現狀,著重對大數據技術在地質礦產數據處理、存儲及分析中的應用進行了詳細研究,有利于推廣大數據技術在地質礦產中的應用,提高地質礦產勘查數字化、信息化、智能化水平,為地質礦產勘查技術及方法創新和開采提供理論依據,并且最重要的是可以促進地質礦產行業發展突破。大數據在地質礦產領域中的應用非常廣泛,不僅僅只包含此次研究的內容,在地質礦產數據采集方面也具有良好的應用,今后會對大數據在地質礦產數據采集中的應用進行探究。