林浩順
(福建省國土資源信息中心,福建 福州 350001)
自然資源作為人類日常生活中必備的生活生產資料,主要包括不可再生資源、可再生資源以及無盡資源等,主要包括礦物、金屬、水、生物以及太陽能、風能等[1]。利用信息化技術,合理利用資源,對其進行有效的保護和合理的開發,能夠獲得更大的環境效益和更好的社會經濟效益[2]。2019年,《自然資源部信息化建設總體方案》的發布要求對于自然資源進行全面信息化管理。
隨著我國眾多的土地、礦產等自然資源被納入到信息化管理,單純的信息瀏覽查詢,已經不能滿足當前經濟快速發展的需要[3]。在互聯網技術大力發展的今天,利用數據庫對資源進行整理和挖掘,高效獲得有用的數據,可以實現經濟資源的效益最大化利用。引入智能化技術手段,采用數據挖掘技術對自然資源數據進行管理,能夠大幅提高資源利用效率[4]。數據挖掘的技術是利用科學化的手段,將大量的數據資源進行規律化整理,分析其中的運行規律。將其與自然資源的管理有機結合,有助于更好地實現信息平臺的高效管理工作[5]。
本文利用數據挖掘技術,分析了信息化的自然資源與經濟發展的關系。通過聚類分析,整合不同地區的資源數據,分析出各地區的經濟發展狀態,為更好地提高自然資源利用效率提供思路。
數據挖掘技術發展自數據庫技術,技術的進步使得簡單的數據庫查詢不能滿足人們的需求,將人工智能技術與數據庫技術進行結合,可以有效實現數據庫的管理和數據存儲工作。利用人工智能技術對于數據進行分類管理,從而對其規律進行自動化分析,進而獲得數據資料背后的知識。
數據挖掘的方法主要包括分類分析、聚類分析、時間序列分析、回歸模型以及其他相關性分析等方法。各種方法的建立都是基于科學的理論,通過總結其數據規律,得到相關的共性和個性。
信息化系統的主要作用在于數據收集和數據查詢,數據資源是信息化的核心,起到支撐性的作用。整個信息化系統中的數據含有地理信息,因此相關的數據建設必須規范,以提高查詢的效率和準確性。
對于收集到的數據,對其進行分類,判斷其是否存在空間信息,對存在空間信息的數據進行整合處理。數據整合的過程主要包括格式轉換、格式標準化、數據完善等。處理好的數據結合對應的符號,標識在相應的地圖服務中。
數據整合的過程需要對于對應的空間數據建立統一的數據標準。對其數據格式進行分類轉換,將收集到的CAD 文件、文本文件、Excel格式數據文件等轉換成對應的目標格式數據文件。部分不涉及的功能屬性數據進行相應的保存歸檔,為以后使用做好準備。
聚類算法是一種對研究對象進行數據分組的一種分析方法,分組的依據主要在于相關數據見的內在特征或者是其相似性,從而將一個數據集合分成若干個簇的信息處理方式。
通過數據劃分以后,會將具有相同屬性的數據對象進行整合,使得同一個聚類的對象之間具有很好的相似性,類內間距值接近于0。而對于聚類之間的對象,其相似性較差,幾乎不具備相似性,類間間距值接近于1。
對于已有的數據進行聚類分析,主要步驟包括數據準備、特征生成和聚類分析。
(1)數據準備。
數據準備的過程包括數據的獲取和數據的預處理過程,并將處理好的數據進行標準化,以便于數據分析。
數據獲取的過程是從已有的信息化系統中調用相關數據或者從收集到的資料中獲取到的原始數據。對于相關的數據屬性加以選擇,去除對于本次分析無關的數據屬性。
數據預處理的過程主要在于對于數據的格式和參數調整,保證其與系統共享數據的一致性。對于不正常的數據進行篩選,對于與大部分數據不一致的數據進行修改,刪除冗余數據。統一數據坐標系,尤其是地理數據,形成標準化格式。補充數據中不完整的屬性項,以便于數據挖掘和數據整理。對于包含屬性較多的數據,為了便于挖掘,需要對其進行規約處理,使數據更簡潔,提高數據挖掘效率。
中心化和標準化過程,在于使數據的屬性單位一致,從而在聚類分析中的地位一致,避免對于數據分析結果形成干擾。
數據中心化的過程主要是利用待檢測變量的觀察值與對應平均值進行做差,使得變量的觀察值X的每一個列屬性具有相同的數據基點。
數據第j個變量的數值平均值表示為:
(1)
對第j個屬性的全部n個對象進行中心化處理,處理過程可以表示為:
(2)
為了保證各個數據屬性具有相同的數據基點,對2式中的屬性進行數據變換,使得變量的平均值為0。
(2)標準化數據。
標準化的目的在于使得中心化后的數據具有相同的變化范圍,標準化的方法有多種,本文主要采用均值標準差方法,其表示形式為:
(3)
式3中,vj表示數據屬性中第j列數值的平均值,qj表示對應數值的標準差。對應的表達式為:
(4)
經過標準化處理后的數據,其數值取值范圍為-1~1。
(3)特征生成。
特征生成過程在于對于數據之間的相似性進行總結,根據數據相關性算法以及研究人員的工作經驗,得到數據之間的相似性關系。
(4)聚類分析。
通過數據的標準化以及數值特征的生成,可以聚類完成相關分析結果的發現、驗證和評估、優化等過程。選擇合理的算法,并經過參數的優化整合設計,可以使得分析結果與現實情況更為接近。
數據的相關關系是指變量在一定程度上存在相互對應的關聯,當自變量之間存在一定的數據關聯時或者取值一定時,因變量變現為在一定范圍內按規律變化,此時兩者之間具有相關關系。
本文數據相關性的算法原則主要是基于深度優先算法,利用該算法中的FP-growth 算法,提高計算效率。
該算法的計算步驟主要分為兩步:生成項目樹和頻繁項目挖掘。
具體過程包括:
(1)通過定義支持度,對篩選出來的數據進行掃描,得到不同項集的支持度情況,對于支持度不滿足最小支持度的項進行刪除,得到結果數據集L。
(2)創建項目樹的根節點,并第二次掃描數據庫,將結果集L中的數據按照大小排序。以此為基礎構造新的項目樹,對于樹中的節點進行整理,對于已存在的節點進行加一操作,對不存在的節點進行構建。
(3)進行FP-Tree 挖掘,從長度最小的節點開始尋找,逐步向上一級擴展尋找路徑,直到找到最優解。
自然資源對于地區的經濟發展來說,本身是個優勢條件,但是當能源開發到一定的程度的時候,就會對經濟發展起到反作用。自然資源的開發以及能源產業的大力發展,會使得地區經濟在短時間內迅速繁榮,但是過度的發展會使得產業結構被破壞,從而抑制了其他產業的進步,從而導致經濟出現各種各樣的問題。
大量消耗的資源以及能源,產生大量的粉塵和空氣污染,出現破壞性的酸雨,環保壓力巨大,脆弱的自然環境同樣對于經濟的發展起到制約的作用。先破壞后治理的發展模式,并不能有效帶來經濟的進步,反而使得環保的壓力越來越大。
從而自然資源和能源的開發利用與經濟發展之間的關系,具有復雜的相關性,涉及的領域除了技術行業以外,環境損失成本對于經濟的影響越來越明顯。
將數據挖掘技術應用于能源開發的狀況分析可以采用K均值聚類分析的方法。其主要指標在于類間偏差和類內偏差,類間偏差值通常大于0小于1,該值距離1的接近程度表明其聚類質量越好。類內偏差值的大小也在0~1,其數值與0的接近程度代表其聚類質量。
通過K值的合理設定可以有效分析系統的狀態。一般要求K的取值,使類內間距較小,類間間距較大。一般情況下,K=5時能夠較好地反映能源的開發狀態。
聚類的結果,可以采用權值和距離來衡量。權重的意義表示該屬性在聚類中的作用,即該屬性的重要程度。距離表示每個類中心點到重心的距離,當距離值較大時,說明可以重要程度可以由這個距離值所對應的屬性來表示。
權值計算方法為:
(5)
(6)
(7)
式中xi, j表示i類中j屬性的值,yi表示i類中心點的屬性,K為類i中的屬性數量。
根據各地區的能源開發現狀,由聚類結果分析出不同能源開發的屬性權值如表1所示。

表1 能源開發屬性權重
投影計算方法為:
(8)
d(i,j)=(xi-y)2
(9)
(10)
式中,Zij表示i類j屬性的值,y表示平均值。得到對應的能源開發屬性投影如表2所示。

表2 能源開發屬性投影
通過聚類分析可以得到“石油天然氣開采”“電力、熱力、燃氣及水生產業”兩個屬性在能源開發過程中的作用最大,對應省市的能源開發狀態可由對應的權重及開發屬性投影加以反應。
由于開發屬性的投影距離不同,不同省份地區的資源開發情況各不相同。
第一類河北等省份的能源開發情況由“電力、熱力、燃氣及水生產業”屬性決定;由于煤炭等的比重較低,說明該地區的發展主要依靠清潔能源。第二類山西等省份的能源開發情況由“石油天然氣開采”屬性決定,同樣沒有大量的煤炭消耗;第三類北京等省市的聚類結果與第一類地區類似;第四類福建等省份聚類結果由“石油和煉焦加工業”屬性決定;第五類浙江等省份聚類結果與第二類情況類似。
聚類結果說明我國的礦產資源與能源開發情況逐漸擺脫過去對于煤炭的依賴,而逐步向清潔能源方向發展。從發展的情況來看,水電與天然氣生產的比重不斷上升,進一步說明我國資源發展偏向于潔凈能源。
本文通過數據挖掘技術對于自然資源進行信息化管理,可以有效掌握國家自然資源的利用情況。由于自然資源的數據巨大,因此需要在其信息化系統的構建過程中,進行整合分析處理。在數據挖掘的過程中,需要根據不同資源的特性,進行分類整合,在總結數據規律的基礎上完成數據分析,可以得到更好的數據結論。