李得立,李小磊,梁 元,3,辜俊瑩,3
(1.成都理工大學(xué)管理科學(xué)學(xué)院,四川 成都 610059; 2.中國(guó)地質(zhì)環(huán)境監(jiān)測(cè)院, 北京 100081; 3.數(shù)學(xué)地質(zhì)四川省重點(diǎn)實(shí)驗(yàn)室(成都理工大學(xué)),四川 成都 610059)
Studyonevaluationmethodofgeologicalenvironmentcarryingcapacitybasedonmachinelearningalgorithm
LI Deli1,LI Xiaolei2,LIANG Yuan1,3,GU Junying1,3
(1.College of Management Science,Chengdu University of Technology,Chengdu 610059,China; 2.China Institute of Geo-Environment Monitoring,Beijing 100081,China; 3.Geomathematics Key Laboratory of Sichuan Province, Chengdu University of Technology,Chengdu 610059,China)
Abstract:With the increasing attention paid by the state to the construction of ecological civilization,people have been paying more attention to the bearing capacity of the geological environment in the area they live in,and new requirements have been put forward for the evaluation methods of bearing capacity of geological environment.This paper introduces machine learning method,and based on the evaluation theory of geological environment bearing capacity,puts forward the evaluation method of geological environment bearing capacity based on machine learning algorithm.By analyzing geological environment evaluation at home and abroad related results,analyzing various evaluation factors of geological environment and refining the main controlling factors that affect the bearing capacity of geological environment,based on this,the evaluation index system of the bearing capacity of geological environment suitable for machine learning is established,and combined with machine learning methods,build the bearing capacity of geological environment evaluation model based on machine learning algorithms,evaluate the regional geological environmental bearing capacity,taking Pengshan district of Meishan city as an example,carrying capacity evaluation is carried out,which provides a demonstration and evaluation method for the evaluation of the bearing capacity of the geological environment in other regions.
Keywords:geological environment bearing capacity;index system;machine learning algorithm;CART
地質(zhì)環(huán)境承載力是指在一定時(shí)期、一定范圍內(nèi)、一定自然條件下,環(huán)境系統(tǒng)所能承受的人類活動(dòng)總的閥值。生態(tài)地質(zhì)環(huán)境承載力研究從20世紀(jì)90年代起步,目前已成為可持續(xù)發(fā)展和國(guó)家安全戰(zhàn)略研究的基礎(chǔ)研究之一。杜蕾等[1]通過對(duì)城市地質(zhì)環(huán)境承載力評(píng)價(jià)不同階段的指標(biāo)特定性、承載力閾值相對(duì)性及承載力評(píng)價(jià)的復(fù)雜性等關(guān)鍵特性進(jìn)行研究,分析了各個(gè)階段的評(píng)價(jià)方法和評(píng)價(jià)指標(biāo)體系,闡述了承載力評(píng)價(jià)需要注意的問題。汪宙峰等[2]提出地質(zhì)生態(tài)環(huán)境影響因素的分析和研究,采用層次分析法,計(jì)算各種相關(guān)權(quán)重系數(shù),展示地質(zhì)生態(tài)環(huán)境的脆弱性變化的影響因素,確立從宏觀到中觀到微觀的聯(lián)動(dòng)評(píng)價(jià)的方式。李念春[3]提出GIS疊加分析評(píng)價(jià)方法,是應(yīng)用層次分析法確定評(píng)價(jià)指標(biāo)權(quán)重,借助GIS軟件的可視化功能,對(duì)已選的各指標(biāo)層進(jìn)行加權(quán)疊加,再進(jìn)行各種地質(zhì)環(huán)境要素的評(píng)價(jià),最后獲得研究區(qū)地質(zhì)環(huán)境承載力評(píng)價(jià)結(jié)果。李小磊等[4]研究針對(duì)縣域資源環(huán)境承載力評(píng)價(jià)的問題,從本底和狀態(tài)兩個(gè)角度出發(fā),構(gòu)建承載力評(píng)價(jià)指標(biāo)體系,并運(yùn)用指標(biāo)權(quán)重法、GIS空間分析法等方法,對(duì)研究區(qū)地質(zhì)環(huán)境承載能力進(jìn)行了評(píng)價(jià),得到地質(zhì)環(huán)境的風(fēng)險(xiǎn)性評(píng)價(jià)結(jié)果,研究成果可對(duì)成渝經(jīng)濟(jì)區(qū)內(nèi)其他縣(區(qū))地質(zhì)環(huán)境承載力研究起到示范作用。王念秦等[5]通過建立量化綜合評(píng)價(jià)模型,對(duì)西安市臨潼區(qū)驪山鎮(zhèn)不同時(shí)間段的地質(zhì)環(huán)境承載力進(jìn)行評(píng)價(jià),獲得各評(píng)價(jià)時(shí)間地質(zhì)環(huán)境承載力分區(qū)圖,研究成果可為研究區(qū)發(fā)展規(guī)劃提供參考依據(jù)。張茂省等[6]研究提出基于風(fēng)險(xiǎn)的地質(zhì)環(huán)境承載力評(píng)價(jià)方法,通過將承載力狀態(tài)分成三個(gè)等級(jí)進(jìn)行判別,發(fā)展了地質(zhì)環(huán)境承載力理論,為地質(zhì)環(huán)境承載力評(píng)價(jià)提供新的理論與關(guān)鍵技術(shù),為國(guó)土空間開發(fā)“三條紅線”劃定提供了依據(jù)。王子紅等[7]在貴州省地質(zhì)環(huán)境承載力宏觀評(píng)估及分區(qū)研究中,利用“模糊層次綜合評(píng)估”法進(jìn)行評(píng)價(jià),為貴州省地質(zhì)環(huán)境保護(hù)和可持續(xù)利用提供依據(jù)。朱月琴等[8-9]通過利用大數(shù)據(jù)的分析評(píng)價(jià)方法,構(gòu)建智能學(xué)習(xí)的知識(shí)圖譜和地質(zhì)環(huán)境的承載力網(wǎng)絡(luò)架構(gòu),進(jìn)行大數(shù)據(jù)的承載力評(píng)價(jià)方法研究。鄭嬌玉等[10]提出從地質(zhì)環(huán)境、生態(tài)環(huán)境和社會(huì)環(huán)境3個(gè)方面出發(fā),運(yùn)用層次分析法、加權(quán)綜合評(píng)價(jià)法,進(jìn)行柵格尺度的綜合評(píng)價(jià),得到評(píng)價(jià)結(jié)果。大數(shù)據(jù)技術(shù)的發(fā)展,一方面促進(jìn)了數(shù)據(jù)采集技術(shù)的更新,另一方面也促使著地質(zhì)環(huán)境承載力方法的進(jìn)步,尤其是人工智能技術(shù)應(yīng)用,徹底改變了傳統(tǒng)的評(píng)價(jià)方法。唐斌[11]通過利用ID3算法構(gòu)建決策樹,訓(xùn)練出評(píng)價(jià)指標(biāo)和權(quán)重的機(jī)器學(xué)習(xí)模型,再通過模型進(jìn)行地質(zhì)災(zāi)害易發(fā)性的合理性評(píng)價(jià)。都平平[12]通過提出支持向量機(jī)(SVM)理論和方法,對(duì)地質(zhì)采礦因素和地質(zhì)環(huán)境因素進(jìn)行分析,進(jìn)而構(gòu)建綜合地質(zhì)環(huán)境質(zhì)量評(píng)價(jià)及預(yù)測(cè)非線性模型,并通過實(shí)例進(jìn)行研究論證,達(dá)到了很好的研究效果。李云霞[13]提出用核K-means聚類分析算法對(duì)地質(zhì)環(huán)境承載力進(jìn)行分析評(píng)價(jià),借助GIS分析功能,進(jìn)行分析處理,得到地質(zhì)環(huán)境承載力分布圖。
本文引入機(jī)器學(xué)習(xí)方法,以地質(zhì)環(huán)境承載力的評(píng)價(jià)理論為基礎(chǔ),提出了基于機(jī)器學(xué)習(xí)算法的地質(zhì)環(huán)境承載力評(píng)價(jià)方法。通過梳理國(guó)內(nèi)外地質(zhì)環(huán)境評(píng)價(jià)相關(guān)成果,分析地質(zhì)環(huán)境的各種評(píng)價(jià)要素,提煉出影響地質(zhì)環(huán)境承載力的主控因素,在此基礎(chǔ)上建立適合于機(jī)器學(xué)習(xí)的地質(zhì)環(huán)境承載力評(píng)價(jià)指標(biāo)體系,再結(jié)合機(jī)器學(xué)習(xí)方法,構(gòu)建基于機(jī)器學(xué)習(xí)算法的地質(zhì)環(huán)境承載力評(píng)價(jià)模型,對(duì)區(qū)域地質(zhì)環(huán)境承載力進(jìn)行評(píng)價(jià),并以眉山市彭山區(qū)為例,進(jìn)行承載力評(píng)價(jià),為其他區(qū)域的地質(zhì)環(huán)境承載力評(píng)價(jià)提供應(yīng)用示范和評(píng)價(jià)方法。
彭山區(qū)位于川西平原南緣、岷江中游,屬四川省眉山市所轄。區(qū)內(nèi)由于低山、丘陵地帶的地形切割劇烈,地層巖性多為砂泥巖互層或夾層,導(dǎo)致地層結(jié)構(gòu)面軟弱,地質(zhì)災(zāi)害時(shí)有發(fā)生。尤其是在“5·12”汶川大地震和“4·20”大地震之后,次生地質(zhì)災(zāi)害發(fā)育頻度及廣度有所增加。從地質(zhì)災(zāi)害類型來看,主要以滑坡為主,崩塌與不穩(wěn)定斜坡次之,泥石流發(fā)育最少。
1) 降水及地下水。區(qū)內(nèi)河流比較多,受河流的影響比較嚴(yán)重,由于河流沖刷和切割,導(dǎo)致河岸成為了高陡臨空的地形,經(jīng)常出現(xiàn)崩塌、滑坡等地質(zhì)災(zāi)害。尤其是在河水浸潤(rùn)的地方,地質(zhì)災(zāi)害更是嚴(yán)重。
2) 地形地貌。區(qū)內(nèi)由于地形呈低山到深丘的走勢(shì),地形起伏比較大,高陡和斜坡密布,從而導(dǎo)致發(fā)生地質(zhì)災(zāi)害頻繁。在彭山區(qū)境內(nèi),駝脊?fàn)钋鹆陞^(qū)有13處,緩坡丘陵區(qū)有27處,圓頂丘陵區(qū)有3處,堆積臺(tái)地區(qū)有10處,平原區(qū)見有3處,從地質(zhì)災(zāi)害發(fā)生的地形來看,地質(zhì)災(zāi)害點(diǎn)發(fā)生與地形地貌關(guān)系是密切的,地形地貌陡峭的地方,地質(zhì)災(zāi)害容易發(fā)生,平原地帶,發(fā)生比較少。
3) 地層巖性。地層巖性是指構(gòu)成巖層的巖石構(gòu)造,由于區(qū)內(nèi)的巖層受風(fēng)化嚴(yán)重,導(dǎo)致砂和泥巖風(fēng)化嚴(yán)重,上硬下軟,在重力和裂縫的作用下,發(fā)育成崩塌。
4) 地質(zhì)構(gòu)造和新構(gòu)造運(yùn)動(dòng)。地質(zhì)構(gòu)造是指地球的內(nèi)、外應(yīng)力作用,巖層或巖體發(fā)生變形或位移而遺留下來的形態(tài)。主要是通過地形地貌和巖層來影響地質(zhì)災(zāi)害的發(fā)生,主要表現(xiàn)在地質(zhì)構(gòu)造發(fā)生斷層、裂縫等現(xiàn)象,從而促進(jìn)了地質(zhì)災(zāi)害的發(fā)育,為坡體的下滑和移動(dòng)創(chuàng)造了條件,同時(shí)為地層地下水的運(yùn)動(dòng)提供了運(yùn)動(dòng)通道。
新構(gòu)造運(yùn)動(dòng)主要是由于地殼的升降運(yùn)動(dòng),導(dǎo)致地形地貌發(fā)生劇烈變化,引起河流的整體下切,邊岸臨空面高度增加,降低巖土體的穩(wěn)定性,從而導(dǎo)致地質(zhì)災(zāi)害的發(fā)生。
5) 地震作用。彭山區(qū)地處龍泉山斷裂帶,當(dāng)?shù)卣鸢l(fā)生時(shí),地殼內(nèi)部的原始應(yīng)力發(fā)生改變,巖土結(jié)構(gòu)隨之變化,導(dǎo)致坡體失去平衡,誘發(fā)崩塌和滑坡的地質(zhì)災(zāi)害發(fā)生。
6) 人類工程經(jīng)濟(jì)活動(dòng)。人類工程經(jīng)濟(jì)活動(dòng)對(duì)原有的生態(tài)環(huán)境造成了巨大的破壞,并且給當(dāng)?shù)鼐用裨斐闪藝?yán)重?fù)p失和巨大威脅。彭山區(qū)由于所處位置是在經(jīng)濟(jì)欠發(fā)達(dá)與發(fā)達(dá)相交地區(qū),城鎮(zhèn)建設(shè)、水利水電建設(shè)、道路建設(shè)、礦產(chǎn)開發(fā)等人類工程活動(dòng)比較頻繁,破壞了邊坡的穩(wěn)定性,導(dǎo)致地質(zhì)災(zāi)害的發(fā)生。
通過研究地質(zhì)環(huán)境承載力評(píng)價(jià)和機(jī)器學(xué)習(xí)的相關(guān)文獻(xiàn),提煉相關(guān)評(píng)價(jià)方法;多渠道(包括野外)收集地質(zhì)環(huán)境等相關(guān)資料[14],系統(tǒng)整理地質(zhì)環(huán)境評(píng)價(jià)信息,在此基礎(chǔ)上分析影響地質(zhì)環(huán)境的主控因素,并進(jìn)行指標(biāo)分級(jí),構(gòu)建地質(zhì)環(huán)境承載力綜合評(píng)價(jià)指標(biāo)體系;抽取相關(guān)地質(zhì)環(huán)境歷史數(shù)據(jù),進(jìn)行機(jī)器學(xué)習(xí),生成地質(zhì)環(huán)境承載力評(píng)價(jià)的規(guī)則庫(kù),構(gòu)建地質(zhì)環(huán)境承載力評(píng)價(jià)的機(jī)器學(xué)習(xí)模型,再通過模型對(duì)評(píng)價(jià)數(shù)據(jù)進(jìn)行評(píng)價(jià),得到評(píng)價(jià)結(jié)果[15]。基于機(jī)器學(xué)習(xí)算法的地質(zhì)環(huán)境承載力評(píng)價(jià)流程,如圖1所示。

圖1 基于機(jī)器學(xué)習(xí)算法的地質(zhì)環(huán)境承載力評(píng)價(jià)的流程
通過對(duì)地質(zhì)災(zāi)害的主要誘發(fā)因素進(jìn)行研究,系統(tǒng)梳理地質(zhì)環(huán)境、經(jīng)濟(jì)、社會(huì)等多種要素,提煉出地質(zhì)環(huán)境承載力評(píng)價(jià)的主控因素,通過定性分析與定量分析相結(jié)合的方式,對(duì)地質(zhì)環(huán)境承載力評(píng)價(jià)指標(biāo)進(jìn)行篩選和科學(xué)性檢驗(yàn),建立地質(zhì)環(huán)境承載力評(píng)價(jià)指標(biāo)體系。在建立指標(biāo)體系過程中,一方面要考慮單地質(zhì)環(huán)境要素下的承載力水平,另一方面要考慮多種資源環(huán)境要素疊加交叉作用下的地質(zhì)環(huán)境承載力水平。指標(biāo)體系包括以下幾個(gè)方面。①崩塌、滑坡、泥石流易發(fā)程度。評(píng)價(jià)的主要因素和指標(biāo)包括地形地貌、地質(zhì)構(gòu)造、工程巖土性質(zhì)、斜坡結(jié)構(gòu)和斜坡水文地質(zhì)條件。②構(gòu)造穩(wěn)定性。綜合考慮斷裂活動(dòng)性、地震動(dòng)峰值加速度。③地面塌陷。地面塌陷易發(fā)程度綜合考慮碳酸鹽巖類型、巖溶發(fā)育程度、土地利用程度要素。④社會(huì)經(jīng)濟(jì)方面的指標(biāo)。包括人口數(shù)量指數(shù)、素質(zhì)水平、經(jīng)濟(jì)發(fā)展水平指數(shù)(表1)。

表1 地質(zhì)環(huán)境承載力評(píng)價(jià)指標(biāo)
機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)等相關(guān)知識(shí),機(jī)器學(xué)習(xí)算法包含的算法比較多,例如深度學(xué)習(xí)算法、人工智能算法、回歸算法、決策樹算法、貝葉斯算法、聚類算法等都屬于機(jī)器學(xué)習(xí)算法。針對(duì)地質(zhì)環(huán)境承載力評(píng)價(jià),采用決策樹算法來進(jìn)行地質(zhì)環(huán)境承載力評(píng)價(jià),決策樹算法是屬于有監(jiān)督學(xué)習(xí)的分類,通過將不同數(shù)據(jù)源匯集到一起,建立相關(guān)的數(shù)據(jù)池,對(duì)已知分類的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),訓(xùn)練出相關(guān)模型。該分類器其實(shí)是一種非參數(shù)的分類器,能夠處理非線性問題,并且對(duì)數(shù)據(jù),尤其是數(shù)值型數(shù)據(jù)有比較好的處理效果,而且該分類器對(duì)缺失數(shù)據(jù)不是很敏感,具有較好的魯棒性。
2.4.1 CART(classification and regression tree)評(píng)價(jià)模型
2.4.1.1 基尼指數(shù)的計(jì)算
基尼指數(shù)的計(jì)算公式為式(1)。

(1)
若樣本集合D根據(jù)特征A是否取某一可能值a被分割為D1和D2兩部分,也就是式(2)。
D1={(x,y)∈D|A(x)=a},
D2=D-D1
(2)
集合D的基尼指數(shù)計(jì)算公式為式(3)。
(3)
2.4.1.2 決策樹CART模型的訓(xùn)練學(xué)習(xí)
1) 設(shè)結(jié)點(diǎn)的訓(xùn)練數(shù)據(jù)集為D,計(jì)算特征的基尼指數(shù),然后根據(jù)特征A的每一個(gè)值a,進(jìn)行測(cè)試,根據(jù)樣本點(diǎn)對(duì)A=a的測(cè)試為“是”或者“否”,將D分割為D1和D2兩部分,再計(jì)算A=a的基尼指數(shù)。
2) 針對(duì)特征A和切分點(diǎn)a,選擇基尼指數(shù)最小的特征及其對(duì)應(yīng)的切分點(diǎn)作為最優(yōu)特征與最優(yōu)切分點(diǎn),進(jìn)行切分,生成新的兩個(gè)子節(jié)點(diǎn),再將數(shù)據(jù)集特征分配到兩個(gè)子節(jié)點(diǎn)中去。
3) 對(duì)兩個(gè)子結(jié)點(diǎn)遞歸地調(diào)用第一步和第二步,直至滿足停止條件。
4) 生成CART決策樹。
2.4.2 ID3評(píng)價(jià)模型
2.4.2.1 計(jì)算信息增益
1) 計(jì)算數(shù)據(jù)集D的經(jīng)驗(yàn)熵H(D)為式(4)。

(4)
2) 計(jì)算特征A對(duì)數(shù)據(jù)集D的經(jīng)驗(yàn)條件熵H(D|A)為式(5)。

(5)
3) 計(jì)算信息增益為式(6)。
g(D,A)=H(D)-H(D|A)
(6)
2.4.2.2 決策樹ID3模型的訓(xùn)練學(xué)習(xí)
ID3評(píng)價(jià)模型算法,根據(jù)“最大信息熵增益”原則來進(jìn)行劃分,遞歸構(gòu)建評(píng)價(jià)決策樹的過程。算法流程如下所述。
1) 計(jì)算信息增益,如果最大信息增益小于閾值,將其置為葉子節(jié)點(diǎn)。
2) 選擇信息增益最大的特征進(jìn)行分裂。
3) 重復(fù)第一步和第二步,直至分類完成。
2.4.3 C4.5評(píng)價(jià)模型
2.4.3.1 計(jì)算信息增益比率
1) 先計(jì)算分裂信息(Split Information)),計(jì)算公式為式(7)。
(7)
2) 再計(jì)算信息增益比率(Gain Ratio),計(jì)算公式為式(8)。
(8)
2.4.3.2 決策樹C4.5模型的訓(xùn)練學(xué)習(xí)
C4.5評(píng)價(jià)模型算法,根據(jù)“最大信息熵增益率”原則來進(jìn)行劃分,遞歸構(gòu)建評(píng)價(jià)決策樹的過程。算法流程如下所述。
1) 計(jì)算信息增益率,如果最大信息增益率小于閾值,將其置為葉子節(jié)點(diǎn)。
2) 選擇信息增益率最大的特征進(jìn)行分裂。
3) 重復(fù)第一步和第二步,直至分類完成。
通過研究機(jī)器學(xué)習(xí)算法,尤其是決策樹算法,在地質(zhì)環(huán)境承載力評(píng)價(jià)中的探索式應(yīng)用,構(gòu)建地質(zhì)環(huán)境承載力評(píng)價(jià)的決策樹模型。對(duì)地質(zhì)環(huán)境的相關(guān)樣本進(jìn)行學(xué)習(xí)和訓(xùn)練,根據(jù)一定規(guī)則,構(gòu)建由決策點(diǎn)、策略點(diǎn)(事件點(diǎn))及結(jié)果構(gòu)成的樹形決策樹模型。在訓(xùn)練的過程中,根據(jù)給與的指標(biāo)和樣本樹,進(jìn)行適當(dāng)?shù)恼{(diào)整,要考慮誤差修正,最終建立基于機(jī)器學(xué)習(xí)的決策樹模型。
混淆矩陣和系數(shù)法是判斷分類好壞程度的方法之一。首先構(gòu)造混淆矩陣,矩陣中每一列代表了分類預(yù)測(cè)的類別,而每一列的總數(shù),則表示預(yù)測(cè)為該類別的所有數(shù)目之和;矩陣中的每一行代表了分類數(shù)據(jù)的真實(shí)歸屬類別,而每一行的總數(shù),則表示該類別的數(shù)據(jù)所有數(shù)目之和,對(duì)角線上則是被正確分類的樣本數(shù)目。針對(duì)地質(zhì)環(huán)境承載力評(píng)價(jià),選用混淆矩陣方法和系數(shù)法用于分類精度的評(píng)價(jià)分析。
2.5.1 混淆矩陣
1) 生產(chǎn)者精度(PA):指某一類別的正確分類數(shù)占總抽樣點(diǎn)中該類別總數(shù)的比例。其計(jì)算式如式(9)所示。
(9)
2) 用戶精度(UA):指某一類別的正確分類數(shù)占分為該類總數(shù)的比例。其計(jì)算公式為式(10)。
(10)
3) 總體精度(OA):指總分類正確數(shù)占總抽樣數(shù)的比例,它反映了分類結(jié)果總的正確程度。即式(11)。
(11)
2.5.2 Kappa系數(shù)
總體精度、用戶精度等指標(biāo)一般依賴于采樣樣本,需要采用一種更客觀的指標(biāo)來分析分類的質(zhì)量。Kappa分析常用于遙感分類與參考數(shù)據(jù)之間一致性或精度的方法。為了便于分析決策樹的分類精度,在混淆矩陣基礎(chǔ)上,結(jié)合Kappa分析方法,來分析。其計(jì)算公式為式(12)。
(12)
式中:mii為試驗(yàn)區(qū)內(nèi)應(yīng)屬于i類的被分到類中去的總數(shù);n為類別數(shù);mi+和m+i分別為分類混淆矩陣的行總和和列總和;N為總的用于精度評(píng)價(jià)的數(shù)量。
根據(jù)彭山區(qū)自然地理特點(diǎn),結(jié)合其地形地貌和行政區(qū)劃,對(duì)評(píng)價(jià)單元進(jìn)行劃分,得到評(píng)價(jià)單元。通過查閱相關(guān)資料,系統(tǒng)收集了彭山區(qū)等基礎(chǔ)數(shù)據(jù)資料,并針對(duì)該區(qū)的地質(zhì)環(huán)境等相關(guān)數(shù)據(jù),借助相關(guān)公益性項(xiàng)目,收集相關(guān)數(shù)據(jù),通過整理得出這次評(píng)價(jià)數(shù)據(jù)。
數(shù)據(jù)的預(yù)處理方法,與其他預(yù)處理方法差不多,目的是消除數(shù)據(jù)集中錯(cuò)誤、冗余的數(shù)據(jù),減少數(shù)據(jù)噪音,一般采用填補(bǔ)遺漏的數(shù)據(jù)值、平滑有噪聲數(shù)據(jù)、識(shí)別或除去異常值等方法進(jìn)行處理,使不同的、不兼容的各種數(shù)據(jù)集按照一定的規(guī)則一致起來,減少數(shù)據(jù)在機(jī)器學(xué)習(xí)過程中可能出現(xiàn)相互矛盾的情況。評(píng)價(jià)數(shù)據(jù)預(yù)處理之后,見表2。

表2 地質(zhì)環(huán)境承載力部分樣本
續(xù)表2

地貌單元鄉(xiāng)鎮(zhèn)B1B2B3B4B5B6B7B8B9B10B11B12B13Result7-1鳳鳴鎮(zhèn)AlluvialplainErosion andaccumulationhardCompoundslopeLowriskstrongmid-highlimestonestronghighbasicsuitablebasicsuitablebasicunsuitablebalance6-2公義鎮(zhèn)moraineErosion andaccumulationsoftConvexslopemidriskweakhighDolomitelittleweakhighbasicunsuitablebasicunsuitablebasicunsuitableoverload8-2公義鎮(zhèn)ice-wateraccumulationErosion andaccumulationlesshardCompoundslopeLowriskweaklowDolomiticlimestoneweakhighbasicsuitablebasicsuitablebasicsuitablebalance1-2公義鎮(zhèn)LowmountainErodedtectonic terrainhardCompoundslopeLowriskweakmiddleDolomitelittleweakhighunsuitablebasicunsuitableunsuitableoverload4-2公義鎮(zhèn)DeephillockErodedtectonic terrainlesshardConcaveslopeLowriskstrongmid-highDolomiticlimestonestronghighunsuitableunsuitableunsuitableoverload…………………………………………

圖2 生成的機(jī)器學(xué)習(xí)的CART決策樹模型

圖3 生成的機(jī)器學(xué)習(xí)的ID3決策樹模型
利用整理的相關(guān)評(píng)價(jià)數(shù)據(jù),以CART算法和ID3算法為例,進(jìn)行訓(xùn)練,得出決策樹的分類模型,模型如圖2和圖3所示。
對(duì)CART決策樹分類進(jìn)行精度評(píng)價(jià)時(shí),混淆矩陣、總體分類精度、生產(chǎn)者精度、用戶精度Kappa系數(shù)、錯(cuò)分誤差、漏分誤差等是其影響因子。混淆矩陣用于分類結(jié)果與真實(shí)值之間比較,評(píng)價(jià)結(jié)果見表3。
同樣的樣本,使用決策樹的ID3算法進(jìn)行實(shí)現(xiàn),評(píng)價(jià)結(jié)果見表4。

表3 CART決策樹算法分類精度評(píng)價(jià)
注:其分類總精度為93.87%,Kappa系數(shù)=0.8480。

表4 ID3決策樹算法分類精度評(píng)價(jià)
注:其分類總精度為91.84%,Kappa系數(shù)=0.7661。
本研究通過選取基于機(jī)器學(xué)習(xí)算法的地質(zhì)環(huán)境承載力評(píng)價(jià)模型對(duì)彭山區(qū)進(jìn)行地質(zhì)環(huán)境承載力綜合評(píng)價(jià),通過篩選出:地形地貌指數(shù)、斜坡水文地質(zhì)條件指數(shù)、巖溶發(fā)育程度指數(shù)、地質(zhì)構(gòu)造指數(shù)、斷裂活動(dòng)性指數(shù)、土地利用程度指數(shù)、工程巖土性質(zhì)指數(shù)、地震動(dòng)峰值加速度指數(shù)、人口數(shù)量指數(shù)、斜坡結(jié)構(gòu)指數(shù)、碳酸鹽巖類型指數(shù)、素質(zhì)水平、經(jīng)濟(jì)發(fā)展水平指數(shù)等指標(biāo),作為綜合承載能力的評(píng)價(jià)指標(biāo);按照機(jī)器學(xué)習(xí)算法的地質(zhì)環(huán)境承載力評(píng)價(jià)方法,對(duì)現(xiàn)有的樣本進(jìn)行訓(xùn)練,獲得機(jī)器學(xué)習(xí)算法的評(píng)價(jià)模型,再運(yùn)用模型進(jìn)行評(píng)價(jià)分類。對(duì)比CART算法模型和ID3模型,CART算法模型的分類總精度為93.87%,ID3算法91.84%,兩者相差2.03%;CART算法模型的Kappa系數(shù)為0.8480,ID3算法的Kappa系數(shù)為0.7661,CART算法比ID3算法高0.0819,CART算法的評(píng)價(jià)分類效果好于ID3算法。
生態(tài)地質(zhì)環(huán)境是構(gòu)建生態(tài)文明體系的基礎(chǔ),良好的生態(tài)地質(zhì)環(huán)境有助于建立良性循環(huán)的生態(tài)環(huán)境,因此,加強(qiáng)地質(zhì)環(huán)境的管控,就要加強(qiáng)生態(tài)地質(zhì)環(huán)境評(píng)價(jià),有必要了解每一塊地域的生態(tài)地質(zhì)環(huán)境承載力,可以承載多少人口,可以承載多大地質(zhì)環(huán)境災(zāi)害破壞;還需要加強(qiáng)生態(tài)地質(zhì)環(huán)境評(píng)價(jià)方法上的創(chuàng)新,實(shí)現(xiàn)生態(tài)地質(zhì)環(huán)境承載力評(píng)價(jià)過程的白箱化;借助大數(shù)據(jù)技術(shù)、云計(jì)算技術(shù)技術(shù)、人工智能技術(shù),實(shí)現(xiàn)生態(tài)地質(zhì)環(huán)境承載力評(píng)價(jià)智能化。傳統(tǒng)的承載力評(píng)價(jià),基本上是先建立指標(biāo)評(píng)價(jià)指標(biāo)體系和評(píng)價(jià)標(biāo)準(zhǔn),然后通過評(píng)價(jià)方法進(jìn)行評(píng)價(jià)。基于機(jī)器學(xué)習(xí)的地質(zhì)環(huán)境承載力評(píng)價(jià),采取機(jī)器學(xué)習(xí)的方法,訓(xùn)練數(shù)據(jù)獲得評(píng)價(jià)的分類模型,通過調(diào)參優(yōu)化之后,得到最終的評(píng)價(jià)模型。