許 娜,黃 斌,李 強,朱 偉,王志瑋,汪 茹
(中國礦業大學(北京) 地球科學與測繪工程學院,北京 100083)
研究煤中元素的賦存狀態有助于準確評價有害元素對環境的影響,推斷煤中元素的賦存狀態,為從煤和煤灰中回收關鍵金屬元素提供技術指導,從而提高煤的高效加工和利用效率;同時,可以幫助理解泥炭沉積和煤化作用過程,對煤中礦物質的富集成因解釋也有重要意義。然而,煤的物質組成來源和成煤過程復雜,導致煤中元素賦存狀態多樣,給賦存狀態的精準確定造成很大困難。
研究煤中元素賦存狀態的方法可分為直接方法和間接方法,直接方法主要包括光學顯微鏡、各種顯微探針方法(電子、離子和X射線探針)、掃描電鏡+能譜、透射電鏡+能譜、穆斯堡爾譜(價態)、同步輻射X射線熒光和譜學方法(如X射線吸收精細結構譜方法)等;間接方法包括數理統計方法、浮沉試驗方法和化學方法(如逐級化學提取試驗方法)。常用的統計學方法有相關分析、聚類分析、因子分析和多元判別分析等,其中相關分析是基于灰分、常量元素質量分數與微量元素質量分數的相關性來判斷元素的賦存狀態(如計算煤的灰分與煤中元素質量分數之間的相關系數),但是該方法在判別煤中元素賦存狀態時有諸多問題,例如不同基準下(全煤基和灰基)煤中元素之間相關性有時表現不一致,據此推斷的賦存狀態有較大差異。由于煤中元素的質量分數是成分數據,屬于非歐式空間,常用的數據轉換算法有非對稱對數比轉換方法、對稱對數比轉換方法、等距對數比轉換方法、樞軸坐標方法和加權對稱的樞軸坐標方法;數據點間距離的計算方法有歐式距離和皮爾遜相關系數;層次聚類常用的算法有平均鏈接、全鏈接、單鏈接和質心鏈接,不同的層次聚類算法在判別煤中元素的賦存狀態時也會有諸多問題,例如不同的層次聚類算法可能會導致煤中元素賦存狀態的結果不同。一些學者也指出了上述存在的述問題,但是尚未找到根本的解決方法。隨著人工智能的出現,尤其是機器學習的發展為上述問題的解決提供了可能。筆者討論上述問題存在的原因、機器學習解決上述的方案;同時,機器學習在煤中關鍵金屬和有害元素地球化學中研究中也表現出了良好的應用前景,筆者以機器學習算法預測了在運用四級桿電感耦合等離子體質譜方法測試煤中微量元素過程中鋇(Ba)對關鍵金屬元素銪(Eu)干擾的臨界值,以及確定了基于CART算法確定煤中放射性核素鈾對環境和人體健康輻射危害的安全閾值為例。
煤中元素質量分數的表達方法有2種基準,灰基(ash basis)和全煤基(whole coal basis)。灰基指高溫灰的基準(如815 ℃)。煤中元素的質量分數可以在全煤基和灰基之間實現互相轉換:[]=([]×灰分)。雖然煤中元素質量分數在2種基準下能夠實現互相轉換,但是當質譜分析并非通過煤的高溫灰化進行,2種不同基準下元素與灰分的相關系數可能會不一致,例如,內蒙古大青山煤田阿刀亥煤中AlO質量分數和灰分的相關系數在全煤基準下為0.89,但在灰分基準下為-0.3。這2種基準下的相關性分析,雖然已經被眾多煤地質學家所采用,然而2種基準下元素之間、元素和灰分之間的相關性不一致的問題給煤中元素賦存狀態和富集成因的解釋帶來困擾,甚至會得出錯誤的解釋。雖然之前的很多研究都對此問題進行了闡述,但尚未得到很好的解決。為了解決該問題,提出改進的非對稱對數比轉換方法。由于煤中元素含量是成分數據,屬于非歐式空間,導致了不同基準(全煤基和灰基)下的煤中元素相關性不一致。
為解決不一致性的問題,需將成分數據從非歐式空間轉換至歐式空間,其中應用最廣泛的成分數據轉換方法有非對稱對數比轉換方法(alr)、對稱對數比轉換方法(clr)和等距對數比轉換方法(ilr)。
(1)非對稱對數比轉換方法(alr)的表達式為

(1)
其中,為一個樣本中元素的數量;為第個元素的質量分數;為任意元素的質量分數,其中的選擇具有很強的主觀性,需要根據實際情況選擇。為了消除這種主觀性,對稱對數比轉換方法和等距對數比轉換方法被提出。
(2)對稱對數比轉換方法(clr)是在alr轉換方法的基礎上提出的,其分母用幾何平均值來表示,表達式為

(2)
(3)等距對數比轉換方法(ilr)是根據成分數據的幾何結構提出的轉換方法,其核心是用標準正交基定義新數據,表達式為

(3)
筆者提出改進的非對稱對數比轉換方法(ialr)是將alr轉換方法中的用比其他元素更加穩定的常量元素Al和微量元素Zr替代,煤中常量元素的轉換表達式為

(4)
煤中微量元素的轉換表達式為

(5)

以內蒙古大青山煤田大炭豪煤礦和阿刀亥煤礦晚古生代主采煤層的樣品(共106個)為例,對該算法進行了性能驗證,結果如圖1,2所示。
改進的非對稱對數比變換模型比常用的非對稱對數比變換、中心化對數比變換、等距對數比變換以及穩定性在煤中元素賦存狀態的預測結果方面更為準確,尤其是在稀土元素(REE)、常量元素(Ca,Mg,Mn和Fe)、微量元素(Sr和Ba,Nb和Ta)、Cd和Zn元素的聚合性能更好,有效解決了煤和煤灰不同基準下元素之間、元素和灰分之間相關性不一致的問題。
運用傳統的數理統計方法(如計算煤灰分與煤中元素質量分數之間的相關性)所推斷煤中元素賦存狀態,幾乎都是采用全部樣本一并進行統計,從而得出單個相關系數。但是,煤中灰分變化范圍寬(1%~50%),很多元素在不同灰分的煤中的賦存狀態變化很大,其賦存載體不一,因此眾多樣本一并統計,可能會出現賦存狀態推斷的偏差。同時,不同灰分的煤中元素特定的賦存狀態,可能指示其物質來源或保存環境。因此,根據煤中灰分的動態變化來推斷元素的賦存狀態,可以避免因為灰分變化范圍大而造成賦存狀態推斷的偏差,同時還可以提供元素來源和富集保存的有用信息。


(6)

圖1 大炭豪煤礦煤炭元素的聚類分析Fig.1 Cluster analysis for coal element data from the Datanhao Mine

圖2 阿刀亥煤礦煤炭元素的聚類分析Fig.2 Cluster analysis for coal element data from the Adaohai Mine


(7)
以內蒙古哈爾烏素露天礦晚古生代主采煤層為例,應用兩段式聚類算法判別出煤中元素不同來源的臨界點為9%,如圖3所示。其中,該樣本組被選擇的原因是:① 煤中含有相對簡單的礦物組合,以高嶺石和勃姆石為主,含有少量的方解石、黃鐵礦和石英;相對簡單的礦物組合為精準確定煤中元素的賦存狀態提供了可能;② 礦物來源單一,主要礦物高嶺石和勃姆石主要以碎屑或溶液形式來源于蝕源區;③ 通過直接方法,如X射線衍射分析、帶能譜儀的掃描電子顯微鏡和光學顯微鏡對礦物進行賦存狀態研究并進行了交叉驗證,確定了煤中大部分元素的賦存狀態;④ 用X射線熒光光譜和電感耦合等離子體質譜測定了煤中常量元素和微量元素的含量,其結果與礦物學結果一致,表明了地球化學分析和礦物學分析的可靠性;⑤ 該煤的灰分范圍大(3.66%~46.56%),為不同灰分下的煤中元素賦存狀態的漸變分析提供了可能。

圖3 部分元素與灰分相關系數[25]Fig.3 Correlation coefficient of some elements and ash yield[25]
通過研究分析發現:① 以煤灰分9%為臨界點劃分的高灰分和低灰分煤中元素的賦存狀態差異明顯;低灰分煤中大部分元素以有機態為主,高灰分煤中相應的元素以礦物態為主。② 以煤灰分9%為臨界點,低灰分煤中的元素主要來源是成煤植物本身和沉積環境,高灰分煤中元素的主要來源為蝕源區(陰山古陸以及盆地北緣隆起的風化殼鋁土礦)。
層次聚類算法是機器學習最常用的方法之一,應用不同的層次聚類算法會顯示不同的煤中元素的組合。為分析不同層次聚類算法的有效性,筆者對煤中元素的層次聚類算法的有效性進行了對比分析。
轉換算法有樞軸坐標(Pivot Coordinates,PC)和加權對稱的樞軸坐標(Weighted Symmetric Pivot Coordinates,WSPC)。4種常見的層次聚類算法有平均鏈接(Average-Linkage)、全鏈接(Complete-Linkage)、單鏈接(Single-Linkage)和質心鏈接(Centroid-Linkage)。數據點間距離計算方法有歐式距離(Euclidean distance)和基于皮爾遜相關系數的距離。根據轉換算法、簇間距離和數據點之間距離計算方法的不同,可以組合得出不同的層次聚類算法(表1)。
等距對數比坐標(isometric log-ratio coordinates,olr)可以將數據從單純形空間映射到歐幾里德空間。對olr坐標的一種特殊的基準選擇產生了樞軸坐標(PC),其定義如下:

(8)
式中,含義同,表示枚舉;為的范圍上限。

表1 不同組合的層次聚類算法


(9)

(10)
以研究程度較高的內蒙古大青山煤田大炭豪礦和阿刀亥礦的晚石炭世煤中元素為例,驗證不同的層次聚類算法對元素進行聚類并由此進行賦存狀態分析。可以得出:
(1)在對原始數據、樞軸坐標轉換后的數據和加權對稱樞軸坐標轉換后的數據的層次聚類分析中,相關性距離都要比歐氏距離好,如圖4,5所示。
(2)對于使用相關性距離的層次聚類結果,加權對稱的樞軸坐標轉換比樞軸坐標轉換略好,且比原始數據轉換要好,如圖5~7所示。


圖4 使用歐式距離對阿刀亥礦數據(樞軸坐標)的聚類結果Fig.4 Clustering result of Adaohai data (pivot coordinates)with Euclidean distance


圖5 使用Pearson相關對阿刀亥礦數據(樞軸坐標)進行聚類Fig.5 Clustering result of Adaohai data (pivot coordinates) with Pearson correlation

圖6 用Pearson相關對阿刀亥礦數據(加權對稱坐標) 進行聚類Fig.6 Clustering result of Adaohai data (WSPC) with Pearson correlation
(3)單鏈接、全鏈接、平均鏈接和質心鏈接的4種常見的分層聚類算法具有相近的聚類性能,但是平均鏈接算法的效果相對要好,因為它可以更好地揭示元素的地球化學特征,如圖4~7所示。結果表明,在基于原始數據和轉換后數據的聚類分析中,基于皮爾遜相關系數的距離度量都要比歐幾里德距離好。一般來說,基于樞軸坐標進行轉換后的數據優于原始數據,而加權對稱的樞軸坐標又優于樞軸坐標。
機器學習在解決上述傳統數理統計方法展現出了明顯的優勢,同時,機器學習在煤中關鍵金屬和有害元素地球化學中研究中也表現出了良好的應用前景,以煤中稀土元素的檢測和煤中鈾的危害為例進行討論。
Eu測定過程中Ba的干擾
Eu是煤中最重要的稀土元素之一,不僅經濟價值高,而且根據煤中Eu的異常,可以判定煤中礦物質的來源和煤層所經受的地質作用,由此可以提供區域地質歷史演化的煤地球化學方面的信息。檢測煤和煤燃燒產物中的稀土元素(包括Eu)的試驗方法包括X射線熒光光譜、儀器中子活化分析、電感耦合等離子體質譜和激光誘導擊穿光譜。在這些試驗方法中,四級桿電感耦合等離子體質譜(ICP-MS)已經被廣泛用于煤中稀土元素和其他微量元素的測試。然而,四級桿ICP-MS測定煤和煤灰樣品中稀土元素Eu的質量分數經常受到Ba的氧化物和氫氧化物等干擾,導致Eu的測定結果可能偏高,進而會導致煤中稀土元素開發利用評估以及煤中礦物質來源推斷的偏差。判斷ICP-MS檢測過程中Eu質量分數是否受到Ba的干擾以及干擾程度是困擾煤地球化學家的難題之一,而實驗室內去除Ba從而避免Ba對Eu干擾的方法復雜、耗時長,因此Ba對Eu干擾閾值對精準評估煤中稀土元素的質量分數,以及根據Eu的異常判定煤中元素的來源具有重要的理論和現實意義。YAN等提出利用陽離子交換樹脂方法分離Ba和Eu,從而避免Ba對煤、煤燃燒產物和沉積巖中的Eu的干擾。YAN等和LOGES等在進行Ba和Eu質量分數、Ba/Eu質量分數比、Ba對Eu干擾的試驗數據分析基礎上,發現當樣品中的Ba/Eu質量分數比大于1 000時,如果不進行Ba和Eu的分離,樣品中的Ba會對Eu的測試結果造成影響,從而會導致樣品中Eu的測試結果出現錯誤。

圖7 用Pearson相關對阿刀亥礦數據進行聚類Fig.7 Clustering result of Adaohai data with Pearson correlation
機器學習算法預測Ba對關鍵金屬元素Eu干擾的臨界值
由于Ba對Eu干擾的臨界值1 000是根據經驗得出的估計值,為了準確實現Ba對Eu干擾的臨界值,XU等應用機器學習算法預測Ba對Eu干擾的臨界值。通過分析Ba,Eu,Ba/Eu和目標變量Ba對Eu的干擾,筆者發現它們之間的關系是復雜且非線性的,應用線性回歸的方法構建預測模型會有困難,因此采用樹回歸的方法構建預測模型。Ba對Eu干擾臨界值的預測模型構建過程如下:
(1)構建Ba,Eu,Ba/Eu和Ba對Eu的干擾臨界值的訓練數據集,并分析特征。




(11)
式中,為一個算法運算過程中計算得到的量,且隨著算法的進行會更新;,為被劃分出來的相關量的數量。
(3)性能分析。128個煤樣品(包括內蒙古、云南臨滄、云南鎮雄縣熱水河)被用于驗證該閾值的準確性并進行比較,發現預測閾值363比Ba對Eu的干擾經驗閾值1 000更為準確。
煤炭中的放射性核素在燃燒后會在煤灰中發生富集。當含有放射性核素鈾(U)、釷(Th)及其衰變子元素的煤在燃燒后產生的煤灰被用于建筑材料中時,會對人體產生危害。根據聯合國原子輻射效應科學委員會報告,評價室內放射性核素對人體的影響的指標是鐳當量濃度(Ra)。
(Ra)=(Ra)+143(Th)+0077(K)
(12)
其中,(Ra),(Th),(K)為對應的3種放射性核素的放射性活度,Bq/kg。當Ra當量濃度超過370 Bq/kg時,建筑材料中所含有的U和Th及其衰變產生的放射性核素所散發出的伽馬射線會對室內的居民產生潛在的健康風險。
在評估對人體危害程度的研究中,LAUER等收集了中國的8個富鈾煤礦的相關煤樣數據,計算得出當原煤中鈾的質量分數超過10 mg/kg時,其燃燒產生的煤灰被用作建筑材料時會對居民身體健康產生影響,但是由于其研究所用煤樣本少,得出的結果精確度不高,不具有代表性。

獲得U在原煤中的質量分數閾值后,經分析得出東北地區,只有內蒙古自治區烏蘭圖加煤田的U質量分數超過閾值。西藏滇西地區臨滄煤田的U平均質量分數為59.01 mg/kg,西藏滇西地區祿勸煤田的U平均質量分數為34.05 mg/kg。北部地區的煤中平均U質量分數為5.68~27.50 mg/kg,遠低于南部地區。與北部地區相比,南部地區煤中的U質量分數顯著增加。南部地區U平均質量分數為7.50~303.04 mg/kg。該區U質量分數超標的煤主要分布在重慶、貴州、廣西和云南東部。在所有這些煤田中,有3個煤田的U平均質量分數超過100 mg/kg。重慶磨心坡煤田煤中的U質量分數最高,約為303.4 mg/kg。
(1)非對稱對數比轉換方法,有效解決了煤和煤炭不同基準下元素之間、元素和灰分之間相關性不一致的問題。
(2)在4種常見的分層聚類算法中,平均鏈接算法的效果相對要好,在基于原始數據和轉換后數據的聚類分析中,基于皮爾遜相關系數的距離度量都要比歐幾里德距離好, 基于樞軸坐標進行轉換后的數據優于原始數據,而加權對稱的樞軸坐標又優于樞軸坐標。
(3)經分析,Ba對關鍵金屬元素Eu影響的閾值為363,128個煤樣品(包括內蒙古、云南臨滄、云南鎮雄縣熱水河)被用于驗證該閾值的準確性,并與干擾經驗閾值1 000進行比較,發現預測閾值363比干擾經驗閾值1 000更為準確。
(4)經分析得出在灰分小于20%,Ra當量濃度超過370 Bq/kg時,U在原煤中的質量分數閾值為5.28 mg/kg。在灰分大于20%,Ra的值超過370 Bq/kg時,U在原煤中的質量分數閾值為7.98 mg/kg。