


[摘要] """近十年來,人工智能(Artificial Intelligence,AI)作為計算機科學技術的一項重要分支,在計算機視覺、自然語言處理、機器翻譯等研究領域取得了跨越級突破。作為21世紀初的一項顛覆性技術,AI很快被應用于包括地震科學在內的各行業領域。然而,目前以機器學習和深度學習為代表的人工智能技術,雖然在表現性能上遠超傳統方法,但通常模型結構更加復雜,缺乏透明度,具有黑盒本質,因此制約了其在大多數行業領域中的決策級應用。在這樣的時代背景之下,可解釋AI技術應運而生,旨在幫助人類用戶創造一個能夠理解、信任和有效管理的新一代人工智能系統。本文梳理了可解釋AI的定義和方法,簡要介紹了地震學AI技術的研究進展,總結了可解釋AI技術在地震科學領域中的應用現狀,并討論了可解釋AI技術的未來發展趨勢,提出了可解釋AI技術在地震科學領域中的應用展望。
[關鍵詞] 人工智能; 黑盒模型; 可解釋性; 地震科學
[DOI] 10.19987/j.dzkxjz.2023-138
0 "引言
人工智能(Artificial Intelligence,AI),是指一種能夠正確解釋外部數據,并從這些數據中學習,通過靈活調整來實現特定目標和任務的系統,其目的是通過探索人類智慧的本質來為機器賦予智能,促使其學會聽(如機器翻譯、語音識別等)、看(如圖像識別、文本識別等)、說(如人機對話、語音合成等)、思考(如人機對弈、專家系統等)、學習(如知識表示、機器學習等)和行動(如智能機器人、自動駕駛等)。作為計算機科學的一個重要分支,近十年來,AI技術在計算機視覺、自然語言處理、機器翻譯和智能機器人等研究領域取得了跨越級突破。美國波士頓動力公司基于計算機視覺領域AI技術和機器人控制算法研制的Atlas仿生機器人能夠像人一樣自由行動和使用工具;美國OpenAI公司基于自然語言處理領域AI技術研制的聊天機器人ChatGPT能夠實現接近于人類的文本響應并完成諸如郵件撰寫、文檔編輯、圖像生成、代碼編程等任務;谷歌旗下DeepMind公司基于深度神經網絡和強化學習等AI技術研發的人機對弈程序AlphaGo多次以絕對優勢戰勝圍棋世界冠軍。
在地震科學領域,隨著全球地震監測臺網及基礎設施的不斷建立和完善,海量數據的不斷涌現對地震科學領域的傳統數據處理方法帶來巨大挑戰。近數十年來,地震科學領域的研究人員已經提出并研制了眾多技術手段來探測和描述地震,而以機器學習為代表的人工智能技術則是其中尤顯獨特且影響重大的實用工具。通過將機器學習技術應用于地震學領域,既能夠基于數據驅動挖掘地震科學領域的重要知識和規律,又能夠從某種程度上超越人類的直覺,發現一些人類未知的新模式。近年來,隨著計算機算力不斷提升,以卷積神經網絡為代表的深度學習技術飛速發展,越來越多精準性高、泛化能力強的深度學習模型開始涌現,并逐漸被引入到地震科學領域中。趙明等[1]使用卷積神經網絡(CNN)和地震波形時頻圖像數據開展了深度學習微震事件檢測技術研究;于子葉等[2]使用多頭注意力模型和循環神經網絡構建了一種聯合多臺數據進行震相關聯的深度學習模型;李健等[3]提出了一種基于多任務卷積神經網絡的地震震相拾取及事件檢測算法,顯著提升了事件檢測效率和震相拾取精度。
隨著AI技術的迅猛發展和普及應用,其覆蓋面在各行業領域不斷推廣,但當進一步涉及醫療、司法、金融、教育和交通等敏感領域時,AI在推動技術革新的過程中則表現得較為滯緩[4-5]。究其原因,AI模型結構復雜,本質上缺乏透明度,在進行一些高風險決策時,無法向人類解釋和證明其決策依據。因此人們只能將其當作一個“黑盒”來處理,很難從倫理上證明其在高風險決策上的合理性,而如果沒有適當的解釋,識別和防止錯誤行為的發生就變得不可能。相關用戶不得不在算法表現性能和可解釋性之間做出抉擇,而由于高性能黑盒模型所伴隨的風險往往難以承受,因此人們寧愿采用性能較差且需要強人工干預的傳統技術手段,也無法對性能優越卻不可解釋的AI技術建立足夠信任。而人工智能系統正在逐漸成為人類社會的一部分,AI技術的顛覆性革新之勢不可阻擋,因此對這些系統建立信任就至關重要[6]。在這樣的時代背景之下,可解釋AI技術便應運而生,并在學術界掀起了一波研究熱潮。2015年,美國國防部高級研究計劃局(DARPA)的Gunning領銜制定了可解釋人工智能(eXplainable Artificial Intelligence,XAI)研究計劃,并于2017—2021年開展了為期4年的XAI項目技術研究,旨在創建一套全新的或改進的人工智能技術,幫助人類用戶創造一個能夠理解、信任和有效管理的新一代人工智能系統[7];2022年,美國國家自然科學基金委員會發布了“可解釋、可通用的下一代人工智能方法”重大研究計劃項目指南,針對以深度學習為代表的人工智能模型可解釋性弱、對抗樣本魯棒性低、數據與算力要求高、理論基礎薄弱等問題,提出通過規則與學習相結合的方式,建立高精度、可解釋、可通用且不依賴大量標注數據的新型人工智能方法,開發下一代人工智能方法需要的數據庫和模型訓練平臺,完善由下一代人工智能方法驅動的基礎設施。
目前各行業領域的研究人員已紛紛開始投入到可解釋AI技術的應用研究中。例如,在醫學健康領域,研究人員通過運用Grad-CAM、SHAP (SHapley Additive exPlanations)等可解釋AI技術,有效且可靠地提升了COVID-19疾病檢測和愈后診斷能力,幫助人們建立了人工智能技術在醫療領域應用的信任[8];在金融投資領域,Lin等[9]提出了一種可解釋風險排序XRR模型,通過使用多層編碼器和注意力機制來分析用戶關注企業的財務風險,通過采用注意力機制來突出財務報告中最可能會影響財務風險的關鍵語句,從而為模型提供了良好的可解釋性;在刑事司法領域,Leben[10]設計了一種基于反事實的模型和可解釋方法,為決策公平性提供充足的解釋性證據,證明在某一系列狀態發生相反性轉變的假設下,將導致與事實截然相反的對用戶有益或不利的決定,從而以一種可解釋的方式促進決策的公平性。
在地震科學領域中,雖然目前以深度卷積神經網絡為代表的AI技術已在部分研究中取得斐然成績[11],但AI模型本質上缺乏透明度和可解釋性,且相關可解釋技術研究相對缺乏,因此我們亟需開展可解釋AI技術在地震科學領域中的應用性研究。
1 "可解釋AI
1.1 "可解釋AI定義
針對可解釋AI,Gunning等[12]給出了一個較為經典而通用的定義,即“通過創建一套全新的或改進的人工智能技術,使得人類用戶能夠容易理解、適當信任和高效管理新一代人工智能系統”。Arrieta等[13]則從用戶角度提出一個新的定義,“可解釋的人工智能是指在面向不同用戶群體時,能夠提供用戶所需的必要推理細節或決策原因,從而使模型功能和內部機理變得相對清晰而易于理解。”本文給出可解釋AI的定義為:通過對AI模型提供必要解釋或進行改進重構,幫助人類構建一套可理解、可信任、可控制的人工智能系統(圖1)。可解釋AI通常具備透明性、可信性、責任性、無偏性等屬性。
(1)透明性:指可解釋AI以用戶可理解的方式解釋其決策過程,讓用戶確信這個決定是透明的。
(2)可信性:指可解釋AI的解釋行為最大程度參與到決策過程中,使得模型具有可信性。
(3)責任性:指可解釋AI對其決策行為、錯誤輸出或意外結果進行負責和響應的能力。
(4)無偏性:指可解釋AI能夠避免因數據覆蓋不全、模型構建不足或用戶偏見植入而學習到帶有偏見的決策行為。
1.2 "可解釋AI方法
根據可解釋技術在AI模型中的作用階段,可分為先驗和后驗兩類(圖2)。其中先驗可解釋方法指模型本身就具備可解釋性,因此又稱為模型的內部可解釋性;而后驗可解釋方法則指需要借助外部手段對模型的處理過程或決策結果進行解釋,因此又稱為模型的外部可解釋性方法。
1.2.1 "先驗可解釋方法
先驗可解釋方法包括規則模型、模糊系統、決策樹、回歸模型、K近鄰算法、貝葉斯模型、注意力機制和知識蒸餾等。
1.2.1.1 "規則模型
基于規則的模型一般先從專家經驗或領域知識中提取規則,然后通過設計有效的推理邏輯來實現對所觀測信息的表征并最終得出結論。這種方法有助于解釋預測結果和構建知識,具有透明性和可理解性的優勢,并且可以通過修改規則來適應不同的數據集和任務。在專家系統中,基于規則的方法被廣泛應用于知識發現和表示[14]。
1.2.1.2 "模糊系統
模糊系統是一種將輸入、輸出和狀態變量定義在模糊集上的系統,用于處理不確定性和模糊定義問題。模糊系統從宏觀出發,創建基于知識的算法,通過簡化后的自然語言創建可理解的系統邏輯,進而捕捉輸入和輸出之間的高度非線性關系,抓住了人腦思維的模糊性特點,通過模仿人的綜合推斷來處理常規數學方法難以解決的模糊信息處理問題,使計算機應用得以擴大到人文、社會科學及復雜系統等領域[15]。
1.2.1.3 "決策樹
決策樹是一種基于樹結構的分類和回歸算法,本質上是一種基于貪心算法的從上至下、分而治之的過程。決策樹的內部節點是屬性或屬性集,葉節點是所要劃分的類別,通過采用自頂向下的遞歸方式,對決策樹的各內部節點進行屬性值比較,并根據判定規則決定向下的分支,每個分支代表一個可能的取值或判斷結果,最終葉節點就表示分類或決策的結果[16]。
1.2.1.4 "回歸模型
回歸模型是一種通過一組預測變量(自變量)來預測一個或多個響應變量(因變量)的統計方法[17]。其中,邏輯斯蒂(Logistic)回歸是統計學和機器學習中常用的一種概率型非線性回歸模型,常被用于處理二分類問題,不同于其他二分類方法直接給出分類結果,邏輯斯蒂回歸能夠通過給出正類或負類的預測概率值,為用戶提供更加透明的決策結論。
1.2.1.5 "K近鄰算法
K近鄰(KNN)算法被廣泛應用于模式識別和數據挖掘的各個領域,其基本思想是給定一個待分類樣本,首先找出與其距離最接近的K個已知類別樣本,然后選擇K個樣本中所屬類別出現頻率最高者作為該樣本的類別。KNN算法對于未知和非正態分布的數據能夠取得較高的分類準確率,具有簡單直觀、易于實現的優點,但同時也存在分類速度慢、計算量大、樣本庫依賴以及距離函數通用性不足等問題[18]。
1.2.1.6 "貝葉斯模型
貝葉斯模型是一種基于貝葉斯定理的概率模型,可以應用于分類、回歸、聚類等任務。貝葉斯模型的基本思想是根據已知的先驗概率和觀測數據,計算出后驗概率,從而進行分類或預測。主要實現步驟如下:①確定先驗概率:在沒有觀測數據的情況下,根據專家經驗或領域知識確定先驗概率;②選取似然函數:似然函數用于描述觀測數據在各個類別下的概率分布,通常使用最大似然估計法來計算;③計算后驗概率:利用貝葉斯公式,根據先驗概率和似然函數計算后驗概率;④給出分類或預測:根據后驗概率,選擇概率最大的類別作為分類或預測結果。
1.2.1.7 "注意力機制
注意力機制是一種模擬人腦注意力的模型,可以看成是一個組合函數,通過計算注意力的權重分布來突出輸入信息中關鍵特征對模型輸出的影響[19]。目前絕大多數注意力機制方法應用在基于“編碼器—解碼器”框架的深度學習模型中,主要包括位置注意力機制、輸入序列注意力機制、自注意力機制、協同注意力機制、層疊式注意力機制和多頭注意力機制等[20]。
1.2.1.8 "知識蒸餾
知識蒸餾[21]旨在通過同步訓練,將大模型中習得的知識“蒸餾”到小模型中,使小模型具備有接近于大模型的預測能力,從而在不明顯損失精度性能的前提下壓縮模型體量,提升模型的靈活性和運算效率。通過大模型對邏輯規則進行知識建模,使得小模型在每一次迭代訓練過程中均受到大模型的規則知識約束,最終再將知識蒸餾出的小模型作為預測模型,能夠提升模型的全局可解釋性。
1.2.2 "后驗可解釋方法
后驗可解釋方法更側重于為黑盒模型提供可局部解釋的算法或模型,從而為模型內部過程或預測結果提供解釋,使用戶能夠對AI模型的決策行為建立基本信任。
1.2.2.1 "局部代理模型
局部代理模型是指通過訓練一種本身可解釋的代理模型,對黑盒模型的局部結構或者單個實例進行預測,根據其實現效果與黑盒模型的一致性程度,來提升黑盒模型的局部可解釋性。Ribeiro等[22]于2016年提出了一種基于局部代理模型的可解釋技術?LIME,通過對所關注的輸入實例進行擾動生成局部樣本集,并結合黑盒模型的預測結果訓練一個可理解的加權線性回歸模型,通過對黑盒模型局部近似來為其決策行為提供解釋;針對LIME方法中加權線性回歸模型無法適用于非線性復雜場景的缺點,Ribeiro等"[23]又于2018年進一步提出了一種能夠適用于復雜機器學習模型的局部可解釋技術?Anchors,通過設計一種更加精細的規則系統來解釋模型局部決策行為;Mollas等[24]于2019年提出了一種面向神經網絡預測器的局部可解釋技術?LioNets,通過對神經網絡的編碼特征層進行解碼生成相鄰樣本,并結合網絡輸出層的預測結果,訓練一個局部透明線性模型,以實現對黑盒模型的局部解釋。
1.2.2.2 "顯著性圖
顯著性圖是一種對圖像中每個像素的貢獻度進行可視化渲染的方法。在可解釋AI領域,可視化指一種通過對AI模型內部過程添加可視化操作以提高模型透明度的方法[25]。Zhou等[26]于2016年主要面向圖像分類領域提出了一種類激活映射圖技術,采用類激活權重對CNN最后一層卷積層所提取的卷積特征進行通道維加權求和,得到對應的類激活映射圖(CAM),通過將CAM以熱力圖的形式與輸入圖像疊加顯示,能夠直觀發現輸入圖像中模型所關注的與預測類別相關的感興趣區域。在CAM的基礎之上,Selvaraju等[27]于2017年又進一步提出了梯度加權類激活映射(Grad-CAM)技術,Grad-CAM可根據卷積神經網絡任意一層卷積層的反向梯度信息,得到輸入圖像中與各類別預測密切相關的重點區域,并最終以熱力圖的表現形式進行可視化,幫助用戶建立對黑盒模型的理解和信任。
1.2.2.3 "特征相關性
特征相關性解釋是指在模型輸出結果后生成各輸入變量與輸出結果的相關性得分,從而根據得分情況來量化各輸入變量對模型輸出的影響程度,因此又稱為特征歸因。特征相關性解釋主要可分為基于前向擾動的方法和基于反向傳播的方法。其中,前向擾動方法首先對輸入變量進行刪除、掩膜或修改等擾動性操作,然后將其代入到模型中,通過前向傳遞得到輸出結果,根據輸出結果與原始輸出的差異程度計算對應輸入變量的特征相關性得分。反向傳播方法則基于反向梯度計算得出模型關鍵步驟的輸出受各輸入變量的影響程度,從而實現對各輸入變量的特征相關性得分。Bach等[28]提出的分層相關性傳播方法?LRP,面向詞袋模型和神經網絡兩類非線性分類器模型,借助反向傳播算法以遞歸的方式逐層向前傳遞相關性分數,最終計算出輸入圖像中各個像素對預測結果的貢獻值,為黑盒模型的預測行為提供解釋;Shrikumar 等[29]所提出的DeepLIFT方法,通過采用神經元輸入與“參考”輸入之間的差異來解釋神經元輸出與“參考”輸出之間的差異,使得相關性得分即使在梯度為零的情況下也能向前傳播,兼顧了輸入特征的正負貢獻對模型預測的影響,提升了對黑盒模型的解釋能力;Lundberg和Lee[30]基于合作博弈理論中Shapely值所具備的效益性、對稱性和可加性等特征,提出了一種SHAP可解釋技術,通過計算輸入實例各項特征的Shapely值構建一種加性可解釋模型,向用戶解釋各特征對預測結果的貢獻度,從而為黑盒模型提供局部可解釋性。
1.2.2.4 "反事實解釋
反事實解釋是一種基于實例的對比性解釋方法,主要研究可能導致當前模型輸出與事實相反結論的充分條件。反事實解釋方法通常具備可變性、可行性、接近性、合理性和稀疏性等特征。其中,可變性指針對一個特定實例,根據距離函數(L0范數、L1范數、L2范數等)生成其鄰近實例,該鄰近實例所產生的反事實結論雖然與原反事實結論非常相似,但仍會存在微小差異;可行性指所期望產生的反事實結論是能夠通過改變其客觀條件來實現的;接近性指應當對輸入變量的屬性做盡可能小的變動,以使得模型產生所期望的反事實結論,通常采用距離函數對輸入變量的變化量進行衡量;合理性指為得到期望的反事實結論不能夠以改變輸入變量的固有屬性作為前提條件;稀疏性指通過調整盡可能少的輸入變量屬性來得到所期望的反事實結論,即為獲得理想結果而對情景做出最小改變。
1.2.2.5 "知識提取
知識提取是指從訓練的網絡中找到輸入和輸出之間的關系,創建一套基于規則的知識系統,能夠實現由特定輸入引出特定輸出。常見的知識提取方法有兩種:規則提取和知識圖譜。其中,規則提取指從訓練模型中識別規則,并以“IF-THEN-ELSE”形式的知識結構對黑盒模型進行復制,從而為人類提供可理解的規則;知識圖譜是一種解釋實體之間相互關系的語義網絡,可以對現實世界的事物及其關系進行形式化地描述[31],通過將各種實體、屬性及關系表示為有向圖的形式,將不同類型的多源異構數據轉換為統一的圖格式,以一種結構化可查詢的形式幫助人們更好地理解和利用這些知識。
1.2.2.6 "對話模型
早在20世紀下半葉,用于解釋的主導方法還是由Hempel于1965年倡導的演繹—規范模型,該模型認為解釋是一種由一組初始條件和一般規則出發,直至推導出待解釋命題的演繹推理過程。而Moore則于1995年提出,解釋模型在本質上應當是一種通過在提問者與解釋者之間建立對話來進行交互的漸進式過程。2007年Douglas Walton正式提出了面向解釋的對話模型的概念,旨在建立一種自然和諧的人機交互界面,向用戶解釋AI模型生成決策行為的理由和依據,然后再由用戶向系統進行評價性的反饋,以進一步提高對話模型的解釋能力。
2 "地震學AI
國內外相關學者通過十余年的探索,幾乎把以機器學習和深度學習為代表的AI技術應用到地震科學的每一個子領域中。如圖3所示,成果數量方面,以地球模型反演、地震信號去噪、地震事件識別、地震事件檢測、地震震相拾取等方面研究成果居多;數據集體量方面,以地震震相拾取、地震震相關聯、地震事件檢測、震源參數反演、地震事件預測、波形數據仿真等方面數據量居多[32]。本文主要針對地震學AI中的幾個熱門研究方向,以地震事件檢測、地震震相拾取、地震事件識別、地震圖像解譯、地震信號去噪和地震正反演建模為代表展開介紹,闡述地震學AI技術近十年來的研究進展和應用現狀,并概要性總結目前可解釋AI技術在地震科學領域中的應用現狀。
2.1 "地震事件檢測和震相拾取
Zhou等[33]從地震信號時序特征入手,開發了一種混合方法(DetNetamp;PpkNet),該方法綜合CNN和RNN的相關優勢檢測地震事件,并從連續波形中拾取震相到時。Mousavi等[34]提出的一種名為CRED的CNN-RNN混合方法,可以檢測到由水力壓裂引起的微小地震事件。Zhu和Beroza[35]提出的基于U型深度神經網絡的震相到時拾取模型,能夠對地震波形數據實現端到端的P、S震相到時拾取,顯著提升了震相拾取精度和效率。為了提升模型的泛化能力,Mousavi 等[36]進一步提出一種基于注意力機制的EQTransformer模型,該網絡通過結合自注意力機制模塊和多任務分支,實現了對全球地震事件的快速檢測和P、S震相到時拾取。
2.2 "地震事件識別
人工智能技術在地震事件識別任務中同樣表現出色,已有研究成功將機器學習和深度學習方法應用于區分人為爆炸和自然地震[37-38]、火山構造地震和火山震顫[39]、地下采礦[40]、構造震顫"[41]、遠震和近震[42]等事件,能夠證明AI技術在地震事件識別中具有廣泛的應用前景。但從目前AI技術在地震事件識別中的研究現狀來看,由于缺乏大規模的公開標注樣本集,因此地震事件識別AI模型普遍存在場景泛化能力較弱的情況,可采取的解決思路包括制備標注樣本集、數據增廣以及半監督學習、無監督學習和遷移學習等方法。
2.3 "地震圖像解譯
地震圖像解譯旨在從分辨率有限且受噪聲干擾的地震圖像中提取地質(如巖石類型)或結構(如斷層、層位和鹽體)信息。已有研究證明卷積神經網絡的特征學習和降維能力能夠適用于地震震相分析研究[43],同時深度學習模型也有潛力超越模式識別,提供一種更為準確的端到端地震震相分析方式[44-46]。此外,深度學習在圖像分割和目標檢測方面的強大實力還使其能夠有效應用于地質通道[47]、巖溶塌陷特征[48]、散射體[49]、鹽體[50]、層位[51]和地震斷層[52]等地質構造解譯任務中。
2.4 "地震信號去噪
已有研究表明,深度學習方法在抑制地震數據中各種噪聲方面具有良好性能,包括隨機噪聲、相干低頻噪聲、膨脹噪聲[53-55]等。構建深度學習地震信號去噪器的一大難點是需要制備數量和類型均足夠充分的訓練樣本集。目前主要將人工合成信號與真實地震波形數據中提取的噪聲相結合,以創建半人工合成的含噪聲地震波形數據。其他方法還包括自編碼器[56]或生成對抗網絡[57]等無監督深度學習模型。其中,自編碼器模型的核心思想是表征學習,通過自動提取地震數據中的代表性特征來表示感興趣信號,因此只對隨機噪聲具有抑制作用;生成對抗網絡模型則能夠學習到從噪聲域到信號域的域映射,因此可用于去除非相干噪聲,但需要純信號/噪聲數據作為示例樣本。
2.5 "地震正反演建模
地震波形仿真方面,物理神經網絡[58]和生成對抗網絡[59]為標準數值仿真方法提供了一種有效的替代方案,可以解決諸如離散化錯誤和高計算復雜度等問題;地震預測方面,早期研究依賴于人工設計的特征,但目前研究重點已經轉移到基于神經網絡的預測方法,這種方法能夠更直接地結合地震目錄的完整時空結構[60];地球模型反演方面,深度神經網絡已被證明是解決地下結構反演問題的有效方法,其對于高度非線性關系的學習能力能夠從地震數據中推斷各種地下性質,包括地震傳播速度[61-62]、阻抗[63-64]、巖石物理屬性[65-66]、動態儲層性質[67]和地下水分布[68]等;地震震源參數反演方面,深度學習在反演近實時震源參數(如震源、震級和震源機制)方面具有巨大潛力,同時對于跨臺網波形模式的震源特性學習也卓有成效[69],甚至還有研究表明,深度學習方法僅基于單臺數據反演的震源參數就已明顯優于傳統的基于多臺數據反演的方法[70]。
2.6 "可解釋AI在地震科學領域中的應用現狀
已有學者開始將可解釋AI技術應用在地震科學研究中,但總體來看,還存在起步較晚、發展較慢、成果較少的應用現狀。
從目前可解釋地震學AI技術研究情況來看,主要以模型后驗可解釋技術為主,通過對模型添加外部可解釋技術,為模型決策行為提供參考依據,或者通過顯著性圖可視化的方式提高模型局部透明度。Bi等[71]面向巖體穩定性監測領域,提出了一種可應用于微震檢測的可解釋卷積神經網絡XTF-CNN,基于雙通道分類模塊從時域和頻域學習微型地震波形特征,并通過解釋模塊對輸出結果進行精細處理和提供解釋;路曉辰等[72]將卷積神經網絡模型應用于地震事件識別中,并采用梯度類激活映射圖可視化的技術,以熱力圖的方式顯示模型在進行地震事件分類時對地震波形數據不同區域的依賴權重,從而為模型的決策行為提供可解釋判據。而在模型先驗可解釋技術研究方面,相關研究開始將注意力機制應用到地震學AI模型中以提升模型可解釋性。Li等[73]提出了一種基于注意力機制的深度擴張卷積神經網絡(ADDCNN),提升了地震震相自動分析精度,并通過對地震震相特征建立三維空間/頻譜注意力映射圖,揭示了地質沉積與地震頻譜響應之間的微妙關系;或者通過采用解釋性較強的傳統機器學習算法進行模型框架構建,建立一種本質可解釋的地震學AI模型,Ozkaya等[74]基于最復雜鎖定模式(MLCP)、支持向量機分類、多數投票機制和貪心算法構建了一套地震事件檢測機制,開發了一種輕量級、高精度且可解釋的機器學習模型,獲得了與深度學習模型相當的地震信號檢測性能;還有相關學者通過將物理知識機制添加到AI黑盒模型中進行經驗控制,提升模型的泛化能力和可解釋性,Ren等[75]提出了一種基于波動方程正演模擬的地震波形反演網絡?SWINet,通過將物理知識控制機制添加到純數據驅動的深度神經網絡模型中,提高了模型在地震全波形反演任務中的泛化能力和可解釋性。
3 "可解釋AI未來趨勢及其在地震科學領域的應用展望
3.1 "可解釋AI未來趨勢
目前可解釋AI研究主要側重于問題導向,具體解決各行業領域的應用問題,而在領域通用型研究以及基礎理論探索方面的突破性成果較少。總體來看,可解釋AI研究還處于初級階段,普遍存在表現性能欠佳、解釋能力不足、人機交互性弱以及領域通用性低等技術瓶頸。因此,進一步提升精準性、交互性和通用性是未來可解釋AI在地震學領域應用的重要發展趨勢。
(1)精準性更高。AI模型的精準性和可解釋性通常處于一種相互制衡的狀態,結構復雜性越高,精準性和泛化性越強,而可解釋性卻越差,因此在為模型提供可解釋性的同時提升其精準性,將是未來可解釋AI技術的重要發展趨勢。
(2)交互性更強。通過為AI模型構建一種自然和諧的人機交互界面,向用戶解釋其決策依據,然后再由用戶進行迭代反饋,從而不斷提高模型的解釋能力和表現性能,使AI決策行為越來越接近于人類的思考范式,將是未來可解釋AI的重要發展趨勢。
(3)通用性更廣。目前可解釋領域尚未形成一套通用成熟且廣受認可的評價標準,且大部分可解釋技術僅適用于特定結構的AI模型,因此提升可解釋AI技術的通用性,將是可解釋AI研究所面臨的主要挑戰,也是未來可解釋AI的重要發展趨勢。
3.2 "可解釋AI在地震科學領域中的應用展望
從目前可解釋AI技術的發展現狀來看,后驗可解釋方法由于能夠在不影響模型結構的前提下,提供即插即用的局部解釋,因此相關應用性研究較多,但無法從根本上解釋模型的本質機理;相比之下,先驗可解釋方法能夠從模型本質出發,構建一套可解釋的機器學習模型,但模型精度相比于復雜結構的深度學習模型存在明顯不足,且構造模型的基礎理論要求高、實現難度大,因此目前先驗可解釋方法的相關研究成果較少。綜上所述,未來可解釋AI技術在地震科學領域的應用方面,需要有計劃、分階段、按步驟開展。
(1)優先考慮將發展成熟的后驗可解釋技術應用到對于模型精度、效率要求高而解釋性要求相對較低的應用領域。例如地震信號去噪、地震事件檢測、地震事件震相拾取、地震事件臺網關聯、地震事件定位以及地震圖像解譯等,實現方法上,可考慮采用局部代理模型技術:如LIME、Anchors等;局部特征相關技術:如DeepLift、SHAP等;局部模型可視化技術:如CAM、Grad-CAM等。
(2)隨著可解釋AI技術在地震科學領域的應用逐漸成熟和深入,以及針對事件性質研判、震源機制反演等對于模型物理可解釋性要求高于模型精度、效率的應用領域,可重點考慮開展先驗可解釋技術研究,以幫助用戶對人工智能系統建立充分信任。實現方法上,可考慮采用本質可解釋的機器學習算法:例如決策樹、貝葉斯模型等;融入可解釋機制的深度學習算法:例如注意力機制、知識蒸餾等;以及基于物理知識經驗驅動的機器學習和深度學習算法等。
4 "結論
目前AI技術在包括地震科學領域在內的眾多行業領域中已取得了跨越級突破,而可解釋AI技術則能夠幫助人類進一步建立信任,從而促使AI技術在領域決策級應用和敏感關鍵應用中更好更快地部署落地。
本文對近十年來可解釋AI和地震學AI領域的研究成果進行了全面梳理、總結和思考,但仍不可避免地會存在覆蓋不全、理解不深和前瞻性不夠等缺陷,僅為地震科學領域研究人員提供參考和啟發。在后續工作中,將重點針對可解釋AI技術在地震科學領域的應用開展深入研究,旨在全面提升全球范圍內地震事件的監測能力、研判能力和解釋能力。
參考文獻
趙明,房立華,陳石,等. 基于頻譜波形的深度學習微震檢測技術[C]//2019年中國地球科學聯合學術年會論文集,2019 """Zhao M,Fang L H,Chen S,et al. Deep learning microseismic detection technology based on spectral waveform[C]//Proceedings of the 2019 China Earth Science Joint Academic Annual Conference,2019
于子葉,王偉濤. LinkNet:用于震相關聯的的深度學習模型[C]//2020年中國地球科學聯合學術年會論文集,2020 """Yu Z Y,Wang W T. LinkNet:Deep learning models for seismic correlation[C]//Proceedings of the 2020 China Earth Science Joint Academic Annual Conference,2020
李健,王曉明,王娟,等. 一種基于卷積神經網絡的地震震相拾取及事件檢測方法:CN201911232461.0[P]. 2020-04-24 """Li J,Wang X M,Wang J,et al. A novel seismic phase picking and event detection method based on convolutional neural networks:CN201911232461.0[P]. 2020-04-24
Ding W P,Abdel-Basset M,Hawash H,et al. Explainability of artificial intelligence methods,applications and challenges:A comprehensive survey[J]. Information Sciences,2022,615:238-292
Hanif A,Zhang X Y,Wood S. A survey on explainable artificial intelligence techniques and challenges[C]//IEEE 25th International Enterprise Distributed Object Computing Workshop. Gold Coast:IEEE,2021:81-89
Rudin C. Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead[J]. Nature Machine Intelligence,2019,1(5):206-215
Gunning D,Stefik M,Choi J,et al. XAI:Explainable artificial intelligence[J]. Science Robotics,2019,4(37):eaay7120
Fuhrman J D,Gorre N,Hu Q Y,et al. A review of explainable and interpretable AI with applications in COVID-19 imaging[J]. Medical Physics,2022,49(1):1-14
Lin T W,Sun R Y,Chang H L,et al. XRR:Explainable risk ranking for financial reports[C]// Proceedings of Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Bilbao:Springer,2021:253-268
Leben D. Explainable AI as evidence of fair decisions[J]. Frontiers in Psychology,2023,14:1069426
向健斌,余騰,張丹丹,等. 高泛化性模型在郯廬斷裂帶中南段b值與中強震回溯中的應用[J]. 地震科學進展,2024,54(12):868-877 """Xiang J B,Yu T,Zhang D D,et al. Application of high generalization model in the b-value and medium and strong earthquake backtracking of the central and southern section of the Tanlu fault zone[J]. Progress in Earthquake Sciences,2024,54(12):868-877
Gunning D,Vorm E,Wang J Y,et al. DARPA’s explainable AI (XAI) program:A retrospective[J]. Applied AI Letters,2021,2(4):e61
Arrieta A B,Díaz-Rodríguez N,Del Ser J,et al. Explainable Artificial Intelligence (XAI):Concepts,taxonomies,opportunities and challenges toward responsible AI[J]. Information Fusion,2020,58:82-115
Ali S I,Lee S. Ensemble based cost-sensitive feature selection for consolidated knowledge base creation[C]//14th International Conference on Ubiquitous Information Management and Communication (IMCOM). Taichung,China:IEEE,2020:1-7
武星星. 模糊系統和ANFIS的改進及其在加工參數智能選擇中的應用研究[D]. 吉林:吉林大學,2007 """Wu X X. Research on applications of improved fuzzy system and ANFIS in intelligent choosing of machining parameters[D]. Jilin:Jilin University,2007
盧東標. 基于決策樹的數據挖掘算法研究與應用[D]. 武漢:武漢理工大學,2008 """Lu D B. Research and application on the data mining algorithm based on decision tree[D]. Wuhan:Wuhan University of Technology,2008
理查德·約翰遜·A,威客恩·迪安·W. 實用多元統計分析[M]. 北京:清華大學出版社,2007 """Johnson R A,Wichern D W. Applied multivariate statistical analysis[M]. Beijing:Tsinghua University Press,2007
桑應賓. 基于K近鄰的分類算法研究[D]. 重慶:重慶大學,2009 """Sang Y B. Research of classification algorithm based on K nearest neighbor[D]. Chongqing:Chongqing University,2009
Mnih V,Heess N,Graves A,et al. Recurrent models of visual attention[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal:MIT Press,2014:2204-2212
朱張莉,饒元,吳淵,等. 注意力機制在深度學習中的研究進展[J]. 中文信息學報,2019,33(6):1-11 """Zhu Z L,Rao Y,Wu Y,et al. Research progress of attention mechanism in deep learning[J]. Journal of Chinese Information Processing,2019,33(6):1-11
Hinton G,Vinyals O,Dean J. Distilling the knowledge in a neural network[J]. Computer Science,2015,14(7):38-39
Ribeiro M T,Singh S,Guestrin C. Why should i trust you?:Explaining the predictions of any classifier[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco:ACM,2016:1135-1144
Ribeiro M T,Singh S,Guestrin C. Anchors:High-precision model-agnostic explanations[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans:AAAI,2018:1527-1535
Mollas I,Bassiliades N,Tsoumakas G. LioNets:Local interpretation of neural networks through penultimate layer decoding[C]//Proceedings of Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Würzburg:Springer,2019:265-276
Weidele D K I,Weisz J D,Oduor E,et al. AutoAIViz:Opening the blackbox of automated artificial intelligence with conditional parallel coordinates[C]//Proceedings of the 25th International Conference on Intelligent User Interfaces. Cagliari:ACM,2020:308-312
Zhou B L,Khosla A,Lapedriza A,et al. Learning deep features for discriminative localization[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas:IEEE,2016:2921-2929
Selvaraju R R,Cogswell M,Das A,et al. Grad-CAM:Visual explanations from deep networks via gradient-based localization[C]//2017 IEEE International Conference on Computer Vision (ICCV). Venice:IEEE,2017:618-626
Bach S,Binder A,Montavon G,et al. On pixel-wise explanations for non-linear classifier decisions by layer-wise relevance propagation[J]. PLoS One,2015,10(7):e0130140
Shrikumar A,Greenside P,Kundaje A. Learning important features through propagating activation differences[C]//Proceedings of the 34th International Conference on Machine Learning. Sydney:JMLR. org,2017:3145-3153
Lundberg S,Lee S I. A unified approach to interpreting model predictions[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach:Curran Associates Inc.,2017:4768-4777
徐增林,盛泳潘,賀麗榮,等. 知識圖譜技術綜述[J]. 電子科技大學學報,2016,45(4):589-606 """Xu Z L,Sheng Y P,He L R,et al. Review on knowledge graph techniques[J]. Journal of University of Electronic Science and Technology of China,2016,45(4):589-606
Mousavi S M,Beroza G C. Deep-learning seismology[J]. Science,2022,377(6607):eabm4470
Zhou Y J,Yue H,Kong Q K,et al. Hybrid event detection and phase-picking algorithm using convolutional and recurrent neural networks[J]. Seismological Research Letters,2019,90(3):1079-1087
Mousavi S M,Zhu W Q,Sheng Y X,et al. CRED:A deep residual network of convolutional and recurrent units for earthquake signal detection[J]. Scientific Reports,2019,9(1):10267
Zhu W Q,Beroza G C. PhaseNet:A deep-neural-network-based seismic arrival-time picking method[J]. Geophysical Journal International,2019,216(1):261-273
Mousavi S M,Ellsworth W L,Zhu W Q,et al. Earthquake transformer:An attentive deep-learning model for simultaneous earthquake detection and phase picking[J]. Nature Communications,2020,11(1):3952
Linville L,Pankow K,Draelos T. Deep learning models augment analyst decisions for event discrimination[J]. Geophysical Research Letters,2019,46(7):3643-3651
Kou L L,Tang J Q,Wang Z X,et al. An adaptive rainfall estimation algorithm for dual-polarization radar[J]. IEEE Geoscience and Remote Sensing Letters,2022,19:1004805
Titos M,Bueno A,García L,et al. Classification of isolated volcano-seismic events based on inductive transfer learning[J]. IEEE Geoscience and Remote Sensing Letters,2020,17(5):869-873
Peng P A,He Z X,Wang L G,et al. Microseismic records classification using capsule network with limited training samples in underground mining[J]. Scientific Reports,2020,10(1):13925
Nakano M,Sugiyama D,Hori T,et al. Discrimination of seismic signals from earthquakes and tectonic tremor by applying a convolutional neural network to running spectral images[J]. Seismological Research Letters,2019,90(2A):530-538
Mousavi S M,Zhu W Q,Ellsworth W,et al. Unsupervised clustering of seismic signals using deep convolutional autoencoders[J]. IEEE Geoscience and Remote Sensing Letters,2019,16(11):1693-1697
Duan Y T,Zheng X D,Hu L L,et al. Seismic facies analysis based on deep convolutional embedded clustering[J]. Geophysics,2019,84(6):IM87-IM97
Grana D,Azevedo L,Liu M L. A comparison of deep machine learning and Monte Carlo methods for facies classification from seismic data[J]. Geophysics,2020,85(4):WA41-WA52
Liu M L,Jervis M,Li W C,et al. Seismic facies classification using supervised convolutional neural networks and semisupervised generative adversarial networks[J]. Geophysics,2020,85(4):O47-O58
Feng R H,Balling N,Grana D,et al. Bayesian convolutional neural networks for seismic facies classification[J]. IEEE Transactions on Geoscience and Remote Sensing,2021,59(10):8933-8940
Pham N,Fomel S,Dunlap D. Automatic channel detection using deep learning[J]. Interpretation,2019,7(3):SE43-SE50
Wu X M,Yan S S,Qi J,et al. Deep learning for characterizing paleokarst collapse features in 3-D seismic images[J]. Journal of Geophysical Research:Solid Earth,2020,125(9):e2020JB019685
Tschannen V,Ettrich N,Delescluse M,et al. Detection of point scatterers using diffraction imaging and deep learning[J]. Geophysical Prospecting,2020,68(3):830-844
Shi Y Z,Wu X M,Fomel S. SaltSeg:Automatic 3D salt segmentation using a deep convolutional neural network[J]. Interpretation,2019,7(3):SE113-SE122
Di H B,Li Z,Maniar H,et al. Seismic stratigraphy interpretation by deep convolutional neural networks:A semisupervised workflow[J]. Geophysics,2020,85(4):WA77-WA86
Wu X M,Liang L M,Shi Y Z,et al. FaultSeg3D:Using synthetic data sets to train an end-to-end convolutional neural network for 3D seismic fault segmentation[J]. Geophysics,2019,84(3):IM35-IM45
Zhu W Q,Mousavi S M,Beroza G C. Seismic signal denoising and decomposition using deep neural networks[J]. IEEE Transactions on Geoscience and Remote Sensing,2019,57(11):9476-9488
Zhang M,Liu Y,Bai M,et al. Seismic noise attenuation using unsupervised sparse feature learning[J]. IEEE Transactions on Geoscience and Remote Sensing,2019,57(12):9709-9723
You J C,Xue Y J,Cao J X,et al. Attenuation of seismic swell noise using convolutional neural networks in frequency domain and transfer learning[J]. Interpretation,2020,8(4):T941-T952
Saad O M,Chen Y K. Deep denoising autoencoder for seismic random noise attenuation[J]. Geophysics,2020,85(4):V367-V376
Kaur H,Fomel S,Pham N. Seismic ground-roll noise attenuation using deep learning[J]. Geophysical Prospecting,2020,68(7):2064-2077
Song C,Alkhalifah T,Waheed U B. A versatile framework to solve the Helmholtz equation using physics-informed neural networks[J]. Geophysical Journal International,2022,228(3):1750-1762
Gatti F,Clouteau D. Towards blending physics-based numerical simulations and seismic databases using generative adversarial network[J]. Computer Methods in Applied Mechanics and Engineering,2020,372:113421
Wang Q L,Guo Y F,Yu L X,et al. Earthquake prediction based on spatio-temporal data mining:An LSTM network approach[J]. IEEE Transactions on Emerging Topics in Computing,2020,8(1):148-158
Araya-Polo M,Jennings J,Adler A,et al. Deep-learning tomography[J]. The Leading Edge,2018,37(1):58-66
Li S C,Liu B,Ren Y X,et al. Deep-learning inversion of seismic data[J]. IEEE Transactions on Geoscience and Remote Sensing,2020,58(3):2135-2149
Das V,Pollack A,Wollner U,et al. Convolutional neural network for seismic impedance inversion[J]. Geophysics,2019,84(6):R869-R880
Alfarraj M,AlRegib G. Semisupervised sequence modeling for elastic impedance inversion[J]. Interpretation,2019,7(3):SE237-SE249
Das V,Mukerji T. Petrophysical properties prediction from prestack seismic data using convolutional neural networks[J]. Geophysics,2020,85(5):N41-N55
Weinzierl W,Wiese B. Deep learning a poroelastic rock-physics model for pressure and saturation discrimination[J]. Geophysics,2021,86(1):MR53-MR66
Li D,Peng S P,Guo Y L,et al. CO2"storage monitoring based on time-lapse seismic data via deep learning[J]. International Journal of Greenhouse Gas Control,2021,108:103336
L?hivaara T,Malehmir A,Pasanen A,et al. Estimation of groundwater storage from seismic data using deep learning[J]. Geophysical Prospecting,2019,67(8):2115-2126
Münchmeyer J,Bindi D,Leser U,et al. Earthquake magnitude and location estimation from real time seismic waveforms with a transformer network[J]. Geophysical Journal International,2021,226(2):1086-1104
Mousavi S M,Beroza G C. Bayesian-deep-learning estimation of earthquake location from single-station observations[J]. IEEE Transactions on Geoscience and Remote Sensing,2020,58(11):8211-8224
Bi X,Zhang C,He Y,et al. Explainable time-frequency convolutional neural network for microseismic waveform classification[J]. Information Sciences,2021,546:883-896
路曉辰,楊立明,楊興悅,等. 深度學習方法在地震事件分類中的應用及可解釋性研究[J]. 地震工程學報,2023,45(2):474-482 """Lu X C,Yang L M,Yang X Y,et al. Application and interpretability of deep learning methods in seismic event classification[J]. China Earthquake Engineering Journal,2023,45(2):474-482
Li F Y,Zhou H L,Wang Z Y,et al. ADDCNN:An attention-based deep dilated convolutional neural network for seismic facies analysis with interpretable spatial-spectral maps[J]. IEEE Transactions on Geoscience and Remote Sensing,2021,59(2):1733-1744
Ozkaya S G,Baygin N,Barua P D,et al. Most complicated lock pattern-based seismological signal framework for automated earthquake detection[J]. International Journal of Applied Earth Observation and Geoinformation,2023,118:103297
Ren Y X,Xu X J,Yang S L,et al. A physics-based neural-network way to perform seismic full waveform inversion[J]. IEEE Access,2020,8:112266-112277
Review of explainable artificial intelligence and its application prospect in earthquake science
Huang Lihong, Li Jian*, Liu Zhehan, Wang Xiaoming, Shang Jie, Gai Lei, Qiu Hongmao, Li Ming, Gong Ni, Han Shoucheng, Xu Yanyan, Liu Zeyu
CTBT Beijing National Data Centre and Beijing Radionuclide Laboratory, Beijing 100085, China
[Abstract] """"In the past decade, Artificial Intelligence (AI), as an important branch of computer science, has made breakthroughs in the research fields of computer vision, natural language processing, machine translation and so on. As a disruptive technology in the early 21st century, AI was rapidly applied to various research fields, including earthquake science. However, although the AI technology represented by machine learning and deep learning obviously exceeds the traditional algorithm in terms of performance, the model structure is usually much more complex. The nature of the black box and the lack of transparency hinder the decision-level application of AI technology in most research fields. In this context, explainable AI technology came into being, which aims to create a new or improved set of AI technology to help human users create a new generation of AI system that can be understood and trusted. This article firstly introduces the definition and methods of explainable AI, then exemplifies the application research of AI technology in earthquake science, and then discusses future development trend of explainable AI technology. Finally, the application prospect of explainable AI technology in earthquake science is proposed.
[Keywords] artificial intelligence; black box model; explainability; earthquake science