閔素芹
(中國傳媒大學數據科學與智能媒體學院,北京 100024)
集成學習與深度神經網絡等非線性算法通常可獲得較高的預測精度,但由于其在可解釋性或透明性方面普遍存在欠缺,使得醫學、金融、法律等領域的決策者持謹慎態度[1—3],黑盒模型的復雜結構難以理解,預測模型的性能隨著時間的推移而變差的例子越來越多。IBM 沃森系統被用于輔助醫生進行癌癥治療方案的選擇,然而在現實應用中被專家批評做出了不安全或不正確的治療推薦。將重要的決策交給一個欠缺解釋性的模型存在明顯的危險性,這是機器學習模型尚未在醫療等領域廣泛應用的主要原因[4]。Caruana等(2015)[5]提到訓練數據得出哮喘可以降低肺炎患者死亡風險的錯誤結論,事實上死亡風險低的真正原因不是患哮喘,而是該類病人被直接送至重癥監護病房采取更為有效積極的治療,如果采用統計模型依據特征解釋就很容易發現該違反常識的現象,但會犧牲預測精度。當將黑盒模型用于招聘、保費定價、犯罪預測等領域的自動化決策時,可能涉及公平性相關的倫理或法律問題,例如簡歷篩選系統中的性別歧視傾向、再次犯罪概率預測算法對非裔美國人的偏見等。此時,需要保證模型的透明性,即解釋各變量對預測結果起怎樣的作用。雖然不是所有機器學習算法都必須可解釋,在有些情境下只要在實際應用中得到充分驗證,即使存在誤差或誤分類也不會導致嚴重的后果,但是,對特征效應的科學解釋有助于從訓練模型中提取可解釋的模式、尋找預測效果差的原因、提高對模型預測的信任度等[6]。
機器學習模型的使用日益普遍,理解和解釋黑盒模型如何工作的需求也越來越大。學者們提出了多種技術嘗試解決黑盒模型特征可解釋性問題,其中一類為應用于監督學習算法的與模型無關的特征效應可視化技術,該類方法不局限于特定模型,將預測方法與解釋分開,關注輸入特征對最終預測結果產生的影響,可應用于任意的通過擬合訓練數據用輸入特征預測輸出值的模型或算法。與模型無關的特征解釋方法便于對多種結構不同模型的解釋進行比較,可以直接為全新的模型提供模型解釋或診斷工具,不需要重新尋找新的模型探索方法。目前黑盒模型中分析各輸入特征對預測結果影響應用最廣泛的方法是Friedman 提出的偏相關(Partial Dependence,PD)圖,它可視化了輸入特征對預測值的平均邊際效應,前提假設是各輸入特征之間不相關,在其他特征固定的情況下評估某特定輸入特征所引起的輸出特征預測值的變化。在此基礎上,個體條件期望(Individual Conditional Expectation,ICE)圖擴展了PD 圖,針對每條觀測繪制不同曲線來顯示變量對其預測值的影響,并將其應用于抑郁癥臨床試驗等數據集[7]。ICE的條件是指對個體觀測而不是對輸入特征的條件,繪制每個估計的條件期望曲線,PD圖曲線可視為各條ICE 曲線的平均。Zhao 與Hastie(2021)[8]給出幾個說明性的例子,使用PD 圖與ICE 圖等可視化工具找到了一些潛在的因果關系,研究指出,當出現異常圖像時,深入數據尋找虛假關聯的根源是重要的。Apley 與Zhu(2020)[9]提出利用累積局部效應(Accumulated Local Effects,ALE)圖作為PD 圖的補充方法,能夠避免當輸入特征存在共線性時PD圖不太可靠的問題,且可節省時間,并將其應用于共享自行車數據集,分析天氣狀況、體感溫度、風速、時間等特征如何影響自行車租賃數量預測值。Xu與Reich(2021)[10]利用ALE圖處理了貝葉斯非參數分位數回歸中I-樣條基擴展引入黑盒模型前饋神經網絡替代張量積后所面臨的特征解釋性問題。可視化工具在解釋在線購物[11]、肺癌和支氣管癌死亡率[12]、社交媒體即時通信中的語言特征[13]等問題的機器學習預測模型中發揮了重要作用。
ALE 圖克服了輸入特征間相關時采用邊緣概率密度導致的解釋偏差,作為一種與模型無關的事后解釋方法,可以與提升樹、隨機森林、深度神經網絡、非參數回歸等各種預測模型結合運用,其應用性能有待于進一步研究。在實際應用中,集成學習算法在擬合非線性關系建模中預測性能優良,常用集成方法中的梯度提升樹(Gradient Boosted Trees)模型的表現通常優于隨機森林[14,15],本文基于梯度提升樹分析ALE函數特征解釋的穩定性及其與實際情況的一致性。通過理論推導和數據模擬研究輸入特征相關性對特征解釋科學性的影響;通過多次重復隨機劃分訓練數據和測試數據繪制ALE 圖研究其穩定性;通過構造輸出特征生成模型研究特征解釋的效果,提出將各特征的ALE函數圖統一坐標設置作為特征選擇的參考依據;并基于實際數據集說明ALE圖在預測模型中的特征解釋中的具體應用。
在機器學習實際應用中不斷提高精度、召回率等評價指標的背景下,特征效應的解釋對于這些算法的可信度與模型優化起到輔助作用。與特定模型的特征解釋方法(如線性模型回歸參數的解釋)不同,累積局部效應(Accumulated Local Effects,ALE)圖是一種與模型無關的事后全局解釋方法,不必訪問模型內部結構,不局限于特定模型,可方便地在不同模型間靈活切換與比較。
目前,機器學習中流行使用的偏相關(PD)函數fj,PD(xj)≡E[f(xj,Xj)]采用邊緣概率密度來刻畫,而累積局部效應(ALE)函數采用條件概率密度來刻畫。將輸入特征Xj的ALE函數gj,ALE(·)定義為[9]:
其中,fj(zj,xj)≡?f(xj,xj)/?xj表示xj的局部效應,gj,ALE(xj)為xj的累積局部效應。當輸入特征之間相關時,選取條件期望更為合理。對gj,ALE(·)進行中心化處理,即fj,ALE(xj)≡gj,ALE(xj)-E[gj,ALE(xj)],使得fj,ALE(·)關于Xj的均值為0。
估計ALE 時,函數值差異計算的是落入局部區間內的觀測,把Xj的取值范圍劃分成K個區間,對每一個x∈(z0j,zKj],nj(k) 為落入第k個區間(zk-1,j,zk,j]的觀測數量,式(1)中gj,ALE(xj)的估計為[9]:
減去E[gj,ALE(Xj)]可得到中心化ALE。
從定義可以看出,ALE函數先計算落入鄰域內的所有數據右端與左端函數值差異的平均,然后對各鄰域從左至右進行累加,將其值繪制成ALE 圖進行可視化以呈現當某個輸入變量發生變化時引起的輸出變量預測值的變化。在實際應用中,基于邊緣分布計算輸入特征對預測結果的影響,當特征間相關時會造成曲解,比如房價預測中臥室個數與房屋面積存在正相關性,由于PD 圖采用邊緣分布,因此會出現房屋面積50 平米而臥室數為10 個的違反常識的現象;采用條件概率密度的ALE 圖可以避免這種情況發生。
偏相關(PD)圖是目前機器學習中常用的特征解釋工具,它假設輸入特征間不相關,基于邊緣分布評估各自變量所引起預測值的變化。個體條件期望(ICE)圖則針對每條觀測繪制曲線。ALE 圖、PD 圖和ICE 圖都屬于與模型無關的事后全局解釋方法,本文通過模擬數據直觀說明他們的區別。
生成樣本量n=5000,(X1,X2)~N(1,2,0.52,1,0.7)的隨機數,生成輸出特征y=f(x1,x2)=x1x2+ε,ε~N(0,0.12)。由于ICE 圖針對每條觀測繪制曲線,因此數據過多,會出現堆積現象從而無法辨認各條曲線的走勢,為保證呈現效果,取5%的數據進行預測及展示,其余95%的數據用于模型訓練,運用梯度提升樹進行預測,繪制ALE圖、PD圖和ICE 圖。圖1中,PD 圖是對每條觀測繪制曲線的ICE 圖(點線)的平均;ALE圖是基于條件概率密度對各鄰域特征效應的累加。與平緩的PD 圖相比,ALE 圖所呈現的特征效應更強,較為符合當相關系數為0.7、y=x1x2時x1對y的影響。

圖1 輸入特征間相關系數為0.7時的ALE圖、PD圖及ICE圖
理論上,當輸入特征間相關程度較高時,基于條件概率密度的ALE函數與估計結果更能夠反映輸入特征變化對輸出特征的影響,本文以聯合高斯分布為例分析輸入特征間相關系數引起的ALE函數與PD函數的差異。
PD圖是黑盒預測模型中分析各特征對預測結果影響非常流行的方法,設預測函數為f(x1,x2)=x1x2,則x1的PD 函數為,中心化后的PD函數為:
可以看到,PD函數與ρ無關。
x1中心化的ALE函數為:
其中,μ1、μ2、、ρ為事先給定的常數(分別為X1與X2的期望、方差及兩者間的相關系數)。
可以看到,當X1與X2不相關(ρ=0)時,;但當X1與X2相關(ρ≠0)時,表現為線性關系,無法體現出兩者強相關時所引起的二次函數關系,此時運用ALE 圖呈現特征X1對預測值的影響更合理。
特別地,如果(X1,X2)~N(0,0,1,1,ρ),那么對預測函數f(x1,x2)=x1x2而言,0。當X1與X2兩個特征相關時,呈現的輸入特征對輸出特征的影響始終為0,此時運用PD 函數估計X1的效應將出現較大的偏差。
設(X1,X2)~N(1,2,0.52,1,ρ),則:
關于輸入特征相關程度不同時其對輸出特征的影響,PD 函數始終呈現為線性效應。當輸入特征的期望不為0時,ρ對ALE 函數的二次項、一次項及常數項皆產生影響;當輸入特征的期望為0時,ρ對ALE函數的二次項、常數項產生影響。總之,ρ決定了ALE 的二次函數開口方向與形狀,當輸入特征間正相關時,對預測值的影響先增后減;當輸入特征間負相關時,其影響先減后增,ALE函數包含了相關系數的作用。
ALE 圖采用的條件概率密度理論上能夠適用于特征間相關的情況,為便于說明其估計值圖像效果,將其與基于邊緣概率密度的PD圖進行對比。生成(X1,X2)~N(1,2,0.52,1,ρ) 的隨機數,y=f(x1,x2)=x1x2+ε,ε~N(0,0.12) ,X1與X2的相關系數ρ分別取0、0.3、0.6 和0.9,生成樣本量n=10000 的數據集,隨機抽取50%作為訓練數據,其余50%作為測試數據。
當ρ取0、0.3、0.6 和0.9 時,ALE 理論函數分別為而PD函數始終為。
運用梯度提升樹模型進行預測,訓練過程中迭代次數設定為5000,壓縮參數取0.01,預測時基于十折交叉驗證確定最優迭代次數。當相關系數ρ取0、0.3、0.6和0.9時,測試數據的MSE 分別為0.148、0.015、0.014、0.017,分別對ALE與PD估計值繪制曲線。
下頁圖2顯示,隨著相關系數增加,ALE 理論函數曲線逐漸呈現二次函數形式,ALE估計曲線與理論曲線較為一致;PD 理論函數曲線始終為y=2x-2 的直線,PD 估計曲線在雙尾處偏離理論值的程度較大。總體來看,在輸入特征之間相關或不相關的情境下,ALE估計均能較好地反映輸入特征對輸出特征預測值的影響。

圖2 不同相關系數下ALE理論圖與模擬數據估計圖
當輸入特征之間相互獨立時,PD 圖與ALE 圖都能體現輸入特征變化對預測值的影響;但在大多數機器學習算法中不過多強調前提假定,并不針對多重共線性進行處理,若輸入特征之間相關程度較高,則ALE理論函數與估計值更符合實際。
為進一步了解ALE 估計曲線的穩定性,對模擬數據進行訓練數據集與測試數據集的50 次隨機劃分,繪制50 條ALE 折線圖(見圖3(a))及ALE 理論函數曲線(虛線),繪制50 條PD 折線圖(見圖3(c))及PD 理論函數曲線(虛線)。另外,基于樣本量為200的數據集模擬20次。圖3顯示,n=200 時的曲線較n=10000 時更加分散,表明數據集樣本量對函數曲線的穩定性存在影響。相比于PD 圖,ALE 圖的估計值與理論值更加一致,且對于不同的測試數據集保持較好的穩定性。另外,相關系數取其他值、重復模擬100 次時的測試數據也得出相同的結論。

圖3 樣本量不同時x1 的ALE、PD穩定性及其理論函數曲線
綜上,從函數的理論表達式與模擬數據結果兩個視角對ALE 圖與PD 圖進行比較,結果表明:當特征間不相關時,ALE圖與PD圖的結果一致;當輸入特征存在較強相關關系時,ALE圖由于采用了條件概率所呈現的特征效應曲線,因此更符合實際。理解模型最終預測結果產生的原因有助于對信任度和模型修正提供輔助分析。輸入特征間常常存在相關性,此時ALE圖表現較好。
ALE圖將所關注的輸入特征取值范圍劃分為K個區間,計算每個區間內的局部效應之后進行累加,函數估計值圖像體現出該輸入特征變化對輸出特征預測值的影響。批量生成J個特征,但僅利用其中p(p<J)個特征通過設定函數生成輸出特征,然后利用全部J個特征運用機器學習模型進行預測,分析特征解釋技術能否識別出無關特征。
僅使用一部分輸入特征生成輸出特征,模擬生成數據集,運用梯度提升樹進行預測,分析ALE圖呈現的特征效應是否與真實函數關系一致。
第1 步:設特征間相關系數為ρ,按如下方法生成10個服從均勻分布的輸入特征Xj:
(1)生成獨立同分布的隨機變量dj~U(-1,1),j=1,2,…,10 ;(2)生成隨機變量s~U(-1,1) ;(3)生成變量,t為常數。輸入特征Xj(j=1,2,…,10)兩兩變量間的相關系數:
當t取1時,ρ=0.5;當t取2時,ρ=0.8。
第2 步:10 個輸入特征中僅取部分(4 個輸入特征)參與生成輸出特征Y:
特征間相關系數設置為ρ=0.8,基于X1至X10共10個輸入特征運用梯度提升樹預測Y,基于十折交叉驗證確定最優迭代次數為3450,測試集的MSE 為1.049。繪制各輸入特征的累積局部效應圖(見下頁圖4),X5至X10這6個輸入特征的ALE效應接近于0,實際上式(8)中這6個特征未參與生成輸出特征Y,ALE圖能夠合理地體現對預測值無作用的特征。隨著輸入特征取值由負到正逐漸增大,X1至X4的ALE效應分別為:非線性先減后增、非線性先減后增、非線性增加、線性下降,與式(8)所呈現的數據生成過程基本一致。

圖4 基于ALE圖的特征解釋與選擇
在特征解釋過程中,為便于效應的比較與特征選擇,本文將縱軸取值范圍統一設置,否則各特征根據自己的取值情況自動選取坐標值取值范圍繪制圖像僅能呈現該輸入特征變化對輸出特征預測值的影響。結果表明,ALE圖可正確識別出與輸出特征無關的輸入特征,各輸入特征變化所引起的預測值變化趨勢符合預先設定的模型,ALE圖的特征解釋與特征選擇效果較好。
弱解釋性的集成算法通常比可解釋的線性模型預測能力更強大,若結合事后解釋技術,則能夠兼顧預測力和可解釋性。本文基于一個簡單、常用的數據集說明ALE圖在特征效應解釋中的應用與效果。
在廣告預算的銷量預測研究中,Advertising(廣告)數據集記錄了某產品在200 個不同市場的廣告費用與銷售情況[16],輸入特征分別為TV(電視)、radio(廣播)和newspaper(報紙)三類媒體的廣告投放費用,輸出特征為sales(銷量)。運用梯度提升樹進行預測,通過ALE 圖揭示各輸入特征對銷量預測效應的清晰解釋(見圖5實線),從而指導客戶如何調整廣告預算以增加銷量。在訓練過程中,迭代次數設定為5000,壓縮參數取0.01,預測時基于十折交叉驗證確定最優迭代次數為2413,MSE 為0.349。可以看出,TV(電視)廣告費與radio(廣播)廣告費分別對sales(銷量)存在單調的正向影響,newspaper(報紙)對sales(銷量)預測的效應接近于0,這與采用最小二乘線性回歸時(MSE 為2.298)的特征效應(見圖5 虛線)基本一致,說明各輸入特征在梯度提升樹算法和線性回歸模型中對預測值的影響差不多。

圖5 基于ALE圖的特征解釋與選擇(廣告預算)
從統計學角度,線性回歸模型的擬合優度為0.9012,三個輸入特征的回歸系數分別為TV(0.047,P 值<0.001)、radio(0.186,P 值<0.001)和newspaper(0.00028,P 值≈0.969),即TV 與radio 對sales 存在顯著的正向影響,newspaper不存在顯著影響。當線性回歸模型的特征效應通過ALE解釋(見圖5虛線)時,輸入特征對預測值的累積局部效應是線性的,趨勢與自變量的顯著性分析一致。
ALE 圖反映采用某算法時輸入特征的變化對預測值的影響,走勢與形狀取決于預測精度及模型的特點。線性回歸模型的ALE 圖為直線,而梯度提升樹的ALE 圖則呈現不規則非線性趨勢,因為線性回歸模型中運用各輸入特征的線性組合加常數項預測輸出值,輸入特征對預測值的影響均為線性,斜率取決于對應的回歸系數;而梯度提升樹模型的基分類器為回歸樹,預測原理是將特征空間劃分成高維矩形,以落在同一矩形的訓練數據輸出特征的均值作為預測值,對測試數據中落入該矩形的每條觀測取同樣的預測值,預測值是非線性的、離散化的,累積局部效應呈現為不規則曲線。
作為一種與模型無關的事后特征解釋工具,ALE圖適用于各種不同預測算法。對于同一數據集采用不同算法進行預測后,可通過圖像比較其輸入特征在各算法中所起的作用。ALE 圖僅反映輸入特征變化在某算法中對預測結果的影響,表現為線性或非線性、規則或不規則的曲線,曲線形狀與算法本身有關。ALE 圖默認對各特征按函數值自動生成不同的坐標軸刻度與取值范圍的圖像,將縱軸修改為采用相同的坐標值取值范圍后,那些沒有預測能力的輸入特征的ALE 圖像接近一條零值水平線,表明該特征對預測值影響不大,可以考慮從模型中剔除并重新建模,ALE圖對特征選擇具有參考意義。
在實際應用中,人們通常愿意為提高精度而犧牲可解釋性,選擇深度神經網絡與集成學習等黑盒模型。然而也存在一些案例使得高預測精度學習模型因為不可解釋而飽受質疑,從而限制了其在一些場景中的應用。特征解釋有助于開發人員理解、調試和優化模型,并對預測結果進行解釋,增加模型的信任度。ALE圖為有監督學習黑盒模型的特征解釋提供了較為科學、有效的可視化方式,它是一種與模型無關的特征解釋技術,可直接為全新的模型提供診斷,也可對同一數據集用多種結構不同的模型或算法預測的特征解釋進行比較。將ALE圖可視化特征解釋與機器學習算法相結合,可為通常采用傳統統計模型的社會學、經濟學、傳播學等注重模型解釋的領域的研究提供一種新的選擇。另外,該方法可在機器學習超參數自動優化問題中發揮作用,以了解哪些超參數影響模型性能,從而為優化策略提供有價值的參考。