999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分類預測中變量相對重要性的度量

2018-04-26 01:48:44姚新武
統計與決策 2018年7期
關鍵詞:分類模型

高 峰,姚新武

(北京特恩斯市場研究咨詢有限公司,廣州 510055)

0 引言

分類預測,是指通過向現有數據學習,建立算法模型使之對未來新進入數據的分類歸屬做出預測。分類預測是數據分析、數據挖掘和機器學習中的重要課題,廣泛應用于自然科學和社會科學的諸多領域。事實上,自20世紀90年代誕生以來就一直在互聯網領域發揮著核心作用的推薦系統(Recommender systems)即是分類預測的應用典范。例如,在電商平臺廣為使用的協同過濾(Collaborative filtering)推薦技術,其主要思想是:利用已有用戶群過去的行為或意見預測當前用戶最可能喜歡哪些東西或對哪些東西感興趣[1]。無論是通過關聯規則挖掘,還是利用概率論方法實現的協同過濾,原理上都是簡單地將預測問題看作分類問題。

一個“好”的分類預測模型,應當是選取合適個數(或盡可能少)的變量而達到一個令人滿意(或盡可能高)的預測準確度,前者確保模型符合簡約原則(Principle of parsimony),后者則是模型具有實用性的基本考量——是被廣泛接受的衡量模型優良性的評估目標。通常,預測準確度以正判概率(即正判率)作為度量,也經常被稱為回判正確率,因為正確與否只能針對現有或過往數據進行預測后作出結論,對新數據的預測則無法驗證。影響預測準確度的兩個關鍵因素:一是預測變量集的選取,其直接決定了總體可分性[2],即構成總體的各組分類間差異的顯著性;二是合適的方法的選擇和運用,目前備受推崇并有較多成功實踐的是基于混合策略(Hybrid strategy)構建的系統[1],既結合不同算法和模型的優點,又克服它們自身的缺陷和問題,最終實現系統改進。

在獲得分類預測模型之后,研究人員經常還會面臨另一個待解問題:各預測變量對模型構建的相對重要性或貢獻度分別有多大?典型地,這是一個動因分析(Driver analysis)問題,通過分析幫助了解影響目標變化的關鍵因素及其相對強弱,然后籍此制定應對未來變化的策略、或對有限的資源做出更有效的配置。可用于動因分析的方法有很多,既有貝葉斯信念網絡(BBN)、結構方程模型(SEM)等變量間較復雜關系的處理,也有基于(偏)相關分析、回歸分析的線性模型,以及較簡單的基于計數或描述性統計的方法,如貝葉斯條件概率等。

然而,在構建分類預測模型的實踐中,引入通常的動因分析方法解決上述問題往往并不可行,主要面臨以下兩個疑難:一是,預測變量數量多、且由混合尺度測量。二是,引入通常的動因分析將造成與分類預測之間的彼此孤立。因此,當需要對預測變量的相對重要性做出決策時,需要這樣的一種分析技術:它的評估目標應與模型整體優良性的度量相一致,而且適用于常見的混合測量尺度的情形。本文發現,Shapley值分解或分配,也稱為Shapley值法,正是滿足這樣期望的一個方法,它來源于合作博弈論。在合作博弈中,全部或若干參與者,常被稱為局中人,以合作形式構成一個聯盟(Coalition),目標是最終實現聯盟利益的最大化,Shapley值分解則用于解決在實現這一目標過程中每一個局中人的收益分配問題。將Shapley值分解應用于分類預測中變量相對重要性的度量,類比地,局中人為預測變量、聯盟為基于一個變量集的預測模型、聯盟利益為模型的預測準確度,即分析目標可轉化為:在實現模型的預測準確度達到優良性水平的過程中,預測變量的貢獻度分別為多少。

1 基于Shapley值的預測準確度的分解

1.1 Shapley值分解

由Shapley L.S.(1953)[3]首先提出,Shapley值用于度量在多人合作博弈中每一個局中人為利益聯盟所帶來的效益或價值的大小。例如,在一個n人合作對策問題中,全體n個人的合作即構成一個利益聯盟,事實上他們之中任何若干人(≤n)的合作形式也均是一個聯盟,這樣的聯盟子集也稱為組合,對聯盟利益都會產生一定的效益。理解Shapley值的關鍵就在于,該值通過確定一個局中人在包含其的所有可能組合中的效益,然后綜合作為其對聯盟利益的總體效益的衡量。

在合作博弈中,局中人之間的利益活動是非對抗性的,因此局中人出現在一個組合中不會引起效益的減少。這樣,全體n個人的合作將為利益聯盟帶來最大效益,Shapley值分解即是將這個最大效益“公平地”分配到每一個局中人的一種方案。具體地,局中人j在聯盟中分配到的Shapley值(即帶來的效益)是:

其中,wn( )M為加權因子,表明局中人j在組合M中的比重,定義為:

在式(1)和式(2)中,n是聯盟中局中人的總數,m是組合M中局中人的個數,v()是用于度量每一個聯盟組合的效益的特征函數,符號M-{j}表示組合M中除去局中人j。

式(1)中[v(M)-v(M-{j})]是組合M(包含局中人j)與組合M-{j}(從M中除去局中人j)的效益的差值,其意義相當于局中人j對組合M帶來的“邊際效益”。因此,Shapley值可簡單地解釋為:在各種可能的聯盟組合下,局中人對該組合的邊際貢獻之和除以各種可能的組合數。

盡管顯得簡單和自然,Shapley值分解實際上是一個公理化方法,Shapley L.S.(1953)[3]提出并證明Shapley值滿足如下公理體系:

(1)有效性:所有局中人的效益之和等于總的(即最大化的)聯盟利益,即SV(all)=∑SVj;

(2)對稱性:局中人具有平等關系,即當局中人的編號改變時,其分配所得份額不受影響;

(3)可加性:如果a和b為任意兩個博弈,那么,SVj(a即局中人在博弈中所得份額是在兩個分博弈中所得份額的和。

同時,Shapley L.S.(1953)[3]指出,在滿足上述公理體系的前提下,對任何n人合作博弈的收益分配,Shapley值分解是唯一解。

1.2 凈效應和分類預測中準確度的分解

“邊際效益”的另一個常用且對等的說法是“凈效應(Net effect,簡寫為NEF)”。這樣,作為“局中人對所有可能聯盟組合下的邊際貢獻之和”的加權度量,Shapley值實際上是局中人對聯盟利益的貢獻大小的“凈效應”分配。按照上面Shapley值“有效性”公理,即有:

在應用層面,具有這樣的良好解釋性的方法深受歡迎——因為很多動因分析方法僅致力于考察潛在影響因素的主效應,同時研究和在數量上厘清諸多因素之間的交互效應往往比較困難——這極大地拓展了Shapley值分解的實踐領域。其中,尤以對回歸建模中擬合優度診斷指標決定系數(即R2)的Shapley值分解的應用最為廣泛,用來評估多個自變量對因變量的影響程度的凈效應(此時,自變量之間的多重共線性不再是影響模型擬合的問題),且正在逐漸形成一個新的理論分支,即Shapley值回歸(Shapley Value Regression,簡寫為SVR)。

Lipovetsky等(2001)[4]和Wan(2002)[5]是SVR應用的代表力作,前者討論了Shapley值分解應用于多變量回歸分析的優勢以及對最終回歸系數的校正,后者著眼于收入不平等分配的決定因素的分解。此后,將SVR推廣到非線性或其他連接函數(例如Logistic回歸)的情形。

在Lipovetsky等(2001)[4]構建SVR時,將一個自變量(即局中人)“進入-剔出”回歸方程(即聯盟/組合)帶來的R2增量視為式(3)中的凈效應——意即式(1)中特征函數v()以R2為度量,因此式(1)可改寫為:

在分類預測中,預測準確度(標記為AR)是衡量模型整體優良性的評估指標。受式(4)啟發,本文將一個預測變量“進入-剔出”分類預測模型(即聯盟/組合)帶來的AR增量視為式(3)中的凈效應——意即式(1)中特征函數v()以AR為度量,那么適用于回歸方程中R2分解的式(4)可進一步改寫為:

式(5)即是在分類預測建模中對預測準確度的Shapley值分解。

至此,本文不但在原理上類比地將Shapley值分解引入到分類預測建模中,而且在算法上將二者有機地結合在一起,從而可順理成章地應用Shapley值分解來解答分類預測中變量相對重要性度量的問題。

2 數值算例

2.1 數據說明與變量選取

案例數據來自2016年2月底執行的一個有關智能手機的用戶滿意度調查,以網絡推送問卷方式執行,最終有效樣本數為5598個。調查采用凈推薦值(Net Promoter Score,即NPS)作為滿意度度量,即根據用戶對新近購買的智能手機的“推薦可能性”(以0~10分尺度測量,0=一定不會推薦,10=一定會推薦),將其區分為推薦型(9~10分)、消極滿意型(7~8分)和貶低型(0~6分)三類客戶之一,而NPS在數值上等于總體客戶群體中推薦型與貶低型客戶占比的差值。項目研究目的之一是識別出影響用戶滿意度(即NPS)的關鍵驅動因素,并建立預測模型,以幫助企業前瞻性的預判用戶口碑和采取適當的先期介入舉措等。

由上不難理解,NPS預測建模其實就是一個分類預測問題,其基本邏輯是:如果每一個客戶能夠以一個較高的預測準確度被歸入上述三類群體,即客戶群占比確定,那么就可以準確地計算出NPS值。

經過變量預處理(轉換或再編碼、異常值識別等),以及組均值相等性檢驗、逐步法篩選變量、判別分析的交叉驗證等數據分析過程[6],識別出21個變量(見表1前3列)對用戶滿意度有顯著影響,嘗試引入其他變量進入模型對預測準確度的提升幾無貢獻。

表1 影響用戶滿意度(即NPS)的關鍵驅動因素

以這21個變量作為預測變量集,采用“混合策略”[7]——組合使用判別分析(基礎方法)和貝葉斯分類器算法(對“疑似錯判”樣本的修正方法),本文構建了NPS預測模型,將現有樣本正確歸入三類客戶群的整體準確率為78.4%(單獨用判別分析時的正判率為76.7%)。

2.2 預測變量相對重要性的度量:Shapley值分解及算法簡化

顯然,上述的21個預測變量由混合尺度測量,譬如年齡(X1)為次序變量、上一部手機品牌(X2)為名義變量、產品特性體驗(X7至X19)等由5分尺度測量可視為類連續變量,采用通常的以測量預測變量與目標變量之間取值關聯性的方法進行動因分析存在困難。接下來,本文以前述的Shapley值分解法(即式(5))進行動因分析,即著力回答這樣的問題:各預測變量對分類預測模型構建的相對重要性或貢獻度分別有多大?

Shapley值分解作為動因分析方法,是將變量對所構建模型的貢獻大小的“凈效應”進行合理分配。在分類預測建模中,預測變量對模型的貢獻以其對模型的整體優良性(即預測準確度)的提升效果作為度量。

然而,Shapley值分解需要檢視“所有可能組合”,對上述含21個變量的集合,所有可能的組合數為一個很大的數。這意味著,如果以判別分析作為分類預測的算法(為使敘述簡單化,Shapley值分解僅用于對判別分析正判率的分解),本文將需要運行約210萬個判別分析過程以取得它們的正判率數據,任務相當艱巨和耗時,有時得不償失。因此,本文提出以下兩種用于算法簡化的方法,既滿足分析的實效,又能改善算法效率。

2.2.1 算法簡化:建立嵌套的路徑模型,分層進行Shapley值分解

路徑分析(Path analysis),有時也稱為隱變量分析(Latent variable analysis)、結構方程模型(Structural Equation Model)等,是多變量統計分析中的常用方法,廣泛應用于諸多領域。通常,路徑分析的首要任務是構建一個路徑圖:(1)路徑圖依賴于研究人員對待解問題的專業理解,應當符合直覺、簡單和易于理解、具有實際意義(與業務發展模式相匹配),有助于問題的簡單化和聚焦,(2)路徑圖認為諸多變量對目標變量的作用并非完全地具有同一性,而是結構化的(非單一的)和層級化的(有些是直接的、有些是間接的)。

本算例即建立了一個嵌套層次的路徑模型(見下頁圖1),圖中五個區塊分別對應五個維度變量(見表1后2列),通常被稱為潛變量(Latent variable),其中“產品特性體驗(G3)”未作為潛變量表示出來,以避免與測量變量“總體使用體驗(X4)”重復,同時本文認為這組變量對“品牌偏好程度(X5)”和“性價比感知(X6)”也有影響作用。為了簡單化,同時本文并不是采用結構方程模型擬合圖1(見下頁),因此未用圓圈和方框去區分潛變量和測量變量,也未列出誤差項。類似處理方式也出現在文獻[8]中,通過構建分層結構循序實施Shapley值分解,先將收益分配的不平等歸因于若干首要因素,而后將首要因素的影響分解為與其相聯系的次要因素的貢獻。

與結構方程模型一般采用偏最小二乘法(PLS,適用于連續變量)、一次擬合得到整個模型的路徑系數的分析方式不同,本算例引入Shapley值分解,逐層分析預測變量或維度變量對模型的預測準確度改善的“凈效應”,仍然以判別分析作為分類預測方法。

先看第一層:包含4個維度變量(G1/G2/G4/G5)。此時,由它們構成的預測變量集的所有可能組合數為24-1=15,顯然是一個完全可承受的數量。本文并不打算去數量化這些維度變量,而是認為:當考慮維度變量時,由它們派生出的預測變量應“同時地”進入/剔出模型。具體地,所有15個變量集組合、以及各自所包含的預測變量顯示在表2(前2列)。

圖1 驅動因素對用戶滿意度(即NPS)的影響機制的路徑模型

表2 路徑圖第一層的變量集組合及判別分析的正判率

對每一個變量集組合,運行判別分析,得到模型的正判率(見表2最右列)。這樣,根據式(5)即可計算出維度變量G1的Shapley值:

按式(6)同樣計算得到維度變量G2/G4/G5的Shapley值:

如前所述,Shapley值分解度量個體對聯盟的“邊際貢獻”或“凈效應”,因此可加總后折算為占比數值:

式(8)數值的實際含義是:將背景信息(過往使用經歷)、品牌/產品總體感知、口碑感知和售后體驗等視為影響用戶滿意度(即NPS)的四大維度因素,它們的貢獻度(從統計學角度應理解為對NPS數據變化的解釋度)分別為16.9%、49.3%、23.2%和10.6%。

接著看第二層的“背景信息(過往使用經歷)”區塊:包含3個預測變量(X1/X2/X3),它們進入/剔出模型所對應的預測變量集的所有可能組合數為23-1=7。因是比較區塊內各變量對模型的相對貢獻度,則區塊外變量可視為始終保留在模型中。對7個變量集組合分別運行判別分析,得到模型正判率,即可計算出預測變量X1/X2/X3的Shapley值:

加總后折算為“區塊內”占比數值:

同樣處理第二層的“品牌/產品總體感知”區塊(此時區塊外變量,包括X7/…/X19,均視為始終保留在模型中),計算出區塊內變量X4/X5/X6的Shapley值、并加總后折算為“區塊內”占比數值:

2.2.2 算法簡化:僅納入多變量的低階組合

嘗試處理第三層:包含13個預測變量(X7/…/X19),它們被視為X4/X5/X6的底層影響因素。問題再次出現,它們進入/剔出模型所對應的預測變量集的所有可能組合數為213-1=8191,也是一個很大的數,執行這么多次模型仍將非常耗時。本文的解決方法是:不由于檢視“所有可能組合”的算法理想,而是僅納入多變量的低階組合。實踐中,因遍歷“所有可能組合”存在技術障礙或時間花費代價高昂而采取此種簡化操作的情形并不少見,譬如:(1)當計算多變量之間的偏相關系數時,往往只計算至一階或二階組合;(2)當考察多個自變量/預測變量對目標變量的影響關系時,如果需要考慮交互效應,通常也僅涉及一階交互項。同時,很多的驗證性工作表明,變量之間關系大都由主效應或較低階交互效應(或變量間組合)主導,較高階交互效應的影響關系趨弱。

本算例實際用到至多五階組合,即僅考慮不超過5個變量的那些組合,而舍棄6個或更多變量的組合。五階及更低階組合的個數為仍然較大但已屬可控。除了需要耗費顯著多的時間(約數小時)運行這么多次判別分析、得到模型正判率之外,處理過程與上述無異,計算出變量X7/…/X19的Shapley值、并加總后折算為“區塊內”占比數值:NEFX14=6.7%,NEFX15=4.4%,NEFX16=3.7%,NEFX17=9.4%,NEFX18=10.1%,NEFX19=8.9% (14)

當變量個數較多時,僅納入低階組合參與分析可以是一種提升效率的近似算法。當然,如果具有良好的編程能力和高性能的硬件設備,以及較高的時間花費容忍度,可以考慮納入更高階或“所有可能組合”至算法過程。

2.3 算例結果

將式(8)、式(10)、式(12)和式(14)的計算結果標注到圖1的相應路徑上(見圖2),即完成以客戶滿意度(即NPS)為目標變量的分層結構的動因分析?;诖私Y果,仍可進行更多的“深挖”分析,譬如29歲以下年輕人較30歲以上人士對產品滿意度明顯更低等,以獲得更多的市場洞察。

圖2 基于分層結構的用戶滿意度(即NPS)的動因分析

需要注意的是,圖2中數值不應視為通常的路徑模型的擬合系數,而應從Shapley值作為“凈效應”分配的原理出發,理解為區塊內變量對區塊變量(或下一層指標對上一層指標)的數值變化的影響程度的相對大小,有時也可理解為區塊內變量對區塊變量達到當前狀態的貢獻度的相對大小。

3 結論

本文運用起源于合作博弈論的Shapley值法,開創性地通過分解與每一個預測變量相關的正判率來度量它們的相對重要性。Shapley值法易于理解、其結果具有良好解釋性,在諸多領域得到應用;此外,Shapley值法至少還有以下兩個方面的好處:

(1)Shapley值法兼容于任何分類預測方法,甚至是基于“混合策略”的組合方法。Shapley值法僅作用于預測準確度的分解,獨立于構建分類預測模型時使用的算法本身,譬如本文算例將判別分析作為分類預測方法,但如果以貝葉斯分類器算法構建預測模型,Shapley值分解同樣適用。不過,Shapley值分解需要得到不同預測變量集下的預測模型的準確度數據,因此,過于復雜的分類預測算法(譬如基于“混合策略”的組合方法)將在一定程度上影響Shapley值法的使用效率。

(2)Shapley值法適用于任何測量尺度的變量集。Shapley值法既不需要另外構建模型、也不必引入某種動因分析方法,因此無涉任何一個變量的測量尺度。這一特性讓Shapley值法顯得卓爾不群,因為處理混合尺度的測量數據集是很多動因分析方法(譬如回歸分析)的軟肋。

局限在于,Shapley值法需要遍歷變量集的“所有可能組合”:當變量個數較多時,它們的組合數就非常龐大,導致Shapley值法運算量極大、時間花費巨大。此時,宜采用一些簡化算法,譬如本文介紹的兩種,以改善Shapley值法的使用效率、平衡時間成本。

參考文獻:

[1]Jannach D,Felfernig A,Zanker M,et al.推薦系統(Recommender Systems:An Introduction)[M].北京:人民郵電出版社,2013.

[2]潘志文,汪國強.判別分析中基于總體可分性的變量選擇[J].華南理工大學學報:自然科學版,2010,29(11).

[3]Shapley L S.A Value for n-Person Games:in Kuhn H.W.,Tucker A.W.(Eds.),Contribution to the Theory of Games,II[R].Princeton,NJ:Princeton University Press,1953.

[4]Lipovetsky S,Conklin M.Analysis of Regression in Game Theory Ap?proach[J].Applied Stochastic Models in Business and Industry,2001,(17).

[5]Wan G.Regression-based Inequality Decomposition:Pitfalls and a Solution Procedure[R].WIDER Discussion Paper,2002.

[6]張文彤.SPSS統計分析高級教程[M].北京:高等教育出版社,2004.

[7]高峰,姚新武.分類預測中正判率的改進方法[J].統計與決策,2017,(12).

[8]Shorrocks A F.Decomposition Procedures for Distributional Analysis:A Unified Framework Based on the Shapley Value[J].The Journal of Economic Inequality,2013,(11).

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产综合精品一区二区| 国产女同自拍视频| 试看120秒男女啪啪免费| 制服丝袜在线视频香蕉| 国产精品吹潮在线观看中文| 亚欧美国产综合| 国产一级妓女av网站| 伊人久久大香线蕉综合影视| 成人在线综合| 尤物国产在线| 欧美天天干| 五月婷婷精品| 不卡午夜视频| 国内精品久久久久鸭| 国产女人18水真多毛片18精品| 亚洲三级a| 欧美性精品| 综合亚洲网| 久久精品国产国语对白| 一级毛片a女人刺激视频免费| 国产sm重味一区二区三区| 91精品视频在线播放| 中文字幕 91| 毛片一级在线| 精品国产免费第一区二区三区日韩| 国产簧片免费在线播放| 黄色一级视频欧美| jizz在线观看| 国产人成网线在线播放va| 欧美成人精品欧美一级乱黄| 亚洲精品第五页| 国产午夜在线观看视频| 99精品一区二区免费视频| 91精品国产91久久久久久三级| 国产情侣一区二区三区| 国产91特黄特色A级毛片| 99免费视频观看| 在线国产91| 色婷婷电影网| 一级爆乳无码av| 国产99免费视频| 在线99视频| 欧美另类视频一区二区三区| 91视频精品| 六月婷婷激情综合| 亚洲AV无码一区二区三区牲色| 国产成人你懂的在线观看| 中文字幕2区| 中文字幕在线视频免费| 天天综合网亚洲网站| 亚洲欧洲日产国产无码AV| 香蕉精品在线| 国产00高中生在线播放| 亚洲成人在线网| 91毛片网| 99伊人精品| 九九热视频精品在线| 麻豆精品视频在线原创| 国产一级毛片在线| 2021亚洲精品不卡a| 国产在线小视频| 国产精品刺激对白在线| 日韩乱码免费一区二区三区| 午夜福利视频一区| 欧美日本不卡| 国模视频一区二区| 中国成人在线视频| 在线视频一区二区三区不卡| 亚洲精品国偷自产在线91正片| 欧美无专区| 中国精品久久| 久久这里只有精品国产99| 伊人蕉久影院| 亚洲无码高清一区二区| 国产黄在线观看| 亚洲国产日韩在线观看| 国产精品久久自在自线观看| 国产美女免费| 一级毛片a女人刺激视频免费| 久久99精品久久久久久不卡| 毛片大全免费观看| 国产av色站网站|