周可心,袁永生,林春進
(河海大學理學院,南京 211100)
2020年3月發布的《中共中央國務院關于深化醫療保障制度改革的意見》中指出,到2030年,全面建成以基本醫療保險為主體,醫療救助為托底,補充醫療保險、商業健康保險、慈善捐贈、醫療互助共同發展的醫療保障制度體系[1]。目前,中國商業醫療保險參保的城鄉差距較大,2008年城鄉居民商業醫療保險參保率均為6.9%,到2013年城鎮居民商業醫療保險參保率上升至7.7%,而農村居民商業醫療保險參保率則下降到6.1%[2],因此大力促進農村商業醫療保險的發展,縮短城鄉差距具有重要的實際意義。從供給側來說,對于保險企業能夠準確識別農村潛在客戶,對于中國多層次醫療保險的建設以及促進自身業務發展都具有重要的作用。
針對商業保險領域,潛在用戶識別方法主要有:影響因素分析及使用單個基礎分類算法。胡銘珉[3]提出使用數據挖掘技術,挖掘有價值的信息,提高信息的利用率,以拉動保險行業的發展,但未進行具體實踐僅介紹了數據挖掘技術在保險業中應用。陸草[2]提出使用二元邏輯回歸對商業醫療保險的參保情況進行影響因素分析,但并不能幫助企業有效地識別潛在參保用戶。王姍姍[4]提出通過訓練單個決策樹方法對居民商業醫療保險進行分析,以幫助企業有效識別潛在用戶。為進一步提高識別準確率,孫成偉等[5]提出使用集成學習中同質模型融合方法隨機森林法預測農村居民是否會購買商業養老保險,準確率達到77.9%,以準確率為模型評價的惟一指標,不能全方位檢驗模型的性能。
本研究從基礎的統計學習方法出發,提出了一個基于k-近鄰算法、決策樹算法和邏輯回歸算法的k-DT-LR融合模型,根據數據環境動態地為個體學習器分配不同的權重,經多組數據集測試表明該方法具有良好的性能,為保險公司識別農村潛在用戶提供更加有效科學的方法。該方法將分類正確率提高到90.024%,且在閾值設定為0.6時,第一類別即農村居民購買商業醫療保險的召回率提高到91.402%,解決了模型泛化能力弱、容易遺漏潛在用戶的問題。
k近鄰算法(k-nearest neighbor algorithm,k-NN)是通過測試樣本的k個最近鄰的標簽來計算測試樣本的類標簽。假設已經定義了它的距離度量。對于任何一個測試樣本x,都可以找到它的k個最近鄰,用來表示它們[6]。x的類標簽由中的訓練樣本的標簽決定,輸入訓練樣本T={(x1,y1),(x2,y2),…,(xN,yN)}其中,xi∈χ為實例的特征向量,其中實例的類別 為yi∈Y={c1,c2,…,cK},i=1,2,…,N。可描 述為:

式中,I為指示函數;i=1,2,…,N;j=1,2,…,K。
對于每個類,它都有一個指示功能。以第i個類為例,其指標功能為:

決策樹算法(Decision tree algorithm,DT)是一個基本的分類和回歸算法,模型呈樹形結構。決策樹主要由結點和有向邊組成,從根結點出發,對實例的某個特征進行測試,根據結果將實例分配到其子結點;每一個子結點對映該特征的一個取值,如此遞歸地對每個實例進行測試并分配,直至達到葉結點,最終將實例分到葉結點的類中[7]。
邏輯回歸算法(Logistic regression algorithm,LR)是統計學習方法中的一種經典分類方法,屬于線性模型。給定數據集T={(x1,y1),(x2,y2),…,(xN,yN)},離散隨機變量的Y取值集合為{1 ,2,…,K},多項邏輯回歸模型公式為:

式中,k=1,2,…,K-1;x∈Rn+1,wk∈Rn+1。
單一模型的泛化能力是比較薄弱的,集成學習算法可以聚集多個基礎模型的優點,在精度參數上的表現優于單個基礎學習器,獲得一個魯棒性更強的分類器。本研究所提的新異質模型融合方法,融合過程可簡述為:首先,單獨訓練上述3個基礎分類模型得到3個概率矩陣;然后計算權重,得到融合基礎模型;最后,根據數據環境設定閾值,得到最終分類結果。
使用Python軟件構造上述3種基礎模型,并計算得到每個樣本被分到每一個類別的概率值,生成3個概率矩陣。假設k近鄰算法、決策樹算法和邏輯回歸算法輸出結果用f(x),g(x),h(x)表示:

其中,yi∈Y={c1,c2,…,cK}為實例的類別,x為樣本,p(x|y=ci)代表樣本x被分到第i類的概率。
通常在集成學習中,所有的個體學習器性能都被考慮在相同的水平上。然而,無論集成是由同質個體學習器組成,還是由異構個體學習器組成,基礎學習器的弱點和優勢都會被忽略。為了解決該問題,本研究所提的融合模型給不同性能的個體學習器分配不同的影響能力,即較強的影響能力應該分配給性能較強的基礎學習器,較低的影響能力應該分配給性能較弱的基礎學習器。
因此,本研究所提出的k-DT-LR融合算法不是通過取個體分類器的平均值進行組合,而是使用線性加權組合,其中每個算法的不同權重是基于性能計算得到,將不同影響系數分配給集成學習方法中使用的基礎學習器。
該方法融合算法為:

個體學習器被選擇的概率被認為是不相等的,個體學習器在異構集成學習中的功能是不相同的。在集成中個體分類器被選擇的概率是每個個體分類器的性能與總性能之比。根據權重計算式(8)和式(9)得到每個個體分類器被選擇的概率,增加選擇較強大的基分類器的概率,降低選擇較弱的基分類器的概率,微調每一個個體分類器的效果。
權重ω計算函數為:

acc1、acc2、acc3表示3個模型的準確率,p(x)為概率矩陣。
設置相應閾值T={T1,T2,…,Tk-1},T的維數與分類數據集的類別數k有關,控制分類精確和召回率,得到最終分類結果。以三分類為例,首先閾值將假設為T={T1,T2},最終分類函數為如下所示:

式中,result為最終的輸出函數,c1、c2、c3為二進制函數且不同時為1,即當p1值大于閾值T1時,函數c1為1,c2、c3為0,并輸出p1相應類別;否則,函數c1為0。進一步判斷p2值是否大于閾值T2,大于則c2為1,輸出該類別;反之,c3為1,輸出p3所對應類別。
為集合中各種基礎學習器分配不同的能力,輸出函數從不同的數據環境接收到的不同信號,調整分類閾值進行分類工作。
本研究采用準確率、精確率及召回率3種評價指標,從更加全面的角度來評價模型性能。其中,精確率和召回率是二分類問題常用的評價指標,將其推廣至多分類,即在多分類中每一類別依次當作正例,求其每個類別的精確度和召回率以適應不同數據集的分類要求。根據分類函數算法,發現不同的閾值會影響各個類別分類的最終輸出結果。升高閾值會提高分類的精確度但是相應召回率會有所下降,因此要根據數據集分類的具體要求適當地調整閾值實現分類模型效果最優。基于上述計算過程,構建k-DT-LR融合算法。
輸出:待分類樣本的預測結果result。
1)分割數據集為訓練樣本和測試樣本;
2)單獨訓練k近鄰、決策樹和邏輯回歸學習器,并計算3個基學習器的分類準確率;
3)依據權重ω計算函數式(8)、式(9),計算權重;
4)依據式(7)融合模型,得到概率矩陣p(x);
5)設定閾值T={T1,T2,…,Tk-1},依次提取概率矩陣p(x)中每行元素pi1,pi2,…,pik;
6)比較閾值T1和pi1,若pi1大于T1輸出第1類類別,反之繼續比較閾值T2和pi2輸出樣本所在類別,此行循環結束;
7)循環終止直至概率矩陣p(x)每行類別輸出,得到最終分類結果result。
本研究所提融合算法的貢獻包括:
1)提出了一種新的異質融合策略,結合k近鄰算法、決策樹算法和邏輯回歸算法學習器的優點,提高了分類模型的泛化能力;
2)根據基分類器性能分配權重,將不同的影響系數分配給集成學習方法中使用的基礎學習器,模型正確分類的性能提升;
3)從在不同的數據環境中接受反饋,動態調整各類別分類效果,使模型實現了分類效果最優。
本研究從UCI數據庫中隨機選取用于分類的5組背景不同的數據集:鳶尾屬植物、葡萄酒、國際象棋、乳腺組和皮膚病數據(分別使用序號1至5代指5組數據集)[8]。使用對比分析法對該融合模型的性能進行驗證,使用不同領域的數據集對融合模型進行試驗,檢驗模型的各方面性能。
試驗所用評價指標為準確率、精確率和召回率。分類器在測試數據集上的預測或正確或不正確,4種情況出現的總數分別記作:TP表示將正類預測為正類數;FN表示將正類預測為負類數;FP表示將負類預測為正類;TN表示將負類預測為負類數[6]。即準確率定義為:

精確率(precision)與召回率(recall)通常以關注的類為正類,其他類為負類,精確率定義為:

精確率代表正例占了所有預測為正例的百分比,召回率定義為:

召回率又稱查全率,是指真正例占了所有原來為正例的百分比。
為進行評估,對本研究將融合方法與k近鄰算法、決策樹算法和邏輯回歸算法3個基本分類器進行性能指標比較。準確率對比結果如表1所示。由表1可以看出,在不同的數據集中,k-NN-LR融合模型準確率均高于所對比的模型,說明該模型具有更強的泛化能力和更好的分類性能。

表1 UCI數據集模型建模準確率
為進一步說明模型性能,計算各個模型精確率和召回率,結果如表2所示。融合算法在多組數據集中,每個類別的精確率和召回率基本上實現數值最優,說明該融合模型可以結合多個模型的優點,在實現準確率提高的同時,也能實現各個類別分類性能最優。試驗結果表明,本研究提出的融合方法可以結合多種模型的優點,一方面其各方面性能都要優于使用單一模型,證明了上述主張的正確性;另一方面,k-DT-LR有能力與所有不同類型的數據進行同步,并實現更有利的性能。

表2 模型各類別精確率和召回率
本研究中實例分析數據來自中國綜合社會調查(CGSS)項目組發布CGSS2017年的家戶調查數據,該數據集系統地收集了中國人與中國社會各方面的信息,對探討中國社會發展具有重大理論和現實意義,為促進中國社會科學開放性和共享性發展,以及為政府決策與國際比較研究提供準確、全面的數據資料。現今公布的數據包含A核心模塊、C社會網絡和網絡社會(含ISSP2017)模塊和D家庭問卷(含EASS2016)模塊,共783個變量[9]。
為促進中國農村居民商業醫療保險的發展,本研究CGSS2017年的家戶調查數據中挑選是否參與商業醫療保險作為因變量,基本特征、收入情況、保險參與、社會生活4個維度,共11個指標作為自變量。其中,基本特征包括:性別、婚姻狀況、健康狀況、兒女數量、教育度;收入情況包括:家庭收入、經濟狀況所在檔次;保險參與包括:公共醫療保險參與情況、公共養老保險參與情況;社會生活包括:社會信任、幸福感[10]。
本研究分析農村人口購買商業醫療保險的情況,因此根據戶籍信息篩選出戶籍為農業戶口的樣本,且以是否購買商業醫療保險為類別,在該類別中凡是回答:無法回答、拒絕回答以及不適用的樣本,不適用于本研究故刪去。現共有樣本6 628個,其中第一類別是購買商業醫療保險,共400個樣本;第二類別為沒有購買商業醫療保險,共6 228個樣本。由于初始數據中第一類樣本量遠小于第二類樣本量,數據存在較為嚴重不平衡性的情況。因此在數據分析前,使用過采樣法對數據進行處理。使用Python實現上述融合方法,分別計算出在閾值設定為0.6時,使用各個模型的準確率(表3)。

表3 農村商業醫療保險4種模型建模準確率
融合模型的準確率高達90.024%,明顯高于k近鄰算法、決策樹算法以及邏輯回歸算法3個模型的準確率,說明該融合方法正確分類的性能最好。為更加準確評價該模型性能,計算精確率和召回率來進一步評價該模型的分類性能。從表4可以得到,在數據集中需要避免遺漏潛在用戶,而不會將第二類別樣本錯分到第一類別中,因此第一類的召回率越高越好。當閾值設定為0.6時,第一類別的召回率達到91.402%,說明該模型對于遺漏識別潛在用戶的可能性小,能夠更加準確地找到潛在用戶,避免客戶的流失。

表4 k-DT-LR模型各類別精確率和召回率
本研究通過融合k近鄰算法、決策樹算法和邏輯回歸算法3種基礎分類算法,構建起針對農村居民的商業醫療保險潛在客戶識別模型,試驗結果表明該方法優于現有的分析方法,第一類類別召回率可以達到91.402%。
第一,堅持城鄉統籌發展。根據CGSS數據,農村居民購買商業醫療保險僅占6.4%,參保人數較少。因此,要加大商業醫療保險的宣傳力度,向農村居民普及購買商業醫療保險的諸多好處,縮小城鄉差距。加快構建農村商業醫療保險建設,實現多層次醫療保障體系的構建。
第二,優化醫療保障供給。保險公司要結合農村具體情況,推出符合農村居民的商業醫療保險。在確保低風險的前提下,盡可能提高農村居民投資商業醫療保險的收益。引入大數據分析技術,完善服務體系。
第三,深化鄉村振興戰略。農村地區經濟較為薄弱,農村醫療保障體系主要依賴于政府為主導的新型農村合作醫療保險[11]。推進農村現代化建設,實現農業經濟高效運行,培養出素質富足經濟富裕的現代化農村居民,為實現農村醫療保障體系提供有力的經濟支撐。