蔡桂全,陶建平
(1. 華中農業大學經濟管理學院,湖北武漢430070; 2. 玉林師范學院計算機科學與工程學院,廣西玉林537000)
農業在我國國民經濟中的地位舉足輕重,但是其自身發展受自然環境因素的嚴重約束,特別是自然災害。自然環境的制約導致農民收入具有不確定性,這在很大程度上限制了農村經濟發展的水平和速度。例如: 2020年初我國武漢地區突發新冠肺炎疫情,對該地區及其周邊的農業造成了巨大的負面影響,這時農業保險的作用就凸顯出來了。農業保險能夠有效降低農業生產過程中因自然災害而導致的農戶經濟損失,為農戶提供穩定的經濟收益[1]。
合理使用農業保險能夠較好地保障農業經營者的利益,是現代農業發展的三大支柱之一,全國許多地方相繼開展了農業保險的推廣工作。農業保險對于農業經營者的保險強化作用是毋庸置疑的,但是在農業保險供給中也遇到了難點[2-3]。例如,政府和保險公司在推行農業保險時,需要對農業保險的需求狀況進行準確預測,因為這關系整個社會的安定,并且直接影響保險公司的經營生命線。為了農業保險行業的健康發展,必須更加全面、準確地預測農業保險需求?,F階段,學術界對保險需求預測開展了多方面的研究[4],例如汽車保險需求預測、職工基本養老保險需求預測等。目前針對農業保險需求問題的研究也較多,但大多是側重需求的影響分析或者需求供給方面的,對農業保險需求預測的研究很少。
本文中選取農業保費收入作為農業保險需求的指標,并以此為被解釋變量,提出一種基于數據降維和機器學習技術的農業保險需求預測方法。利用數據降維技術中的主成分分析(PCA)原理對支持向量機的輸入數據集進行降維,從農戶經濟條件因素、社會文化因素、地理環境因素和政府補貼因素4個方面的7個解釋變量中提取出主要影響因子。然后,采用權重的方式將局部和全局的核函數進行線性相加,組成多核支持向量機,以便獲得較高的預測精度。
準確的保險需求分析對于保險行業未來發展具有非常重要的作用。從20世紀 80年代開始,保險需求分析就已經受到了各國學者的關注[5]。國內外學者相繼提出了很多保險需求分析方法。劉紅亮[6]對商業健康保險彈性需求進行分析,建立多元線性回歸模型對國內不同區域間的差異進行了比較。孫蓉等[7]通過問卷調查形式,對政府作為、保戶參保意愿與保險需求關系進行了研究。
農業保險需求分析一直是相關研究的熱點方向。例如,宋婷等[8]開展了農產品價格波動對農業保險需求影響的研究,得出農產品價格波動與農戶農業保險需求之間存在長期穩定關系的結論。谷政[9]以江蘇省156戶農村家庭為調查對象,開展了現階段農戶對農業保險需求情況調查,并提出了修改完善保險條款的政策建議。
現有的研究大多是側重需求的影響分析或者需求供給方面的,面對多個變量的農業保險數據觀測問題,不能僅依靠調查問卷的手段,因此,韓雯[10]提出了基于Logistic模型的貴州省農業保險需求影響因素研究,對不同因素的顯著性進行討論??紤]到實際農業保險數據存在高緯、高相關的屬性,會對Logistic回歸結果產生不良的影響[11],因此,本文中提出利用數據降維技術中的PCA對Logistic回歸分析之前的解決變量進行主成分提取,從達到有效降維。
機器學習技術在各行各業預測得到了廣泛的應用,但是,目前利用機器學習進行農業保險需求預測的研究很少?,F有的類似研究僅針對汽車保險需求預測或者職工基本養老保險需求預測,因此,本文中利用PCA對7個解釋變量進行降維后,結合支持向量機實現農業保險需求預測,并采用權重的方式將局部和全局的核函數進行線性相加,組成多核支持向量機,從而對傳統的支持向量機進行優化,進一步提高預測精度。
本文中采用我國某省2006—2014年共9年的農業保險相關數據進行分析,如表1所示。從表中可以看出,總保費收入和農業保險保費收入均呈現逐年增長的態勢,農業保險賠付率也不斷提高;但是農業保險保費所占比例仍然較低,因此,需要通過農業保險需求預測,實現更加有效的整體調控和政策引導。
風險管理理論和大數法則理論是保險行業最常用的理論基礎,兩者的側重點不同,適用的場景也有所不同。由于農業保險的特殊性,涉及的主體數量眾多,因此大數法則理論更加適用于保險公司。對于風險規避者來說,保險需求產生是期望效用理論的具體實現,即
U[pW1+(1-p)W2]>pU(W1)+(1-p)U(W2),
(1)
式中:U(·)為消費者的效用;W為消費者的收益水平;p、1-p分別為收益水平W1和W2出現的概率[11]。針對不同風險喜好的消費者,可以用不同的效用溢價曲線進行描述,例如小規模農戶保險,其風險效用溢價曲線如圖1所示。A點與B點之間的橫向距離越大,表示農戶對農業保險的需求越大,反之則越小。

表1 我國某省2006—2014年農業保險相關數據

U(·)為消費者的效用; W為消費者的收益水平; p、1-p分別為收益水平W1和W2出現的概率。圖1 小規模農戶保險的風險效用溢價曲線
農業保險的參與成員不僅僅是農戶,還有政府、保險機構、金融機構和農業企業等,因此,農業保險需求分析與預測必須綜合考慮所有的需求主體。農業保險的保費分擔如圖2所示。從圖中可以看出,農業保險的保費應當由涉及到的所有主體共同分擔。
在進行常規的Logistic回歸分析之前,利用SPSS1 9.0軟件的PCA主成分提取功能[12-14],進行解釋變量的數據降維處理,如圖3所示。
作為一種最常用的線性降維方法,PCA能夠在盡量保證信息量不丟失的情況下,通過投影對原始特征進行降維。假設模型樣本是由農戶經濟條件因素、社會文化因素、地理環境因素和政府補貼因素等構成的一個m維數據變量,需要從這些解釋變量中提取出主要影響因子。訓練樣本為x1,x2,…,xm,標準差為S1,S2,…,Sm,則標準化變換的公式為

π—保費金額; q—保險需求概率; q1—保險賠付供給剛好滿足農戶需求時的概率; q2—保險賠付供給剛好滿足社會整體需求時的概率。圖2 農業保險的保費分擔

圖3 SPSS1 9.0軟件的主成分分析(PCA)降維操作界面
Yj=aj1x1+aj2x2+…+ajmxm,j=1,2,…,m,
(2)
式中:Yj為序號j為主成分;ajm為訓練樣本xm對應的系數因子。
首先,如果Y1的數值等于相應特征值的正交單位數值,且Y1的方差最大,則可以確定為第一主成分。其次,如果Y2的數值等于相應特征值的正交單位數值,Y1與Y2的協方差為0且Y2的方差最大,則可以確定Y2為第二主成分。同理,以此類推可以得到最多n個主成分。
在累積貢獻率的計算過程中,第i個主成分Yi的貢獻率為η,
(3)
式中λi、λj分別為Yi、Yj對應的特征值,則前n個主成分的總貢獻率為
(4)
以其中一個公因子為例,其統計分析的表達式為
F1=-0.160Z1+0.161Z2+0.145Z3+0.199Z4-
0.131Z5-0.167Z6+0.137Z7+0.174Z8+
0.131Z9-0.037Z10,
(5)
式中:F1為某數據樣本;Z1—Z10分別為不同公因子;數字為實際變量間的相關系數,數值越大相關性越大。
將上述PCA得到的n個主成分作為Logistic回歸分析的解釋變量,分析農戶是否購買農業保險的問題。首先,選取7個解釋變量,即農戶年齡X1、農戶家庭年收入X2、農戶家庭勞動力數量X3、農戶受教育年數X4、農戶家庭貸款數額X5、農業保險保費X6、政府補貼比例X7。Logistic回歸分析的具體形式為
(6)
式中:P(yi=1|xi)為給定一個xi,模型輸出真實值yi=1的概率;α、β均為模型參數。對上述7個解釋變量進行Logistic回歸分析后,得到了其中的X1、X2、X4、X5、X6、X7為顯著性檢驗結果(顯著性水平P<0.05),也就是說通過PCA降維去掉了X3因子。以這6個解釋變量作為輸入數據,構建基于支持向量機的農業保險需求預測。
針對不同的應用場景需求,傳統支持向量機會選擇某一種核函數[15],但是這樣的模式會導致支持向量機學習的泛化能力較弱,無法應對復雜的數據樣本情況[16]。由于組合核函數具有多個核函數的數據映射的能力,因此基于組合核函數的支持向量機可以更好地應對實際案例需求。本文中采用權重的方式將局部和全局的核函數進行線性相加,組成多核支持向量機[17],實現農業保險需求預測,其中組合核函數K(x,z)為
(7)
式中:kj(x,z)為單核函數,x、z均為空間中的點;βj為權重因子;M為樣本總數。相比單個核函數學習方法,組合方法可以獲得更高的預測精度和樣本泛化能力。
將核函數代入分類或預測的決策函數f(x),得
(8)
式中:b為偏置參數;αi為線性權值。
將式(7)代入式(8)中,得到線性加權多核支持向量機方法的決策函數為

(9)
本文選擇全局核函數POLY和局部性核函數RBF構成組合核函數,從而兼顧了全局和局部樣本特征,因此,組合核函數K(x,z)為
K(x,z)=βRBFkRBF(x,z)+βPOLYkPOLY(x,z) ,
(10)
βRBF+βPOLY=1,
(11)
式中:βPOLY、βRBF分別為全局核函數POLY和局部性核函數RBF的權重因子;kPOLY、kRBF分別為全局核函數POLY和局部性核函數RBF的單核函數。
最終,基于PCA和多核支持向量機的農業保險需求預測流程如圖4所示。

圖4 基于主成分分析(PCA)和多核支持向量機的農業保險需求預測流程
通過具體實驗對本文中提出的農業保險需求預測方法進行分析和驗證。實驗的硬件環境為Intel Core i7 2.2 GHz處理器、8 GB內存,軟件環境為Windows 7操作系統、MATLAB 7.0仿真軟件。
為了驗證多核函數組合分類識別模型的最佳參數設置,實驗選取UCI(加州大學歐文分校)數據庫中的鳶尾屬植物(Iris)數據集,對樣本進行多種組合的核函數參數測試。Iris數據集的樣本個數為3 612,屬性個數為24。每組訓練樣本隨機選取樣本個數為200,重復50次,然后訓練支持向量機分類器,之后進行具體測試。Iris數據集的多核函數性能對比結果如表2所示。

表2 鳶尾屬植物(Iris)數據集的多核函數性能對比
從表中數據可以看出,與單核函數支持向量機相比,組合多核函數支持向量機的準確率明顯提高,而且,當核函數參數取值為α=4.5,d=3時(此時βRBF=0.5,權重平均分配),多核函數支持向量機的樣本識別準確率最高。
根據Iris數據集的測試結果,設置最佳的核函數參數為α=4.5,d=3,并進行農業保險的需求預測實驗。實驗用數據見表1,其中前6 a的數據作為訓練樣本,后3 a的數據作為測試樣本。運用均方誤差(MSE)驗證模型的擬合效果以及預測效果。測試結果發現,當RBF核函數的權值為0.7時,本文中提出的方法的準確率最高(βRBF在0.5~0.8范圍內變化),達到97.3%。
為了比較不同方法的預測準確率,在相同的實驗環境下,分別對基于Logistic模型、標準支持向量機和本文中提出的基于PCA和多核支持向量機的農業保險需求預測方法進行實驗,預測結果如圖5所示。

(a)基于Logistic模型

(b)基于標準支持向量機

(c)基于主成分分析(PCA)和多核支持向量機圖5 采用不同方法的農業保險需求預測結果
由圖可以看出,3種方法的農業保費金額(需求)預測結果均逐年增大,符合實際情況。相比其他2種方法,基于PCA和多核支持向量機的方法預測準確率明顯提高,具體預測結果見表3。

表3 采用不同方法的農業保險需求預測均方誤差
比較表中數據可以看出,本文中提出的基于PCA和多核支持向量機的方法的預測誤差平均值最小,僅為3.7%,說明該方法較好地表征了被解釋變量與解釋變量間的關系,已知數據與未知數據的擬合曲線重合性較好,驗證了該方法在農業保險需求預測方面是可行和有效的。
本文中提出了一種基于PCA和多核支持向量機的農業保險需求預測方法。選用某省2006—2014年的農業保險歷史數據進行預測實驗,驗證了所提方法的可行性和有效性。測試結果表明: 相比傳統預測方法,本文中提出的方法更有效,能夠對農業保費金額作出很好的預測,平均預測誤差為2.3%。該方法能夠為政府以及保險公司在第一時間出臺應急舉措提供大數據輔助決策服務,減少了人工排查出險客戶的工作量,例如,針對近期武漢突發新型冠狀肺炎疫情,政府及保險公司亟需給參保農戶提供快速、合理的理賠額度,就是一個很實用的例子。
由于缺乏更多的保險數據,實驗樣本量相對較小,因此后續將繼續進行擴充、驗證。