基于邏輯回歸的駕駛員信用評估研究＊

2023-03-21 02:21:52張華

計算機時代 2023年3期

張華

(湖北民族大學智能科學與工程學院，湖北恩施 445000)

0 引言

據公安部2022 年3 月發布的最新數據，全國機動車保有量為4.02 億輛，機動車駕駛人4.87 億人。2022年，我國道路交通事故萬車死亡人數為1.80 人，同比有所下降，但整體比例仍然偏高，道路運輸重大事故有所反彈，貨車、農用車違規載人事故反復發生，客車重大事故和重大涉險事故頻發。英美研究人員通過對大量事故數據的研究發現，與駕駛員相關的交通事故影響因素占93%[1]，嚴新平對國內2001 年至2009 年死亡人數在3人/次以上的特大交通事故分析結果顯示：90%以上的交通事故是由駕駛人主觀因素導致的[2]，因此對駕駛員進行全面評估顯得尤為重要。

目前國內外已有較多駕駛人相關的研究成果，比如駕駛人行為識別[3]、駕駛人生理狀態識別[4]、駕駛人行為畫像[5]等，但對駕駛員信用評估研究較少，本文以交警歷史數據為基礎建立評價體系，通過IV 值篩選出重點特征，接著運用邏輯回歸算法構建評估模型，最后對駕駛員進行信用評分，根據評分及時發現高風險人員以預防事故的發生。

1 數據采集

本研究所有數據來自“公安部交通安全綜合服務管理平臺”（以下簡稱六合一平臺），該平臺集機動車登記系統、駕駛證管理系統、違法處理系統、事故處理系統、交警隊信息平臺和劇毒品公路運輸六大業務系統為一體。由于交警數據龐大，而且太久遠的數據意義不大，因而設置了通過指定時間范圍采集數據，另外，因為涉及個人隱私，在采集過程中將駕駛員的身份證信息做了脫敏處理。

根據交警數據的整體情況，將駕駛員的違章、事故、駕考、基本屬性四個維度作為一級指標，一級指標下分9 個二級指標，分別是：違章程度（WZCD）、違章次數（WZCS）、違章頻率（WZPL）、事故程度（SGCD）、事故頻率（SGPL）、駕考全科目分數（KM）、駕駛人性別（XB）、年齡（NL）、駕齡（JL）。本文使用的數據集共4392 條數據，其中按照交警內部評審規則制定的失信駕駛員人數為962人，守信駕駛員人數為3430人。

2 變量選取

為提高模型預測的準確率，選擇合適的指標十分關鍵，前述數據采集規定的字段只是初選變量，還需要進一步評估以確定最終特征變量。

2.1 IV值篩選

信息值（IV）是評價變量對目標影響程度的指標，即衡量變量的預測能力[6]。信用評分模型一般使用IV值篩選法篩選入模的特征變量，而IV 值的計算是基于證據權重（WOE），一種通過分組處理原始變量的編碼形式[6]。WOE 值反映了某些變量的特征區分度，需要先對特征變量進行分箱處理，才能計算該變量的WOE值。分箱就是將一個連續型變量離散化，對其進行分組，然后統計分組好壞樣本的個數，即駕駛員中失信人數和守信人數，計算出各自的占比，然后計算出當前分組中失信駕駛員比例和守信駕駛員比例的差異，得出當前特征變量的WOE 值，單個分箱的WOE 計算公式為：

IV 值的計算是以WOE 值為基礎的，具體的計算公式為：

經過對數據的預處理之后，使用分箱函數對特征變量進行WOE 分箱，進而計算出特征變量的IV 值，如表1所示。

表1 特征變量IV值及操作

IV 值能較好地反映特征變量的預測能力，變量的IV值越高，表示該變量的預測能力越強。本文選擇IV值在0.1 以上的變量，最后保留違章次數、違章程度、違章頻率、駕考分數、駕齡五個變量。

2.2 相關性檢測

特征變量的多重共線性會直接影響模型預測結果的精確性，也會影響特征變量對結果的解釋性[7]。因此，使用IV 值對特征變量進行篩選之后，還要檢測這些篩選出來的特征變量是否存在多重共線性，下面是五個變量的相關系數矩陣。

從表2可以看出違章程度和違章次數相關性系數超過了0.5，表示這兩個特征的相關性很強，由于違章程度IV 值更高，保留它而刪除違章次數，因此將違章程度、違章頻率、駕考分數、駕齡四個特征作為最終輸入。

表2 特征變量相關系數

3 模型構建

3.1 Logistic回歸模型

邏輯回歸模型用于數據分類，原理涉及線性回歸模型中的線性回歸方程，其表達式為：

線性回歸是用于預測連續變量的，而邏輯回歸是用于預測類別的，即預測離散變量的。通過Sigmoid函數，邏輯回歸模型可以對線性回歸的輸出進行非線性轉換，得到0 到1 之間的概率值。對于二分類問題而言，其預測為1的概率可用如下公式計算：

其中，y 為線性回歸方程，當P＞0.5 時說明當前數據屬于1 類，即守信的駕駛員；當P＜0.5 時說明當前數據屬于0類，即失信的駕駛員。

3.2 Logistic回歸模型參數估計

將采集的數據集劃分為70%訓練數據和30%測試數據，訓練后模型參數如表3所示。

當P 值小于0.05 時，特征變量與目標變量有顯著相關性，通過表3可以看出，輸入模型四個特征變量的P 值都小于0.05，即通過IV 值篩選的四個特征變量都可以作為模型的輸入。

表3 模型參數

3.3 Logistic回歸模型預測結果

接下來利用訓練的Logistic 模型對30%測試集樣本進行預測，使用分類評估器對Logistic 回歸的預測結果進行評估，準確度為92.21%，說明模型能夠較為準確的預測，如表4所示。

表4 分類結果評價指標

4 模型應用

Logisitc 回歸輸出的結果是駕駛員是否失信的概率，不夠直觀，因此還需要將預測的概率值轉換為具體的分值，即將模型輸出的失信樣本概率和正常樣本概率的比值通過線性轉換得到最終的信用評分。

4.1 評分計算

根據邏輯回歸原理，客戶失信概率p可以如下表示：

其中，x為客戶特征，θ為特征系數，式⑸整理得：

失信概率和正常概率比值稱為比率odds，即：

設評分卡分數為：

其中，A、B是待求解數，B前取負號表示失信概率越高分數越低，信用也就越低。

假設比率為θ0時的基準分為P0，比率翻倍為2θ0時分數的變動值為PD0，帶入公式⑼可得：

對公式⑽進行求解，可以得到A、B的值：

其中，P0、θ0、PD0都為已知常數，可以求出A、B的值，然后將A、B 的值帶入公式9，即可得出信用分數的計算公式。

4.2 等級劃分

傳入評分卡公式及預測結果，即可計算出每個樣本的信用評分，結果如圖1所示。

圖1 信用評分分布

從圖1 可以看出，3198 人分數集中在60 分以上，1001人分數在30分以下，193人分數在50～70分之間，符合本文所用數據集的數據分布情況，因而可對駕駛員進行信用等級劃分，分為四個信用等級：高風險、低風險、正常、良好，信用評分等級如表5所示。

表5 信用評分等級表

5 結束語

本文為解決駕駛員評估的問題，以某地區六合一平臺歷史數據為基礎，在對數據進行預處理和構建信用評價指標的前提下，通過IV 值篩選變量并運用Logistic回歸算法構建評估模型，最后計算用戶的信用評分并劃分風險等級。實驗表明，該模型準確度達到92.21%，能較好識別出高風險駕駛員。下一步計劃聯合其他機器學習算法，進一步提高模型識別精度。