高鍵, 季禹伶
(1.內蒙古科技大學信息工程學院,內蒙古包頭,014010;2.河南大學經濟學院,河南開封,475000)
創業擔保貸款是由國家人社部、財政部、人民銀行出臺的一項普惠性的貸款政策,主要面向城鎮失業人員、高校畢業生、返鄉創業的農牧民等在金融信貸方面的弱勢群體,為其提供5到20萬的信貸支持,并給予一定數額的貼息補助。2019年全國創業擔保貸款約發放1000億元,為創業者補貼利息約67.5億元。
隨著大數據技術的蓬勃發展,挖掘龐大數據體量背后的潛在價值成為大數據領域研究的熱點。通過數據挖掘技術,可以實現預測研究主體的趨勢和行為、變量關聯分析、目標聚類分析、偏差檢測等功能。本文以包頭市為例,將數據挖掘技術應用到創業擔保貸款這項惠民政策中,通過構建創業者創業能力評估模型,可以根據創業者的實際情況,合理測算出創業者的實際用款需求,實現國家財政資金合理分配的目的。
本文基于Python語言實現,通過matplotlib實現對數據的可視化,pandas實現對樣本數據的分析和處理,sklearn機器學習庫實現數據從預處理到模型訓練的各個步驟。具體的設計流程圖如圖1所示。

圖1 基于Python的數據挖掘技術在創業擔保貸款中的應用設計流程圖
數據采集是進行數據分析的第一步,采集的數據主要分為歷史數據與實時數據。基礎的歷史樣本數據集主要來自于業務系統,包括創業擔保貸款本身的信息管理系統、社會保險信息管理系統以及工商部門的企業信用公示系統。創業擔保貸款本身的信息管理系統提供了創業者申請創業擔保貸款的歷史數據,包含申貸次數,申貸金額、經營情況等信息。社會保險信息管理系統獲取了創業者的社會保險信息,包含就業失業狀態,就業困難人員認定以及零就業家庭認定等信息。工商部門的企業信用公示系統主要獲取創業者的企業信息,包含企業的營業執照、經營項目等信息。因創業擔保貸款的用款周期為兩年,創業者在按時還款后,仍然可以繼續申請,為避免這些再次申請的數據對模型構建產生影響,選取的樣本數據為近兩年的貸款數據。實時樣本數據由各個部門的工作人員實時向業務系統導入。
數據存儲的目的在于將采集到的樣本數據持久化,以便后續的分析與處理。因樣本數據取自不同的業務系統,所以通過Python的requests庫分別向各個業務系統發送http請求獲取需要的數據,并對獲取到的數據進行整合,最后存儲到Mysql數據庫中。
數據預處理是指對樣本數據進一步加工,得到一組仍包含原始信息且適合進行建模的數據集。包含數據清洗、數據規范化與特征降維等步驟。數據清洗是對采集而來并存儲到數據庫中的數據進行校驗與糾正的過程,包括對缺失值、異常值、重復值等數據的處理。采集的數據主要來自業務系統,在業務系統中,已對數據的輸入進行了校驗,因此不存在異常值與重復值,所以主要是對缺失值進行處理。
對缺失值的處理用到了刪除存在缺失值的記錄以及插補的方法。例如在對申請創業擔保貸款的人員身份進行可視化分析時,通過pandas讀取樣本數據集后,調用groupby函數對人員身份信息進行分組統計,結果如表1所示。

表1 不同身份人員申請創業擔保貸款數量統計表
其中,“其他”類人員屬于缺失值,并且占比相對較高,將會對其他數據的建模造成較大擾動,所以該類缺失值采取刪除記錄的處理方式。在對創業者創業潛力分析時,企業聘用的員工數量是分析創業潛力的重要指標,由人為因素導致的某些企業該項數據特征的缺失,采用插值法對缺失的數據進行填充。在具體的操作中,對貸款次數記錄小于2的記錄進行刪除,貸款次數記錄不小于2的記錄可通過查詢聘用員工數量的歷史數據然后利用拉格朗日插值公式計算本次申請貸款時缺失的聘用員工數量近似值。
得到了可以建模的數據后,可以根據挖掘目標與數據形式建立分類與預測、關聯規則、聚類分析等模型。基于Python語言的sklearn機器學習工具包,涵蓋了所有機器學習算法,并且提供了簡單高效的數據挖掘和數據分析工具。本文利用sklearn對建模過程中的參數進行了調試和優化,最后建立了創業者創業能力的聚類模型。
創業擔保貸款申請的前提條件一般要求創業者持有工商營業執照,通過對包頭市各個旗縣區申請創業擔保貸款人數與整理的工商戶數據進行貢獻度分析,并利用matplotlib將分析結果數據可視化,得出的結論如圖2所示。

圖2 包頭市各旗縣區工商戶數量與已申請創業擔保貸款人員占比情況
從圖2中可以看到,距離市中心較遠的“外五區”申請創業擔保貸款的人員占當地工商戶數量的比重明顯比繁華的“市五區”較高,一般是因為“外五區”地大人稀,人口密度低但聚集較為集中,所以宣傳效果較好,而“市五區”人口密度高,人口聚集地較多且不集中,因此導致政策覆蓋面不夠廣泛。所以主管部門可以進一步加大在“市五區”內的宣傳力度,擴大政策覆蓋的廣度與深度。
在創業擔保貸款的實際工作中,創業者的實際用款額度由審批單位根據創業者的經營狀態認定,這種認定往往是帶有經驗性的主觀認定,存在一定的弊端。通過對創業者經營情況的一些具體數據進行量化,構建創業者創業能力的聚類模型,可以將創業者按創業能力分類,進而為其匹配相應的貸款額度。
從Mysql數據庫中獲取到關于創業者的基本信息,導入pandas進行分析,取前5行數據,創業者數據的一些特征及數據如表2所示。
不同特征的數據之間差距較大且單位不一致,需要對數據進行規范化處理,消除量綱間的差距。通過對一些主要特征的數據繪制正態分布函數圖,可以發現這些特征近似符合正態分布,因此采用z-score標準化對數據進行去量綱化操作。之后對數據進行特征降維,去除例如姓名、學歷等一些無關的特征,通過方差分析法,發現貸款次數的方差較小,不足以區分每個樣本在該特征上的不同,因此去除該特征。最后確定年齡、員工人數、創業年限、年利潤、企業占地面積5個特征的數據進行模型訓練。

表2 創業者信息前5行數據預覽
采用K-Means算法對創業者的特征數據進行聚類分析,通過對不同簇數k下的聚類結果進行對比,當k取5時,聚類效果較好。因此設定n_clusters的值為5對數據進行聚類。通過繪制雷達圖對聚類結果進行分析,如圖3所示。

圖3 基于聚類結果的創業者創業能力雷達圖
從圖3中可以看到,不同群體在各個特征之間的表現存在較大的差異,例如L5群體在年利潤特征上表現突出,通過結合業務情景,該類創業者往往能創造較高的經濟價值,可以認定為具有極強創業能力的創業者,可以繼續給予較高額度的創業擔保貸款支持。L1群體雖然在年利潤特征上表現不足,但在員工人數特征上表現突出,表明該類創業者當前給社會帶來較多的就業崗位,在原有貸款額度的基礎上,可以給予重點扶持。
目前大多數的政府機構基于業務流程的控制開發了數據信息管理系統,但挖掘數據背后的潛藏價值,使其更好的應用于管理與服務中,仍是需要解決的問題。本文在已有業務數據的基礎上,利用數據挖掘技術,對創業擔保貸款的業務數據進行了分析與挖掘,構建了創業者創業能力分析模型,實現了對創業者創業能力的準確評估,為政策決策提供了有效的數據支撐。