王 祥 李紅娟 丁紅發
(1.貴州財經大學,貴州 貴陽 550025;2.貴州建設職業技術學院,貴州 貴陽 551400)
隨著信用經濟的普及,典型的個人信用記錄已經難以滿足經濟發展的需要,市場經濟需要比普通的個人信用更高層級的信用平臺,以促進經濟的良性發展,以征信為代表的行業信用應運而生。
國務院于2014年發布的《社會信用體系建設規劃綱要(2014—2020年)》中指出,需要建立健全社會征信體系,并推動其在政務誠信建設、商務誠信建設以及社會誠信建設等方面的應用。征信業的普及應用從側面反映了數據從互聯網初級階段邁步到大數據時代。
當前大數據背景下的信用管理還存在不少問題[1]:(1)信用管理觀念落后。多數企業對信用管理的認識不足,還將重點放在發展用戶、市場營銷上,還沒有讓用戶體驗到信用管理服務帶來的優良體驗,重視不夠導致信用管理水平低下。(2)信用管理體系不健全。信用管理部門缺乏對信用數據價值的正確認知,不能精確測算信用數據間的內在聯系,因而也就不能借助已有的信用數據進行風險防范。(3)信用數據維度少。已有的信用數據管理還主要是用戶注冊時提交的初始數據,很少利用網絡上公開的信息,諸如網站訪問記錄、商品瀏覽記錄、朋友圈信息等等。
隨著網絡技術的普及以及手機等終端的聯網,用戶個人信息會被收集到互聯網公司的數據庫中。除此之外,大數據背景下還有一些隱含的隱私風險:在長期使用互聯網、各種通信設備的過程中,用戶的習慣等各種行為模式會被記錄下來。例如,長期使用的輸入法會記錄個人習慣用語;搜索引擎會保留經常搜索的內容,從而分析用戶的關注目標[2];電商系統中的瀏覽記錄會記錄個人喜好,從而推薦同類或相關商品。這些數據在經過大數據技術的分析后,變相地時時“監控”我們的日常活動。
大數據技術和物聯網的有效結合,使得各種數據變得更加多元化。不同類型的傳感器收集到的用戶信息遠比個人主動提交的數據豐富。以支付寶為例,其人臉支付功能相當于銀行卡以及實時面孔的組合,這種人臉支付功能將面部特征轉換為唯一的識別碼,并和數據庫中的信息進行匹配,從而確定實際支付的使用者是銀行卡本人。然而,這樣也會存在問題:雖然每個人的面孔是唯一的,每個人的面孔可能大量出現在諸如微信朋友圈、微博、QQ空間、博客等各種社交工具中,通過對分析大量照片的局部面部特征,極有可能合成得到全局的面部特征,從而騙過人臉識別系統。
上面的例子說明,在大數據時代多維數據的組合帶來的風險比傳統數據模式下的風險更大,這就需要對信用管理及隱私安全等方面更加重視。
在對大量的信用數據進行分析時,可以借助k-means聚類算法分析不同信息的特點,以此進行分類。為了區分重要數據、非重要數據對分類的不同影響,可以為不同的數據分配不同的權重。對于不同數據的使用者采用不同的脫敏方案,不論哪種方案都會從整體數據集中抽取大概5%的數據進行脫敏處理。
k-means聚類算法的目標是找到一個中心,使得給定的n個數據點和中心的距離之和最小。目標函數可以描述為:

當p=1時,數據點和中心間的距離是“街區距離”;當p=2時,數據點和中心間的距離是“歐式距離”。k-means聚類算法的步驟是:(1)初始化。隨機指定k個聚類中心。(2)初始數據歸類。對于每個數據xj,找到離它最近的聚類中心ai,并將其分配到ai所在的類。(3)重置中心。計算目前k個中心的中心。(4)計算距離。計算每個數據和新的中心間的距離。(5)判斷目標函數wk是否收斂。如果收斂則返回當前的中心(a1,a2…,ak),否則跳轉到步驟(2)。
信用數據通常是一些特定的個人信息,主要包括:身份信息(姓名、性別、年齡等)、銀行信用(貸款記錄及信用卡交易有關的信息)、非銀行信用(與商業機構的賒銷信息以及在公共服務單位的繳費及欠費情況)等。另外,從日常生活中選擇會用到上述信息的代表性機構,如銀行、醫院、公共服務單位、電信行業、公安局等;如果信息在機構中出現則標記為1,否則標記為0,對這些信用數據信息,用k-means聚類算法直接進行分類及先加權后再分類,得到的分類結果如表1所示。

表1 信用數據信息分類結果
由表1可以看出,真正和信用管理相關的“銀行信用”、“非銀行信用”被分到同一類,其他基本信息被分到另外一類。信用數據加權對分類有影響的原因是,加權的數據更能體現自身的重要程度。綜合分類結果可以看出,被分為一類的信息同時在同一機構中出現的概率比較大。另外,不同類別中的信息在經過組合后很可能推斷出其他信息,也就是說信用數據間存在一定的關聯性。
對于這種大數據環境下信用數據關聯性導致的隱私安全問題,很難找到非常有效的解決方法,最直接的解決方式是提高數據庫的安全性,同時將用戶習慣分散到多個節點,避免在同一節點留下長期的訪問信息記錄。這樣一來,在保證了節點分散化以及信息分片的同時,就可以大大降低信用數據風險,保證用戶隱私安全。
本文對大數據背景下的信用數據管理以及隱私安全等問題進行分析,并從數據挖掘入手,找到用戶征信數據等各種信用數據間的相關性,以此評估信用數據的風險大小,并在此基礎上對信用數據及隱私風險進行控制。