穆阿里
(中國人民銀行成都分行,成都 610041)
本文通過調查全省銀行業金融機構對機房動力系列標準的執行情況,剖析我省目前存在的機房動力和運維現狀與風險,提出全省金融機構機房建設、運維的思路,從而有效防范金融業動力系統風險,保障金融穩定,主要采用K-means、主成分分析(PCA)算法等數據分析方法。
(1)k均值聚類是一種矢量量化方法,最初來自信號處理,是數據挖掘中聚類分析的常用方法。k均值聚類的目的是將n個觀測值劃分為k個聚類,其中每個觀測值屬于具有最近均值的聚類,作為聚類的原型。這導致數據空間劃分為Voronoi單元。這個問題在計算上很困難(NP難);然而,有效的啟發式算法快速收斂到局部最優。這些通常類似于通過k均值和高斯混合建模所采用的迭代細化方法的高斯分布混合的期望最大化算法。他們都使用集群中心來建模數據;然而,k均值聚類傾向于找到具有可比空間范圍的聚類,而期望最大化機制允許聚類具有不同的形狀。該算法與k-最近鄰分類器具有松散的關系,這是一種流行的分類機器學習技術,由于名稱,常常與k-means混淆。將1最近鄰分類器應用于通過k均值獲得的聚類中心將新數據分類到現有聚類中。這被稱為最近的質心分類器或Rocchio算法。
(2)主成分分析(PCA)是一種統計過程,它使用正交變換將可能相關變量的一組觀察值(每個實體都采用各種數值)轉換為一組稱為主成分的線性不相關變量值這種轉換的定義方式是第一主成分具有盡可能大的方差(即,盡可能多地考慮數據的可變性),并且每個后續成分依次在約束下具有最高的方差。它與前面的組件正交。得到的矢量(每個是變量的線性組合并包含n個觀測值)是不相關的正交基組。PCA對原始變量的相對縮放敏感。
通過PCA方法,將原有金融機構調查問卷中55個指標個指標壓縮到二維平面,以實現原有調查問卷中高維度數據在二維平面上的展示,并且帶有原始數據的主要特征。
本文通過調查問卷和現場調研的方式對省內部分金融機構開展摸底調查,共獲取117家機構機房數據。對獲取的機房動力情況數據與機房基礎設施運行維護數據采用了K-means聚類算法和主成分分析等方法進行分析,力求能得到當前準確現狀。
調查數據顯示,被調查銀行業金融機構中符合A級動力系統的機構數量為3家,占比23.07%,符合B級動力系統的機構數量為6家,占比46.15%,符合C級動力系統的機構數量為4家,占比30.77%,復合型動力系統(部分指標分別符合A、B、C級動力系統指標要求)按照最低級別進行歸類。
對被調查機構機房動力情況調查問卷數據采用K-means算法進行聚類分析,聚類分布情況通過PCA壓縮變換后如圖一所示:

圖1 銀行業金融機構機房動力聚類分布圖
圖1顯示被調查銀行業金融機構機房動力情況大致可分為三類,其中第一類、第三類分布區域比較集中,第二類區域相對分散,而對于第二類中方差較大的原因是由于聚類后使用PCA壓縮算法將原有55維度空間壓縮到2維空間存在一定的數據丟失。而聚類分析各類數量上第二類數量占比較大,第一類、第三類數量占比較小,具體情況見圖2:

圖2 銀行業金融機構機房動力聚類數量占比圖
聚類后對各項指標符合值進行統計匯總,生成各類機構機房動力整體符合率,其中第二類符合率最高,第三類符合率最低,具體情況見表1:

表1 銀行業金融機構機房動力聚類符合率情況表
通過圖2、表1分析顯示被調查銀行業金融機構絕大部分機房動力情況良好,技術指標符合率較高,整體水平較好,其中數量占比69%的機房屬于第二類,其符合率為94.55%。為了解被調查機構機房動力具體情況,本課題對機房動力各分項指標符合率進行聚類統計,結果如圖3所示:

圖3 銀行業金融機構機房動力分項符合率聚類統計表
圖3顯示第一類和第三類較第二類的差距主要表現在:第一類機構機房動力監控系統符合率最低,其值低于50%,第三類機構機房供配電、動力監控及供配電設備符合率較低,第一類和第三類在不同的維度上出現了區別。
總體結論:通過收集到的13份調查問卷,采用聚類分析,全省地方性銀行業金融機構機房動力情況總體情況較好,其中最好一類機構占69%,平均符合率為94.55%;次好類機構占15%,平均符合率為83.64%,其主要差距表現在動力監控;最后一類機構占16%,平均符合率為80.91%,其主要差距表現在機構機房供配電、動力監控及供配電設備。
綜上所述,有9家銀行機房運行情況較好;有2家銀行需要改進動力監控系統;有2家銀行需要改進機房供配電、動力監控及供配電設備。