曾萬里
(長沙民政職業(yè)技術(shù)學(xué)院,湖南 長沙 410004)
基于 SNMP的信用卡數(shù)據(jù)挖掘研究
曾萬里
(長沙民政職業(yè)技術(shù)學(xué)院,湖南 長沙 410004)
利用 SNM P網(wǎng)絡(luò)管理協(xié)議進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘是業(yè)界的研究熱點。文中分析了 SNM P的應(yīng)用現(xiàn)狀和特點,提出了一種將 SNM P應(yīng)用于信用卡的數(shù)據(jù)挖掘結(jié)合技術(shù),設(shè)計了相應(yīng)的模型,介紹了其工作過程,實例證明此方法能有效地降低成本,提高效率。
SNM P;數(shù)據(jù)挖掘;信用卡;Sybase;數(shù)據(jù)倉庫
隨著貨幣的電子化和互聯(lián)網(wǎng)的迅猛發(fā)展,信用卡在銀行業(yè)務(wù)中所占的比例越來越大。信用卡業(yè)務(wù)的開發(fā)、應(yīng)用、服務(wù)、管理越來越多地趨向網(wǎng)絡(luò)化,對信用卡業(yè)務(wù)數(shù)據(jù)的分析、挖掘已離不開網(wǎng)絡(luò),這使得網(wǎng)絡(luò)的管理問題日益成為相關(guān)部門關(guān)注的重點。網(wǎng)絡(luò)管理系統(tǒng)也日益受到網(wǎng)絡(luò)提供商的重視。網(wǎng)絡(luò)管理系統(tǒng)一般包括網(wǎng)絡(luò)性能管理、網(wǎng)絡(luò)故障管理、網(wǎng)絡(luò)安全管理、網(wǎng)絡(luò)資源管理、網(wǎng)絡(luò)配置管理等。網(wǎng)絡(luò)管理通常被分為四類:被管理節(jié)點 (或設(shè)備)、代理、網(wǎng)絡(luò)管理工作站、網(wǎng)絡(luò)管理協(xié)議。作為網(wǎng)絡(luò)管理協(xié)議的一種,SNM P在網(wǎng)絡(luò)管理方面已得到廣泛應(yīng)用,贏得了廣大用戶和網(wǎng)絡(luò)廠家的認(rèn)可和支持。對于一個網(wǎng)絡(luò)管理系統(tǒng),全面、及時、準(zhǔn)確的數(shù)據(jù)信息是重中之重,因此,穩(wěn)定高效的數(shù)據(jù)采集是有效實現(xiàn)網(wǎng)絡(luò)管理的基礎(chǔ)和前提。而對于網(wǎng)絡(luò)數(shù)據(jù)統(tǒng)計和信息采集的最方便的工具莫過于 SNM P網(wǎng)絡(luò)管理系統(tǒng)。
SNM P(Simp le Network M anagem ent Protoco l)的前身是簡單網(wǎng)關(guān)監(jiān)控協(xié)議 (SGM P),用來對通信線路進(jìn)行管理。隨后,人們對 SGM P進(jìn)行了多次修改,特別是加入了符合 Internet定義的 M IB。現(xiàn)在 SNM P已經(jīng)出到第三個版本的協(xié)議,其功能得以加強和改進(jìn)。
SNM P是一系列協(xié)議組和規(guī)范,包括管理者 (M anager)、管理代理 (Agent)、管理信息庫 (M IB)、SNM P協(xié)議,提供了一種從網(wǎng)絡(luò)上的設(shè)備中收集網(wǎng)絡(luò)管理信息的方法。其管理模型如圖 1所示。

圖 1 SNM P管理模型
SNM P網(wǎng)絡(luò)管理最早開始于 20世紀(jì) 70年代,相對于 OSI標(biāo)準(zhǔn),SNM P簡單、易實現(xiàn)、成本低、效率高,對于網(wǎng)絡(luò)管理非常有效,已得到眾多產(chǎn)品供應(yīng)商的支持和廣泛的應(yīng)用。許多網(wǎng)絡(luò)通信設(shè)備商如 IBM,Cisco等都提供基于 SNM P的實現(xiàn)方法。
SNM P管理模型具有典型的 C/S(客戶端/服務(wù)器)體系結(jié)構(gòu)。網(wǎng)絡(luò)管理站運行 SNM P管理軟件的客戶端程序 (通常稱為 M anager或 Client,管理站或管理者),而被管理的網(wǎng)絡(luò)設(shè)備運行軟件的服務(wù)器端程序(通常稱為 Agent,代理或代理服務(wù))。網(wǎng)絡(luò)管理站啟動管理器進(jìn)程,監(jiān)視并控制被管設(shè)備的運行,而被管設(shè)備上運行著代理進(jìn)程,對
管理器進(jìn)程發(fā)出的各種請求作出響應(yīng)。管理對象的信息存放在被管設(shè)備的M IB庫中。管理器進(jìn)程將各種操作維護(hù)命令組裝成 SNM P報文,發(fā)送到代理進(jìn)程,代理進(jìn)程通過操作 M IB庫響應(yīng)這些請求,并且把結(jié)果送回管理站進(jìn)程,從而完成管理功能。
每個被管理的 SNM P設(shè)備均維護(hù)一個包含統(tǒng)計信息及其他數(shù)據(jù)的數(shù)據(jù)庫,稱之為管理信息庫或M IB。M IB的每一項包含一種信息:對象類型、語法、訪問及狀態(tài)等。

圖 2 基于 SNM P的數(shù)據(jù)挖掘模型
2.2.1 良好的可擴充性。該協(xié)議版本采用基于用戶的安全機制,是在原來的基礎(chǔ)上進(jìn)行大量的評議以后進(jìn)行了更新,并且對協(xié)議的邏輯功能模塊進(jìn)行了劃分。進(jìn)而保證良好的可擴充性。
2.2.2 良好的安全性。SNM P要求在發(fā)送每一個消息時都附帶一條特殊的口令。這樣,SNM P代理就可以判斷是否有權(quán)訪問M IB信息。這個口令被稱作 SNM P共同體名。SNM P在實現(xiàn)時,允許使用不同安全級別的共同體名,這樣可以進(jìn)一步增加 SNM P操作的安全性。
2.2.3 功能完善。合理的管理信息結(jié)構(gòu),支持分布式管理,效率高,可以實現(xiàn)大量的數(shù)據(jù)傳輸,支持管理器與管理器間的通信。
數(shù)據(jù)挖掘從一開始就表現(xiàn)出明確的目的性,數(shù)據(jù)倉庫都是圍繞某一確切的主題而建立的。目前已成功建立的數(shù)據(jù)挖掘模型有客戶細(xì)分模型、客戶激活模型、客戶流失模型、申請記分模型、行為記分模型、欺詐監(jiān)測模型等。這里,主要應(yīng)用數(shù)據(jù)挖掘?qū)蛻粜袨檫M(jìn)行分析。
本模型包括系統(tǒng)初始化,信息采集,數(shù)據(jù)處理,數(shù)據(jù)挖掘,規(guī)則評估等五個部分,如圖 2所示。其中系統(tǒng)初始化、信息采集系統(tǒng)與系統(tǒng)配置數(shù)據(jù)庫由 SNM P網(wǎng)絡(luò)管理系統(tǒng)組成;數(shù)據(jù)處理部分由數(shù)據(jù)預(yù)處理與統(tǒng)計信息庫組成;數(shù)據(jù)挖掘部分由規(guī)則庫與多個規(guī)則挖掘模塊組成;規(guī)則評估由規(guī)則修訂模塊組成。
在系統(tǒng)啟動時,初始化程序由數(shù)據(jù)庫中及網(wǎng)絡(luò)設(shè)備讀取配置信息,根據(jù)這些信息 SNM P控制將采集到的數(shù)據(jù)存儲到指定的數(shù)據(jù)庫中。然后數(shù)據(jù)庫中的這些信息由數(shù)據(jù)處理模塊進(jìn)行處理,生成標(biāo)準(zhǔn)格式的信息,存入統(tǒng)計信息庫。數(shù)據(jù)挖掘模塊根據(jù)屬性相關(guān)性挖掘出關(guān)聯(lián)度最高的規(guī)則,放入規(guī)則庫。SNM P根據(jù)實時統(tǒng)計信息與規(guī)則庫標(biāo)準(zhǔn)進(jìn)行比較,驗證規(guī)則的可靠性,進(jìn)行規(guī)則評估,并根據(jù)實際比對情況對規(guī)則進(jìn)行修訂。
數(shù)據(jù)采集的任務(wù)是收集網(wǎng)絡(luò)數(shù)據(jù),主要是與網(wǎng)絡(luò)設(shè)備通信,同時接受上層系統(tǒng)的控制。SNM P系統(tǒng)是實現(xiàn)該功能的主要設(shè)備,該系統(tǒng)可以獨立出來,上層系統(tǒng)可以通過配置數(shù)據(jù)庫以及使用網(wǎng)絡(luò)通信來控制信息采集系統(tǒng)。
數(shù)據(jù)表與數(shù)據(jù)項的選取:為了獲取準(zhǔn)確的特征量,經(jīng)過分析,我們從數(shù)據(jù)庫中找出 7個與分析主題有關(guān),而且可以滿足分析需要的數(shù)據(jù)表:客戶基本表,存放所有客戶的基本信息;個人客戶表,存放個人卡客戶的信息;公司客戶表,存放公司客戶的信息;卡表,存放信用卡的基本信息;卡賬戶表,存放信用卡的賬戶信息;余額歷史表,存放各卡賬戶的余額變動歷史;卡賬戶交易日志表,存放各卡賬戶的歷史交易信息。
另外,個人客戶表中收入數(shù)據(jù)項數(shù)據(jù)嚴(yán)重缺失,我們從代發(fā)工資信息中獲取部分持卡人的工資收入信息,生成收入數(shù)據(jù)表,有 2個數(shù)據(jù)項:身份證號,月工資收入。
獲取輸入輸出數(shù)據(jù):統(tǒng)計表明,顧客的消費行為在相當(dāng)程序上受到顧客本身的個體特征影響,主要包括年齡、性別、職業(yè)、收入、信用等級、授信額度等,這里選取了其中的四個特征量年齡、收入、是否學(xué)生和信用等級,作為網(wǎng)絡(luò)的輸入。
樣本輸出數(shù)據(jù)對客戶消費行為分析尤為重要。一般采用兩種途徑獲取:根據(jù)卡賬戶交易日志表獲取;根據(jù)用卡行為記錄獲取。本文中主要分析客戶最終是否購買了電腦,也就是說網(wǎng)絡(luò)輸出模式包括兩種形式:已購買:1;未購買:0。
一般來說,為提高挖掘的正確性、有效性和可伸縮性,需要對樣本數(shù)據(jù)做以下數(shù)據(jù)清洗和相關(guān)性分析等預(yù)處理。本研究中主要對樣本數(shù)據(jù)進(jìn)行了規(guī)格化、異常數(shù)據(jù)清除、缺失數(shù)據(jù)的處理、錯誤糾正、重復(fù)數(shù)據(jù)的清除等處理。
此處選用某國有商業(yè)銀行的交易金額大于零的信用卡交易記錄數(shù)據(jù)作為實例數(shù)據(jù)集。總共有 328位持卡人、21個特約商戶的 2019條交易記錄,經(jīng)數(shù)據(jù)預(yù)處理,保留了 210條有效記錄。原始數(shù)據(jù)是從該行的信用卡業(yè)務(wù)系統(tǒng)的 Sybase數(shù)據(jù)庫中以文本文件的格式導(dǎo)出,共有 7個表 111個字段。具體訓(xùn)練樣本如表 1所示 (假設(shè)運算次數(shù)為 2000,允許的精度為 0.001)。

表 1 訓(xùn)練樣本表
訓(xùn)練結(jié)果為:
TRA INGDX,Epoch 0/1000,M SE 0.327714/0.001,Gradient0.221671/1e-006
TRA INGDX,Epoch 25/1000,M SE 0.310266/0.001,Gradient0.214608/1e-006
TRA INGDX,Epoch 50/1000,M SE 0.267559/0.001,Gradient0.161483/1e-006
TRA INGDX, Epoch 75/1000,M SE 0.1533/0.001,Gradient0.208459/1e-006
TRA INGDX,Epoch 100/1000,M SE 0.030825/0.001,Gradient0.0359417/1e-006
TRA INGDX,Epoch 125/1000,M SE 0.0101365/0.001,Gradient0.0157687/1e-006
TRA INGDX, Epoch 144/1000, M SE 0.000932271/0.001,Gradient0.00397282/1e-006
TRA INGDX,Perform ance goalm et.
可見經(jīng)過 144次訓(xùn)練后,網(wǎng)絡(luò)的目標(biāo)誤差達(dá)到要求。
數(shù)據(jù)挖掘應(yīng)用領(lǐng)域已越來越廣泛、深入,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)往往無法滿足客戶的需求?;?SNM P進(jìn)行數(shù)據(jù)挖掘能及時準(zhǔn)確地收集網(wǎng)絡(luò)統(tǒng)計數(shù)據(jù),充分利用網(wǎng)絡(luò)軟硬件資源,有效提高數(shù)據(jù)挖掘效率和準(zhǔn)確度,彌補了傳統(tǒng)數(shù)據(jù)挖掘的不足。本文對這一方法進(jìn)行了研究和論述,初步的實驗結(jié)果表明,這種方法是有效的。將該方法應(yīng)用于更廣范圍、更多領(lǐng)域、更深層次并系統(tǒng)化,這是下一步工作的方向。
[1]楊海蘭,程龍,吳功宜 .基于 SNM P進(jìn)行數(shù)據(jù)挖掘的入侵檢測系統(tǒng)研究[J].計算機工程 .2004,(2).
[2]W illiam Stallings.SNM P網(wǎng)絡(luò)管理[M].北京:中國電力出版社,2001.9.
[3]李金宇 .基于 SNM P的網(wǎng)絡(luò)信息采集系統(tǒng)的研究[D].長春:吉林大學(xué),2008.
[4]雷莉 .基于大唐交換機 SNM P網(wǎng)絡(luò)管理代理的設(shè)計與實現(xiàn)[D].西安:西安電子科技大學(xué),2006.
[5]何小衛(wèi),王申康 .網(wǎng)管平臺中 SNMP Probe的設(shè)計與實現(xiàn)[J].計算機工程,2000,(7).
TP393
B
1671-5136(2010)01-0117-03
2010-02-15
曾萬里 (1979-),男,湖南邵陽人,長沙民政職業(yè)技術(shù)學(xué)院軟件學(xué)院教師、碩士。研究方向:數(shù)據(jù)挖掘。