盧志強(qiáng)
(中國(guó)鐵路上海局集團(tuán)有限公司信息技術(shù)所 上海 200071)
以大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等為代表的信息技術(shù)正加速推動(dòng)著社會(huì)信息化進(jìn)程,各個(gè)行業(yè)積累的數(shù)據(jù)資源也越來越多,人們的工作也越來越依靠數(shù)據(jù)。大數(shù)據(jù)分析領(lǐng)域也對(duì)大數(shù)據(jù)專家技能需求分為“數(shù)據(jù)管理、數(shù)據(jù)運(yùn)營(yíng)、洞察分析、算法模型”四個(gè)層次,其中算法模型這個(gè)層次就是數(shù)據(jù)價(jià)值挖掘能力。為了更好地適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展,工作中需要加強(qiáng)對(duì)業(yè)務(wù)的思考和總結(jié),將日常工作中發(fā)現(xiàn)的規(guī)律和經(jīng)驗(yàn)融入大數(shù)據(jù)模型,提高數(shù)據(jù)應(yīng)用能力[1]。
在大數(shù)據(jù)分析中,模型是非常有用的工具,模型很多時(shí)候就是一個(gè)類似Y=f(X)的函數(shù),即從參數(shù)X(也可以理解為條件、現(xiàn)象、特征)到結(jié)果Y的一個(gè)推導(dǎo)(映射)規(guī)則。在掌握足夠經(jīng)驗(yàn)時(shí),結(jié)合一些基礎(chǔ)的統(tǒng)計(jì)分析,依靠人工規(guī)則定義就可以實(shí)現(xiàn)建模;而人工對(duì)錯(cuò)綜復(fù)雜、大量的數(shù)據(jù)無法處理時(shí),逐漸轉(zhuǎn)化為依靠人工指導(dǎo)的數(shù)據(jù)挖掘,再到完全依賴機(jī)器進(jìn)行的深度學(xué)習(xí)算法去完成建模。挖掘算法包括分類、聚類、關(guān)聯(lián)規(guī)則、回歸等,而深度學(xué)習(xí)主要是依賴神經(jīng)網(wǎng)絡(luò)模型[2]。
數(shù)據(jù)挖掘的實(shí)質(zhì)是通過計(jì)算機(jī)的計(jì)算能力在一堆數(shù)據(jù)中發(fā)掘出規(guī)律并加以利用的過程。如圖1所示,數(shù)據(jù)挖掘通常通過已知輸出的結(jié)果的數(shù)據(jù)作為訓(xùn)練集產(chǎn)生出模型,再用另外一部分知道已知輸出結(jié)果的數(shù)據(jù)作為驗(yàn)證集來驗(yàn)證模型的可信程度,通過驗(yàn)證后,再用到測(cè)試集中去取得實(shí)際的效果。因此,對(duì)數(shù)據(jù)挖掘而言,需要經(jīng)歷規(guī)則學(xué)習(xí)、規(guī)則驗(yàn)證、規(guī)則使用的過程[3]。

圖1 一般數(shù)據(jù)訓(xùn)練模型過程
規(guī)則學(xué)習(xí)又稱為模型訓(xùn)練,在這個(gè)步驟中有一個(gè)數(shù)據(jù)集將作為訓(xùn)練集,通常會(huì)把過去已經(jīng)發(fā)生的數(shù)據(jù)作為訓(xùn)練集。在對(duì)比已知的結(jié)果和輸入的變量的過程中,更換模型或者調(diào)整模型中的參數(shù),對(duì)訓(xùn)練集達(dá)到較高的評(píng)價(jià)指標(biāo)后,就得到一個(gè)預(yù)期的計(jì)算規(guī)則。引入驗(yàn)證集是為了驗(yàn)證模型的效果和準(zhǔn)確度,驗(yàn)證集和訓(xùn)練集具有相同的格式。如果有效的話就可以在實(shí)際場(chǎng)景中對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè),如果效果不理想還可以進(jìn)一步調(diào)整模型。
數(shù)據(jù)挖掘的算法很多,這里根據(jù)一些經(jīng)典算法結(jié)合工作生活中的應(yīng)用案例介紹其原理。
這是針對(duì)已知的類別構(gòu)建出分類的模型,通過分類的模型來探求其他未分類對(duì)象的類別。分類的算法很多,如決策樹是一種常見的樹形結(jié)構(gòu)分類模型;貝葉斯算法是一種利用先驗(yàn)概率統(tǒng)計(jì)知識(shí)分類未知類別的模型;其他常見算法還包括神經(jīng)網(wǎng)絡(luò)分類、K-近鄰分類、支持向量機(jī)SVM分類、基于關(guān)聯(lián)規(guī)則的分類等。現(xiàn)實(shí)中有很多應(yīng)用分類算法的實(shí)例,如在金融領(lǐng)域,根據(jù)職業(yè)、家庭經(jīng)濟(jì)狀況、年齡、資產(chǎn)等特征將貸款人的信用風(fēng)險(xiǎn)劃分為“安全”與“有風(fēng)險(xiǎn)”兩類,就是個(gè)二分類問題;在軌道交通管理中,根據(jù)檢修工人對(duì)各種故障狀態(tài)的記錄進(jìn)行標(biāo)準(zhǔn)化和量化處理,利用狀態(tài)數(shù)據(jù)特征對(duì)設(shè)備故障進(jìn)行多類別分類,提高設(shè)備管理水平。
與分類不同,聚類不需要對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)記,也就不需要事先進(jìn)行訓(xùn)練。聚類按照數(shù)據(jù)的內(nèi)在結(jié)構(gòu)特征進(jìn)行聚集形成簇群,從而實(shí)現(xiàn)數(shù)據(jù)分離。常見的聚類算法有K-means聚類、均值漂移聚類、基于密度的聚類方法、最大期望聚類、層次聚類等。聚類應(yīng)用領(lǐng)域廣泛,可用于企業(yè)發(fā)現(xiàn)不同的客戶群體特征、消費(fèi)行為分析、市場(chǎng)細(xì)分、交易數(shù)據(jù)分析等;可用于生物學(xué)的動(dòng)植物種群分類、醫(yī)療疾病診斷、異常點(diǎn)分析等。在鐵路交通旅客管理中,運(yùn)用聚類算法對(duì)不同類別旅客乘車選擇問題進(jìn)行研究,發(fā)現(xiàn)旅客出行時(shí)間、月收入、出行目的與費(fèi)用對(duì)旅客進(jìn)行聚類,以輔助調(diào)整鐵路線路實(shí)現(xiàn)不同類別旅客對(duì)客運(yùn)產(chǎn)品選擇的偏好。
關(guān)聯(lián)規(guī)則挖掘是在大量數(shù)據(jù)中挖掘數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系,對(duì)關(guān)聯(lián)性的強(qiáng)弱判定依據(jù)置信度和支持度的值。Apriori算法就是經(jīng)典的關(guān)聯(lián)分析算法,主要形式為度量頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則廣泛應(yīng)用于商務(wù)營(yíng)銷、推薦系統(tǒng)、社會(huì)治理等領(lǐng)域。如在交通管理領(lǐng)域,通過對(duì)交通事故數(shù)據(jù)做關(guān)聯(lián)分析,可以對(duì)不同天氣、時(shí)間、路段、環(huán)境、基礎(chǔ)設(shè)施等要素做關(guān)聯(lián)分析,探測(cè)其中的規(guī)律,可能發(fā)現(xiàn)“時(shí)段”與“追尾”屬于強(qiáng)關(guān)聯(lián)規(guī)則,即存在強(qiáng)關(guān)聯(lián)。
回歸分析是一種研究自變量和因變量之間關(guān)系的預(yù)測(cè)模型,用于分析當(dāng)自變量發(fā)生變化時(shí),因變量的變化值。即對(duì)原因與結(jié)果之間變化關(guān)系的分析,由此可以建立回歸方程,用以預(yù)測(cè)變量的依賴關(guān)系。常見的回歸算法有線性回歸、邏輯回歸、多項(xiàng)式回歸、逐步回歸、嶺歸回等。回歸分析可以應(yīng)用于各類預(yù)測(cè)分析中,包括銷售盈利分析、氣候預(yù)測(cè)回歸分析、交通出行人流量回歸分析等。甚至可以根據(jù)回歸分析結(jié)果與實(shí)際發(fā)生情況進(jìn)行異常點(diǎn)分析,如利用火災(zāi)預(yù)警系統(tǒng)來預(yù)測(cè)建筑物火情及分析縱火案。通過將一年內(nèi)火災(zāi)案件與當(dāng)天天氣、建筑物自身因素等資料數(shù)據(jù)化,形成一套火災(zāi)級(jí)別與火災(zāi)因素的擬合函數(shù),可以形成經(jīng)驗(yàn)數(shù)據(jù),有效提升火災(zāi)預(yù)警能力。
面對(duì)非常復(fù)雜、冗余且多變的數(shù)據(jù),有效提取出特征并將其表達(dá)出來非常重要。“深度學(xué)習(xí)”是隨著海量大數(shù)據(jù)樣本與計(jì)算處理能力發(fā)展而產(chǎn)生的,允許計(jì)算機(jī)學(xué)習(xí)使用特征的同時(shí),也學(xué)習(xí)如何提取特征。深度學(xué)習(xí)主要采用的框架是神經(jīng)網(wǎng)絡(luò),如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等。學(xué)習(xí)過程是通過組建含有多個(gè)隱層的神經(jīng)網(wǎng)絡(luò)模型,對(duì)輸入的高維數(shù)據(jù)逐層提取特征,以發(fā)現(xiàn)數(shù)據(jù)的低維嵌套結(jié)構(gòu),形成更加抽象有效的高層表示,這使得數(shù)據(jù)項(xiàng)與特征、特征映射到結(jié)果的過程難以解釋[4]。深度學(xué)習(xí)廣泛應(yīng)用于人工智能領(lǐng)域,如人臉識(shí)別、語音識(shí)別、體態(tài)識(shí)別等,這些智能技術(shù)也作為信息化基礎(chǔ)設(shè)施在各行各業(yè)進(jìn)行部署應(yīng)用。
通過數(shù)據(jù)訓(xùn)練得到一個(gè)模型后,如何判斷此模型的效果?這就類似學(xué)校對(duì)學(xué)生用什么指標(biāo)評(píng)估學(xué)生素質(zhì)?是主課的總成績(jī),還是多門課平均成績(jī),還是優(yōu)先看哪門課成績(jī)?數(shù)據(jù)模型是否有效,也有很多評(píng)價(jià)指標(biāo),常用的評(píng)估指標(biāo)是查全率和查準(zhǔn)率。假設(shè)分類中有正負(fù)兩種樣本,其中TP是表示正確分類的正樣本數(shù)量,F(xiàn)N表示未被正確分類的正樣本數(shù)量,F(xiàn)P表示被錯(cuò)誤分類為正樣本的負(fù)樣本[5]。
1.查全率(Recall),又叫召回率,即正確分類的正樣本數(shù)量占所有正樣本數(shù)量的比例,計(jì)算公式為:
R=TP/(TP+FN)
2.查準(zhǔn)率(Precision),又叫準(zhǔn)確率,即正確分類的正樣本數(shù)量占所有被模型識(shí)別出的正樣本數(shù)量的比例,計(jì)算公式為:
P=TP/(TP+FP)
如果一個(gè)模型兩個(gè)指標(biāo)值都非常好,即調(diào)整條件使查全率和查準(zhǔn)率都提高,那無疑是最優(yōu)的情況。但這兩個(gè)指標(biāo)往往是“此消彼長(zhǎng)”,像“魚和熊掌”一樣,不能兼得。對(duì)于模型效用的評(píng)估,查全率、查準(zhǔn)率這些只是常見的評(píng)估指標(biāo),具體偏向哪個(gè)指標(biāo),很多時(shí)候也會(huì)根據(jù)場(chǎng)景區(qū)分。例如門禁系統(tǒng)在做身份驗(yàn)證時(shí),那就追求高查準(zhǔn)率;在進(jìn)行風(fēng)險(xiǎn)預(yù)警時(shí),可以根據(jù)需求適當(dāng)放棄部分查準(zhǔn)率,盡量放寬查全率。
大數(shù)據(jù)已經(jīng)成為推動(dòng)各個(gè)行業(yè)工作創(chuàng)新發(fā)展的大引擎,也是新的生產(chǎn)力的增長(zhǎng)點(diǎn)。為了更加有效地利用大數(shù)據(jù)資源,理解數(shù)據(jù)建模原理,將模型化思維應(yīng)用于工作實(shí)踐,可以對(duì)傳統(tǒng)產(chǎn)業(yè)進(jìn)行升級(jí),改進(jìn)原有工作業(yè)務(wù)模型。