大數(shù)據(jù)時(shí)代工作中的模型思維構(gòu)建

2021-06-16 06:38:56盧志強(qiáng)

科學(xué)咨詢 2021年13期

盧志強(qiáng)

(中國(guó)鐵路上海局集團(tuán)有限公司信息技術(shù)所上海 200071)

以大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等為代表的信息技術(shù)正加速推動(dòng)著社會(huì)信息化進(jìn)程，各個(gè)行業(yè)積累的數(shù)據(jù)資源也越來越多，人們的工作也越來越依靠數(shù)據(jù)。大數(shù)據(jù)分析領(lǐng)域也對(duì)大數(shù)據(jù)專家技能需求分為“數(shù)據(jù)管理、數(shù)據(jù)運(yùn)營(yíng)、洞察分析、算法模型”四個(gè)層次，其中算法模型這個(gè)層次就是數(shù)據(jù)價(jià)值挖掘能力。為了更好地適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展，工作中需要加強(qiáng)對(duì)業(yè)務(wù)的思考和總結(jié)，將日常工作中發(fā)現(xiàn)的規(guī)律和經(jīng)驗(yàn)融入大數(shù)據(jù)模型，提高數(shù)據(jù)應(yīng)用能力[1]。

一、數(shù)據(jù)建模原理

在大數(shù)據(jù)分析中，模型是非常有用的工具，模型很多時(shí)候就是一個(gè)類似Y=f(X)的函數(shù)，即從參數(shù)X（也可以理解為條件、現(xiàn)象、特征）到結(jié)果Y的一個(gè)推導(dǎo)（映射）規(guī)則。在掌握足夠經(jīng)驗(yàn)時(shí)，結(jié)合一些基礎(chǔ)的統(tǒng)計(jì)分析，依靠人工規(guī)則定義就可以實(shí)現(xiàn)建模；而人工對(duì)錯(cuò)綜復(fù)雜、大量的數(shù)據(jù)無法處理時(shí)，逐漸轉(zhuǎn)化為依靠人工指導(dǎo)的數(shù)據(jù)挖掘，再到完全依賴機(jī)器進(jìn)行的深度學(xué)習(xí)算法去完成建模。挖掘算法包括分類、聚類、關(guān)聯(lián)規(guī)則、回歸等，而深度學(xué)習(xí)主要是依賴神經(jīng)網(wǎng)絡(luò)模型[2]。

數(shù)據(jù)挖掘的實(shí)質(zhì)是通過計(jì)算機(jī)的計(jì)算能力在一堆數(shù)據(jù)中發(fā)掘出規(guī)律并加以利用的過程。如圖1所示，數(shù)據(jù)挖掘通常通過已知輸出的結(jié)果的數(shù)據(jù)作為訓(xùn)練集產(chǎn)生出模型，再用另外一部分知道已知輸出結(jié)果的數(shù)據(jù)作為驗(yàn)證集來驗(yàn)證模型的可信程度，通過驗(yàn)證后，再用到測(cè)試集中去取得實(shí)際的效果。因此，對(duì)數(shù)據(jù)挖掘而言，需要經(jīng)歷規(guī)則學(xué)習(xí)、規(guī)則驗(yàn)證、規(guī)則使用的過程[3]。

圖1 一般數(shù)據(jù)訓(xùn)練模型過程

規(guī)則學(xué)習(xí)又稱為模型訓(xùn)練，在這個(gè)步驟中有一個(gè)數(shù)據(jù)集將作為訓(xùn)練集，通常會(huì)把過去已經(jīng)發(fā)生的數(shù)據(jù)作為訓(xùn)練集。在對(duì)比已知的結(jié)果和輸入的變量的過程中，更換模型或者調(diào)整模型中的參數(shù)，對(duì)訓(xùn)練集達(dá)到較高的評(píng)價(jià)指標(biāo)后，就得到一個(gè)預(yù)期的計(jì)算規(guī)則。引入驗(yàn)證集是為了驗(yàn)證模型的效果和準(zhǔn)確度，驗(yàn)證集和訓(xùn)練集具有相同的格式。如果有效的話就可以在實(shí)際場(chǎng)景中對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè)，如果效果不理想還可以進(jìn)一步調(diào)整模型。

二、數(shù)據(jù)挖掘算法模型

數(shù)據(jù)挖掘的算法很多，這里根據(jù)一些經(jīng)典算法結(jié)合工作生活中的應(yīng)用案例介紹其原理。

（一）分類

這是針對(duì)已知的類別構(gòu)建出分類的模型，通過分類的模型來探求其他未分類對(duì)象的類別。分類的算法很多，如決策樹是一種常見的樹形結(jié)構(gòu)分類模型；貝葉斯算法是一種利用先驗(yàn)概率統(tǒng)計(jì)知識(shí)分類未知類別的模型；其他常見算法還包括神經(jīng)網(wǎng)絡(luò)分類、K-近鄰分類、支持向量機(jī)SVM分類、基于關(guān)聯(lián)規(guī)則的分類等。現(xiàn)實(shí)中有很多應(yīng)用分類算法的實(shí)例，如在金融領(lǐng)域，根據(jù)職業(yè)、家庭經(jīng)濟(jì)狀況、年齡、資產(chǎn)等特征將貸款人的信用風(fēng)險(xiǎn)劃分為“安全”與“有風(fēng)險(xiǎn)”兩類，就是個(gè)二分類問題；在軌道交通管理中，根據(jù)檢修工人對(duì)各種故障狀態(tài)的記錄進(jìn)行標(biāo)準(zhǔn)化和量化處理，利用狀態(tài)數(shù)據(jù)特征對(duì)設(shè)備故障進(jìn)行多類別分類，提高設(shè)備管理水平。

（二）聚類方法

與分類不同，聚類不需要對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)記，也就不需要事先進(jìn)行訓(xùn)練。聚類按照數(shù)據(jù)的內(nèi)在結(jié)構(gòu)特征進(jìn)行聚集形成簇群，從而實(shí)現(xiàn)數(shù)據(jù)分離。常見的聚類算法有K-means聚類、均值漂移聚類、基于密度的聚類方法、最大期望聚類、層次聚類等。聚類應(yīng)用領(lǐng)域廣泛，可用于企業(yè)發(fā)現(xiàn)不同的客戶群體特征、消費(fèi)行為分析、市場(chǎng)細(xì)分、交易數(shù)據(jù)分析等；可用于生物學(xué)的動(dòng)植物種群分類、醫(yī)療疾病診斷、異常點(diǎn)分析等。在鐵路交通旅客管理中，運(yùn)用聚類算法對(duì)不同類別旅客乘車選擇問題進(jìn)行研究，發(fā)現(xiàn)旅客出行時(shí)間、月收入、出行目的與費(fèi)用對(duì)旅客進(jìn)行聚類，以輔助調(diào)整鐵路線路實(shí)現(xiàn)不同類別旅客對(duì)客運(yùn)產(chǎn)品選擇的偏好。

（三）關(guān)聯(lián)分析

關(guān)聯(lián)規(guī)則挖掘是在大量數(shù)據(jù)中挖掘數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系，對(duì)關(guān)聯(lián)性的強(qiáng)弱判定依據(jù)置信度和支持度的值。Apriori算法就是經(jīng)典的關(guān)聯(lián)分析算法，主要形式為度量頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則廣泛應(yīng)用于商務(wù)營(yíng)銷、推薦系統(tǒng)、社會(huì)治理等領(lǐng)域。如在交通管理領(lǐng)域，通過對(duì)交通事故數(shù)據(jù)做關(guān)聯(lián)分析，可以對(duì)不同天氣、時(shí)間、路段、環(huán)境、基礎(chǔ)設(shè)施等要素做關(guān)聯(lián)分析，探測(cè)其中的規(guī)律，可能發(fā)現(xiàn)“時(shí)段”與“追尾”屬于強(qiáng)關(guān)聯(lián)規(guī)則，即存在強(qiáng)關(guān)聯(lián)。

（四）回歸分析

回歸分析是一種研究自變量和因變量之間關(guān)系的預(yù)測(cè)模型，用于分析當(dāng)自變量發(fā)生變化時(shí)，因變量的變化值。即對(duì)原因與結(jié)果之間變化關(guān)系的分析，由此可以建立回歸方程，用以預(yù)測(cè)變量的依賴關(guān)系。常見的回歸算法有線性回歸、邏輯回歸、多項(xiàng)式回歸、逐步回歸、嶺歸回等。回歸分析可以應(yīng)用于各類預(yù)測(cè)分析中，包括銷售盈利分析、氣候預(yù)測(cè)回歸分析、交通出行人流量回歸分析等。甚至可以根據(jù)回歸分析結(jié)果與實(shí)際發(fā)生情況進(jìn)行異常點(diǎn)分析，如利用火災(zāi)預(yù)警系統(tǒng)來預(yù)測(cè)建筑物火情及分析縱火案。通過將一年內(nèi)火災(zāi)案件與當(dāng)天天氣、建筑物自身因素等資料數(shù)據(jù)化，形成一套火災(zāi)級(jí)別與火災(zāi)因素的擬合函數(shù)，可以形成經(jīng)驗(yàn)數(shù)據(jù)，有效提升火災(zāi)預(yù)警能力。

（五）深度學(xué)習(xí)

面對(duì)非常復(fù)雜、冗余且多變的數(shù)據(jù)，有效提取出特征并將其表達(dá)出來非常重要。“深度學(xué)習(xí)”是隨著海量大數(shù)據(jù)樣本與計(jì)算處理能力發(fā)展而產(chǎn)生的，允許計(jì)算機(jī)學(xué)習(xí)使用特征的同時(shí)，也學(xué)習(xí)如何提取特征。深度學(xué)習(xí)主要采用的框架是神經(jīng)網(wǎng)絡(luò)，如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等。學(xué)習(xí)過程是通過組建含有多個(gè)隱層的神經(jīng)網(wǎng)絡(luò)模型，對(duì)輸入的高維數(shù)據(jù)逐層提取特征，以發(fā)現(xiàn)數(shù)據(jù)的低維嵌套結(jié)構(gòu)，形成更加抽象有效的高層表示，這使得數(shù)據(jù)項(xiàng)與特征、特征映射到結(jié)果的過程難以解釋[4]。深度學(xué)習(xí)廣泛應(yīng)用于人工智能領(lǐng)域，如人臉識(shí)別、語音識(shí)別、體態(tài)識(shí)別等，這些智能技術(shù)也作為信息化基礎(chǔ)設(shè)施在各行各業(yè)進(jìn)行部署應(yīng)用。

三、算法模型指標(biāo)理解

通過數(shù)據(jù)訓(xùn)練得到一個(gè)模型后，如何判斷此模型的效果？這就類似學(xué)校對(duì)學(xué)生用什么指標(biāo)評(píng)估學(xué)生素質(zhì)？是主課的總成績(jī)，還是多門課平均成績(jī)，還是優(yōu)先看哪門課成績(jī)？數(shù)據(jù)模型是否有效，也有很多評(píng)價(jià)指標(biāo)，常用的評(píng)估指標(biāo)是查全率和查準(zhǔn)率。假設(shè)分類中有正負(fù)兩種樣本，其中TP是表示正確分類的正樣本數(shù)量，F(xiàn)N表示未被正確分類的正樣本數(shù)量，F(xiàn)P表示被錯(cuò)誤分類為正樣本的負(fù)樣本[5]。

1.查全率（Recall），又叫召回率，即正確分類的正樣本數(shù)量占所有正樣本數(shù)量的比例，計(jì)算公式為：

R=TP/(TP+FN)

2.查準(zhǔn)率（Precision），又叫準(zhǔn)確率，即正確分類的正樣本數(shù)量占所有被模型識(shí)別出的正樣本數(shù)量的比例，計(jì)算公式為：

P=TP/(TP+FP)

如果一個(gè)模型兩個(gè)指標(biāo)值都非常好，即調(diào)整條件使查全率和查準(zhǔn)率都提高，那無疑是最優(yōu)的情況。但這兩個(gè)指標(biāo)往往是“此消彼長(zhǎng)”，像“魚和熊掌”一樣，不能兼得。對(duì)于模型效用的評(píng)估，查全率、查準(zhǔn)率這些只是常見的評(píng)估指標(biāo)，具體偏向哪個(gè)指標(biāo)，很多時(shí)候也會(huì)根據(jù)場(chǎng)景區(qū)分。例如門禁系統(tǒng)在做身份驗(yàn)證時(shí)，那就追求高查準(zhǔn)率；在進(jìn)行風(fēng)險(xiǎn)預(yù)警時(shí)，可以根據(jù)需求適當(dāng)放棄部分查準(zhǔn)率，盡量放寬查全率。

四、結(jié)束語

大數(shù)據(jù)已經(jīng)成為推動(dòng)各個(gè)行業(yè)工作創(chuàng)新發(fā)展的大引擎，也是新的生產(chǎn)力的增長(zhǎng)點(diǎn)。為了更加有效地利用大數(shù)據(jù)資源，理解數(shù)據(jù)建模原理，將模型化思維應(yīng)用于工作實(shí)踐，可以對(duì)傳統(tǒng)產(chǎn)業(yè)進(jìn)行升級(jí)，改進(jìn)原有工作業(yè)務(wù)模型。