999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)時(shí)代工作中的模型思維構(gòu)建

2021-06-16 06:38:56盧志強(qiáng)
科學(xué)咨詢 2021年13期
關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)分類

盧志強(qiáng)

(中國(guó)鐵路上海局集團(tuán)有限公司信息技術(shù)所 上海 200071)

以大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等為代表的信息技術(shù)正加速推動(dòng)著社會(huì)信息化進(jìn)程,各個(gè)行業(yè)積累的數(shù)據(jù)資源也越來越多,人們的工作也越來越依靠數(shù)據(jù)。大數(shù)據(jù)分析領(lǐng)域也對(duì)大數(shù)據(jù)專家技能需求分為“數(shù)據(jù)管理、數(shù)據(jù)運(yùn)營(yíng)、洞察分析、算法模型”四個(gè)層次,其中算法模型這個(gè)層次就是數(shù)據(jù)價(jià)值挖掘能力。為了更好地適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展,工作中需要加強(qiáng)對(duì)業(yè)務(wù)的思考和總結(jié),將日常工作中發(fā)現(xiàn)的規(guī)律和經(jīng)驗(yàn)融入大數(shù)據(jù)模型,提高數(shù)據(jù)應(yīng)用能力[1]。

一、數(shù)據(jù)建模原理

在大數(shù)據(jù)分析中,模型是非常有用的工具,模型很多時(shí)候就是一個(gè)類似Y=f(X)的函數(shù),即從參數(shù)X(也可以理解為條件、現(xiàn)象、特征)到結(jié)果Y的一個(gè)推導(dǎo)(映射)規(guī)則。在掌握足夠經(jīng)驗(yàn)時(shí),結(jié)合一些基礎(chǔ)的統(tǒng)計(jì)分析,依靠人工規(guī)則定義就可以實(shí)現(xiàn)建模;而人工對(duì)錯(cuò)綜復(fù)雜、大量的數(shù)據(jù)無法處理時(shí),逐漸轉(zhuǎn)化為依靠人工指導(dǎo)的數(shù)據(jù)挖掘,再到完全依賴機(jī)器進(jìn)行的深度學(xué)習(xí)算法去完成建模。挖掘算法包括分類、聚類、關(guān)聯(lián)規(guī)則、回歸等,而深度學(xué)習(xí)主要是依賴神經(jīng)網(wǎng)絡(luò)模型[2]。

數(shù)據(jù)挖掘的實(shí)質(zhì)是通過計(jì)算機(jī)的計(jì)算能力在一堆數(shù)據(jù)中發(fā)掘出規(guī)律并加以利用的過程。如圖1所示,數(shù)據(jù)挖掘通常通過已知輸出的結(jié)果的數(shù)據(jù)作為訓(xùn)練集產(chǎn)生出模型,再用另外一部分知道已知輸出結(jié)果的數(shù)據(jù)作為驗(yàn)證集來驗(yàn)證模型的可信程度,通過驗(yàn)證后,再用到測(cè)試集中去取得實(shí)際的效果。因此,對(duì)數(shù)據(jù)挖掘而言,需要經(jīng)歷規(guī)則學(xué)習(xí)、規(guī)則驗(yàn)證、規(guī)則使用的過程[3]。

圖1 一般數(shù)據(jù)訓(xùn)練模型過程

規(guī)則學(xué)習(xí)又稱為模型訓(xùn)練,在這個(gè)步驟中有一個(gè)數(shù)據(jù)集將作為訓(xùn)練集,通常會(huì)把過去已經(jīng)發(fā)生的數(shù)據(jù)作為訓(xùn)練集。在對(duì)比已知的結(jié)果和輸入的變量的過程中,更換模型或者調(diào)整模型中的參數(shù),對(duì)訓(xùn)練集達(dá)到較高的評(píng)價(jià)指標(biāo)后,就得到一個(gè)預(yù)期的計(jì)算規(guī)則。引入驗(yàn)證集是為了驗(yàn)證模型的效果和準(zhǔn)確度,驗(yàn)證集和訓(xùn)練集具有相同的格式。如果有效的話就可以在實(shí)際場(chǎng)景中對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè),如果效果不理想還可以進(jìn)一步調(diào)整模型。

二、數(shù)據(jù)挖掘算法模型

數(shù)據(jù)挖掘的算法很多,這里根據(jù)一些經(jīng)典算法結(jié)合工作生活中的應(yīng)用案例介紹其原理。

(一)分類

這是針對(duì)已知的類別構(gòu)建出分類的模型,通過分類的模型來探求其他未分類對(duì)象的類別。分類的算法很多,如決策樹是一種常見的樹形結(jié)構(gòu)分類模型;貝葉斯算法是一種利用先驗(yàn)概率統(tǒng)計(jì)知識(shí)分類未知類別的模型;其他常見算法還包括神經(jīng)網(wǎng)絡(luò)分類、K-近鄰分類、支持向量機(jī)SVM分類、基于關(guān)聯(lián)規(guī)則的分類等。現(xiàn)實(shí)中有很多應(yīng)用分類算法的實(shí)例,如在金融領(lǐng)域,根據(jù)職業(yè)、家庭經(jīng)濟(jì)狀況、年齡、資產(chǎn)等特征將貸款人的信用風(fēng)險(xiǎn)劃分為“安全”與“有風(fēng)險(xiǎn)”兩類,就是個(gè)二分類問題;在軌道交通管理中,根據(jù)檢修工人對(duì)各種故障狀態(tài)的記錄進(jìn)行標(biāo)準(zhǔn)化和量化處理,利用狀態(tài)數(shù)據(jù)特征對(duì)設(shè)備故障進(jìn)行多類別分類,提高設(shè)備管理水平。

(二)聚類方法

與分類不同,聚類不需要對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)記,也就不需要事先進(jìn)行訓(xùn)練。聚類按照數(shù)據(jù)的內(nèi)在結(jié)構(gòu)特征進(jìn)行聚集形成簇群,從而實(shí)現(xiàn)數(shù)據(jù)分離。常見的聚類算法有K-means聚類、均值漂移聚類、基于密度的聚類方法、最大期望聚類、層次聚類等。聚類應(yīng)用領(lǐng)域廣泛,可用于企業(yè)發(fā)現(xiàn)不同的客戶群體特征、消費(fèi)行為分析、市場(chǎng)細(xì)分、交易數(shù)據(jù)分析等;可用于生物學(xué)的動(dòng)植物種群分類、醫(yī)療疾病診斷、異常點(diǎn)分析等。在鐵路交通旅客管理中,運(yùn)用聚類算法對(duì)不同類別旅客乘車選擇問題進(jìn)行研究,發(fā)現(xiàn)旅客出行時(shí)間、月收入、出行目的與費(fèi)用對(duì)旅客進(jìn)行聚類,以輔助調(diào)整鐵路線路實(shí)現(xiàn)不同類別旅客對(duì)客運(yùn)產(chǎn)品選擇的偏好。

(三)關(guān)聯(lián)分析

關(guān)聯(lián)規(guī)則挖掘是在大量數(shù)據(jù)中挖掘數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系,對(duì)關(guān)聯(lián)性的強(qiáng)弱判定依據(jù)置信度和支持度的值。Apriori算法就是經(jīng)典的關(guān)聯(lián)分析算法,主要形式為度量頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則廣泛應(yīng)用于商務(wù)營(yíng)銷、推薦系統(tǒng)、社會(huì)治理等領(lǐng)域。如在交通管理領(lǐng)域,通過對(duì)交通事故數(shù)據(jù)做關(guān)聯(lián)分析,可以對(duì)不同天氣、時(shí)間、路段、環(huán)境、基礎(chǔ)設(shè)施等要素做關(guān)聯(lián)分析,探測(cè)其中的規(guī)律,可能發(fā)現(xiàn)“時(shí)段”與“追尾”屬于強(qiáng)關(guān)聯(lián)規(guī)則,即存在強(qiáng)關(guān)聯(lián)。

(四)回歸分析

回歸分析是一種研究自變量和因變量之間關(guān)系的預(yù)測(cè)模型,用于分析當(dāng)自變量發(fā)生變化時(shí),因變量的變化值。即對(duì)原因與結(jié)果之間變化關(guān)系的分析,由此可以建立回歸方程,用以預(yù)測(cè)變量的依賴關(guān)系。常見的回歸算法有線性回歸、邏輯回歸、多項(xiàng)式回歸、逐步回歸、嶺歸回等。回歸分析可以應(yīng)用于各類預(yù)測(cè)分析中,包括銷售盈利分析、氣候預(yù)測(cè)回歸分析、交通出行人流量回歸分析等。甚至可以根據(jù)回歸分析結(jié)果與實(shí)際發(fā)生情況進(jìn)行異常點(diǎn)分析,如利用火災(zāi)預(yù)警系統(tǒng)來預(yù)測(cè)建筑物火情及分析縱火案。通過將一年內(nèi)火災(zāi)案件與當(dāng)天天氣、建筑物自身因素等資料數(shù)據(jù)化,形成一套火災(zāi)級(jí)別與火災(zāi)因素的擬合函數(shù),可以形成經(jīng)驗(yàn)數(shù)據(jù),有效提升火災(zāi)預(yù)警能力。

(五)深度學(xué)習(xí)

面對(duì)非常復(fù)雜、冗余且多變的數(shù)據(jù),有效提取出特征并將其表達(dá)出來非常重要。“深度學(xué)習(xí)”是隨著海量大數(shù)據(jù)樣本與計(jì)算處理能力發(fā)展而產(chǎn)生的,允許計(jì)算機(jī)學(xué)習(xí)使用特征的同時(shí),也學(xué)習(xí)如何提取特征。深度學(xué)習(xí)主要采用的框架是神經(jīng)網(wǎng)絡(luò),如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等。學(xué)習(xí)過程是通過組建含有多個(gè)隱層的神經(jīng)網(wǎng)絡(luò)模型,對(duì)輸入的高維數(shù)據(jù)逐層提取特征,以發(fā)現(xiàn)數(shù)據(jù)的低維嵌套結(jié)構(gòu),形成更加抽象有效的高層表示,這使得數(shù)據(jù)項(xiàng)與特征、特征映射到結(jié)果的過程難以解釋[4]。深度學(xué)習(xí)廣泛應(yīng)用于人工智能領(lǐng)域,如人臉識(shí)別、語音識(shí)別、體態(tài)識(shí)別等,這些智能技術(shù)也作為信息化基礎(chǔ)設(shè)施在各行各業(yè)進(jìn)行部署應(yīng)用。

三、算法模型指標(biāo)理解

通過數(shù)據(jù)訓(xùn)練得到一個(gè)模型后,如何判斷此模型的效果?這就類似學(xué)校對(duì)學(xué)生用什么指標(biāo)評(píng)估學(xué)生素質(zhì)?是主課的總成績(jī),還是多門課平均成績(jī),還是優(yōu)先看哪門課成績(jī)?數(shù)據(jù)模型是否有效,也有很多評(píng)價(jià)指標(biāo),常用的評(píng)估指標(biāo)是查全率和查準(zhǔn)率。假設(shè)分類中有正負(fù)兩種樣本,其中TP是表示正確分類的正樣本數(shù)量,F(xiàn)N表示未被正確分類的正樣本數(shù)量,F(xiàn)P表示被錯(cuò)誤分類為正樣本的負(fù)樣本[5]。

1.查全率(Recall),又叫召回率,即正確分類的正樣本數(shù)量占所有正樣本數(shù)量的比例,計(jì)算公式為:

R=TP/(TP+FN)

2.查準(zhǔn)率(Precision),又叫準(zhǔn)確率,即正確分類的正樣本數(shù)量占所有被模型識(shí)別出的正樣本數(shù)量的比例,計(jì)算公式為:

P=TP/(TP+FP)

如果一個(gè)模型兩個(gè)指標(biāo)值都非常好,即調(diào)整條件使查全率和查準(zhǔn)率都提高,那無疑是最優(yōu)的情況。但這兩個(gè)指標(biāo)往往是“此消彼長(zhǎng)”,像“魚和熊掌”一樣,不能兼得。對(duì)于模型效用的評(píng)估,查全率、查準(zhǔn)率這些只是常見的評(píng)估指標(biāo),具體偏向哪個(gè)指標(biāo),很多時(shí)候也會(huì)根據(jù)場(chǎng)景區(qū)分。例如門禁系統(tǒng)在做身份驗(yàn)證時(shí),那就追求高查準(zhǔn)率;在進(jìn)行風(fēng)險(xiǎn)預(yù)警時(shí),可以根據(jù)需求適當(dāng)放棄部分查準(zhǔn)率,盡量放寬查全率。

四、結(jié)束語

大數(shù)據(jù)已經(jīng)成為推動(dòng)各個(gè)行業(yè)工作創(chuàng)新發(fā)展的大引擎,也是新的生產(chǎn)力的增長(zhǎng)點(diǎn)。為了更加有效地利用大數(shù)據(jù)資源,理解數(shù)據(jù)建模原理,將模型化思維應(yīng)用于工作實(shí)踐,可以對(duì)傳統(tǒng)產(chǎn)業(yè)進(jìn)行升級(jí),改進(jìn)原有工作業(yè)務(wù)模型。

猜你喜歡
數(shù)據(jù)挖掘關(guān)聯(lián)分類
“苦”的關(guān)聯(lián)
分類算一算
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
奇趣搭配
教你一招:數(shù)的分類
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 一级一毛片a级毛片| 午夜电影在线观看国产1区| 一本大道香蕉高清久久| 亚洲国产一成久久精品国产成人综合| 色噜噜狠狠色综合网图区| 99精品热视频这里只有精品7| 亚洲一区网站| 992tv国产人成在线观看| 色婷婷天天综合在线| 国内精品91| 最新国产高清在线| 亚洲愉拍一区二区精品| 国产精品va| 亚洲成AV人手机在线观看网站| 欧美黄网在线| 在线观看亚洲精品福利片| 国产在线视频福利资源站| 在线看免费无码av天堂的| 欧美综合区自拍亚洲综合天堂| 啪啪国产视频| 欧美日韩第二页| 国产一级毛片高清完整视频版| 伊人成色综合网| 免费毛片视频| 久久综合九色综合97婷婷| 国产欧美精品一区二区| 久久青草免费91线频观看不卡| 丰满人妻久久中文字幕| 欧美国产日韩另类| 中文字幕欧美日韩高清| 婷婷亚洲视频| 天天摸天天操免费播放小视频| 日韩久草视频| 中文字幕亚洲无线码一区女同| 午夜毛片免费观看视频 | 国产成人综合日韩精品无码不卡 | 亚洲综合色吧| 国产高颜值露脸在线观看| 中文字幕无码制服中字| 国产网站在线看| 久热re国产手机在线观看| 国产三级韩国三级理| 蜜桃视频一区二区| 精品夜恋影院亚洲欧洲| 99热国产这里只有精品无卡顿"| 国产综合网站| 美女无遮挡免费网站| 国产日韩欧美精品区性色| 一级爱做片免费观看久久| 亚洲欧洲日本在线| 欧美五月婷婷| 影音先锋亚洲无码| 亚洲h视频在线| 国产91麻豆视频| 国禁国产you女视频网站| 日本精品视频一区二区 | 黄色网站在线观看无码| 九九久久99精品| 美女一级毛片无遮挡内谢| 国产欧美日韩资源在线观看| 波多野结衣第一页| 国产成人a在线观看视频| 青青草原国产一区二区| 国产人成乱码视频免费观看| 91美女视频在线| 久久人人妻人人爽人人卡片av| 亚洲一道AV无码午夜福利| 亚洲第一色视频| 五月激激激综合网色播免费| 国产成人综合在线视频| 91色综合综合热五月激情| 99精品福利视频| 国产精品欧美日本韩免费一区二区三区不卡| 国产香蕉在线| 亚洲AV成人一区二区三区AV| 日韩欧美国产另类| 91丝袜美腿高跟国产极品老师| 亚洲另类第一页| 无码不卡的中文字幕视频| 国产成人欧美| 精品国产成人国产在线| 91精品在线视频观看|