河南省科學(xué)院應(yīng)用物理研究所有限公司 梁 楠 李磊明
大數(shù)據(jù)技術(shù)在工業(yè)領(lǐng)域的應(yīng)用綜述
河南省科學(xué)院應(yīng)用物理研究所有限公司 梁 楠 李磊明
在這個(gè)信息爆炸的年代,數(shù)據(jù)滲透到各行各業(yè),大數(shù)據(jù)技術(shù)的應(yīng)用將在社會(huì)經(jīng)濟(jì)發(fā)展過(guò)程中發(fā)揮不可替代的作用。到目前為止,對(duì)大數(shù)據(jù)及相關(guān)技術(shù)的研究還處于初級(jí)階段。大數(shù)據(jù)技術(shù)在工業(yè)領(lǐng)域的應(yīng)用起步相對(duì)較晚,但仍取得了一定的成果并有其固有的規(guī)律和特點(diǎn)。本文對(duì)大數(shù)據(jù)技術(shù)的背景和主要技術(shù)進(jìn)行分析,并進(jìn)一步介紹大數(shù)據(jù)技術(shù)在工業(yè)領(lǐng)域的應(yīng)用情況。
大數(shù)據(jù);數(shù)據(jù)處理;工業(yè)領(lǐng)域;大數(shù)據(jù)應(yīng)用
1.1大數(shù)據(jù)定義及特征
隨著人類(lèi)進(jìn)入一個(gè)信息化、數(shù)字化社會(huì),大數(shù)據(jù)便是隨之而來(lái)的必然產(chǎn)物。從廣義上講大數(shù)據(jù)是指,規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)捕捉、存儲(chǔ)、整理、處理和分析的數(shù)據(jù)。從數(shù)據(jù)本身看,大數(shù)據(jù)是具有規(guī)模大、處理速度快、多樣化的信息資產(chǎn);從分析處理的方式看,傳統(tǒng)技術(shù)難以處理和應(yīng)對(duì),需要采用新的技術(shù)加以處理[1]。
相比普通數(shù)據(jù),大數(shù)據(jù)具有顯著的特征。Beyer 和 Laney將大數(shù)據(jù)的特點(diǎn)總結(jié)為4個(gè)V:Volume(數(shù)據(jù)量大),Variety(數(shù)據(jù)種類(lèi)繁多),Velocity(處理速度快),Value(數(shù)據(jù)價(jià)值大)[3]。大數(shù)據(jù)的特征主要表現(xiàn)在四個(gè)層面:第一,數(shù)據(jù)體量巨大。到2013年,世界上存儲(chǔ)的數(shù)據(jù)達(dá)到1.2ZB字節(jié)[2]。第二,數(shù)據(jù)類(lèi)型繁多,包括文字、圖像、視頻、地理位置信息等等。第三,產(chǎn)生和處理速度快。當(dāng)今社會(huì),每時(shí)每刻都有大量數(shù)據(jù)被獲取和存儲(chǔ)。同時(shí),大數(shù)據(jù)的處理與云計(jì)算、分布式技術(shù)的使用緊密相關(guān),一般要求在秒級(jí)時(shí)間范圍內(nèi)給出分析結(jié)果[4],只有快速處理才能有效利用獲取的數(shù)據(jù)。第四,價(jià)值密度較低,但商用價(jià)值大?,F(xiàn)代互聯(lián)網(wǎng)上半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)所占比例已達(dá)95%以上[5],分析時(shí)需要花費(fèi)大量時(shí)間。同時(shí),數(shù)據(jù)可以整合和多次利用,就多數(shù)應(yīng)用而言,大數(shù)據(jù)整體蘊(yùn)藏著巨大的價(jià)值。除上述已提到的四個(gè)特征之外,一般也認(rèn)為,隱私性同樣是大數(shù)據(jù)的主要特征[6]。
1.2大數(shù)據(jù)處理流程
大數(shù)據(jù)技術(shù)可運(yùn)用到各行各業(yè)。根據(jù)數(shù)據(jù)從產(chǎn)生到消失的周期,大數(shù)據(jù)技術(shù)主要涉及以下四個(gè)重要內(nèi)容:(1)數(shù)據(jù)采集:數(shù)據(jù)采集是大數(shù)據(jù)處理技術(shù)的基礎(chǔ)。主要是從本地?cái)?shù)據(jù)庫(kù)、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等數(shù)據(jù)源導(dǎo)入數(shù)據(jù),這個(gè)過(guò)程包括數(shù)據(jù)的提取、轉(zhuǎn)換和加載[1]。(2)數(shù)據(jù)管理:對(duì)采集的大數(shù)據(jù)進(jìn)行適當(dāng)?shù)奶幚恚〝?shù)據(jù)清洗、去噪、數(shù)據(jù)集成和數(shù)據(jù)修正,并分類(lèi)存儲(chǔ),同時(shí)提供快速訪問(wèn)和查詢的功能[7]。(3)數(shù)據(jù)分析:數(shù)據(jù)分析是大數(shù)據(jù)處理技術(shù)的關(guān)鍵。對(duì)集成的數(shù)據(jù)采用適當(dāng)?shù)乃惴P?,例如傳統(tǒng)的數(shù)據(jù)挖掘、統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)算法和云計(jì)算技術(shù),進(jìn)一步處理和分析。處理方式可分為數(shù)據(jù)流處理和批量處理兩種方式。云計(jì)算作為大數(shù)據(jù)分析的支撐技術(shù),也是大數(shù)據(jù)分析應(yīng)用的基本平臺(tái)。(4)數(shù)據(jù)解釋?zhuān)簲?shù)據(jù)解釋主要是以直觀的并便于理解的方式將數(shù)據(jù)分析的結(jié)果展示給用戶。數(shù)據(jù)可視化技術(shù)是解釋大數(shù)據(jù)最常用的也是最有力的方式[8]。
國(guó)際數(shù)據(jù)資訊(IDC)公司統(tǒng)計(jì),在2009年全球數(shù)據(jù)量達(dá)到0.8ZB,在2012年就增長(zhǎng)到2.7ZB(如圖1所示)[9]。預(yù)計(jì)到 2020 年,全球?qū)碛谐^(guò) 35ZB 的數(shù)據(jù)量。這些數(shù)據(jù)中,85%以上的是以非結(jié)構(gòu)化或半結(jié)構(gòu)化的形式存在。
大數(shù)據(jù)技術(shù)通過(guò)對(duì)數(shù)據(jù)的分析,挖掘出數(shù)據(jù)間潛在的規(guī)律和價(jià)值,有助于人們做出正確的決策,從而提高企業(yè)的運(yùn)行效率,取得更大的收益。預(yù)計(jì)到2017年市場(chǎng)規(guī)模有望可以達(dá)到184.3億元。目前,大數(shù)據(jù)技術(shù)在工業(yè)領(lǐng)域的應(yīng)用雖還較少,但此領(lǐng)域企業(yè)也越來(lái)越重視大數(shù)據(jù)技術(shù)的研究和應(yīng)用。

圖1 IDC全球數(shù)據(jù)量
2.1信息工業(yè)
信息工業(yè)在大數(shù)據(jù)技術(shù)的應(yīng)用上相對(duì)于其他工業(yè)領(lǐng)域更超前,在大數(shù)據(jù)技術(shù)創(chuàng)新上也處于領(lǐng)先地位。信息工業(yè)通過(guò)大數(shù)據(jù)技術(shù)取得了巨大的發(fā)展,其在大數(shù)據(jù)技術(shù)應(yīng)用和創(chuàng)新機(jī)制方面的經(jīng)驗(yàn)對(duì)其他領(lǐng)域有著借鑒意義。
大數(shù)據(jù)技術(shù)在信息工業(yè)領(lǐng)域最典型的應(yīng)用是搜索引擎。由于互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)上的數(shù)據(jù)呈爆炸式增長(zhǎng)。要從海量信息中找出用戶需要的信息,搜索引擎在我們的學(xué)習(xí)生活工作中是必不可少的,它通過(guò)收集、處理和分析大量的數(shù)據(jù)提供快速準(zhǔn)確的信息檢索。Google公司的PageRank[10]算法是搜索引擎的核心算法,它認(rèn)為一個(gè)網(wǎng)友的重要程度和它與其他網(wǎng)頁(yè)的鏈接關(guān)系有關(guān),并通過(guò)這個(gè)關(guān)系建立網(wǎng)頁(yè)間的索引。當(dāng)用戶提交想要檢索的關(guān)鍵詞時(shí),搜索引擎可以根據(jù)關(guān)鍵詞和網(wǎng)頁(yè)索引之間的相似關(guān)系獲得檢索結(jié)果[11]。由于網(wǎng)絡(luò)數(shù)據(jù)量巨大,搜索引擎的計(jì)算對(duì)象往往是一個(gè)有數(shù)百億行和上億列的矩陣,需要多次迭代計(jì)算,這需要強(qiáng)大的存儲(chǔ)和計(jì)算能力。在此推動(dòng)下,發(fā)展了MapReduce[12]等分布式技術(shù),進(jìn)而開(kāi)創(chuàng)了大數(shù)據(jù)技術(shù)發(fā)展的新紀(jì)元。
電子商務(wù)也是大數(shù)據(jù)技術(shù)在信息工業(yè)領(lǐng)域的典型應(yīng)用。隨著電子商務(wù)的發(fā)展,每天有數(shù)以萬(wàn)計(jì)的交易在網(wǎng)上進(jìn)行。通過(guò)對(duì)用戶的瀏覽記錄,以及購(gòu)買(mǎi)商品的價(jià)格、時(shí)間和數(shù)量,甚至對(duì)用戶的個(gè)人特征信息進(jìn)行分析,了解用戶需求,進(jìn)而有針對(duì)性的給用戶推薦商品,實(shí)現(xiàn)個(gè)性化推薦。淘寶數(shù)據(jù)魔方是阿里巴巴在淘寶平臺(tái)上的大數(shù)據(jù)應(yīng)用方案。將用戶相關(guān)信息進(jìn)行搜集并分析,進(jìn)而可以向商家提供淘寶平臺(tái)上的行業(yè)發(fā)展情況。同時(shí),商家可以了解自己品牌的銷(xiāo)售情況以及其消費(fèi)者的一些共有特征,進(jìn)而優(yōu)化自己的生產(chǎn)和庫(kù)存策略,甚至是根據(jù)消費(fèi)者的愛(ài)好設(shè)計(jì)生產(chǎn)新的產(chǎn)品,使其能獲得更大的效益。消費(fèi)者也可以在淘寶平臺(tái)上獲得更多優(yōu)惠買(mǎi)到更多滿意的商品。
社交網(wǎng)絡(luò)也是大數(shù)據(jù)技術(shù)在信息工業(yè)領(lǐng)域的應(yīng)用。社交網(wǎng)絡(luò)是一種在網(wǎng)絡(luò)上由社會(huì)個(gè)體和個(gè)體之間的相互關(guān)系組成的社會(huì)性結(jié)構(gòu)。社交網(wǎng)絡(luò)大數(shù)據(jù)主要包括即時(shí)消息、微博、電子郵件和共享空間等應(yīng)用數(shù)據(jù)。雖然社交網(wǎng)絡(luò)依托于虛擬網(wǎng)絡(luò),但是依然是人之間的交流活動(dòng)。因而社交網(wǎng)絡(luò)大數(shù)據(jù)代表了人之間的各類(lèi)活動(dòng),分析這些數(shù)據(jù)可以更好的理解人類(lèi)社會(huì),并為社會(huì)中的各種關(guān)系提供的可計(jì)算的分析方法。目前社交網(wǎng)絡(luò)利用大數(shù)據(jù)技術(shù)可以提供多種應(yīng)用,包括商品推薦、社會(huì)化營(yíng)銷(xiāo)、在線教育等。
2.2制造業(yè)
在制造業(yè)中,大數(shù)據(jù)技術(shù)給企業(yè)帶來(lái)了深刻的變革,創(chuàng)新企業(yè)的研發(fā)、生產(chǎn)、運(yùn)營(yíng)和管理方式。大數(shù)據(jù)技術(shù)在制造業(yè)中的典型應(yīng)用包括產(chǎn)品創(chuàng)新、生產(chǎn)線物聯(lián)網(wǎng)分析、產(chǎn)品故障診斷和預(yù)測(cè)、企業(yè)供應(yīng)鏈優(yōu)化等各方面。
大數(shù)據(jù)技術(shù)的引入可以促進(jìn)產(chǎn)品的創(chuàng)新。客戶與制造業(yè)企業(yè)之間交易行為將產(chǎn)生大量數(shù)據(jù),挖掘和分析這些數(shù)據(jù),可以使企業(yè)更能了解客戶對(duì)產(chǎn)品的需求,為產(chǎn)品創(chuàng)新做出貢獻(xiàn)。例如,福特公司將大數(shù)據(jù)技術(shù)應(yīng)用到了??怂闺妱?dòng)車(chē)的產(chǎn)品創(chuàng)新和優(yōu)化中。在行駛中,??怂闺妱?dòng)車(chē)的司機(jī)不停地更新車(chē)的相關(guān)使用信息,包括速度、剎車(chē)、電池充電。這些數(shù)據(jù)方便福特工程師了解客戶的駕駛習(xí)慣,包括何時(shí)、何地充電以及其頻率,進(jìn)而制訂產(chǎn)品優(yōu)化計(jì)劃,或者實(shí)施新產(chǎn)品的創(chuàng)新。
利用大數(shù)據(jù)技術(shù),還可以對(duì)工業(yè)產(chǎn)品的生產(chǎn)過(guò)程建立虛擬模型,仿真并優(yōu)化生產(chǎn)流程。此外,在生產(chǎn)過(guò)程中,通過(guò)對(duì)傳感器對(duì)生產(chǎn)流程的監(jiān)控?cái)?shù)據(jù)的分析,可以發(fā)現(xiàn)生產(chǎn)流程中能耗的異?;蚍逯?,由此可以優(yōu)化在生產(chǎn)過(guò)程中能源的消耗。制造業(yè)通過(guò)大數(shù)據(jù)技術(shù)可以實(shí)現(xiàn)產(chǎn)品故障實(shí)時(shí)診斷與預(yù)測(cè)。例如,通用電氣的能源監(jiān)測(cè)和診斷中心,收集全球數(shù)十個(gè)國(guó)家上千臺(tái)通用電氣燃?xì)廨啓C(jī)的數(shù)據(jù)。他們利用大數(shù)據(jù)技術(shù)分析系統(tǒng)內(nèi)的傳感器振動(dòng)和溫度信號(hào)的大數(shù)據(jù)流,為燃?xì)廨啓C(jī)故障診斷和預(yù)警提供支撐。
大數(shù)據(jù)技術(shù)的引入給供應(yīng)鏈的分析和優(yōu)化提供了便利。隨著物聯(lián)網(wǎng)技術(shù)以及移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展,企業(yè)可以方便的獲得比較完整的供應(yīng)鏈的大數(shù)據(jù)。通過(guò)對(duì)這些數(shù)據(jù)的分析,可以降低存儲(chǔ)和配送的成本,并大幅度提到銷(xiāo)售和配送的效率。例如,海爾公司供應(yīng)鏈體系整合了全球供應(yīng)鏈資源并搜集了全球用戶信息,將客戶信息、內(nèi)部數(shù)據(jù)以及供應(yīng)商數(shù)據(jù)都匯總到供應(yīng)鏈體系中,并通過(guò)大數(shù)據(jù)采集和分析,海爾公司持續(xù)進(jìn)行供應(yīng)鏈改進(jìn)和優(yōu)化,保證了海爾對(duì)客戶的敏捷響應(yīng)。
2.3航空工業(yè)
航空公司利用大數(shù)據(jù)技術(shù),通過(guò)對(duì)相關(guān)信息進(jìn)行收集和分析,去選擇潛在目標(biāo)客戶群體,并調(diào)整營(yíng)銷(xiāo)策略和營(yíng)銷(xiāo)范圍,再進(jìn)行有針對(duì)性的客戶維護(hù)和廣告宣傳。同時(shí),利用大數(shù)據(jù)技術(shù)對(duì)數(shù)據(jù)的分析,可以有方向性的為客戶制定相關(guān)的服務(wù)和消費(fèi)計(jì)劃,比如說(shuō)可以對(duì)乘客候機(jī)在不同時(shí)間制定相應(yīng)的消費(fèi)計(jì)劃。同時(shí)也給乘客提供了極大的方便,讓他們可以獲得更完善更周到的服務(wù)。此外,通過(guò)對(duì)大數(shù)據(jù)技術(shù)的引入,航空公司可以掌握最新的客戶趨勢(shì)和銷(xiāo)售情況,進(jìn)而可以調(diào)整公司的發(fā)展戰(zhàn)略,快速抓住市場(chǎng)的契機(jī)。比如說(shuō),大數(shù)據(jù)技術(shù)通過(guò)對(duì)每個(gè)航線乘客信息的分析,可以及時(shí)預(yù)測(cè)每個(gè)航向旅客流動(dòng)趨勢(shì),從而使航空公司可以及時(shí)發(fā)現(xiàn)市場(chǎng)動(dòng)向,并進(jìn)行航向相應(yīng)的調(diào)整,比如某些方向減少航線,某些方向航班增加,甚至可以根據(jù)大數(shù)據(jù)技術(shù)分析的結(jié)果確定航班具體應(yīng)該調(diào)整多少等等。
2.4能源工業(yè)
在能源工業(yè)中,將大數(shù)據(jù)技術(shù)融入傳統(tǒng)能源網(wǎng)絡(luò),進(jìn)而構(gòu)建成新的智能電網(wǎng)。通過(guò)用戶用電數(shù)據(jù)的分析,可以知道每個(gè)地區(qū)的用電量和斷電頻率,預(yù)測(cè)哪部分線路可能會(huì)出故障,這將有助于對(duì)電網(wǎng)的升級(jí)和維護(hù)。美國(guó)加州大學(xué)洛杉磯分校的研究人員根據(jù)大數(shù)據(jù)技術(shù)設(shè)計(jì)的電力地圖,將用戶實(shí)時(shí)用電信息與天氣、地理等信息全部結(jié)合起來(lái),展示每個(gè)街區(qū)當(dāng)前的用電量[13]。它還可以將每個(gè)街區(qū)的用電量與人的平均收入等因素結(jié)合起來(lái)分析,從而獲得不同人群的用電習(xí)慣。同時(shí)這個(gè)加州地圖不僅可以為電網(wǎng)規(guī)劃提供有效的電量負(fù)荷和停電頻率預(yù)測(cè),也可以其中過(guò)載嚴(yán)重、停電頻率高的街道進(jìn)行電網(wǎng)的優(yōu)先改造。智能電網(wǎng)可以實(shí)現(xiàn)發(fā)電與用電的互動(dòng),從而可以提高供電效率。智能電網(wǎng)在歐洲已經(jīng)做到了終端-智能電表。通過(guò)電網(wǎng)每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來(lái)的這些數(shù)據(jù)可以用來(lái)預(yù)測(cè)客戶的用電習(xí)慣等,從而推斷出在未來(lái)幾個(gè)月時(shí)間里,整個(gè)電網(wǎng)大概需要多少電。有了這個(gè)預(yù)測(cè)后,就可以向發(fā)電或者供電企業(yè)預(yù)先購(gòu)買(mǎi)電量。通過(guò)這個(gè)預(yù)測(cè)后,可以降低采購(gòu)成本。同時(shí),智能電網(wǎng)通過(guò)對(duì)大數(shù)據(jù)的分析,就可充分利用間歇式的太陽(yáng)能和風(fēng)能。在其產(chǎn)生電能時(shí),根據(jù)大數(shù)據(jù)技術(shù)對(duì)智能電網(wǎng)中數(shù)據(jù)的分析將其調(diào)度到電力緊缺的地區(qū),這可以與傳統(tǒng)的水火電能有效地互補(bǔ)。
大數(shù)據(jù)技術(shù)的快速發(fā)展,給工業(yè)領(lǐng)域的企業(yè)帶來(lái)了新的機(jī)遇和挑戰(zhàn)。正確處理好大數(shù)據(jù),不僅可以提升企業(yè)綜合競(jìng)爭(zhēng)力和效益,也可以給我們的生活帶來(lái)極大的便利。目前,雖然大數(shù)據(jù)技術(shù)在工業(yè)領(lǐng)域很多成功的應(yīng)用案例,但是它的應(yīng)用仍還屬于起步階段。在工業(yè)領(lǐng)域,大數(shù)據(jù)技術(shù)的應(yīng)用還存在大數(shù)據(jù)的集成與管理和大數(shù)據(jù)能耗問(wèn)題,并面臨著嚴(yán)重的安全和隱私問(wèn)題,需要進(jìn)一步的研究工作來(lái)解決。
[1]何寶宏,魏凱.大數(shù)據(jù)技術(shù)發(fā)展趨勢(shì)及應(yīng)用的初步經(jīng)驗(yàn)[J].金融電子化,2013,6:31-34.
[2]Mayer-SchonbergerViktor,Cukier Kenneth著.周濤譯.大時(shí)代數(shù)據(jù)[M].杭州:浙江人民出版社,2012
[3]Beyer M A,Laney D.The importance of‘Big Data’:a definition[M].Stamford:Gartner,2012:2-5.
[4]劉維貴.大數(shù)據(jù)研究綜述[J].辦公自動(dòng)化雜志,2014(總269):27-30.
[5]王成紅,陳偉能,張軍,宋蘇,魯仁全.大數(shù)據(jù)技術(shù)與應(yīng)用中的挑戰(zhàn)性科學(xué)問(wèn)題[J].中國(guó)科學(xué)基金.2014(2):92-97.
[6]Labrinidis A,Jagadish H V.Challenges and opportunities with big data[J]. Proceedings of the VLDB Endowment(PVLDB),2012,5(12):2032-2033.
[7]劉智慧,張全靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2014,48(6):957-972.
[8]賀全兵.可視化技術(shù)的發(fā)展及應(yīng)用[J].中國(guó)西部科技,2008,7(4):4-7.
[9]淘雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述[J].系統(tǒng)仿真學(xué)報(bào),2013,25:142-146.
[10]Yen C C,Hsu J S.Pagerank algorithm improvement by page relevance measurement.IEEE International Conference on Fuzzy Systems,2009,502-506.
[11]Dean J,Ghemawat S.Simplified data processing on large clusters[J]. Communications of the ACM,2008,51(1):107-113.
[12]Althebyan Q,ALQudah O,Jararweh Y,Yaseen Q.Multi-threading based Map Reduce tasks scheduling.International Conference on Information and Communication Systems(ICICS),2014:1-6.
[13]張引,陳敏,廖小飛.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計(jì)算機(jī)研究與發(fā)展,2013:216-233.