韓偉紅,賈 焰,周 斌
(1. 廣州大學(xué) 網(wǎng)絡(luò)空間先進(jìn)技術(shù)研究院,廣東 廣州 510006;2. 國防科技大學(xué) 計(jì)算機(jī)學(xué)院,湖南 長沙 410073; 3. 電子科技大學(xué) 廣東電子信息工程研究院, 廣東 東莞 523808)
當(dāng)前,人類社會(huì)已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代,“大數(shù)據(jù)”已經(jīng)無處不在。互聯(lián)網(wǎng)領(lǐng)域的公司非常重視數(shù)據(jù)資產(chǎn)的價(jià)值,從中挖掘有價(jià)值的信息,利用大數(shù)據(jù)分析技術(shù)提升公司服務(wù)質(zhì)量。亞馬遜早在2013年就推出了“未下單,先調(diào)貨”計(jì)劃,利用大數(shù)據(jù)分析技術(shù),基于對(duì)網(wǎng)購數(shù)據(jù)的關(guān)聯(lián)挖掘分析,在用戶尚未下單前預(yù)測(cè)其購物內(nèi)容,提前將包裹發(fā)至轉(zhuǎn)運(yùn)中心,縮短配送時(shí)間。阿里巴巴通過智能圖像識(shí)別、智能追蹤、大數(shù)據(jù)分析建模等技術(shù),從10億量級(jí)的在線商品中發(fā)現(xiàn)假冒偽劣商品。美國大數(shù)據(jù)企業(yè)帕蘭提爾(Palantir)公司通過對(duì)電話、網(wǎng)絡(luò)郵件、衛(wèi)星影像等進(jìn)行大數(shù)據(jù)分析,協(xié)助美國中央情報(bào)局(CIA)獲取基地組織的準(zhǔn)確位置信息,幫助美軍捕殺本·拉登。
盡管大數(shù)據(jù)現(xiàn)在如此炙手可熱,但無論是在學(xué)術(shù)界還是在工業(yè)界,都沒有給出一個(gè)關(guān)于大數(shù)據(jù)的公認(rèn)的定義。一般認(rèn)為:“大數(shù)據(jù)”是指在一定時(shí)間內(nèi)難以依靠已有數(shù)據(jù)處理技術(shù)進(jìn)行有效采集、管理和分析的數(shù)據(jù)集合,它通常滿足以下“5V”特點(diǎn):(1)Volume:數(shù)據(jù)量大,包括采集、存儲(chǔ)和計(jì)算的量都非常大;(2)Variety:種類和來源多樣化;(3)Value:數(shù)據(jù)價(jià)值密度相對(duì)較低;(4)Velocity:數(shù)據(jù)增長速度快,處理速度也快,時(shí)效性要求高;(5)Veracity:數(shù)據(jù)的準(zhǔn)確性和可信賴度低,即數(shù)據(jù)的質(zhì)量低。
大數(shù)據(jù)分析是指基于大數(shù)據(jù),面向特定的模型,通過分類、聚類、關(guān)聯(lián)、預(yù)測(cè)、眾包、深度學(xué)習(xí)等處理,從而揭示隱藏在數(shù)據(jù)集合中的規(guī)律,發(fā)現(xiàn)出有價(jià)值的知識(shí)的過程。數(shù)據(jù)分析以發(fā)現(xiàn)有用知識(shí)為目的,主要包括清洗、集成、轉(zhuǎn)換、建模以及模型評(píng)估等過程,最終得到?jīng)Q策知識(shí)。這一過程通常會(huì)根據(jù)分析目標(biāo)進(jìn)行反復(fù)迭代,逐步求精。
云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新技術(shù)與大數(shù)據(jù)息息相關(guān)。

圖1 大數(shù)據(jù)分析的關(guān)鍵技術(shù)
云計(jì)算是一種基于互聯(lián)網(wǎng)的計(jì)算方式,通過這種方式,共享的軟硬件資源和信息可以按需求提供給計(jì)算機(jī)和其他設(shè)備。作為一種互聯(lián)網(wǎng)新型計(jì)算方式,為大數(shù)據(jù)提供了計(jì)算資源和存儲(chǔ)空間。
物聯(lián)網(wǎng)是大數(shù)據(jù)的重要來源之一。物聯(lián)網(wǎng)是指通過信息傳感設(shè)備,按照約定的協(xié)議,把任何物品與互聯(lián)網(wǎng)連接起來,進(jìn)行信息交換和通信,以實(shí)現(xiàn)智能化識(shí)別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡(luò),是在互聯(lián)網(wǎng)基礎(chǔ)上延伸和擴(kuò)展的網(wǎng)絡(luò),是大數(shù)據(jù)的重要來源。
移動(dòng)互聯(lián)網(wǎng)也推動(dòng)了大數(shù)據(jù)技術(shù)。移動(dòng)互聯(lián)網(wǎng)是傳統(tǒng)互聯(lián)網(wǎng)與移動(dòng)通信技術(shù)結(jié)合并實(shí)踐的活動(dòng)的總稱。作為傳統(tǒng)互聯(lián)網(wǎng)與移動(dòng)通信技術(shù)結(jié)合的產(chǎn)物,移動(dòng)互聯(lián)網(wǎng)技術(shù)豐富了大數(shù)據(jù)的類型,特別是大量用戶生成內(nèi)容和非結(jié)構(gòu)化數(shù)據(jù)。
綜上所述,物聯(lián)網(wǎng)以及移動(dòng)互聯(lián)網(wǎng)持續(xù)不斷地產(chǎn)生大量數(shù)據(jù),并且數(shù)據(jù)類型豐富、內(nèi)容鮮活,這是大數(shù)據(jù)的重要來源;大數(shù)據(jù)則代表了互聯(lián)網(wǎng)的信息層,是互聯(lián)網(wǎng)智慧和意識(shí)產(chǎn)生的基礎(chǔ);而云計(jì)算是大數(shù)據(jù)處理的基礎(chǔ)資源。這四項(xiàng)技術(shù)相互推動(dòng),協(xié)同發(fā)展。
當(dāng)前,大數(shù)據(jù)已經(jīng)廣泛存在于各行各業(yè),形式豐富多樣,規(guī)模不斷增大。大數(shù)據(jù)所主要存在的行業(yè)包括能源、制造業(yè)、政府、金融、銷售業(yè)、文化娛樂業(yè)、IT互聯(lián)網(wǎng)、電信業(yè)以及交通旅游業(yè)等。IDC出版的《數(shù)字宇宙》指出,當(dāng)前人類存儲(chǔ)的數(shù)字信息已達(dá)到6 992 EB, 2020年預(yù)計(jì)將達(dá)到40萬億GB(40 ZB),人均5 200 GB以上。
美國物理學(xué)家約翰·惠勒(John Wheeler)提出“物質(zhì)源自比特(It from bit)”,信息就是物質(zhì)。實(shí)際上,物質(zhì)在消耗,而數(shù)據(jù)卻在不斷增加。數(shù)據(jù)已成為寶貴的戰(zhàn)略資源。在農(nóng)耕文明時(shí)代,鐵器是最重要的生產(chǎn)和勞動(dòng)工具;在工業(yè)文明時(shí)代,蒸汽機(jī)、內(nèi)燃機(jī)是世界上最重要的“原動(dòng)機(jī)”;在現(xiàn)代經(jīng)濟(jì)時(shí)代,石油成為現(xiàn)代經(jīng)濟(jì)的命脈;在大數(shù)據(jù)時(shí)代,數(shù)據(jù)已經(jīng)成為最重要的戰(zhàn)略資源之一。
大數(shù)據(jù)分析的流程分為以下五個(gè)部分[1-2]:大數(shù)據(jù)清洗與融合、大數(shù)據(jù)處理框架、大數(shù)據(jù)建模與分析、大數(shù)據(jù)可視化以及大數(shù)據(jù)隱私保護(hù),其中涉及的技術(shù)如圖1所示。本文只對(duì)大數(shù)據(jù)分析中的數(shù)據(jù)清洗與融合、大數(shù)據(jù)處理框架和大數(shù)據(jù)建模與分析等關(guān)鍵技術(shù)進(jìn)行介紹。
大數(shù)據(jù)清洗融合技術(shù)旨在將各種不同形態(tài)、來源、格式、特點(diǎn)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,為后續(xù)的數(shù)據(jù)處理提供支持。該部分技術(shù)主要包括數(shù)據(jù)清洗、數(shù)據(jù)融合和一致性保護(hù)三個(gè)部分。
數(shù)據(jù)清洗指對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過程,目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并提供數(shù)據(jù)一致性。例如供應(yīng)商的名稱、分公司的名稱、客戶的區(qū)域信息缺失、業(yè)務(wù)系統(tǒng)中主表與明細(xì)表不能匹配時(shí),需要進(jìn)行數(shù)據(jù)清洗。
模式對(duì)齊是指將多種數(shù)據(jù)源的不同數(shù)據(jù)模式,通過格式轉(zhuǎn)換、合并、分解、泛化等手段,整合成統(tǒng)一的、便于處理的統(tǒng)一數(shù)據(jù)模式。
記錄關(guān)聯(lián)是指將不同形式表示的數(shù)據(jù)鏈接在一起,形成一個(gè)完整的表示。例如某品牌相機(jī),通過數(shù)據(jù)關(guān)聯(lián)方式將網(wǎng)頁上存在的多種不同信息進(jìn)行處理,形成描述該相機(jī)的完整信息表示。
數(shù)據(jù)融合指通過統(tǒng)計(jì)、插值等方式,消除不同數(shù)據(jù)源中的不確定性。例如,張藝謀的生日有多個(gè)說法,真假難辨,通過統(tǒng)計(jì)方式,得出各種說法的置信度,為后續(xù)的挖掘應(yīng)用提供支持。
大數(shù)據(jù)處理框架主要是為大數(shù)據(jù)解決方案中涉及的各層和高級(jí)組件提供一個(gè)高可用性以及可擴(kuò)展的邏輯架構(gòu),可以滿足各種數(shù)據(jù)量的數(shù)據(jù)業(yè)務(wù)的需求。該部分技術(shù)主要包括數(shù)據(jù)存儲(chǔ)、索引、流數(shù)據(jù)處理等技術(shù)。
數(shù)據(jù)存儲(chǔ)是數(shù)據(jù)流在加工過程中產(chǎn)生的臨時(shí)文件或加工過程中需要查找的信息。數(shù)據(jù)以某種格式記錄在計(jì)算機(jī)內(nèi)部或外部存儲(chǔ)介質(zhì)上。Google文件系統(tǒng)GFS是一個(gè)可擴(kuò)展的分布式文件系統(tǒng),用于大型的、分布式的、對(duì)大量數(shù)據(jù)進(jìn)行訪問的應(yīng)用。它運(yùn)行于廉價(jià)的普通硬件上,由主節(jié)點(diǎn)和分散部署的多個(gè)數(shù)據(jù)節(jié)點(diǎn)組成,提供具有容錯(cuò)功能的高性能數(shù)據(jù)存儲(chǔ)服務(wù)。
索引是一種特定的數(shù)據(jù)結(jié)構(gòu),將數(shù)據(jù)塊中的關(guān)鍵信息按某種高效結(jié)構(gòu)進(jìn)行組織,使得用戶可以快速查找到符合查詢條件的數(shù)據(jù)塊。常用的索引包括倒排索引、鍵值索引和空間數(shù)據(jù)索引。基于倒排索引的查詢技術(shù)是基于詞建立索引的,記錄了各個(gè)單詞在不同文檔中的位置,支持基于單詞的高效查詢,是文檔檢索系統(tǒng)中最常用的方法。鍵值索引是一種樹狀的數(shù)據(jù)結(jié)構(gòu),用于存儲(chǔ)排序后的數(shù)據(jù),可顯著減少定位記錄的中間過程,從而加快存取速度。空間數(shù)據(jù)索引是根據(jù)空間數(shù)據(jù)的地理位置、形狀或空間對(duì)象之間的關(guān)系,按一定順序排列的一種數(shù)據(jù)結(jié)構(gòu),其優(yōu)劣直接影響空間數(shù)據(jù)庫的整體性能。
數(shù)據(jù)處理技術(shù)包括MapReduce和流處理等技術(shù)。MapReduce批量處理框架將待處理任務(wù)劃分為若干子任務(wù),將其分配到不同節(jié)點(diǎn)上,實(shí)現(xiàn)了利用多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)對(duì)任務(wù)的協(xié)同計(jì)算。流數(shù)據(jù)并行處理框架是一種針對(duì)前后關(guān)聯(lián)性不強(qiáng)、無須先存儲(chǔ)再計(jì)算、實(shí)時(shí)性要求高的流式數(shù)據(jù),通過多個(gè)并行執(zhí)行的流水線在內(nèi)存中對(duì)數(shù)據(jù)進(jìn)行分步處理的數(shù)據(jù)結(jié)構(gòu)。主要步驟為:(1)用戶注冊(cè)連續(xù)查詢,指定查詢類型、窗口寬度等(如計(jì)數(shù)查詢);(2)初始化當(dāng)前滑動(dòng)窗口內(nèi)的數(shù)據(jù)集,得到初始概要結(jié)構(gòu);(3)新數(shù)據(jù)到達(dá);(4)更新概要數(shù)據(jù)結(jié)構(gòu);(5)任何時(shí)候,處理器都可以根據(jù)概要結(jié)構(gòu)得到當(dāng)前的查詢結(jié)果。
大數(shù)據(jù)建模與分析是用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方法對(duì)雜亂無章的大規(guī)模數(shù)據(jù)進(jìn)行建模與分析,萃取和提煉有用信息并形成結(jié)論,以找出所研究對(duì)象的內(nèi)在規(guī)律。大數(shù)據(jù)建模與分析主要包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能、眾包等技術(shù)。
(1)數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程,一般通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、專家系統(tǒng)和模式識(shí)別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。數(shù)據(jù)挖掘的算法包括分類、聚類、關(guān)聯(lián)規(guī)則等。分類是指根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號(hào)屬性,構(gòu)建模型來分類新的數(shù)據(jù)。聚類是指將數(shù)據(jù)聚到不同的簇,同一簇中彼此相近,不同簇中彼此相離。關(guān)聯(lián)規(guī)則是指隱藏在數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)或相互關(guān)系,即可以根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)推導(dǎo)出其他數(shù)據(jù)項(xiàng)的出現(xiàn)。
(2)機(jī)器學(xué)習(xí)所關(guān)注的是計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。其中最具有代表性的是深度學(xué)習(xí)。深度學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)的擴(kuò)展。神經(jīng)網(wǎng)絡(luò)是由大量的節(jié)點(diǎn)(或稱神經(jīng)元)相互連接構(gòu)成的。每個(gè)節(jié)點(diǎn)代表一種特定的輸出函數(shù),每兩個(gè)節(jié)點(diǎn)間的連接代表一個(gè)通過該連接信號(hào)的加權(quán)值,網(wǎng)絡(luò)的輸出則依網(wǎng)絡(luò)的連接方式、權(quán)重值和激勵(lì)函數(shù)的不同而不同。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中一系列試圖使用多重非線性變換對(duì)數(shù)據(jù)進(jìn)行多層抽象的算法,通過組合低層特征,形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。其目標(biāo)是將輸入的信息通過編碼器生成高層的特征以后,使得高層的特征能夠通過解碼器盡可能地還原成原輸入信息(即使得特征編碼過程中損失的信息盡量少),通過代入訓(xùn)練數(shù)據(jù)求解最優(yōu)參數(shù)值。
(3)人工智能是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的技術(shù)。大數(shù)據(jù)分析處理中代表性的人工智能技術(shù)是知識(shí)圖譜。知識(shí)圖譜本質(zhì)上是一種語義網(wǎng)絡(luò),其節(jié)點(diǎn)代表實(shí)體(entity)或者概念(concept),邊代表實(shí)體與概念之間的各種語義關(guān)系。
(4)眾包是一種分布式的問題解決和生產(chǎn)模式,問題以公開招標(biāo)的方式傳播給未知的解決方案提供者群體。例如,Made.com負(fù)責(zé)搭建一個(gè)虛擬平臺(tái),吸引設(shè)計(jì)師提交設(shè)計(jì)作品,并貼在網(wǎng)上由顧客投票,票數(shù)最高的產(chǎn)品才會(huì)進(jìn)入生產(chǎn)行列。
大數(shù)據(jù)時(shí)代的到來,給世界帶來了深刻的變革,包括人們的思維方式、管理方式等。隨著數(shù)據(jù)產(chǎn)生、收集、存儲(chǔ)等技術(shù)的不斷發(fā)展,目前已經(jīng)同時(shí)存在著兩個(gè)“平行世界”,即數(shù)據(jù)世界和物理世界,其中,數(shù)據(jù)世界是物理世界的客觀映射和反映,實(shí)際上,數(shù)據(jù)不僅可以描述客觀物理世界,還被用于刻畫人類精神世界和人類社會(huì),大數(shù)據(jù)通過“量化一切”而實(shí)現(xiàn)世界的數(shù)據(jù)化,可能改變?nèi)祟愓J(rèn)知和理解世界的方式,帶來全新的大數(shù)據(jù)世界觀[3-4]。
大數(shù)據(jù)改變了人們的科學(xué)觀。首先,15世紀(jì)起,科學(xué)研究更加重視自然觀察和實(shí)驗(yàn)觀察,在觀察基礎(chǔ)上通過歸納方法提煉出科學(xué)理論。“科學(xué)始于觀察”成為科學(xué)研究和認(rèn)識(shí)論的主流,例如:牛頓通過觀察蘋果落地,提出了萬有引力定律。20世紀(jì)30年代,德國哲學(xué)家波普爾提出了被后人稱為“證偽主義”的認(rèn)識(shí)論觀點(diǎn)。他認(rèn)為科學(xué)理論不能用歸納法證實(shí),只能被試驗(yàn)發(fā)現(xiàn)的反例“證偽”,因而他否定科學(xué)始于觀察,提出“科學(xué)始于問題”的著名觀點(diǎn),例如:弗萊明通過對(duì)培養(yǎng)葡萄球菌的器皿長出的綠霉提出質(zhì)疑,發(fā)明了青霉素。今天,大數(shù)據(jù)興起引發(fā)了新的科學(xué)研究模式:“科學(xué)始于數(shù)據(jù)”,例如:谷歌成功利用大數(shù)據(jù)提前一兩周預(yù)測(cè)流感爆發(fā);美國Flatiron Health公司正在研究大數(shù)據(jù)戰(zhàn)勝癌癥的方法。因此,大數(shù)據(jù)已經(jīng)改變了人們認(rèn)識(shí)世界的方式等。
大數(shù)據(jù)時(shí)代人的行為甚至思維習(xí)慣都變得可以分析。亞馬遜、淘寶等購物網(wǎng)站記錄人們的購物習(xí)慣,谷歌等搜索引擎分析人們的搜索內(nèi)容,微博、社交網(wǎng)絡(luò)、微信等對(duì)個(gè)人隱私幾乎無所不知,基于Web2.0的社交網(wǎng)絡(luò)應(yīng)用甚至可分析人們的行為和思想。就像借助于顯微鏡人們可以看清細(xì)胞的結(jié)構(gòu)、互動(dòng)關(guān)系一樣,借助于面向在線社交網(wǎng)絡(luò)的大數(shù)據(jù)分析技術(shù),可以分析人的行為、思維和情感,從而對(duì)人性和人的行為進(jìn)行分析。
正因?yàn)榇髷?shù)據(jù)分析的這一能力,社會(huì)的管理模式將發(fā)生深刻的變化。例如:2013年 “單獨(dú)二胎”政策的制定與出臺(tái),充分利用了大數(shù)據(jù)分析技術(shù),通過社交媒體發(fā)布擬制定的政策和規(guī)劃,然后引導(dǎo)討論,從而搜集民意,廣泛開展民意調(diào)查,為政策和規(guī)劃的最終制定奠定了基礎(chǔ);輿情分析應(yīng)用,可以通過分析互聯(lián)網(wǎng)大數(shù)據(jù),發(fā)現(xiàn)熱門話題、話題的來源、話題的推手、話題的傳播面和人們對(duì)話題持有的立場(chǎng)等;美國的數(shù)據(jù)監(jiān)聽計(jì)劃,美國國家安全局全面監(jiān)控Google、Facebook、微軟等網(wǎng)絡(luò)媒介的數(shù)據(jù)以及個(gè)人智能手機(jī)的隱私信息,以掌控民意和獲取情報(bào),為政府和軍方?jīng)Q策提供支持。因此,大數(shù)據(jù)已經(jīng)深刻的改變了人們的管理方式。
面對(duì)大數(shù)據(jù)時(shí)代的來臨,必須認(rèn)清特點(diǎn),把握走向,積極應(yīng)對(duì),高度重視大數(shù)據(jù)及其應(yīng)用的潛在價(jià)值,時(shí)刻關(guān)注其前沿技術(shù),加快推進(jìn)其實(shí)際應(yīng)用,確保在新一輪信息化浪潮中贏得主動(dòng),占得先機(jī)。
參考文獻(xiàn)
[1] HU H, WEN Y, CHUA T S, et al. Toward scalable systems for big data analytics: a technology tutorial[J]. IEEE Access, 2017, 2(1):652-687.
[2] SOWMYA R, SUNEETHA K R. Data Mining with Big Data[C]// International Conference on Intelligent Systems and Control. IEEE, 2017:246-250.
[3] MANYIKA J, CHUI M, BROWN B, et al. Big data: the next frontier for innovation, competition, and productivity[J]. Analytics, 2011.
[4] AGARWAL R, DHAR V. Editorial —big data, data science, and analytics: the opportunity and challenge for IS research[J]. Information Systems Research, 2017, 25(3):443-448.