張科星
(太原學院,山西 太原 030012)
大數據的研究現狀與展望
張科星
(太原學院,山西 太原 030012)
人類生產生活和科學研究產生的數據信息飛速增長,開啟了大數據時代.大數據不僅指數據本身,還包含了對其進行分析處理的理論、技術和方法.大數據涵蓋的內容包括信息的采集、管理、分析和做出決策,其出現后首先應用于商業和金融,后來逐漸擴展到能源、科研、醫療和經濟等領域.但是,大數據目前還面臨數據管理、干擾信息清除和個人隱私安全等方面的挑戰.解決了上述問題后,大數據在科學研究中的應用將日益廣泛,也會對人類社會產生更加深遠的影響.
大數據;現狀;應用;展望
隨著社會的發展和技術的進步,進入21世紀后,大數據開始引起各行業的密切關注,自然科學的頂級雜志《Nature》和《Science》都推出專刊對科學研究中的大數據問題進行討論,美國政府最先啟動了涵蓋大數據的研究發展計劃,并賦予其與信息高速公里計劃同等的地位[1].隨后經過主流媒體的科普宣傳,社會大眾開始接觸和理解大數據的概念,并認識到其對日常生產生活所產生的深遠影響.
本文從大數據的基本概念出發,簡述了大數據相關的技術支持,并對其研究現狀和在各領域的應用做了闡述.然后介紹了大數據在實際應用中所面臨的挑戰,最后對其未來的發展進行了展望.
大數據包括規模龐大的數據,但是又不同于以往的海量數據和超大規模數據概念.目前,根據大數據在不同領域的應用特征,對其有多種定義.為了便于理解和記憶,這里引用百度百科對大數據進行定義,即指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產.由此可見,大數據的概念涵蓋豐富的內容,包括信息的采集、管理、分析直至做出決策.
大數據所處理的數據規模通常以我們極少涉及到的TB、PB為基本單位,數據類型可以是數字、符號,也可能實音頻、視頻等,并且有從結構化向半結構化和非結構化轉變的趨勢.同時,在大數據分析過程中,分析模式不是一成不變的,而是隨著數據規模和類型的增長而不斷地演化,從而具有更強的適應性.大數據不僅僅是數據本身,還包含了對其進行分析處理的理論、技術和方法.因此,我們在實踐中無須過分地注重大數據的具體定義,而應該把握其核心內容和主要特性,利用大數據解決實際問題.
人類社會發展到今天,各種科學知識和數據信息都呈現爆發式的增長,例如科學研究中的天文觀測、基因測序以及社會生活中的天網監測、居民消費等.數據和信息的采集在時空上是實時的,全方位的.采集的方式也是復雜多樣,從最初的運營式階段,經過用戶原創階段,進化至現在的感知式階段.在科技進步的支撐下,極微小的傳感器和大型的天文望遠鏡日臻完善,使人類的感知能力同時向微觀和宏觀世界拓展.同時,收集信息的觸角逐漸遍布世界各個角落,海量的數據被不斷的產生和匯集.
數據和信息本身并沒有價值,只有通過處理分析,從中提煉出社會和自然界運行的規律,或者得到解決實際問題的方法,才能體現出它們的意義.大數據的規模不同于以往,因此有其獨特的處理分析工具和技術.對大數據的分析處理模式主要有流處理和批處理兩種.流處理是針對價值實效性較強的數據,如網頁點擊統計、金融交易等,在數據產生的第一時間進行分析并得到結果.這種模式以實時數據為流,數據流入處理器,很快便以結果的形式流出處理器.批處理是把數據先存儲再處理,這一模式的代表是Google公司設計的MapReduce模型.MapReduce模型根據不同類型將數據分成若干Map任務區進行處理,通過自定義的Map函數計算出初步結果存入本地硬盤.Reduce任務負責從硬盤上提取結果,根據Key值進行排序和組織.然后上述數列在Reduce函數的作用下形成最終的結果被導出.MapReduce模型將海量數據進行了分解,較流處理方法簡單易行,通用性好,在財務分析、營銷分析和生物信息學方面用途廣泛.
云計算是大數據存儲、管理和分析的支撐技術.大數據的流處理要求數據的處理即時完成,其中按照概要數據結構而設計的用于云計算的內存必不可少,它突破了容量對流處理模型的限制這一瓶頸.以相變存儲器為代表的儲存級內存可以徹底解決內存對流處理的制約,是未來流處理內存的發展方向.流處理廣泛應用的同時,與其相適應的開源系統也得到了開發,如Twitter的Storm和Yahoo的S4等.
大數據是在人類的需求下誕生的,出現后首先應用于商業和金融,后來逐漸擴展到能源、科研、醫療和經濟等領域,并且其適用范圍還在不斷地增加.這里以其在地球空間信息學、物流服務、經濟發展狀況和智能電網等方面的應用作為代表分別進行介紹.
地球空間信息學產生于上世紀90年代,是測繪遙感和信息科學的交叉學科,通過多個平臺,從多個角度和分辨率上對空、天、地進行實時觀測.依托大數據,地球空間信息學的數據獲取從以前的專業傳感器擴展到了數以億計的非專業傳感器,如智能手機、監控視頻等,極大地提升了地球空間信息學的信息采集能力.大數據時代傳感器的信息采集速度和精度是前所未有的,可以實現對地球的多維動態描述,建立高精度的時空動態模型.在大數據和相關技術的支持下,地球空間信息研究形成了多顆衛星組成的集遙感、導航和通訊功能于一體的天基網絡,并與地面網絡互聯互通,組成信息實時服務系統[2].
近些年來,物流服務業蓬勃興起,促進各種商品和資源在社會的不同角落合理分配.隨著生活水平的提高,人們對物流服務的要求也越來越高.訂單任務分配是物流服務供應鏈中的重要環節,對物流服務水平、成本乃至競爭力有著決定性的影響.大數據能夠用于對物流客戶信息的分析,根據分析結果合理地分配訂單任務.劉艷秋等利用大數據分析客戶的瀏覽記錄,預測客戶的固定需求和行為規律,從而確定了最佳的配送貨方案.研究結果表明物流服務供應鏈得到優化后,在降低運行成本的同時,服務水平和競爭力都得到了提高[3].
大數據的信息采集設備遍及社會的各個角落,能夠忠實地記錄社會的經濟活動和交易行為,作為研究和評價經濟發展狀況的第一手資料.其中的國際貿易、商品生產、銷售記錄和銀行轉賬記錄等都是反映某一區域經濟的重要參考指標,可以進行大數據分析.相比傳統的經濟普查,大數據對社會經濟的覆蓋范圍更廣,效率更高,極大的節省了時間和人力成本,更突顯出支撐經濟決策的及時性.大數據的優勢具體體現在:首先大數據采集設備所獲取的信息能夠及時并持續更新,準確反映當下經濟運行的情況,如互聯網檢索對通貨膨脹的實時預測.其次大數據涵蓋的信息類型全面,很多經濟指標在以往的技術條件下無法采集,但確是反映經濟狀況的重要依據.例如,個人通訊和社會網絡數據會被采集分析,在經濟狀況預測中發揮作用[4].
能源輸送中的智能電網集成了多種先進技術,是未來電力工業發展的方向.智能電網的建立需要對電力系統的整個環節進行實時的全景監控.智能電網的運行過程離不開實時數據采集、傳輸、存儲以及大數據分析的技術支持,因此成為大數據應用的一個重要的技術領域.電力屬于傳統行業,新型的大數據概念和技術還沒有被完全認同,其應用的價值得到充分體現需要一個長期的過程.另外,與公民個人隱私應該得到保護一樣,大數據中的電力公司核心數據也只能在特定范圍內使用,其隱私保護和數據安全問題也有待徹底解決[6].
大數據的應用領域越來越廣泛,這給數據的集成和分析提出了新的要求.部分大數據的類型由結構化向半結構化和非結構化演變,數據源日益復雜,數據的時空特性迅速增強,都極大的增加了大數據集成、轉換和管理的難度,創新升級相關設備的存儲和分析功能已經勢在必行.
大數據所包含的內容廣泛全面,其中公民個人信息的采集和傳播都很容易,產生了一系列的隱私安全問題.大數據的信息采集點遍及社會的各個角落,人們在各個地點活動的數據足跡,特別是上網記錄會被收集并保存起來.這些數據經過積累和關聯分析后,可以得到個人的詳細信息,其隱私便有泄露的危險.現實社會中,從技術層面上利用大數據對公眾人物或焦點人物進行“人肉搜索”的例子不在少數,侵犯了公民的權利,也給大數據時代的隱私保護帶來挑戰[7].
在科技發展日新月異的今天,大數據的如火如荼并不等于人們已經對其深刻理解.和其它新興的概念一樣,大數據過度炒作的風險也是存在的.各個行業在對大數據的核心定義、關鍵技術和應用方式上仍然存在一定的分歧和爭議,這些因素都不利于大數據的進一步發展和廣泛應用.
大數據具有劃時代的意義,在此之前都是技術進步推動信息發展,大數據出現以后,則是由信息推動技術進步.大數據不僅促進了社會進步,更推動了科學研究向更廣的領域和更深的層次邁進.相比整個信息科學的發展歷史,大數據成長的時間還很短,因此具有廣闊的拓展空間和潛力[8].首先,為了應對未來規模日益龐大,類型愈加復雜的數據存儲和分析要求,須要構建分布式數據庫的存儲技術以及高效的操作系統.大數據的核心資源就是數據,其價值也來自數據本身,只有重視對數據的整合和分析,才能讓大數據體現出更大的價值.其次,大數據的發展,既要以現有的學科和技術為基礎,也應該促進云計算、物聯網、移動網絡等技術的融合,為現代科學研究和社會運行管理注入新的活力.最后,即建立以人為本的大數據體系,人類因為需求才將科技和社會發展不斷地推向高峰.所以,大數據的分析結果應該以直觀友好的形式展現,如報表、柱狀圖和曲線等,以便于被用戶接受和理解.隨著數據采集、集成、分析和處理技術的進步,大數據在科學研究中的應用將日益廣泛,對人類社會的影響也會愈加深遠.
〔1〕孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013(1):146-169.
〔2〕李德仁.展望大數據時代的地球空間信息學[J].測繪學報,2016(4):379-384.
〔3〕劉艷秋,王浩,張穎,蔡超.大數據背景下物流服務訂單分配[J].沈陽工業大學學報,2016(2):190-195.
〔4〕高見,周濤.大數據揭示經濟發展狀況[J].電子科技大學學報,2016(4):625-633.
〔5〕劉強,秦泗釗.過程工業大數據建模研究展望[J].自動化學報,2016(2):161-171.
〔6〕張東霞,苗新,劉麗平,張焰,劉科研.智能電網大數據技術發展研究[J].中國電機工程學報,2015(1):2-12.
〔7〕劉雅輝,張鐵贏,靳小龍,程學旗.大數據時代的個人隱私保護[J].計算機研究與發展,2015(1):229-247.
〔8〕張引,陳敏,廖小飛.大數據應用的現狀與展望[J].計算機研究與發展,2013(S1):216-233.
TP311
A
1673-260X(2017)02-0029-02
2016-11-10