◆孫發(fā)友
(南京機電職業(yè)技術學院 江蘇 210000)
大數(shù)據(jù)技術的應用分析
◆孫發(fā)友
(南京機電職業(yè)技術學院 江蘇 210000)
大數(shù)據(jù)需要專業(yè)化的技術和管理人才。大數(shù)據(jù)解決方案的設計和實施,需要專業(yè)化分析復雜數(shù)據(jù)集的工具和技術。大數(shù)據(jù)的有效應用需要解決大容量、多類別和高時效數(shù)據(jù)處理的問題。傳統(tǒng)數(shù)據(jù)庫處理不了數(shù)TB級別的數(shù)據(jù),也不能很好支持高級別的數(shù)據(jù)分析數(shù)據(jù)。大數(shù)據(jù)時代,數(shù)據(jù)價值越來越大,面對海量數(shù)據(jù)的收集、存儲、管理、分析和共享,信息安全問題成為重中之重。
大數(shù)據(jù);數(shù)據(jù)挖掘;數(shù)據(jù)分析
大數(shù)據(jù)(Big Data)是指“無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數(shù)據(jù)集合。”業(yè)界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數(shù)據(jù)的特征。
為企業(yè)打開這一“金礦”的鑰匙.然而傳統(tǒng)的IT基礎架構(gòu)和數(shù)據(jù)管理分析方法已經(jīng)不能適應大數(shù)據(jù)的快速增長.大數(shù)據(jù)的爆發(fā)是我們在信息化和社會發(fā)展中遇到的棘手問題,需要我們采用新的數(shù)據(jù)管理模式,研究和發(fā)展新一代的信息技術才能解決。
大數(shù)據(jù)量圖像重采樣,抽樣就是從總體中合理抽取一定量的樣本 ,并依據(jù)這些樣本對總體數(shù)據(jù)進行合理地推斷。樣本必須與總體盡可能一樣,兩者保持大致相同的分布。薄云識別,對于一個大數(shù)據(jù)量的遙感圖像,為了提高圖像處理的速度 ,一個有效的方法就是僅僅對有云的區(qū)域進行薄云去除 ,不改變無云區(qū)域的性質(zhì)。
在 GIS 中 TIN 被看作為表達 DEM 的最佳方式, 原因在于TIN不僅數(shù)據(jù)量小, 且表達了一定的拓撲結(jié)構(gòu). 但TIN需要消耗較大的內(nèi)存空間, 計算量大, 且需要較多的預處理工作。規(guī)則格網(wǎng)結(jié)構(gòu)則要簡單得多, 且在實際生產(chǎn)中 DEM 往往使用規(guī)則格網(wǎng)表達,常見的是基于點陣的柵格表達方式, 一般使用位圖格式進行存儲. 但規(guī)則格網(wǎng)所占存儲量較TIN 大, 且不具有拓撲結(jié)構(gòu)。
大數(shù)據(jù)的類型大致可分為三類:(1)傳統(tǒng)企業(yè)數(shù)據(jù)(Traditional enterprise data):包括 CRM systems的消費者數(shù)據(jù),傳統(tǒng)的 ERP數(shù)據(jù),庫存數(shù)據(jù)以及賬目數(shù)據(jù)等。(2)機器和傳感器數(shù)據(jù)(Machine-generated /sensor data):包括呼叫記錄(Call Detail Records),智能儀表,工業(yè)設備傳感器,設備日志(通常是Digital exhaust),交易數(shù)據(jù)等。(3)社交數(shù)據(jù)(Social data):包括用戶行為記錄,反饋數(shù)據(jù)等。如Twitter,F(xiàn)acebook這樣的社交媒體平臺。
大數(shù)據(jù)挖掘商業(yè)價值的方法主要分為四種:(1)客戶群體細分,然后為每個群體量定制特別的服務。(2)模擬現(xiàn)實環(huán)境,發(fā)掘新的需求同時提高投資的回報率。(3)加強部門聯(lián)系,提高整條管理鏈條和產(chǎn)業(yè)鏈條的效率。(4)降低服務成本,發(fā)現(xiàn)隱藏線索進行產(chǎn)品和服務的創(chuàng)新。
大數(shù)據(jù)技術滲透到新聞生產(chǎn)的核心環(huán)節(jié),大數(shù)據(jù)技術重樹新聞質(zhì)量標桿,大數(shù)據(jù)技術進一步提升受眾反饋的價值,大數(shù)據(jù)技術拓展用戶分析廣度與深度。在大數(shù)據(jù)技術等因素的推動下,新聞業(yè)務將實現(xiàn)一些方向性調(diào)整,如趨勢預測性新聞和數(shù)據(jù)驅(qū)動型深度報道分量的增加,數(shù)據(jù)呈現(xiàn)、分析與解讀能力的提高,新聞生產(chǎn)中跨界合作的增強。
基于大數(shù)據(jù)的智能交通數(shù)據(jù)處理體系流程依次為:(1)輸入交通數(shù)據(jù)。(2)數(shù)據(jù)中心對實時交通流數(shù)據(jù)進行提取,促進數(shù)據(jù)交換中心之間對數(shù)據(jù)進行交換和處理。(3)通過基于云計算的云存儲來對數(shù)據(jù)進行儲存, 將大數(shù)據(jù)集成起來。(4)控制中心將這些大數(shù)據(jù)在電腦地圖上以不同色彩來呈現(xiàn)。
現(xiàn)代企業(yè)的生產(chǎn)管理與商務決策在很大程度上依賴于社會媒體、網(wǎng)民群體、上下游合作企業(yè)以及競爭對手所構(gòu)成的“網(wǎng)絡生態(tài)系統(tǒng)”,并逐漸呈現(xiàn)出縱向整合和橫向聯(lián)合的兩種新發(fā)展趨勢.快速積累的海量數(shù)據(jù)使企業(yè)難以及時洞察出有用的信息來作出營銷決策,但同時也為企業(yè)營銷帶來前所未有的機遇。
關系數(shù)據(jù)庫和 MapReduce 混合技術研究:關系數(shù)據(jù)庫和MapReduce 技術各有優(yōu)缺點, 如何融合關系數(shù)據(jù)庫和MapReduce 技術, 設計同時具備兩者優(yōu)點的技術架構(gòu) 也是大數(shù)據(jù)分析技術的研究趨勢。繼續(xù)改進 MapReduce 的性能, 提供數(shù)據(jù)分析的實時性: MapReduce 是面向批處理的并行計算模型, 其性能與關系數(shù)據(jù)庫相比仍然有一定的差距。
“大數(shù)據(jù)”時代同時提供了挑戰(zhàn)。除了諸如計算機病毒、盜版軟件以及對服務器的惡意攻擊等這些熟悉的問題之外。這也就意味著,在一個給定的很短的時間內(nèi),把公眾的真正看法與網(wǎng)絡上各個群體恰好正在表達的觀點區(qū)分開來,將會變得更加困難。另外網(wǎng)絡“大眾性”的特點可能是不合時宜的,因而需要重新進行定位。
我們要在大數(shù)據(jù)環(huán)境下面向技術創(chuàng)新管理的雙向決策模型,整合傳統(tǒng)的“目標驅(qū)動決策”與大數(shù)據(jù)環(huán)境下的“數(shù)據(jù)驅(qū)動決策”理念及方法,分別從“技術評估與預測”及“技術監(jiān)測與預警”兩個方面構(gòu)建適用于我國技術創(chuàng)新管理的新方案,應對大數(shù)據(jù)環(huán)境,有效并快速提取知識與觀點的能力,并最終促進我國核心技術創(chuàng)新與升級。
[1]曹磊,陳薇娜,繆其浩,陳超.大數(shù)據(jù):數(shù)字世界的智慧基因[J].上海:文匯報,2011.
[2]陳憲宇.大數(shù)據(jù)的商業(yè)價值[J].浙江:企業(yè)管理,2013.
[3]嚴霄鳳,張德馨.大數(shù)據(jù)研究[D].工業(yè)和信息化部計算機與微電子發(fā)展研究中心(中國軟件評測中心).北京,2013.
[4]2013RSA信息交全大會傳真,大數(shù)據(jù)作為革命性的解決方案應對信息安全的全面挑戰(zhàn)[J],2013.
[5]夏欣.電子商務潮流下大數(shù)據(jù)的應用及發(fā)展[J].武漢:決策信息,2013.
[6]謝華美,李榮艷,田艷琴,別榮芳.基于大數(shù)據(jù)量遙感圖像的薄云去除[J].北京:北京師范大學學報,2006.