周艷晨
摘要:本文對大數據的六個性質進行深入解讀并整理匯總了現階段各學科對大數據的研究情況。分析了數據信息價值在未來對企業成本和生產資料的影響,通過企業成本成分的變化將大數據時代劃分成大數據的初級階段、大數據的中級階段和完全大數據階段這三個階段。最后對數據產業的未來進行預測。
關鍵詞:大數據;大數據階段;數據產業
中圖分類號:F061.3
文獻識別碼:A
文章編號:1001-828X(2016)036-000312-02
大數據時代的到來給人們的生活方式、工作方式和思維方式都帶來了前所未有的變化,這些變化勢必將對現有的經濟結構帶來影響,本文將對大數據的性質特征進行分析,從企業成本函數開始,分析大數據對于微觀經濟的影響,繼而分析大數據下的宏觀經濟結構的變化,最后預測部分行業的未來發展。
一、大數據時代正在來臨
大數據時代的浪潮正在朝我們涌來。據統計2012年中國數據存儲量已經達到364EB,約為日本的60%,北美的7%,預計到2020年,全球數據儲存量估計為40ZB,各單位間的計算公式為1024GB=lTB,1024TB=1PB,1024PB=lEB,1024EB=lZB。世界各國各組織已經開始采取措施積極應對,基于大數據的各類學術研究也正在如火如荼的進行中。
(一)世界對大數據的響應
為了迎接大數據時代,聯合國在2009年提出”聯合國全球脈動“倡議,方便為各國提供實時數據分析。2012年3月,美國政府投資2億美元啟動”大數據研究和發展計劃“。2012年7月,日本發布”新ICT計劃“,以電子政府、點子醫療、防災等為中心指定新的信息通訊技術戰略。2013年1月美國政府宣布將投資1.89億英鎊用于對地觀測一醫療衛生等大數據和節能技術方面。歐盟將數據信息化基礎設施建設作為Horizon2020計劃優先發展領域5--。
在我國,科技部召開兩次香山會議,國家自然科學基金委員會2013年組織了雙清論壇,并且設立了教育部重大項目。2013年中旬,全國統計學會召開第17次統計科學討論會共議大數據背景下的統計發展。從2013年11月份開始,國家統計局與中國聯通,阿里巴巴、百度、58同城和上海鋼聯電子商務股份有限公司等11家企業在北京簽訂了大數據戰略合作框架協議。在2014年第六屆中國人民大學國際統計論壇上,中國統計局局長馬建堂在致辭中指出“以更加開放的姿態推動大數據共享共贏,大數據應用要共享開放,統一標準,市場推動。”
(二)我國對大數據的研究現狀
從2011年開始,各學科對大數據的研究突然興起。其中,統計學,計算機科學,信息科學,電子商務等學科最為活躍。王珊等學者(2011)分析了大數據分析平臺所必須具備的幾個重要特征,對當前主流實現平臺以及其混合構架進行分析與歸納,指出其優勢以及不足;覃雄派等(2012)指出傳統及關系數據無法勝任大數據分析的任務,以MapReduce為代表的非關系數據管理技術更能滿足面向大數據的深度分析,創新性的提出將關系數據處理技術和分布式處理技術相結合的數據管理技術;李國杰等(2012)通過對大數據研究領域中幾個關鍵問題的科學思考,提出科研第四范式的思維方式的大變革觀點,認為未來科技以及經濟社會發展應該優先支持網絡大數據研究;曾鴻等(2013)闡述了大數據時代下的統計變革,提出構建新的統計理論和分析數據的思維,提出應該積極應對大數據的基本觀點,同時指出大數據時代與計算機科學也有著緊密的聯系;朱建平等(2014)從統計學的角度界定了大數據的概念,明確統計工作和統計研究轉變的基本思路……
綜觀以上研究,有“三多三少”的特點。研究現實問題的多,研究基礎理論的少;研究特點變化的多,研究階段變化的少;研究經濟統計學的多,研究基礎經濟領域的少。基于這樣的研究現狀,本文從大數據的時代特點出發,分三個階段,分析大數據時代下成產函數的成分變化。
二、大數據
近年來對大數據的研究紛繁復雜,公認的大數據的性質有“六個v”,即總量大(Volume Big),多樣化(variety),快速化(velocity),價值高(value High),數據獲取與發送方式靈活(Vender),真實準確(veraeity)。
(一)大數據的性質
1.總量大
數據總量大,數據計量單位變化,超大規模單位是GB級別數據,海量數據是TB級別,大數據是PB及以上。
大數據也被形象的稱為井噴式數據,這說明,現階段大數據不僅僅只是總量大,數據的增長速度和增長的加速度也在變大,也就是說每天的數據增長量成指數增長。
2.多樣化
數據表現形式多樣,總共分為三類,即傳統的結構化數據,如同HTML,報表,資源庫,地理位置這種不規則不完整的半結構化數據,還有視頻,圖片,圖像這類非結構化數據。并且在大數據環境下,半結構化數據和非結構化數據與日俱增,對傳統的儲存方式提出挑戰。
從維度角度看,在大數據時代,我們還需要面臨超高維數據的挑戰。
從數據類型來看,定距、定比數據量所占比重將被更多的定序、定類數據代替,與之而來的還有可視化實時銷售圖、銷售地圖等這種新的數據類型,共同組成大數據時代的多樣性數據。
3.快速化
傳統統計部門在處理數據時要求做到及時收集和及時發布,而在大數據背景下,政府部門并不是唯一的數據來源部門,采集數據的方式和數據的來源更加多樣,同時互聯網減少了數據傳輸的時間,對數據的要求變成實時采集、實時發布,公眾獲取數據將更加方便快捷。
4.價值高
大數據下數據間的“相關關系”逐漸代替“因果關系”,事物間的聯系逐漸變得清晰,僅通過事物間的“相關關系”企業就可以對其產品的營銷方案、生產成本進行調整,獲得巨大的利潤,因此數據挖掘尤顯重要,數據的商業價值也隨之增大。
5.數據獲取與發送方式靈活
大數據下數據并非單純指統計部門收集的數據,還包括人們在互聯網上發布的信息,以及全世界的工業設備、汽車、電表上有無數的數碼傳感器中的數據,還有隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化數據等都成為數據的來源。隨著互聯網的發展,許多數據的發布可以做到程序自動發布,同時借助網站,手機,短信等各種客戶端,第一時間將數據發布。
6.真實準確
大數據下樣本即為總體,對總體的研究從傳統的用樣本估計總體數量特征,變化為直接計算總體特征,對總體的描述準確性為100%,誤差為0,數據更加真實準確。
(二)大數據對現實的挑戰
1.數據存儲和傳輸
大數據下,半結構和非結構化數據比例巨大,如何有效快速的儲存這些數據,降低數據在傳輸過程中的損耗,是計算機科學所要面臨的難題。
同時數據容量空前增大,加之公眾對于數據實時提取以及實時存儲的要求,存儲頻率也隨之增大,大數據對于硬件的要求也不斷提高。
2.數據塞選和處理
大數據雜亂無章,無統一標準。對“有用信息”的選取,對垃圾信息的處理,都需要對數據的深度挖掘處理,如何從大數據的海洋中提取需要的信息,是對信息科學的挑戰。
3.數據的發布和決策
大數據要求數據發布實時同時數據準確,這對數據發布的效率提出了更高的要求。
大數據通過云計算,數據倉庫,數據挖掘等方法進行處理分析,使決策依據更為充分。大數據改變傳統的“經驗決策”方式到更加理性的“數據決策”,但是,由于大數據是對總體的研究,在面對突發事件和小概率事件時,缺乏數據支撐,使得決策不正確,如何解決大數據下的小概率事件,是統計學面臨的挑戰。
(三)適用于大數據的技術
現有階段適用于大數據的技術有大規模并行處理(MPP)數據庫、數據挖掘電網、分布式文件系統、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統等。現介紹幾種技術。
針對大數據存儲能力和處理速度,先有四種解決方式,分布式處理方式、離線批處理技術、實時流處理技術和交互式分析技術。在此主要介紹分布式架構的代表云計算平臺。按照現在的硬件水平,單臺的計算機無法及時有效處理大數據,可采用分布式架構,即連接多臺計算機共同處理,這就是云計算平臺。它的特色在于對海量數據進行分布式數據挖掘,分散數據,同時處理。云計算平臺還包括分布式數據庫、云存儲和虛擬化技術。
關于半結構化數據和非結構化的處理問題,Hadoop大數據處理品臺已經是目前大數據平臺中應用率最高的技術,可以處理文本、社交媒體訂閱以及視頻等半結構化和非結構化數據。此外還有EMC Greeplam統一分析平臺,IBM Biglnsights大數據分析軟件,Informatica HParse數據源處理軟件,Informatica 9.1 for Big DataApplicanee大數據機,微軟SQL Server R2 Parallel Date Warehouse并行數據倉庫等技術,都在為解決此類問題進行實踐。
對于數據的實時采集和發布問題,谷歌公司推出的MapReduce擴展技術和NoSQL數據庫,融合了關系型數據庫和分布式數據庫的技術優勢包含了幾種技術。關注關系型數據庫引擎的限制,如索引、流媒體和高訪問量的網站服務等。
還有一些研究用Regression Calibration模型校準方法和OLAP聯機分析技術對數據進行處理,從理論上證明從大數據中提取有效信息的效率可以進一步提高。
通過這些研究,我們有信心相信在大數據時代下,技術水平完全可以跟上時代的潮流,所有的挑戰都可以完成。
三、大數據的三個階段
從互聯網時代到完全大數據時代并不是一蹴而就的,這個過程可以根據企業成本的變化分成大數據初級階段、大數據中級階段和完全大數據三個階段。
1.大數據初級階段
在大數據初級階段,數據的獲取相對困難,對于數據價值挖掘開始受到重視,以公司集團為代表的數據信息行業正在興起,計算機科學、信息編碼技術以及統計分析領域開始繁榮。在這個階段,小范圍的數據統計和數據處理業務占數據行業的大多數,數據信息的價值逐漸被人們發現,數據開始指導決策,企業成本中的數據信息費用開始出現。
2.大數據中級階段
在此階段,數據行業從寡頭壟斷市場進入壟斷競爭市場,數據行業已經相對成熟,一些行業已經形成完整的數據產業鏈,從原材料的選取、生產、運輸、銷售和售后服務都采用數據決策,數據將幫助這些企業實現中長期的最小成本。在這個階段,企業成本中廣告的費用急劇減小,運費和資本的價格將降低,數據信息費用占例增大。
3.完全大數據
隨著科學技術的發展,數據行業將進入完全競爭狀態,獲取數據信息將變得十分方便、簡單,數據信息的交易價格會因為競爭的激烈而將為最低水平,數據行業完全成熟,各個行業都采用數據決策,整個經濟市場將處于完全信息狀態,所有企業都可以利用數據達到行業的長期的最小成本。此時,樣本即總體成為現實。在這個階段,企業成本中對于廣告、運費、資本和數據信息的費用將降低至最小。
我們現在正處于大數據初級階段。
四、數據產業發展預測
現如今,電子商務行業如日中天,伴隨著程序員行業的興起,關于網絡方面的技術性人才及其緊缺,同時各企業也發現數據挖掘的重要性,統計及其相關行業也面臨著人才缺口。這些與大數據初級階段特點完全符合,在這個階段,數據行業的增長速度將呈現指數增長特點。隨著專業人才的增加,計算機技術的完善,將進入大數據中級階段,越來越多的人資和投入將使得數據行業的發展進入平穩增長期,數據行業將面臨市場半飽和狀態,此時的數據行業從原本的J形增長,將變化為s形增長,logistic增長模型將更符合這時的狀況。在完全大數據階段,數據產業將變成完全競爭市場,對于數據的需求和供給將不會發生大波動,在此階段數據產業已經使得各產業的成本達到最優。
五、結語
大數據給我們帶來一系列問題,比如如何處理數據獲取和傳播階段的法律糾紛,如何保障大數據時代下的信息安全,統計部門如何制定新的統計分類標準等。大數據時代就在發現問題與解決問題中悄然來臨。
將大數據分階段進行研究有助于各行業各產業制定符合自身的發展規劃,有助于對未來發展進行更為精準的階段性預測。接下來,我們可以深入分析大數據的三個階段對企業成本函數和生產函數的影響;可以分析不同產業對于數據信息價值的需求變化。這些研究對大數據時代下的經濟發展具有基礎理論意義。