摘要:大數據是最近很多人熱議的一個話題,也是在諸多領域引起了大家不同爭議與意見的話題。隨著我國信息技術的不斷發展,其應用場景不斷拓寬,大數據應潮流而生,成為在當今商業世界里的重要概念,也有越來越多的人開始對大數據產生濃厚的興趣。雖然說大數據得益于信息技術的飛速進步,并在金融經濟等多個環境里都有應用,但是很多人對于大數據缺乏一個理性全面的認識。本文從大數據的定義入手,介紹了大數據所擁有的特征,并分析其可能擁有的應用場景與存在的應用局限,旨在幫助讀者對其形成一個更加全面客觀的認識。
關鍵詞:大數據;信息技術;商業科技;大數據的局限性
0 引言
大數據是最近很多人熱議的一個話題,也是在諸多領域引起了大家不同爭議與意見的話題。不同的IT巨頭都開始推出各自的大數據產品,很多企業也在構想通過不同的方式來挖掘自己所有的或者通過其他渠道獲取的數據的價值。隨著我國信息技術的不斷發展,數據分析的應用場景不斷拓寬,大數據應潮流而生,成為在當今商業世界里的重要概念,也有越來越多的人開始對大數據產生濃厚的興趣。
雖然說大數據得益于信息技術的飛速進步,并在金融經濟等多個領域里都有應用,是當今最熱門的話題之一。但是很多人只是人云亦云,對于大數據缺乏一個理性全面的認識。本文從大數據的定義入手,介紹了大數據所擁有的特征,并分析其可能擁有的應用場景與存在的應用局限,旨在幫助讀者對其形成一個更加全面客觀的認識。
1 大數據的定義與特點
1.1 大數據的定義
大數據的應用范圍廣泛,大家對其都有自己的看法,因此對于大數據的定義眾說紛紜。目前比較受到公眾認可的一種定義來自于重量級統計軟件SAS官網:“大數據是用來描繪數據源以及數據技術指數性增長的術語,飛速增長的數據既包括結構化的數據,也包括非結構化的數據。大數據在商業以及整個社會范疇內都有廣泛運用。”
其中,所謂的結構化是指所獲取的數據是指我們現實生活中常見的二維表單類型數據,即對于某些固定的項目有多條記錄。結構化數據的別稱叫做行數據,對于表格中的每一個項目,每條記錄相應的內容都應該嚴格地遵循該項目所要求的數據格式與長度規范。例如我們在生活中常見的各類電子表格數據等。它們有固定的表格格式,所填內容也遵循相應規范。
而非結構化數據則是與結構化數據相對的,不存在固定格式與規范的各類數據源。例如財務報表等,這一類數據包含了大量信息,但是因為缺乏統一的標準格式與規范,導致不同企業間的報表格式可能存在較大區別。無法直接進行統一的分析處理。
1.2 大數據的特點
對于大數據的特點,目前公眾比較認可的幾點如下:
海量
大數據的數據源一般體量非常大,這一特征得益于我們高速發展的信息科技。在越來越多的地方,有各種自動化的調查統計手段作為輔助,幫助我們收集大量信息源。很多時候數據采集與產生的過程是自動實現的,不僅解決了人工調查耗時多,成本高的問題,而且不易出錯,較為客觀。大量的數據源信息是大數據的基本特征。這樣的特征能夠給我們的統計分析提供支持,讓我們有機會從大量的數據中去采集我們所需要的信息。總體來說我們認為,數據的體量越大,能夠進行分析和利用的方面就越多。
高速
高速也是大數據的關鍵特點之一,正如我們在前文中說到,許多數據產生的過程都是自動的,這也就意味著很多數據從采集到形成最終的數據表格都是非常迅速的,這一特點對于大數據技術能夠滿足我們當今變化飛速的需求是至關重要的。隨著我國社會經濟不斷發展與進步,人們的需求也在無時無刻發生巨大變化,這個轉變的速度非常快,這也就意味著依賴過時的數據所作出的決策很有可能是不適用的。只有足夠及時,足夠新的數據,才能夠幫助不同的數據使用者了解市場形勢的最新變化,從而采取相應的措施,作出相應的決策。
多樣
多樣性也是大數據非常重要的特點之一,多樣性是指我們現在的數據源中可能不僅僅包含了某一方面的數據信息,而是囊括了非常多不同的方面。這樣有利于我們將不同的方面結合起來,依賴于統計分析手段找出其中的聯系。但是這樣的多樣性也給我們帶來了巨大的挑戰,正如我們前文中介紹的非結構化數據一樣,它們也是構成數據多樣性的重要組成部分,但是它們缺乏規范的格式,很難直接用于數據分析。應該怎樣對這部分數據進行處理,從而進一步挖掘數據價值,是很多數據科學家現在專注的方向。
2 大數據的應用場景與局限性
2.1 大數據可能的應用場景
大數據在我們的生活中擁有非常多不同的應用場景。下面本文僅舉一例,更多的應用場合讀者可以自行思考。通過大數據技術,我們可以發現消費者消費行為模式,獲取客戶信息,進行客戶群體細分
這是大數據在企業外部的一種應用模式,通過大數據我們可以獲取消費者的各類信息。包括基本的年齡,性別,工作等,同時在消費者購買的過程中我們可以記錄其消費的習慣與偏好。當這個數據量達到一定規模以后,我們可以通過大數據分析,來觀察不同的特征會怎樣影響消費者的消費行為與模式。
通過這樣的方法我們可以將具有不同特征的消費者劃分為不同的群體,然后根據該群體的消費行為與偏好,為其量身定制他們所需要的商品或者服務。比如現在的智能手機廠家通過各類的標準將消費群體進行劃分,按照年齡層與職業推出了關注不同的特點的智能手機(如關注拍照、音樂、性能等)后,再按照該群體的特征進行營銷。比如針對年輕群體的手機通過各類社交媒體,而針對中老年的手機則通過電視、線下活動進行推廣。
還有一例是美國的孟山都公司,該公司是美國農業生物科技行業的領頭羊。其發起的“Green Data Revolution(綠色數據革命)”旨在幫助農民享受數據科學的好處。它向農民提供種子監視器用于收集種子與土地信息,農民只需使用獲取的平板終端將信息上傳到孟山都的農業數據聯盟中,便可以獲取由該公司提供的最適合其土地與種子狀況的化肥。
2.2 大數據的應用局限性
成本限制
大數據依賴于數據收集手段,正如我們前文中所提倡的,需要利用各類自動化的輔助手段進行數據收集,這樣的一個過程是依賴于硬件支持的。企業可能需要安裝各類傳感器以及電腦終端來完成數據的收集,而當這個規模較大時,需要投入大量的人力物力才能夠完成對于數據采集的支持。而這樣的投入是很多小型企業所無法承擔的。公用的付費數據庫雖然現在也在蓬勃發展,但是其高昂的收費對于許多企業來說依然是一個較高的門檻。
技術限制
前文中提到,現在的數據源的多樣性為我們的統計分析帶來了很大的挑戰。大數據的技術局限性一方面體現在收集數據源的過程仍然需要進一步的完善與發展;另一方面也體現在我們對于一些非結構化的數據進行統一分析的能力仍然較弱。不能夠完全挖掘數據價值。
法律限制
這也是大數據技術一直以來備受詬病的一點,大數據技術依賴于收集客戶信息,但是這一收集過程的邊界很難定義,很有可能對于客戶的隱私權帶來威脅。比如我們當今社會利用電話進行推銷或者詐騙的現象越來越多,其根本就在于數據源的收集方沒有對客戶數據盡到隱私保護的責任與義務,才會導致客戶信息泄漏,個人隱私受侵犯。
可驗證性
可驗證性是指我們收集的數據由于其海量、高速、多樣的特點,很難對其進行一一核實,因此數據的真實性以及準確性就值得質疑。如果我們對于數據的真實準確性無法保證,那么基于這些數據得出的結論的有效性也就有待商榷。對于這部分數據的驗證工作龐大復雜,至今還沒有有效而簡潔的手段。
參考文獻
[1]鄔賀銓. 大數據時代的機遇與挑戰.《中國儲運》 , 2013 (4) :9-10
[2] 王元卓,靳小龍,程學旗.網絡大數據:現狀與展望.《計算機學報》 , 2013 , 36 (6) :1125-1138
[3] 孟小峰,慈祥.大數據管理:概念、技術與挑戰.《計算機研究與發展》, 2013 , 50 (1) :146-169
作者簡介
趙楊晴:2000年生,女,籍貫山東省青島市endprint