李東賓
摘 要 大數據這個概念近年來在越來越多的場合、被越來越多的人提及,并且經常和云計算聯系在一起,云計算與大數據之間到底是什么關系成為熱點話題。本文對大數據與云概念進行了解讀與區分。
關鍵詞 大數據 云計算 數據挖掘 對審計影響
中圖分類號:G424 文獻標識碼:A
目前,大數據伴隨著云計算技術的發展,正在對全球經濟社會生活產生巨大的影響。大數據、云計算技術給現代審計提供了新的技術和方法,要求審計組織和審計人員把握大數據、云計算技術的內容與特征,促進現代審計技術和方法的進一步發展。
1大數據、云計算的涵義與特征
隨著云計算技術的出現,大數據吸引了全世界越來越多的關注。哈佛大學社會學教授加里·金說:“這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。”
1.1大數據的涵義與特征
“數據”這個詞在拉丁文里是“已知”的意思,也可以理解為“事實”。2009年,“大數據”概念才逐漸開始在社會上傳播。而“大數據”概念真正變得火爆,卻是因為美國奧巴馬政府在2012年高調宣布了其“大數據研究和開發計劃”。這標志著“大數據”時代真正開始進入社會經濟生活中來了。“大數據”或稱巨量資料,指的是所涉及的數據量規模大到無法利用現行主流軟件工具,在一定的時間內實現收集、分析、處理或轉化成為幫助決策者決策的可用信息。互聯網數據中心(IDC)認為“大數據”是為了更經濟、更有效地從高頻率、大容量、不同結構和類型的數據中獲取價值而設計的新一代架構和技術,用它來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展與創新。大數據具有4個特點:第一,數據體量巨大,從TB級別躍升到PB級別。第二,處理速度快,這與傳統的數據挖掘技術有著本質的思維的轉變,這些轉變將改變人們理解和研究社會經濟現象的技術和方法。主要表現在以下方面:
(1)是在大數據時代,不依賴抽樣分析,而可以采集和處理事物整體的全部數據。19世紀以來,當面臨大的樣本量時,人們都主要依靠抽樣來分析總體。但是,抽樣技術是在數據缺乏和取得數據受限制的條件下不得不采用的一種方法,這其實是一種人為的限制。過去,因為記錄、儲存和分析數據的工具不夠科學,只能收集少量數據進行分析。如今,科學技術條件已經有了很大的提高,雖然人類可以處理的數據依然是有限的,但是可以處理的數據量已經大量增加,而且未來會越來越多。隨著大數據分析取代抽樣分析,社會科學不再單純依賴于抽樣調查和分析實證數據,現在可以收集過去無法收集到的數據,更重要的是,現在可以不再依賴抽樣分析。
(2)是在大數據時代,不再熱衷于追求數據的精確度,而是追求利用數據的效率。當測量事物的能力受限制時,關注的是獲取最精確的結果。但是,在大數據時代,追求精確度已經既無必要又不可行,甚至變得不受歡迎。大數據紛繁多樣,優劣摻雜,精準度已不再是分析事物總體的主要手段。擁有了大數據,不再需要對一個事物的現象深究,只要掌握事物的大致發展趨勢即可,更重要的是追求數據的及時性和使用效率。與依賴于小數據和精確性的時代相比較,大數據更注重數據的完整性和混雜性,幫助人們進一步認識事物的全貌和真相。
(3)是在大數據時代,人們難以尋求事物直接的因果關系,而是深入認識和利用事物的相關關系。長期以來,尋找因果關系是人類發展過程中形成的傳統習慣。尋求因果關系即使很困難且用途不大,但人們無法擺脫認識的傳統思維。在大數據時代,人們不必將主要精力放在事物之間因果關系的分析上,而是將主要精力放在尋找事物之間的相關關系上。事物之間的相關關系可能不會準確地告知事物發生的內在原因,但是它會提醒人們事情之間的相互聯系。人們可以通過找到一個事物的良好相關關系,幫助其捕捉到事物的現在和預測未來。
1.2云計算的涵義與特征
“云計算”概念產生于谷歌和IBM等大型互聯網公司處理海量數據的實踐。2006年8月9日,Google首席執行官埃里克·施密特在搜索引擎大會首次提出“云計算”的概念。2007年10月,Google與IBM開始在美國大學校園推廣云計算技術的計劃,這項計劃希望能降低分布式計算技術在學術研究方面的成本,并為這些大學提供相關的軟硬件設備及技術支持。目前全世界關于“云計算”的定義有很多。“云計算”是基于互聯網的相關服務的增加、使用和交付模式,是通過互聯網來提供動態易擴展且經常是虛擬化的資源。美國國家標準技術研究院2009年關于云計算的定義是:“云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡、服務器、存儲、應用軟件、服務等),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。”根據這一定義,云計算的特征主要表現為:首先,云計算是一種計算模式,具有時間和網絡存儲的功能。其次,云計算是一條接入路徑,通過廣泛接入網絡以獲取計算能力,通過標準機制進行訪問。第三,云計算是一個資源池,云計算服務提供商的計算資源,通過多租戶模式為不同用戶提供服務,并根據用戶的需求動態提供不同的物理的或虛擬的資源。第四,云計算是一系列伸縮技術,在信息化和互聯網環境下的計算規模可以快速擴大或縮小,計算能力可以快速、彈性獲得。第五,云計算是一項可計量的服務,云計算資源的使用情況可以通過云計算系統檢測、控制、計量,以自動控制和優化資源使用。
2兩者的區別與聯系
大數據的超大容量自然需要容量大,速度快,安全的存儲,滿足這種要求的存儲離不開云計算。高速產生的大數據只有通過云計算的方式才能在可等待的時間內對其進行處理。同時,云計算是提高對大數據的分析與理解能力的一個可行方案。大數據的價值也只有通?過數據挖掘才能從低價值密度的數據中發現其潛在價值,而大數據挖掘技術的實現離不開云計算技術。總之,云計算是大數據處理的核心支撐技術,是大數據挖掘的主流方式。沒有互聯網,就沒有虛擬化技術為核心的云計算技術,沒有云計算就沒有大數據處理的支撐技術。
參考文獻
[1] 鄧川,楊文鶯.云審計對會計事務所的機遇、挑戰及對策[J].財會研究,2012(02):1214.
[2] Michael,M.云計算[M].姜進磊譯.機械工業出版,2009.
[3] 張為民.云計算:深刻改變未來[M].科學出版社,2009.