國網甘肅省電力公司信息通信公司 袁 昊
甘肅同興智能科技發展有限責任公司 張文斌
國網甘肅省電力公司信息通信公司 陳 麗
大數據是計算機和互聯網發展到一定階段的必然產物,隨著社會資源被網絡化和數據化改造,人們對于過往生產經營數據的價值興趣更高,且有足夠的能力挖掘海量數據背后的價值,自然而然就有了“大數據”的產生,依靠“大數據”,相關企業能夠獲得用戶海量的行為數據,根據數據進行更為合理的資源調控,將更有利于企業的發展,也能為用戶帶來更有效的建議,可以說大數據時代已經逐步到來,必將給社會帶來翻天覆地的變化。
隨著社會的發展,同時社會資源被網絡化和數據化改造,隨之而來的,多元的、海量的數據呈現爆炸式的增長,這些數據可能來自社交網絡、訪客記錄、購物瀏覽等等,是一個用戶過往行為的反映,人們也開始對“大數據”背后隱藏的價值感興趣,運用先進的算法從“大數據”中挖掘價值,隨之創造更大的價值,當然,這一切都離不開計算機信息處理技術(云計算)的發展,對于大數據和云計算來說,就像是一枚硬幣的正反面,不可分割,相互促進。本文即分析大數據時代下的云計算處理方式,以供參考。
“大數據”這個概念已經社會上流傳很久了,人們對大數據也越來越熟悉,它是隨著社會的發展,社會資源被網絡化和數據化改造后,隨之形成的海量行為數據,大數據的本質是人的行為,對象多種多樣,包含人的人口信息、出行信息、購物信息、搜索信息、瀏覽信息等,大數據就是人的眾多行為的反映,其具有價值,能夠創造更多的價值,利用云計算對海量的數據進行分析、存儲、處理,深度挖掘大數據價值,企業組織利用相關數據和分析可以幫助它們降低成本、提高效率、開發新產品、做出更明智的業務決策,居民能受到合理推送的信息,試想一下,當你需要趕飛機時,手機為你推送專車服務,能第一時間最優化路線趕到機場,當下飛機后,收到合適的賓館推送,出去吃飯為你推送飲食券等等,大數據及其應用正在改變人們的生活,這就是大數據自身的價值和創造的價值。很多人知道“大數據”的概念,卻不知道“大數據”的量級,早在數年前,大數據的量級就已經從TB升級到了PB(1024GB=1TB),未來必然會躍升到EB 1024PB=1EB)或ZB B(1024EB=1ZB)的級別。
(1)Volume(容量):大數據的容量非常大,已經從TB升級到了PB(1024GB=1TB),未來必然會躍升到EB 1024PB=1EB)或ZB B(1024EB=1ZB)的級別。
(2)Variety(多樣):大數據的形式是多樣的,包括結構性數據、非結構性數據、源數據和處理數據等,種類也是多樣的,包括網絡、音頻、視頻、位置、文本等數據。
(3)Value(價值):大數據在經過深度的挖掘處理后,能夠創造較大的價值,利用大數據的價值,能夠讓企業或用戶在功率、覆蓋范圍、傳輸速率和成本之間找到那個微妙的平衡點,不過同時也要看到,因為數據是海量的,數據的價值密度卻非常低,但鑒于大數據的價值是由一個個微小數據共同提煉出來的,缺一不可,海量的工作量不可能減少,因此需要大量的機器學習來代替人力作業。
(4)Velocity(速度):大數據對處理速度也有要求,要求實現實時數據分析,要為用戶推送更好的服務,當你瀏覽商品時,等關掉手機,系統才采集并計算出你的喜歡,當你喝一杯咖啡后,相關軟件才為你推送優惠券,無疑是不稱職的,要想給用戶更好的服務,必須要求較快的數據處理速度。
首先,大數據的增長是無止境的,大數據還會呈現爆炸式的增長,對于海量的數據,必須借助機器學習來代替人力,在這個過程中不斷優化大數據算法,包括大數據的存儲、索引、查詢算法,流數據分析算法;大規模互聯網數據挖掘算法;多媒體大數據分析算法;大規模機器學習算法等,隨著5G通訊技術的研發,對大數據的處理能力會更上一層樓。
其次,隨著大數據的增長,企業對大數據的依賴也逐步加強,來自黑客的侵擾也會逐漸增強,如何做好對大數據的保護也尤為重要。
再次,隨著大數據價值的體現,也隨著5G通訊技術的大規模商用,大數據的應用領域也會更多,各行各業都會逐步和大數據接駁、融入,如下圖2所示,回歸那句話:“大數據時代才剛剛到來”。
數據的采集(ETL理念)指的是將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端,數據采集的工具包括ETL工具或Sqoop等,將一個關系型數據庫(例如MySQL,Oracle,Postgres等)采集,然后傳輸到目標端(各家企業的云,Hadoop框架等)因為數據是海量的,數據的采集也至關重要。以往數據的采集是企業對自己行業的用戶數據,隨著數據共享理念的興起,數據采集對象也變得多種多樣,朝著集體化發展。
對于數據的收集,要明確的是,數據本身不會說謊,但數據收集的過程、覆蓋的范圍、問題的設置、選項的描述、采訪的背景等各種細節都會給分析結論本身帶來一定的主觀偏向,也是為什么一些研究者對大數據分析存在質疑的根本原因:你無法保證你的數據來源是否可靠。
對于數據的存儲,企業一般都會存在企業的“云端”,比如阿里云、AWS(亞馬遜)、AZURE(微軟)、DINDINCLOUD(丁丁云)、KTC、GOOGLE CLOUD(谷歌云)等,又或是存儲在Hadoop等框架結構中。需要明確的是,數據的存儲是為了立刻為數據處理做準備,因此云計算或各式計算框架等,一般將數據存儲和處理放在一起說。
高端互聯網企業都在致力于開發自己的云計算,云計算是對大數據的轉移、存儲、計算的協同體,常采用分布式數據庫進行分布式處理,隨后慢慢形成了分布式計算、效用計算、負載均衡、并行計算、網絡存儲、熱備份冗雜和虛擬化等計算機的混合技術,這些都屬于“云計算”的范疇,利用云計算,能夠將海量的“大數據”實時處理,因此,要正確看待云計算和大數據的關系,它們就像一枚硬幣的正反面,密不可分。完成這一步,大數據的價值已經被深度挖掘了出來,之后更有目的、更準確的做出系統判斷,給用戶推送關鍵信息,就能夠創造出更大的價值。
對于資源有效,無法開發“云計算”的企業來說,和高端企業合作,利用高端企業的云計算系統進行數據處理,又或是利用Hadoop、Mapreduce、Tensorflow(深度學習框架)、Spark、Pentaho BI等開源框架進行大數據處理,都是不錯的方法,這里重點提一下Hadoop開源框架,用戶可以在不了解分布式底層細節的情況下,開發分布式程序,并進行簡單的數據處理,如何正確看待云計算和開源框架的區別?前者是大型的,后者體量較小,功能也較為單一,就好像修建一棟房子,云計算是總設計圖,內容是多樣的,功能強大,而眾多開源框架則是水泥、錘子一樣的修建工具或臥室、陽臺設計圖,功能較為單一,但也能使用,其中Hadoop開源框架非常優秀,被高端互聯網企業收錄進自家的云計算環境中,云計算和大數據的關系如圖1所示。
隨著“大數據”的日益發展,大數據的安全性又成為人們熱議的話題,這里包含兩方面內容,第一方面為作為用戶的你,是否愿意自己的大數據被收集,當你瀏覽商品時,你的喜好已經被收錄,當你發送郵件時,聯系方式已泄密,當你使用地圖時,位置信息已經泄密,作為用戶的你要想保護數據安全性,就需要慎重對待手機軟件中的權屬限制,謹慎處理。
另一方面是企業如何保護大數據?企業的大數據有流通性和共享性,本身就容易暴露,且容易受到黑客勒索攻擊,國家在2019年5月13日發布等保2.0,要求企業構建安全防護架構,保護數據安全,如圖2所示。

圖1 云計算和大數據的關系

圖2 等保2.0
在大數據時代,計算機信息處理技術,可以簡單看作“云計算”,主要處理技術包括數據的采集、存儲、計算、安全管理、運營等方面,針對這些內容上文做了簡單說明,以供參考。