◆李 鋒 史慕志
大數據應用的技術體系及潛在問題研究
◆李 鋒 史慕志
(中國電子科技集團公司第二十八研究所 江蘇 210007)
隨著科學技術手段的不斷發展,大數據應用技術及系統在不斷的完善,現階段主要的大數據為應用技術云計算、計算機編程模型、大數據獲取方法、大數據處理系統等等。大數據應用技術體系在實踐中還是存在一些問題與不足,解決這些問題才可以完善大數據應用技術體系。對此,文章主要對大數據應用技術體系以及其潛在的問題進行了簡單的研究分析。
大數據;應用;技術體系;潛在問題
在科學技術的持續發展過程中,大數據應用的技術體系在不斷的發展,其存在的潛在問題也逐漸凸顯,而在大數據不斷發展的過程中,必須要解決這些問題,這樣才可以真正的實現智能化、集約化發展。
大數據就是涉及的資料量規模巨大,無法通過主流軟件工具在合理的時間中進行處理,整理成為為企業的經營決策提供的各種咨詢。現階段,對于大數據的主流定義就是規模性、多樣性以及高速性。規模性就是在數據累積到了一定的高度,無法通過主流工具對其進行處理;多樣性就會對于一些要處理的數據類型,主要有結構化、半結構化以及非結構化的特征,在根本上增加了操作的復雜性;高速性就是在數據到達以及處理過程中的高效性,降低延遲性。同時,隱私性以及價值性也是大數據的重要特征因素。
云計算屬于一種經濟驅動類型的發散模型,其主要工作原理就是通過一種虛擬以及動態的相關特征進行能源、平臺等相關通信傳輸給客戶。其具體如下的特征:
第一,云計算可以獲得數量龐大且分布式的數據信息;第二,計算系統以及規模經濟之間具有一定的關系,要根據需求進行計價分析;第三,在給客戶提供基礎信息服務的基礎之上,也可以進行信息的存儲計算處理。云計算服務的類型主要可以分為基礎設施服務、平臺服務以及軟件服務幾種類型。
計算機編程模型中較為關鍵的關系數據庫就是MapReduce,此種技術主要就是在進行聯機事物的處理、分析事物以及各種信息數據技術基礎之上,通過低價的服務器對大型的數據信息進行平行處理。此種技術的主要工作原理就是將整體信息數據分為若干個子系統,通過對子系統數據信息進行整合,可以獲得全新的結果。數據信息處理主要就是通過初始信息處理,利用Map對初始的Key/value進行處理,獲得相關結果信息,然后,在將Reduce融合具有相同Key數值的鍵值,在獲得結果信息[1]。
(1)利用傳感器獲得大數據信息
傳感器的有效應用可以為大數據信息的獲得提供基礎保障,也可以有效的優化傳感器自身的網絡結構模式。傳感器的網絡設備對大數據信息的保存、大數據的獲取均有不同的要求,處理信息數據共享問題是現階段研究的重點。NIST與IEEE組織網絡應用會議對不兼容的問題進行了分析;OGC則提出了wed的處理框架,這樣就可以利用wed平臺對各項信息數據進行收集,控制節點[2]。
(2)利用wed2.0獲得信息數據
Wed2.0就是利用網絡用戶的身份轉化,成為網絡作者以及共建人,這樣就可以將在網絡上的各項活動由被動的信息接受變為信息的創造,在網絡上軟件的開發以及各種軟件的應用就會吸引大量的點擊率,可以說在大數據時代,隨著網絡技術手段的成熟,無疑給人們的生活帶來一定的便捷。
在大數據時代其面臨的主要問題就是資金以及人員的問題。大數據人才的匱乏是影響大數據市場發展的關鍵因素。雖然各個行業業務的數據為數據分析提供了基礎條件,但是科學家數量的不足也直接的制約領導大數據的發展。
數據科學家多數為復合型的人才,是對數學、統計以及機器學習等各個領域知識的綜合性掌控,可以對各項信息數據進行預測性的價值分析。對此,要加強對大數據人才的培養。
大數據的接受以及管理需要一定的基礎設施以及能源,而無論是傳感器還是數據中心的服務器,都必須要大量的硬件投入以及能源消耗,這對于大數據處理的財力要求嚴格,加強對大數據資金的服務器研究的投入,對投資資金的比例進行分析,是現階段大數據應用中必須要解決的問題。
大數據在發展中面臨著一定的安全以及隱私問題。隨著社會經濟的發展,傳感器以及攝像頭等設備數量在不斷的增多,這樣就會在一定程度上對人們的位置信息進行記錄、監視,通過對人們海量信息數據的分析,就可以了解人們的出行、消費等規律,這樣就會在一定程度上威脅人們的生命以及財產安全。
同時,隨著云計算的不斷發展,云設施具有經濟性的特征,這樣就會在一定程度上給僵尸網絡的發展帶來了契機,增加了密碼系統破譯的幾率。而因為云計算的不斷發展,使得人們對于計算機越來越依賴,將個人的信息、工作信息等存儲在網絡之上,這樣就會增加信息泄露的幾率。
為了解決信息安全性的問題,一些學者提出了K-匿名的方法,將自己與周邊的用戶組成一定范圍的具有集合性的UI性,請求位置服務,可以模糊自己的精準定位;一些學者提出通過對周邊K-1的用戶位置信息進行搜集整理,通過其中一個信息名義發送位置請求服務,可以實現隱藏坐標的效果。一些學者通過將集中信息流控制以及差分隱私保護等方式,將其融入到數據生成以及計算的階段中,提出了保護隱私系統,通過隱私保護系統避免在計算中將一些非授權的隱私信息數據泄露,支持對計算結果的自動除密,這樣可以有效的避免定位信息泄露等問題的出現[3]。
而蘋果則研發了電子分析污染技術,此技術在應用上可以將用戶在蘋果產品中產生的各項行為信息數據進行污染以及混淆處理,這樣就降低了信息泄露的幾率。這些加密措施與手段主要的原理,就是在加密手段無法保護個人信息的時候,通過冗雜的信息干擾有效的信息,這樣就會增加信息竊取的成本,進而降低信息泄露的幾率[4]。
在傳統的網絡公司運營中其主要的模式就是在自己的服務器上對產品以及服務進行管理,通過網絡連線的方式為用戶終端提供信息,其產生的數據信息屬于公司。而在大數據時代,服務公司會通過第三方平臺進行業務信息的存儲,也就是說用戶提供數據,服務方處理信息數據而數據的存儲則在第三方。大數據對IT產業鏈的影響主要就是數據資源、應用軟件以及基礎設施三個內容。數據資源中,各個信息中心、通信運營商等要對大數據技術進行研發與應用,充分的培育專業的人才,完成數據資源收集以及產業開發;而在軟件方面,隨著高性能云平臺的不斷成熟,云應用軟件也會不斷的成熟,這樣就可以提升網絡應用服務的質量與效果。
科學技術手段在不斷的發展中,計算機網絡信息技術在人們的生活中越來越重要。隨著無線網絡以及智能手機、移動設備等無限網絡的不斷普及,人們逐漸進入到了大數據時代,構建完善的大數據應用技術系統,完善大數據處理系統,才可以真正的實現網絡化以及信息化的發展趨勢,加強對大數據應用技術體系以及潛在問題的分析,綜合實際狀況的有效應對,才可以真正的推動其持續發展。
[1]靳琦. 大數據應用的技術體系及潛在問題探討[J]. 電子技術與軟件工程, 2015.
[2]竇萬春, 江澄. 大數據應用的技術體系及潛在問題[J]. 中興通訊技術, 2013.
[3]胡輝, 陳伽, 胡松,等. 分析大數據應用的技術體系及潛在問題[J]. 電子技術與軟件工程, 2016.
[4]何友,周偉. 海上信息感知大數據技術[J].指揮信息系統與技術, 2018.