山東醫學高等專科學校 陳 軍
大數據是信息技術與專業技術、信息技術產業與各個領域有機融合的典型領域,在國民經濟發展中具有廣闊的應用前景。大數據時代到來后我國的數據規模已經超過美國而位居世界首位,原因與我國是全球的人口大國、制造業大國、互聯網大國、物聯網大國,每個環節無時無刻不再產生著數據,而如何處理、調動、應用大數據則成為一個不可回避的現實問題。信息處理技術(Information Processing Technology)與計算機的有機結合使得數據的處理更加得心應手,但大數據時代的沖擊下其所使用信息處理技術勢必會出現深刻的變革。因此,在此種背景下對計算機信息處理技術展開深入分析具有重要的研究價值和現實意義。
“大數據”為近些年來涌現出來的科技新詞。麥肯錫公司首先提出了全球步入“大數據”時代,數據已經滲透到了各行各業的方方面面,并且成為最重要的生產要素之一,時至今日已經在物理學、生物學、環境生態學等領域、軍事、金融、通訊等行業中得到了廣泛的應用并成為推動技術創新的重要助力。哈佛大學加里·金曾經指出“大數據是一場革命,海量的數據資源使得各個領域開啟了量化進程。”盡管目前了解“大數據”的群體依然不多,但不可否認的是“大數據”帶來技術革新卻早已經潛移默化的走入了百姓日常生活之中,如網購過程中“大數據”可以為消費者提供同類產品的比價、準確預測你的喜好等優質服務;民生領域中“大數據”省去了業務的眾多環節,無需備齊各種證件、無需反復奔波、無需排隊等待,通過下載應用程序(Application,App)并在線上辦理即可,以交管12123為例,在該平臺上即可以完成違章查詢、扣分、交罰款等業務;醫療領域中網上預約掛號有效的縮短了患者等待時間,使得就診更為便捷。以上種種便利均得益于大數據時代帶來的技術創新。數據每時每刻都在產生,但形成的數據卻并不都具有使用價值,各種渠道在拓寬了數據來源的同時亦使得信息多樣化特點凸顯,如何從中篩選出有用的數據就成為擺在大數據時代面前的一道難題。
傳統數據信息的采集主要通過爬蟲或者是抽取-清洗轉換-加載(Extract-Transform-Load,ETL)完成,其中爬蟲常用的有Requests、BeautifulSoup、scrapy、selenium等,能夠滿足特定需求的人群使用,獲取數據后進行數據清洗即可以從中篩選出感興趣或者是有用的數據信息。ETL則能夠打破業務系統間“數據孤島”現象,借助數據抽取、數據清洗、庫內轉換、規則檢查、數據加載即可以完成數據處理的整個流程。雖然以上手段能夠在一定程度上滿足使用者的使用需求,但大數據時代到來后以上工具所采集到的數據信息關聯度較差、離散度較高且很難聚合在一起,由此使得數據信息資源并未得到充分的挖掘。由此信息采集技術在原有流程基礎上做出了革新,即:數據采集的同時完成數據標簽的添加操作,利用標簽將彼此具有內在關聯性的數據關聯起來,以視頻數據采集為例,在采集視頻數據本身的同時亦可以加入視頻發布時間、發布者、點贊及評論等標簽,通過圖數據庫技術即可以完成對收錄視頻數據的迅速分析。相較于傳統數據收集停留于一級數據的不足,大數據時代下的信息采集技術通過設定標簽,根據使用者需求設定檢索規則、檢測策略、檢索關鍵詞即可以實現對數據信息逐步細化的目的,可以為使用者提供多級數據,整個數據鏈中的每個節點均可以被其掌握,明確上下游關系,使其具有較強的可追溯性。由于相同標簽下的數據存在著顯著的內在關聯性,使用者通過對部分數據信息進行深入分析就可以對整體數據變化規律做出推測,從根本上提高了數據分析的準確性。近些年來云計算(Cloud Computing)的興起給數據信息采集工作提供了強大的便利,隨著信息技術的發展,云計算為分布式計算(Distributed Computation)、效用計算(Utility Computing)、負載均衡(Load Balance)、并行計算(Parallel Computing)、網絡存儲(Network Storage)、熱備份冗雜技術(Hot Standy Router Protocol,HSRP)、虛擬化技術的有機整合,使其具備了實施監測數據庫以及動態信息采集的能力,經由云平臺從多個數據庫中同時采集數據信息。
步入大數據時代后雖然業界對于大數據的具體量級并未給出明確的界定,但肯定不會低于太字節(Terabyte,TB),并且總體上數據缺乏統一的規律,數據類型也十分多樣,如圖表、表格、日志等,甚至還有視頻以及音頻。此外,大數據并非一成不變,而是每時每刻都在更新,由此使得數據規模不斷擴大。各種數據在獲取之后需要在第一時間保存,以防止數據的丟失,削弱其蘊藏的使用價值。大數據時代本質上屬于數據爆發的時代,種類繁雜、規模龐大的數據存儲就成為一個棘手問題。目前國外流行的DEEP WEB技術成為大數據時代下一種備受推崇的信息存儲技術,在統一的存儲環境中數據信息在規模、分布方式、動態變化等方面均有著相對應的特點,集成處理能力更高。谷歌公司研發的分布式存儲技術(Google File System,GFS)成為大數據時代下數據信息存儲技術的個中翹楚,該技術將整個系統分為了三個角色,分別為客戶端、主服務器、數據塊服務器,客戶端提供應用程序的訪問接口,通過應用程序客戶即可以直接調用庫函數。主服務器則是整個管理技術的節點,負責元數據的存儲并由每個數據塊節點實施更新元數據。數據塊服務器負責數據的具體存儲工作,將數據信息按照固定大小進行分塊,一般情況下默認為64兆,每一塊被稱之為一個數據塊且具有為宜的64位標簽。該信息存儲技術已經在萬國商業機器公司、百度等知名企業中得到了廣泛的應用,其所具有的優勢在于以列存儲為數據信息的主要存儲方式,有效的壓縮了龐大的數據信息,占據的空間更小,磁盤空間實際利用率處于較高水平。在今后工作中只需要不斷完善現有的信息存儲方式即可以滿足當前乃至今后一段時間的信息存儲需求。
云計算采取的信息存儲技術與GFS不盡相同,高可用性、高可靠性、經濟性好為云計算的主要原則,除了利用分布式存儲來對數據信息進行保存外,還充分運用了冗余存儲技術對已經存儲的數據進行處理以提高其可靠性,通俗而言就是將一份數據存儲多個副本。GFS面向的客戶群為企業用戶,而云計算則可以滿足幾乎所有的用戶使用需求,在云技術不斷完善下其所具有的高吞吐率越發引起社會各界的關注,核心系統中擁有大量的服務器,存儲系統為谷歌公司的GFS以及Hadoop團隊研發的Hadoop分布式文件系統,可以滿足海量的、大型的、分布式的數據存儲與訪問需求。但當前需要考慮的問題在于如何完成內部存儲數據的快速準確定位、保障數據存儲的安全性、底層設備數據存儲不均等方面。
大數據時代下數據已經被全球公認為繼土地、勞動力、資本之后的第四大生產要素。在萬物互聯的時代,海量的數據信息匯聚在一起,以大數據為基礎商業領域形成了精準營銷以及智能進化的布局,智能商業時代拉開大幕。經過處理之后的數據信息往往蘊藏著豐厚的經濟收益,但互聯網是一個開放性平臺,任何人、任何時間都能夠借助互聯網獲取感興趣的數據信息,由此使得數據信息存在著較高的風險,信息安全問題備受社會各界的矚目。步入大數據時代后的信息安全技術研發取得了突破性進展,依托現場可編程門陣列(Field-Programmable Gate Array,FPGA)的高速并行技術、以太網高速數據傳輸技術、多路輸入輸出技術、密鑰管理技術研發的高速密碼運算設備使得數據安全得到了有效提升。該設備能夠利用SM4算法對重要、關鍵數據進行加密處理,有助于防止數據泄露,提高保密性;使用SM3算法對數據進行散列處理,獲得數據摘要后再進行散列運算后有助于避免數據被篡改,數據完整性大幅提升;數據傳輸期間使用數字簽名來提升業務行為的抗否性,同時使用驗證簽名確認身份;用戶訪問權限控制對于保證使用者身份真實性具有重要意義,加密模組利用管理員以及操作員兩級身份實現對訪問權限的控制。除此之外繼續完善現有計算機信息安全管理體系也是提升數據安全的重要舉措。
結語:綜上所述,大數據時代給各行各業均帶來了極大的便利,催生了智能商業時代,但如何對數據信息進行處理就成為一個首要解決的問題。傳統信息處理技術越發難以契合大數據時代發展所需,使得數據蘊藏的價值并未充分挖掘。本文從信息采集技術、信息存儲技術、信息安全技術三方面對步入大數據時代后計算機信息處理技術發展趨勢進行總結,希望能夠為提升大數據安全提供幫助,