◆唐和卿
?
基于大數據時代的計算機信息處理技術淺析
◆唐和卿
(甘肅鋼鐵職業技術學院 甘肅735100)
人們大量使用手持終端設備接入互聯網,產生了龐大的數據量,這些數據已經成為信息社會的巨大財富,同時也帶來了數據篩選和數據安全方面的巨大挑戰。數據篩選即數據可用性問題成為大數據的重要挑戰之一。大數據的價值并非數據本身,而是由大數據所反映的“大決策”,“大知識”,“大問題”。近年來,大數據可用性的研究已經取得了一定成果,而計算機信息處理技術的發展就是要提高數據可用性,本文研究了大數據時代信息處理技術,供讀者參考。
大數據;靜態數據;流式數據;數據挖掘
大數據蘊含著巨大的價值,可以從中獲取豐富的信息,對改善和預測人們的生產生活,更加深入地認識和控制物理世界具有重要的戰略意義。但隨著各類信息數據的爆炸性增長,數據質量良莠不齊,部分數據呈現低價值性而數據整體呈現高價值性,劣質數據的大量涌現,極大地降低了數據的可用性,使數據之間的關聯性更加復雜。
大數據主要有三個來源:(1)互聯網上的數據庫資源;(2)各種科學實驗與觀測數據;(3)物理信息系統,如智能電網,智慧城市等。
批量處理:主要操作大容量靜態數據集,并在計算過程完成后返回結果。常用于對歷史數據進行分析,不適合對實時性要求較高的場合。
特征:一、數據體量巨大;二、數據精度高;三、數據價值密度低,例如監控數據,數據始終存儲在某種類型的持久存儲位置中。目前的主要應用為Apache Hadoop,專用于批處理的處理框架。Hadoop(集群)——大數據框架,用于由通用硬件構建的大型集群上運行應用程序。類似于CPU進程被分解為多個線程的操作,它的計算任務會被分割成小塊運行在不同的節點上,每個小塊可能被多次運行,實現了Mapreduce(分布式計算層)的編程范型。它提供了分布式存儲(文件)系統HDFS,數據被存儲在計算節點上以提供極高的跨數據中心聚合帶寬。基本步驟如下:
(1)從HDFS文件系統讀取數據集;(2)拆解數據集并按需分配至所有可用節點;(3)計算節點上的數據子集,中間態重新進入HDFS;(4)按鍵分組重新分配中間態結果;(5)匯總節點計算的結果并對每個鍵的值進行還原;(6)計算的最終結果重新寫入HDFS。
這種方式對每個任務需要多次執行讀取和寫入操作,速度較慢,對持久存儲依賴嚴重。MapReduce可以處理來自服務器磁盤空間的龐大數據集,意味著相比其他技術,MapReduce可以在硬件上直接運行,它的運行不需要大容量的內存支持[1]。MapReduce的縮放能力極高,對包含數萬個節點的應用也能輕松應對。如今圍繞Hadoop已經形成了遼闊的生態系統,Hadoop集群本身也經常被用作其他軟件的組成部件。很多其他處理框架和引擎通過與Hadoop集成也可以使用HDFS和YARN(集群資源管理器)。
典型應用實例:一、社交網絡;二、電子商務;三、搜索引擎;四、物聯網;五、云計算。
流式數據的處理,完成數據的動態清洗,格式處理。流式數據的特點:數據連續不斷,來源眾多,格式復雜,物理順序不一,數據的價值密度低,對應的處理工具則需要具備較高性能,以及實時、可擴展等特性。Hadoop主要是為離線數據設計,并不能夠對在線數據流進行處理。此外,隨著智能終端的普及,如今互聯網已經漸變為移動互聯網,用戶可以隨時隨地使用手持終端接入互聯網。流式數據的規模量逐步增長,內容和服務的實時性愈加重要。這也就對實時計算能力提出更高的要求,因此分布式的實時計算平臺Storm應運而生。系統基于Hadoop平臺,采用Storm作為實時計算框架,為在線任務的執行提供外部環境。并且采用KeyValue數據庫HBase作為主要的存儲方式,使得系統在高并發的情況下仍然能夠穩定服務。此外,用戶可以根據規則對業務處理邏輯進行自定義,大大提高了用戶使用數據的效率[2]。
流處理中的數據集是“無邊界”的,基于事件處理,隨著新數據的抵達持續更新,如果沒有命令停止則一直不間斷執行,處理結果實時可用。同一時間只能處理很少量的數據,不同記錄間只維持最少量的狀態。對流式數據采用批處理方法,采用對進入系統的數據進行緩沖的機制,這使得該技術可以處理巨大體量的傳入數據,提高單位時間內的數據吞吐率,但新數據進入緩沖區要等待緩沖區已有數據清空,這樣會導致延遲增高。
特點是靈活,直觀便于控制。以DBMS為主,有兩類應用:聯機事物處理(OLTP)和聯機分析處理(OLAP)如:spark系統,Dremel系統。Dremel 是由Google 研究出的“交互式”數據分析系統。可以組建成百上千的集群,處理存儲容量為PB(拍字節,1024TB)級別的數據。Dremel處理一個數據為秒級,而MapReduce是分鐘級。2009年Google的研究人員通過對每日超過30億次搜索請求和網頁數據的挖掘分析,在H1N1流感爆發幾周就預測出流感傳播;通過對微博、論壇、聊天記錄等網絡大數據的挖掘分析能夠發現社會動態,預警重大和突發性事件[3]。
圖像數據處理技術基本可以分成兩大類:模擬圖像處理(Analog Image Processing)和數字圖像處理(Digital Image Processing)。數字圖像處理是將圖像的模擬信號轉換成數字信號并利用計算機進行處理的過程[4]。其優點是處理精度高,重現性能好,靈活性高,效果易于控制,可進行復雜的非線性處理,使用不同的圖像處理軟件能獲得不同的處理效果,但在進行復雜的數字圖像處理的時候處理速度會較慢,數字圖像的處理對計算機硬件性能的要求較高。數字圖像處理技術主要包括:圖像變換、圖像壓縮和編碼、圖像增強和復原、圖像分割、圖像描述、圖像分類(識別)。圖像處理技術的理論和技術的日趨成熟,對圖像處理科學的發展作用越來越大,影響深遠,在人工智能,人工模擬,航空航天,軍事,視頻和多媒體系統、生物醫學、電子商務等領域被廣泛應用。基于圖數據處理系統Apache Hadoop,典型應用為中文知識圖譜,知立方平臺,zh-ishi.me,知件等。
數據挖掘(Data Mining)是從巨大體量的數據中通過數學算法搜索隱藏在其中的有價值的信息的過程,這些數據可能包含不完全、有噪聲、模糊、隨機等屬性。根據信息存儲格式,用于挖掘的對象有關系數據庫、面向對象數據庫、數據倉庫、文本數據源、多媒體數據庫、空間數據庫、時態數據庫、異質數據庫以及Internet等[5]。
大數據挖掘技術主要有這幾項:一、有效的大數據預處理技術;二、非向量數據挖掘技術;三、分布式大數據挖掘技術。
總之,計算機信息處理技術的日益發展為人們的生產生活帶來了極大的便利,更快、更高效,精度更高的計算機信息處理技術也在眾多科研人員的努力下快速發展。有追求就會有突破,只有不斷滿足社會大眾生活需求,才能使計算機處理技術高效快速發展,這是機遇,亦是挑戰。不斷加強計算機信息處理技術方面的研究,讓互聯網數據為人民大眾的福祉牟利,為推動我國現代化建設牟利。
[1]郭若男.基于Hadoop平臺的在線數據處理系統的設計與實現[D].北京郵電大學碩士論文,2015(08):1-70.
[2]李建中,劉顯敏.大數據的一個重要方面:數據可用性[J].計算機研究與發展,2013(05):1147-1162.
[3]李紅俊,韓冀皖.數字圖像處理技術及其應用[J].計算機測量與控制,2002(10):620-622.
[4]金育嬋.數據挖掘技術中關于關聯規則算法的研究[J].科技傳播,2011(06):223-224,226.