姜斌
(海軍潛艇學院,山東 青島 266000)
近年來,數據密集型和處理密集型的工作開始頻繁出現并且發展速度較快。專家們就如何將上述工作更加快速有效的完成展開了研究并得到了有效的研究成果[1]。高性能計算系統(HPC,High Performance Computing)可以有效的解決該類應用程序的系列問題。隨著大數據內容的增多,其復雜性也在不斷的變高,為了得到有效的大數據分析結果,應當通過良好的設施及平臺來完成[2]。在大數據時代中,高性能計算的發揮,可以有效滿足大數據有關于存儲、索引、處理、分析及挖掘的各類要求。
計算在數學中的概念是一種行為,通過已知量的可能組合,得到新的量,也就是集合之間的映射。而HPC的概念就是作為單個極其的一部分,使用很多處理器或集群中組織的多臺計算機的計算系統和環境。簡單來說就是多臺服務器來完成技術工作的負載,至于究竟需要多少臺服務器并不重要。在性能較高的環境中,網絡系統和主題之間的潛伏期較短,所以能夠有效改變網絡的性能及傳輸速度[3]。
在現實世界中,很多事物都可以通過建立模型等方式轉變成詳細的計算機語言,這些無數的信息數據有著明顯的區別。而大數據有著規模性、變化性、真實性。在大數據中,利用先進的計算機技術能夠很好的大數據的要求給予滿足。
大數據具有多樣性,其規模性、變化性、真實性等給高性能計算帶來不小的挑戰。大數據對于一些基礎設施要求較高,例如為了得到高性能計算,采取集中及分布的方式用來保證高性能及高吞吐量的方法,對稱多處理和大規模多處理解決方案較多;例如實現高性能辦法,共享內存、磁盤和無共享等;集群計算,即集群的建構、監管、度量、管理、維護等。這些無疑推動了HPC,使集群獲得了空前的成功并歸功于簡單的架構,通過傳統的方式商用服務器把互聯網有效的進行了連接。
伴隨著數據源和數據量的增加,傳統計算機系統平臺和設施在應對方面都顯示出了明顯的吃力感,傳統處理方式也無法應對大數據的需求。可以說傳統IT的環境痛點就在于數據的存儲、管理以及處理。使用原有的系統來處理數據信息,不但耗時,而且還需要花費大量的技術資源解決需求。但如果在架構上把數據庫、服務器、存儲繼承為一個專門用來管理的系統并把數據移動降到最低,就能有效的快速提升分析數據、建模、數據評分的效率。通過當前最前沿的創新分析技術,能夠給大規模的數據提供較好的性能。集硬件、軟件和存儲為一體的設備,可以有效的節約規劃時間,降低在商業分析中被無意義消耗的時間。
與應用程序服務器或其他的一些桌面程序不同,Indatabase 處理是專門用來分析一些數據庫管理系統功能的,可以有效的提升企業分析性能、數據管理型和可拓展性。很多數據因為其中的數據量相對較大,又從網絡中重復復制過,所以數據與實際相差較大。利用In-database技術能夠對該數據庫平臺進行有力分析,該類平臺存在的本身目的就是為了高效數據訪問而設計,所以再遇到海量數據時也可以輕松應對。利用MPP的架構能夠拓展并分析計算性能,在短時間內大幅度加快分析計算的時間,以便快速得到結果[4]。
在現代社會中,營運中的企業每隔兩年數據庫中的存儲量就會翻倍,而這些數據所需要的能耗比數據中心的電能消耗還超出40%,所以對于企業來說,擁有一個規模較大又具備擴展性和智能性的存儲解決方案至關重要[5]。這樣的方案還需要方便管理,效率高且能為企業創造較多的收益等。由于很多大小規模不同的企業在面對大數據時都較為艱難,所以有無數人在大數據的浪潮中一直在維持著生產力和競爭力,但結果卻只是越陷越深。擁有一個擁有必要性能并且能夠實現擴展的文件系統是當前企業所需要的。HDFS系統可以有效的實現并拓展數據,幫助集群提供了巨大的空間。其中還包含了直連存儲模式,能夠有效的減少隨機讀取時產生的延遲問題,但其拓展性和性能方面相對來說局限性較大,這是因為其本身采用的空間服務器較為單一[6]。文件系統本身的機制時存儲、組織、提取以及更新數據。當系統出現問題需要解決時就會給企業帶來另外的額外負擔,這就需要提供一定的技術資源。時間和經濟投入等。很多工作組比較喜愛選擇網絡附屬存儲,這是因為簡單的性和可以利用以太網是關鍵需求。但很多網絡附屬存儲的解決方案并不能實現擴展,也無法滿足大數據及數據密集型時運用的程序需求。所以還需要另外的方案來應對大數據存在的問題。
大型機系統的基本架構多為特殊設備的預制網絡,這些特殊設備都會被統一進行管理,用來為大數據分析工作并負荷其所需的性能及可拓展性。很多大型機比分布式系統相對來說更為可靠,這是因為他們經過了幾十年的發展已經逐漸完善,慢慢成為了很多人用于工作負載的理想平臺[7]。大型機的系統擁有將硬件資源虛擬化的功能。從硬件角度來說,大型機并不能算是計算機,它更像是計算機的各類組件形成的網絡,其中涵蓋了可以主存的重要處理器、用來管理網絡及外圍設備的通道。在操作系統時大多使用符號名稱,這也讓用戶能夠通過更加動態的方式對虛擬機和磁盤卷進行重新部署。這樣就可以把一些常見的硬件資源放在不同的項目中,許多不同的系統進行混合,也讓共享使用變得更加簡單。
在HPC的存儲系統中有很多不足,導致系統在應用于高性能計算架構時出現無法滿足需求的情況。這其中的主要缺陷分別來自于配置及調優過程的有限自動化,缺乏對管理軟件的關注。當機構的規模開始增加之后,問題就變得更加復雜。配置的管理、維護、集成等任務都變得非常艱巨,想要解決這些問題就需要不斷的增加成本。為了更好的解決這些問題,應當采取專業的存儲基礎設施用來完成高性能計算應用的各類需求。通過一些傳統存儲基礎的設施也可以用來更來當前的HPC存儲,目前有以下幾種主要的存儲模式。
①直連式存儲:在早期階段,存儲區通常被設置成客戶端或服務器的系統,通過總線的互聯介質方式將其從其中一組連接到另外一組并進行存儲。有時客戶系統還可以直接與同存儲的設備進行通信。這類型的設備通信被稱為直連式存儲;②網絡附屬:網絡附屬就是將存儲設備與服務器進行共享,保存文件的專用功能,該類文件經過連接后可以訪問不同類型的客戶端及服務器,也就是說,網絡附屬存儲的方式可以共享文件服務器。由于其存儲開銷非常小,所以很適合用來做文件共享。但由于其文件共享的性能原因,可能會出現某一數據被同時進行點擊,導致性能出現瓶頸;③云存儲:云計算的方式給存儲信息和運行程序都帶來了較大的幫助和變化,不再是過去單個的臺式機或筆記本電腦來運行保存,而是都通過“云保存”的方式來存儲。
綜上所述,本文就大數據分析中的高性能技術及計算進行了淺顯的分析,隨著大數據時代的到來,過去傳統的數據提取方式、處理方式以及技術分析方式都受到了很多的限制,有些是因為沒有并行能力,但更多的還是因為沒有容錯能力,通過融合的方式對一些基礎設施和多功能平臺進行彈性的使用才是用來應對數據的最好辦法。