文/王琳
21世紀是科學技術迅猛發展的時代,大數據已走進我們的生活,在科學領域,爆發式增長的大數據為科研人員和社會發展帶來了巨大的價值,而科學大數據的處理分析是一項技術要求高、浩繁的大工程。然而現在常用的大數據處理軟件已不能滿足當今時代大數據處理的要求,因此研究以云分析為代表的大數據處理分析軟件就顯得尤為必要。
大數據逐步走進人們的視線,其也越來越彰顯其具備的優勢,已被廣泛應用至電子商務、衛星遙感、高能物理、現代新農業等領域,成為大國間博弈的心領域。大數據對人類日常生活及對當今世界的新理解的影響也更加明顯。而作為大數據重要分支領域的科學大數據因具有復雜性、綜合性、不可重復性、高維性及高度集成信息的內部特征及在數據內容、體量、分析等方面具有的傳統數據分析無法比擬的外部特征。且其研究方向從單一學科向多學科并跨學科的轉變,使得科學世界正因科學大數據的興起而發生變化。因此,盡快開發并使用與之匹配的分析服務系統,給當今信息技術領域帶來了新的挑戰。
Matlab 因其在算法開發、數據分析、計算等領域提供了高級編程語言和交互式的環境,因此被廣泛用于眾多科學領域。R 語言、Weka是眾多免費的單機環境智能分析軟件的典型代表。R語言因可提供強大的統計分析功能,且用戶可根據自身需要安裝個性化擴展包而增強R功能,在統計分析和繪圖語言中用途廣泛?;?Java 語言運用的Weka 數據挖掘平臺因在可視化、拖拽式分析流程設計界面方面的強大功能,并在預處理和機器學習算法方面集成了大量數據。但因此類設計初衷為單機模式運行的軟件系統,無法針對當前分布式存儲的科學大數據進行處理,因此在處理科學大數據方面存在先天不足。
在分布式環境下Hadoop Mahout、Spark MLlib是分析軟件的典型代表。通過使用這類代表性的軟件,分布式并行挖掘方面的問題已經被研究人員解決,并提供了具有代表性的可供參考的的機器學習算法和模型。隨著科技的發展,像Tensor Flow、CNTK等用于構建和訓練深度神經網絡模型并可用于分布式和異構計算的軟件也被廣大技術人員使用。但對于科研團隊的科學研究工作,此類軟件雖然在算法庫和計算平臺方面有一定的豐富度和高效性,但因編程開發程序的不足及系統配置的不完善,在分析較為復雜的科學問題上,存在先天性的不足。
當前,通過云平臺對大數據進行智能分析的云計算智能分析軟件的使用率逐步提升。高效實用機器服務的模式也被眾多云平臺廠商研究的熱點方向。但這些系統在平臺鎖定和特定開發語言方面存在不足,用戶無法自主性的對算法庫進行擴充?,F如今,一些科學家攻克了技術難題,開發了具有瀏覽器架構模式的分析軟件,在數學建模,云數據計算和數字模擬方面具有革新性意義。這種軟件系統以云平臺部署為基礎,為特定需求的大數據分析進行高速處理,并提供能夠支持科學大數據分析服務的處理過程。
隨著時代的發展,人工智能等高新技術被應用到科學研究中的需求越來越強烈。當前,智能分析軟件不僅需要在相關領域提供基礎和傳統算法運算,還被廣泛應用于深度縱向學習、自然語言理解和構建生物圖譜等新型人工智能方向的集成應用。為現代社會解析生命秘密、高通量測序等龐大系統的數據提供基礎支持。
復雜數據的處理、分析以及對于靶向關鍵性數據的提取過程的軟件因開發成本高昂,技術難度大,仍處于開發完善的過程中。當前對于龐大大數據處理的迫切需求,使得大數據分析服務軟件急需在傳統式編程開發技術的基礎上,提供可視化的分析挖掘環境并為算法庫和模型提供高質量、可復制的計算模式并實現囊括集成數據源、設計流程與執行和可視化等功能于一體的智能分析云軟件。
云服務類的大數據分析軟件不再像傳統軟件一樣需要在本地進行安裝,并需要定期升級維護,提高了軟件應用的效率。同時,云服務提供的瀏覽器可為深層數據挖掘與分析、流程化的操作和管理提供統一的門戶界面,增加軟件的便利性。此外,通過在線API的形式對模型、算法等數據源進行復制、共享使用的“功能及服務”型功能也被視為未來云服務分析軟件的重要特征。
因為分析模式在不同的科學領域范圍內的需求千差萬別,因此通用性、大眾化的大數據分析軟件顯然無法滿足對于特定領域進行研究并需要個性化處理的科學團隊的要求。傳統的大數據分析軟件因無法提供在分析流程、可視化等方面的個性化分析功能也不被采用。隨著科學研究的深入,理想的大數據云分析智能分析軟件應該囊括分析流程、可視化等方面的分析功能,并能針對不同的研究方向、不同的數據處理需求提供個性化的分析服務,這也是當前技術人員重點研究的方向。
本文在對當前常用大數據處理軟件分析的基礎上,提供了未來云分析服務性能優化的技術方向,旨在為開發適用于現代社會發展的云分析服務的科學大數據開發軟件提供建議。