文/張珍
Hadoop 是云計算的核心技術,其內涵為一個分布式系統基礎架構,基于Hadoop 技術人員在單一或數千個節點上布置服務器集群,并實現這些服務器集群的大容量型存儲和計算。研發Hadoop 的原因在于:傳統計算機存儲技術讀寫數據的速率較低,盡管隨著集成技術的飛速發展,主流硬盤的容量增長了數千倍,但由于數據存儲讀寫技術沒有實質性提升,技術人員實際從硬盤上讀寫程序的速度只增長了數十倍。而Hadoop 能夠通過構建并行數據讀寫體系,采用冗余讀寫的方式解決計算機數據存儲讀寫速率提升問題。此外,Hadoop 內含MapReduce 編程模型,能夠實現計算機磁盤數據抽象化讀寫,將待讀寫數據轉為數據集,提升數據讀寫的效率。
HDFS 是分布式文件系統的簡稱,是云計算技術中負責存儲海量數據的關鍵技術。它采用塊單位方式對計算機數據進行操作,HDFS 最少能夠操作64MB 大小的系統數據,其優勢為:能夠對海量數據文件進行操作,并可存儲PB 級別的數據,因此它成為了海量計算機數據存儲操作的“代名詞”。實際操作時,HDFS 采用兩種節點方式運行,分別為NameNode 和DataNode。首先,NameNode,即名稱節點,是HDFS 中心服務管理者,負責對整個文件系統命名空間、內部存儲磁盤數據大小、訪問權限和路徑等信息的管理;其次,DataNode,即數據節點,是HDFS 文件系統操作者,負責系統數據的存儲、調用定位操作、保存文件塊及發送存儲塊列表。
本系統以云計算分層思維為原則,采用分布式存儲及服務器虛擬化理念將云計算技術與常規高校實驗室管理軟硬件資源體系有機整合,構建高速的實驗室管理云平臺架構。具體來說,本系統的核心架構由三部分組成,分別為:基礎設施層、管理通訊層和應用交互層,如圖1所示。
(1)基礎設施層。以云計算虛擬技術為核心構建,應用Linux 操作系統設計實驗室虛擬化基礎設施服務器群,并基于Windows 搭建設施層訪問界面,對系統中的各類軟硬件設施進行管理。

圖1:實驗室管理系統架構圖
(2)管理通訊層。應用Hadoop 搭建云環境,并運用HDFS 設計文件、信息和數據訪問分布式系統,大大提升實驗室管理信息的訪問吞吐量和速率,此外本層中每個Hadoop 組件中均配置了獨立的JAVA 虛擬機,用于進行數字通信。
(3)應用交互層。基于Hadoop 云環境下搭建應用交互層實現了實驗室管理信息的云端共享,為提升管理員和師生的應用體驗,采用Web 瀏覽器設計訪問界面,簡便易操作。
本系統主要負責對實驗室的日常運行狀況進行數字網絡化管理,由計算機硬件和配套的管理軟件構成。傳統模式下高校實驗室管理系統通常基于B/S 架構設計,大多僅能實現局域網范圍內管理效果,且數據存儲讀取速度較慢,隨著國內各高校實驗室規模不斷擴大,待管理實驗室數據及項目也越來越多,傳統實驗室管理系統難以適應新形勢下多元化管理需求。基于此探究基于云計算技術的高校實驗室管理系統,可大大提升管理的效率及管理數據存儲調用的速率。本系統的設計正是基于上述功能需求,以國內某高校計算機專業實驗室管理系統為例,在實現系統用戶信息管理、實驗室課程信息管理、學科建設管理和實驗項目管理等功能基礎上,引入云計算中Hadoop 和HDFS 技術,以提升系統管理信息管理的速率和文件存儲容量。

圖2:系統讀寫數據測試速度對比圖
本系統具備用戶信息管理、實驗室課程信息管理、學科建設管理和實驗項目管理四大功能。首先,用戶信息管理。為實驗室管理員和使用師生提供登錄信息管理功能,包括:個人信息管理、個人密碼管理、用戶信息修改設置管理等。其次,實驗室課程信息管理。實現實驗室課程信息的遠程云端管理,包含:遠程云端選課、增加修改課程信息、請銷假等。再次,學科建設管理。實現了實驗室實踐課程項目化建設管理,包含:學科建設發展管理、實驗論文管理、實驗學科會議管理等。最后,實驗室項目管理。是實驗室軟硬件和各類日常事務項目管理的主要模塊,包含:實驗室儀器管理、服務器管理、數據庫管理及文件管理應用Hadoop 和HDFS 技術構建分布式文件管理系統,具體管理功能設計方案包含實驗室信息讀、寫及存儲兩個方面:
3.1.1 讀管理功能設計
在基于分布式文件管理系統的基礎上,通 過HDFS 中 系 統 文 件 的open()函數打開預讀取的管理信息,進一步調用DistributedFileSystem 中 的NameNode 獲 取 管理信息中的數據塊及相應的讀節點地址,之后通過調用FSDataInputStream 將數據塊反饋給客戶端,完成管理信息的讀操作。
3.1.2 寫管理功能設計
寫管理用于向實驗室管理系統中寫入信息,例如:用戶的個人信息、實驗室課程信息、實驗室儀器存放信息等,具體操作時首先需調用HDFS 中的create()函數創建元數據節點,之后繼續調用DistributedFileSystem 打開讀數據通道,并進一步調用DFSOutputStream將待寫入的源數據分解為若干數據節點,通過dataqueue 功能寫入數據。上述讀寫數據的操作均基于HDFS 分布式系統實現,在Hadoop構建的架構下形成了針對實驗室各項管理數據的快速高效讀寫操作,相較于傳統的實驗室管理系統而言,讀寫的效率能夠提升數百倍。
基于云計算技術設計的高校實驗室管理系統相較于傳統實驗室管理系統的最大優勢在于:對大容量數據的讀寫速率更快,且存儲吞吐量更大。為檢驗所設計系統的性能,特進行了針對性的實驗室數據上傳下載測試,得出如圖2所示測試圖。
如圖2所示,應用本系統讀寫實驗室管理數據信息時,當數據容量<2GB 時,單一和集群數據的讀寫速率并無太大區別,但隨著數據容量的遞增,本系統對集群大容量數據的讀寫速率更快,而單一數據的讀寫速率更慢,說明基于云計算技術設計的實驗室信息存儲管理系統針對海量數據的讀寫存儲更具速率優勢。
應用云計算設計高校實驗室信息存儲管理系統,在數據存儲和讀寫上相較于傳統系統更具優勢,本文詳細闡述了應用云計算技術設計高校實驗室信息存儲管理系統的方案,并對系統測試結果進行了分析,希望能夠為國內各高校的實踐應用提供一些思路。