常 潔
(中國水利水電第十一工程局有限公司 河南 鄭州 450001)
隨著互聯網技術的飛速發展,社會逐漸進入了信息時代,各行各業每時每刻都在產生海量的信息數據,面對如此龐大的信息數據[1],現有的信息儲存管理技術受到了沖擊。傳統的信息儲存系統內部的分散性較高,無法體現拓撲結構的高效性,不滿足海量數據的存儲需求,因此為了促進社會信息化發展[2],保證海量數據的高效存儲調用,需要設計新的海量信息存儲系統。
傳統的信息存儲系統往往是基于數據的集中管理要求設計的,雖然在一定程度上能完成數據的集中管控,但因其整體的國產性較低[3],信息存儲時消耗的成本較高,除此之外在海量信息存儲時,要求的信息調用速度較高,傳統的信息存儲系統往往無法實現無損壓縮轉換,因此不滿足目前的海量信息存儲需求。BP神經網絡是一種特殊的逆向訓練神經網絡,可以無需確定信息之間的關系,完成期望值操作[4],其在信息處理中具有較高的應用價值,能實現高效信息轉換,降低信息儲存調用產生的誤差,因此,本文基于BP神經網絡設計了新的海量信息儲存系統,為后續的信息管控提供依據。
在海量信息儲存時,為了增加信息管理訪問的合理性,需要使用CMDS儲存器,實現信息的高效管理訪問,傳統的儲存器往往使用類似光纖通道的結構進行儲存,由于本文設計的系統面對的數據量較大[5],因此使用了交換式轉換I/O矩陣通道對儲存結構進行拓展。
CMDS儲存器內部使用了InfiniBand交換結構設計了標準化連接模型,通過InfiniBand交換結構可以拓寬模型的鏈路通道,有效地解決數據堵塞問題[6],提高系統整體的數據處理性能。InfiniBand交換結構與CPU直接相連,在數據發送后[7],InfiniBand交換結構可以立即將其傳輸到相關的鏈路通道中,再將交換后的存儲數據輸入到CPU中。為了實現數據的高效管控,CMDS儲存器還添加了SQL Server文件,進一步提高系統的整體儲存容量。
在系統海量信息采集時,需要進行集中管控,降低信息采集功耗,因此本文設計的系統添加了ADμC812控制芯片統一對系統的信息采集模塊進行調控。ADμC812控制芯片是由AD公司研發的高效信息采集控制芯片[8],該控制芯片的內部增加了多個數據采集通道,因此該芯片即使不連接其他外設設備,也同樣能實現高效信息控制采集。
為了增加ADμC812與系統的匹配度,本文設計的系統在該芯片內部添加了A/D轉換中心,在A/D轉換中心中能實現海量信息多路傳輸[9],分層采樣,最大限度地增加系統的信息處理效率。在海量信息存儲過程中,必須注意信息的分類問題,因此ADμC812控制芯片額外增加了自校準特性,將SFR讀寫中心與芯片內部的bit輸出電壓結合,即可完成海量信息有效分類。ADμC812控制芯片使用8 051內核,并以256 Byte與內核兼容。除了上述優勢外,ADμC812控制芯片設置了12C總線接口,保證芯片的靈活控制功能,能有效降低信息采集功耗。
為了保證海量信息儲存系統的信息存儲調用效率,本文設計的系統使用RISC處理器處理系統內部的指令。RISC處理器含有一種總線,其可以在同一空間有效地處理系統內部的指令[10]。RISC處理器采用單線指令處理法,一條指令處理完畢后再處理下一條指令。RISC處理器的使用成本較高,因此為了降低使用成本,本文設計的系統額外添加了多個微處理單元,與系統時鐘結合共同完成海量信息儲存系統的指令處理。
根據海量信息存儲系統的要求,本文選取Hadoop和Hbase數據庫來采集處理海量的存儲信息數據。選用Name Node作為管理基礎層,驗證現存的儲存節點,通過驗證的節點才可以進入訪問通道,讀取需要處理的信息[11]。在實際信息采集的過程中,受信息類型的影響,很容易出現信息不兼容的問題,在使用Hadoop采集存儲信息時很容易出現元數據膨脹問題,無法保證信息的存儲效率,本文設計的系統將Hadoop與Hbase數據庫進行整合,增加存儲系統的處理彈性,提高系統存儲的基礎效率。
采集到相關的存儲數據后,需要設計存儲數據在系統中的存儲格式,本文利用Hadoop集群將現有的數據流劃分開,并在節點服務器中記錄全部元數據信息,確保各個Name Node節點都能有效被響應,在用戶查找存儲信息時,根據各個節點響應效果對查找文件進行綜合定位[12]。為了降低存儲信息耗費的內存,本文使用SequenceFile技術進行信息壓縮處理,進一步降低海量數據在信息存儲系統中占據的空間,實現信息的有效采集處理。
傳統的信息存儲系統缺乏控制海量信息的中心控制節點,數據存儲的難度較高,本文設計的系統結合BP神經網絡,使用梯度搜索技術設計了數據儲存控制節點的參數計算式,見式(1)。
公式(1)中,D代表數據總量,E代表節點權重,該參數在實際使用過程中需要進行初始化處理,避免計算式存在局部最小值。為了保證系統的集中控制功能,本文設置了加速讀取緩存層,該緩存層可以存儲一段連續時間內的信息,判定信息的類型,進而將信息輸入到各個節點上。
中心節點可以有效地分配系統中的緩存資源,保證節點資源的平均性,因此在構建中心節點時可以代入上文計算的數據儲存控制參數,分析系統的數據及調度任務,再選擇恰當的節點完成綜合分配[13]。中心節點與系統內部的元數據信息有重要關系,也是提高系統性能的關鍵部分,元數據信息通常被儲存在系統的內存中,維護系統的正常運行,因此在中心節點構建的過程中,可以詢問信息的緩存時間,進行綜合化配置,保證信息儲存的高效性。
根據中心節點的位置可以規劃系統的任務調度步驟,設計海量信息存儲的功能模塊。研究發現,在信息存儲過程中,各個信息的存儲速度與信息預存節點的基礎狀態相關,因此結合海量信息的存儲特點,設計了信息存儲系統的功能模塊。
(1)元數據管理模塊。在元數據讀取時通常需要使用Timer定時器來不斷地讀寫和修改,因此為了反映各個時間段的數據關系,本文使用Meta Data Manager進行了元數據管理。該管理模塊構建了多個索引存放結構,并通過ProvObjInfo完成數據映射,避免消耗過多的數據分配時間[14]。
(2)任務調度模塊。在客戶端發送請求后,需要根據系統的運行狀況進行節點分配,完成各個節點的任務,中心節點可以根據客戶端的請求指令將數據進一步解析,結合分配函數計算后傳輸到客戶端中。
(3)客戶端緩存模塊。緩存模塊是信息存儲系統的核心模塊,可以在LocationEntity中記錄需要緩存的信息、分析緩存節點的位置,用戶在查詢過程中可以調用search Entity Location函數,實現信息的準確定位[15]。
實現海量信息存儲的最后一步就是設計有效的信息調度策略。在調度初期可以設計標準化儲存架構,將總儲存設備與信息傳輸通道相連,用戶發送請求后文件服務器需要立即進行響應,編寫驅動程序,待數據返回后便可結束此次調度。
為了增加海量信息的調度效率,本文設置了兩個不同的調度通道,通道1可以接入局域網,向服務器提供儲存服務,通道2可以實施設備通信,有效地增加了數據分流處理效率,降低了文件服務器的負荷。
選取DBPS測試平臺進行系統測試,為了保證測試的穩定性,該測試平臺使用C++搭建測試架構,并使用標準化g++4.8.2進行調節,在保證系統測試穩定性情況下,本文搭建交換局域網,拓撲結構見圖1。
由圖1可知,DBPS測試平臺內部設置了10臺服務器,各個服務器的源碼不同,統一通過交換機與局域網相連,服務器CPU頻率設為3.1 GHz,內存大小設置為64 G,CPU位數是64 bit,服務器使用SATA 500硬盤,其最大傳輸效率為1 000 Mbps。交換機傳輸速率為10/100/1 000 Mbps,內部共包含24個端口,并以全雙工模式進行傳輸。本文搭建系統測試平臺內部設置了緩存、儲存節點,各個節點的參數配置見表1。

表1 節點參數配置
根據表1節點參數,可選取符合系統測試需求的海量儲存信息,在測試過程中,使用creste命令創建不同的測試對象,接下來為選取對象設置添加屬性,構建命令關聯,提交給系統測試中心,系統按照指令提示完成測試操作,并輸出測試結果。
在上述搭建DBPS測試平臺中分別使用本文設計系統完成信息儲存操作,記錄兩個系統的存儲耗時,測試結果見表2。

表2 系統測試結果
由表2可知,本文設計存儲系統在連續幾次信息儲存操作中消耗時間均較短,證明設計的海量信息存儲系統的性能良好,具有有效性,有一定應用價值。
在信息化時代,各個領域的數據信息量都在急劇增長,傳統的信息儲存系統受集中管理限制已經無法滿足目前的信息存儲需求,本文基于BP神經網絡,設計新的海量信息存儲系統,進行系統測試,結果表明,本文存儲系統的存儲耗時較短,性能良好,有一定的應用價值,可以為后續的信息管控提供參考。