沈 琳
(云南機電職業技術學院,昆明 650000)
數據處理速度作為網絡篩選技術的重要指標,反映了互聯網數據篩選技術的發展水平。為了能夠提供更佳性能帶寬的I/O,通常會采取在網絡硬件體系中添加虛擬磁盤的考慮方案。但是在添加虛擬磁盤的操作過程之中,有兩個至關重要的因素需要考慮:一個是I/O子系統的實現方式,二是關于體量較大的文件儲存問題。為了能夠保障I/O中文件的瀏覽和訪問的速率,一般并列文件體系都是借助了文件分片的方法,具體指的是將體量較大的數據文件分成若干個分片文件。綜觀所有高性能的I/0案例,基本上滿足高帶寬的解決措施都是采取循環分片的措施,通過將體量巨大的數據文件進行分割,并且分割后的文件安排在工作網點的相關節點之上,保證了文件的瀏覽和訪問,提高了數據的運算和處理速度。工作站網絡中的結點是平等的關系,循環分片十分的方便,利用CollectiveI/O就是為了提高磁盤的存取效率,這也是充分利用了工作站的網絡特點,本文就對數據篩選技術在并行I/O中的應用進行分析。
隨著科技的不斷發展,并行處理技術也在日益成熟,基于并行計算機系統的并行數據庫系統能夠解決數據系統的I/O瓶頸,近些年來,國內外掀起了系統研究的熱潮,國內外的研究水平也在不斷的提高,具有高性能、高擴充性的并行數據庫系統還需要做更多的工作,為以后的工作打下堅實基礎。
I/O技術將程序所產生的大的小的I/O請求合并成少量大的I/O請求,這樣就能夠提高磁盤讀寫的速度,這也是該技術中最關鍵的部分,通過信息篩選工具,將時間跨度相對較小的瀏覽命令,計算機內部系統只執行唯一的磁盤處理,將體量較為龐大的文件夾,開始于字節位置最低的部分,在字節處理達到接近閉環的階段,文件數據被導向到計算機內部的緩沖區域之中,然后繼續對該數據塊進行進一步的處理和篩選,與此同時通過減少操作指令的執行頻次來提高數據處理的整體速度。數據篩選技術寫操作的過程與一般的方式不同,可以采用先讀再修改的方法,然后將要寫入的數據進行覆蓋,這時的操作并不是直接寫回,而是需要考慮到文件共享的問題,在寫操作的過程中當前進程將原來的數據寫入,從而導致數據的丟失,因此要對所有的數據進行加鎖。另一方面,因為存在數據矩陣讀取的狀況,例如在一個磁盤儲存了一個數據矩陣,那么在矩陣中的數據讀取過程之中,由于類似[3,1][3,4][3,6][3,9]這些矩陣數據并非是連續的有序排列,因此無法根據指令進行相關的復合處理,I/O技術也不能適用,于是只能借助四個I/O整合調用,但調取的數據體量較小,執行指令加上其間的間隔空隙可以形成一個數據模塊,通過將操作者所需文件數據移交給執行程序,應用程序工作過程之中又會多處讀取一些數據,但總體來看數據存取的模式處理下,執行請求的間隔很小,瀏覽巨大數據體量的時間超過了數據處理的運行成本,這就是數據篩選的運用思想。在數據篩選的過程之中,宏觀下可分為兩個階段,一是首先將間隔不連續的執行命令進行整合,二是來篩選最終選定的數據。

在多處理機的環境下,根據I/O請求來計算結點,最早采用CollectiveI/O的并行文件系統都是采用的Two-PhaseI/O,CION的體系結構如圖1所示,圖中粗線就是系統中的物理實體,其中虛線部分代表著運算體系中的實體部分,邏輯實體又可以進一步劃分為A,B,C三個部分,A是應用程序的表征,B是由內部節點所組的CollectiveI/O的子系統,C是磁盤陣列。B部分作為整個系統的核心機制,起著連接應用和磁盤的過渡作用。I/O代理可以分為應用代理和服務代理兩大種類,其中應用代理指的是為所屬應用程序負責的交互進程,而服務代理指的是對計算機內部磁盤管理的進程,也負責對小型指令進行合并,分析以及過程控制,數據篩選主要是由服務代理所完成的,能夠產生少量的連續請求,在讀出磁盤數據之后,然后找出其中最關鍵的數據,從而發送給相應結點的代理。
數據篩選技術工具的性能評測主要是對數據篩選的功效評測,通常采用對比實驗的方法來進行比較。在實驗中,借助數據向量的讀取比對,以byte類型為例,如果在磁盤上為連續存儲表征,數據顯示為(1,7432,3)則表示從讀取的數據文件第一個字節,每隔兩個個讀取一個,一直持續讀取到文件的7432,同時測試8K和1M之間的情況,從測試數據中可以看出,數據篩選技術對于數據處理的性能要求很高,哪怕測試后數據性能的數據值差距不大,性能上的差異卻是失之毫厘,差之千里。例如Passion采用的就是Two-phaseI/O的方式,文件的邏輯分片管理與文件的物理存儲不同,都是利用了數據篩選的優勢,這樣造成的網絡負載比較大,這里面應用了文件在磁盤的分布信息,能夠優化磁盤的控制。
綜上所述,主要對數據篩選技術在并行I/O中的應用進行分析,可以看出,數據篩選與CollectiveI/O技術結合在一起,充分發揮出了I/O技術的效能,不同的方式測試的結果也是不同的,實現結果能夠顯示出數據篩選與I/O技術的密切關系,是該技術的主要組成部分。