唐良運,鄒文景,甘 瑩,孫 剛
(南方電網數字電網研究院有限公司,廣東廣州 510663)
XML 是一種可擴展型標記語言,可用于對電子文件進行標識與記錄。對于電子計算機而言,“標記語言”特指一種具有標識能力的信息符號,能夠將常規傳輸數據與標記后的數據信息區別開來,一方面能夠大幅縮短獲取信息文件所需的消耗時間;另一方面也可實現對傳輸數據文件的定向化處理[1]。XML 標記語言的適應性能力強,能夠在描述數據信息所屬類型的同時,生成完全獨立的源碼文件,且由于數據庫主機元件的存在,這些文件信息可以直接決定數據主體的后續異構與傳輸形式。
分布式異構數據是具有獨立編碼形式的信息參量,在計算機網絡環境中,能夠滿足多種不同的傳輸與整合需求[2]。然而對于分布式異構數據來說,隨著網絡覆蓋面積的增大,信息原始丟包率水平會出現不斷增大的變化趨勢,這也是異構信息同步共享環境出現明顯動蕩形式的主要原因。傳統FPGA 多通道型系統只能利用AOP 引擎對異構信息進行捕捉,雖然考慮了數據與數據之間的同步干擾問題,但卻并不能使分布式數據的傳輸丟包率水平低于理想數值標準[3]。為解決上述問題,引入XML 標記語言,設計了一種新型分布式異構數據同步系統。
分布式異構數據同步系統的硬件執行環境由數據轉化模塊、XML 生成/解析模塊、異構模式提取模塊三部分組成,具體搭建方法如下。
分布式異構數據同步系統的數據轉化模塊設計由typeName、TypeInfo、sqlType、JDBC 四個節點命名環節共同組成,具體的節點屬性能力及命名方式如下:
1)typeName 節點:規定了分布式異構數據在同步系統中的命名方式,在互聯網應用環境中,已連接的typeName 節點數量越多,系統主機在單位時間內所具備的異構數據同步轉化能力也就越強[4]。
2)TypeInfo 節點:規定了分布式異構數據的實時存儲方式,在XML 標記語言作用下,單一數據信息所能達到的傳輸距離越遠,TypeInfo 節點與系統主機之間的聯系也就越緊密。
3)sqlType 節點:在數據轉化模塊中,該類型節點的連接形式會隨著XML 標記語言的改變而發生變化。
4)JDBC 節點:規定了異構數據所處的分布式執行等級,在數據轉化模塊中,該類型節點的連接數量最多,可同時負載typeName 節點、TypeInfo 節點與sqlType 節點之間的數據信息傳輸關系。
在分布式異構數據同步系統中,XML 生成/解析模塊的設計完全遵循XML 標記語言,可在主機元件的作用下對傳輸信息的分布共享環境進行控制,從而生成完全獨立的數據解析與查詢語句[5-6]。具體連接形式如圖1 所示。

圖1 XML生成/解析模塊示意圖
互聯網異構信息的傳輸方向,只能由數據生成主機指向外部應用處理結構,在不違背XML 映射關系的情況下,分布式體系的連接穩定性越強,同步系統中數據共享服務的應用等級也就越高,反之則越低。
異構模式提取模塊作為分布式異構數據同步系統的關鍵應用結構,可在XML 標記語言的作用下,同步執行信息參量的內循環與外循環指令,并最終將滿足分布式判別需求的信息參量直接存儲于系統數據庫主機中[7],具體連接原理如圖2 所示。

圖2 異構模式提取模塊連接原理
在實際應用過程中,由于XML 標記語言所處執行環節不同,異構數據所表現出來的分類與提取需求也會所有不同,此時運行主機對于分布式節點的判別標準,將成為決定異構信息同步共享環境應用穩定性水平的唯一條件[8-9]。
在XML 標記語言的支持下,按照分布型格式定義、異構參數設定、同步查詢規則完善的處理流程,實現同步系統軟件執行環境的搭建,再結合相關硬件應用設備,完成基于XML 的分布式異構數據同步系統設計。
分布型格式定義條件能夠約束異構數據的同步傳輸能力,在考慮XML 標記語言的前提下,可認為異構數據的分布形式越復雜,系統主機對于異構數據信息的實時存儲能力也就越強[10-11]。在不考慮其他干擾條件的情況下,分布型格式定義條件受到異構數據賦值、XML 語句單位標記量兩項物理指標的直接影響。s表示一個隨機賦值參量,Is表示參量指標取值為s時的異構數據真實賦值結果,I0表示異構數據的初始賦值結果,在同步系統運行環境中,Is>I0的不等式條件恒成立。ΔR表示XML 語句的單位標記量,在數據分布等級取值為λ的前提下,ΔR指標的數值始終大于自然數“1”。聯立上述物理量,可將異構數據的分布型格式定義條件表示為:
對于異構數據而言,分布型格式定義條件具有絕對性的約束能力,在整個同步系統中,其參考價值與XML 標記語言同樣重要。
異構參數描述了數據信息文件的實時表現形式,在分布式環境中,由于傳輸環境的復雜性,常出現兩個或兩個以上信息表達形式過于類似的情況,此時異構參數成為系統主機判定數據信息所屬格式的唯一指標[12-13]。設表示分布式異構數據在單位時間內的傳輸均值,一般來說,該項物理指標的取值具備一定的局限性,在同步系統中,其取值始終屬于[1,e)的物理區間。β表示既定判別系數,如果以XML 標記語言作為參考條件,則可認為待處理的異構數據總量越大,該項系數指標的取值也就越大。在上述物理量的支持下,聯立式(1),可將同步系統的異構參數表達式定義為:
式中,ε為基于XML 標記語言的異構數據同步系數,f為待處理數據的同步頻率。在已知存儲空間內,異構參數設定結果直接決定了XML 標記語言對于分布式信息參量的同步配置與處理能力[14]。
同步查詢規則是分布式異構數據同步系統的核心配置標準,在XML 標記語言作用下,該原則的制定必須同時遵循統一性與聯動性思想[15]。統一性是指任意一個分布式異構數據的初始傳輸位置節點與最終傳輸位置節點必須保持完全一致的配置原則;聯動性是指任何一個分布式異構數據都具備直接干擾系統同步共享環境應用穩定性的能力[16]。設c表示一個隨機選取的異構數據查詢變量,lc、pc分別表示查詢變量為c時的統一性適配系數與聯動性適配系數。規定N={m1、m2、…、mn}表示n個不同的分布式信息導入條件,n表示單次可導入的最大數值量,ξ表示異構數據相關系數,在遵循統一性與聯動性的情況下,聯立式(2),可將系統主機所遵循的同步查詢規則表示為:
至此,完成各項軟、硬件執行環境的搭建,在XML 標記語言的作用下,實現新型分布式異構數據同步系統的設計與應用。
為了驗證所設計系統對于分布式數據傳輸丟包率的影響,設計實驗,選取該文系統為實驗組,選取傳統系統為對照組。在實驗開始前,首先按照圖3所示的流程對實驗組、對照組異構數據進行篩選。

圖3 實驗數據篩選流程圖
以兩臺配置完全相同的互聯網主機作為實驗對象,其中實驗組主機配置基于XML 的分布式異構數據同步系統,對照組主機配置基于FPGA 的多通道處理系統。
分布式數據的傳輸丟包率水平直接影響實驗主機對于異構信息同步共享環境穩定性的維護能力,一般情況下,丟包率指標的數值越低,實驗主機對于異構信息同步共享環境穩定性的維護能力也就越強,反之則越弱。
表1 記錄了丟包率指標在不同情況下的數值變化情況,其中,v表示異構系數的賦值結果。

表1 丟包率指標的理想數值
分析表1 可知,當異構系數賦值等于2n時,分布式數據傳輸丟包率指標的變化趨勢基本呈現先上升、再下降、最后穩定的規律;當異構系數賦值為3n時,分布式數據傳輸丟包率指標則呈現連續波動的數值變化狀態。
圖4 反映了實驗組、對照組丟包率指標的具體數值變化情況。

圖4 丟包率對比曲線(v=2n)
分析圖4 可知,在異構系數賦值等于2n的情況下,當異構數據輸入量達到40 Mb 之前時,實驗組丟包率水平始終高于理想數值;而當異構數據輸入量處于40~100 Mb 之間時,實驗組丟包率水平則始終低于理想數值。在整個實驗過程中,對照組丟包率指標始終大于理想數值與實驗組數值。
分析圖5 可知,在異構系數賦值等于3n的情況下,實驗組丟包率基本呈現連續上升的變化狀態,當數據輸入量等于60 Mb 時,其丟包率數值與理想數值完全相等。從平均值角度來看,實驗組丟包率曲線始終位于理想丟包率曲線下端;對照組丟包率則符合先上升、再下降、最后上升的變化規律,其全局最大值達到了67.8%,遠高于理想最大值與實驗組最大值。

圖5 丟包率對比曲線(v=3n)
綜上可知,在XML 標記語言的作用下,新型處理系統能夠更好地控制分布式數據的傳輸丟包率水平,這不但解決了已知的數據信息丟包問題,也符合構建穩定異構信息同步共享環境的實際應用需求。
與FPGA 多通道型系統相比,新型分布式異構數據同步系統從XML 標記語言的角度入手,聯合數據轉化模塊、信息提取模塊等多個硬件應用設備,在定義信息參量所屬分布格式的同時,建立更加完善的同步查詢規則。分析對比實驗結果可知,隨著基于XML 分布式異構數據同步系統的應用,數據丟包率指標的數值得到了有效控制,能夠較好地維護穩定性異構信息的同步共享環境,具備較強的實際應用價值。