阮大治,徐東,黃海艇
(工業互聯網創新中心(上海)有限公司,上海 200232)
數據過濾是指將信息參量傳遞給固定用戶,并后續處理的完整執行流程。相較于一般的數據庫系統,配置信息過濾行為的操作系統同時具備結構化與半結構化的處理能力,可在準確接收文本信息的同時,直接執行數據存儲的職能,從而大大節省信息參量傳輸耗時。從宏觀角度分析,數據過濾是將混合信息中濾除無效信息,作為數據文件糾正的末尾處理環節,可在檢查信息一致性的同時,實現整理缺失值與無效值參量[1-2]。一般來說,過濾后的信息參量可直接進入數據倉庫,以供信息系統主機的直接調取與利用。
在電子信息系統中,隨數據傳輸時間的延長,一部分信息參量出現亂序排布的情況,從而使區域環境中數據維度條件呈現極度混亂的表現形式。傳統云共享型數據過濾方法可借助基本矩陣分解模型,確定不同維度信息參量,在電子信息系統中所屬的階層等級,再通過XML 框架,實現集中處理與分離無效值參量。然而,該方法在單位時間內處理的電子信息數據量有限,并不能完全滿足系統主機信息參量的定向提取需求。為解決此問題,提出一種新的電子信息系統中多維度數據協同過濾方法,通過構建Hadoop 分布框架的方式,定義關鍵的多維度數據集合,按照過濾偏好設置過濾標準,篩查處理隱向量,并以此為基礎,計算并得到準確的協同梯度值結果,實現多維度數據協同過濾。
為實現電子信息系統中多維度數據分析,需要在Hadoop 分布框架的支持下,建立多維度數據集合,并且通過提取特征信息參量的方式,得到最終處理結果。
在電子信息系統中,Hadoop 平臺擁有極強的分布式處理能力,可同時開啟多個數據信息副本,并借助MapReduece 節點占據系統環境中空余的數據參量節點,從而完全獨立處理多維度數據信息,元數據直接存儲于系統數據庫。在邊緣Service 節點的作用下,Public、Private、Hybrid 三類次級節點可分別連接Hadoop 平臺主機元件,并可按照電子信息參量的實際傳輸需求,存儲多維度數據于不同的應用結構體系[3-4]。完整的Hadoop 平臺由Saas、Paas、Lass 三類結構共同組成。其中,Saas 結構負責電信號的處理與傳輸需求,Paas 結構可分布判別多維度電子信息,Lass 結構則可借助電子信息開發軟件,實現調取與利用數據參量多維度傳輸條件。

圖1 Hadoop分布框架結構圖
多維度數據集合是一個獨立存在的電子信息參量表達定義體系,可在已知Hadoop 分布框架布局形式的基礎上,確定與待過濾信息匹配的協同處理作用強度,從而使電子信息參量具備更強的聚合性價值,便于系統主機后續的過濾與處理信息參量。一個多維度數據集合至少具備一個完整的協同處置強度指標值,且隨著數據傳輸量的增加,電子信息系統所具備的過濾處理能力也在逐漸增強,直至所有信息參量都能被匹配至少一個協同處理系數值[5-6]。設u0代表電子信息系統中多維度數據參量的基本過濾系數,Rmin代表最小的電子信息特征值,Rmax代表最大的電子信息特征值,Ri代表第i個電子信息特征值,聯立上述物理量,可將多維度數據集合表示為:

其中,β代表電信號傳輸特征值,代表多維度電子數據的單位傳輸均值量。
為實現協同過濾多維度數據參量,需要在電子信息系統環境中,利用已知的系數值條件,提取特征信息參量集,并從中選取具有實用性價值的參量文件,以供數據庫主機的直接調取與應用。特征信息參量是指一類具有極強傳輸能力的電信號數據指標,可在多維度數據集合中確定電子信息參量的實際傳輸位置,并通過整合關聯數據文件的方式,實現篩查與整合多維度電子信息數據[7-8]。設P1、P2代表兩個不同的電子信息數據文件編碼條件,λ代表多維度電子信息數據的提取權重值,聯立公式(1),可將特征信息參量提取結果表示為:

式中,μ代表電子信息的維度系數值,w0代表電子信息參量的起始傳輸位置,wn代表電子信息參量的終止傳輸位置,n代表單位時間內的電子信息傳輸與調取次數。
過濾偏好是指電子信息系統在執行多維度數據協同過濾時,遵循的信息參量處置標準。一般來說,隨電子信息累積量的增大,系統處理遵循的過濾偏好標準也會變化,但這種物理變化作用表現形式細微,并不能直接描述多維度數據集合的存在形式,但由于二者之間存在限制影響作用,可認為數據集合中與信息參量匹配的維度數值量越大,電子信息系統所具備的過濾處理能力就越強[9-10]。在不考慮其他干擾條件的情況下,電子信息系統中過濾偏好設置結果只受數據集維度參量值、信息過濾處理強度兩項物理指標的直接影響。數據集維度參量值可表示為q′,一般情況下,該項物理量的數值水平越高,電子信息系統所具備的數據過濾處理能力也就越強。信息過濾處理強度可表示為χ,在電子信息系統中,該項物理指標能夠反映多維度數據參量所具備的協同傳輸能力,但由于信息數據傳輸量具有不確定性,該項物理指標的實際數值水平不易過大。在上述物理量的支持下,聯立公式(2),可將電子信息系統的過濾偏好設置標準定義為:

其中,ε代表電子信息系統中數據參量供應系數項,s代表電子信息數據的協同傳輸量均值。
隱向量是指電子信息系統中,因維度屬性過于復雜而被忽略的數據參量,由于過濾偏好設置情況的不同,待篩查的隱向量數值水平存在差異性。在電子信息系統環境中,大多數隱向量篩查行為都可滿足定值檢索條件,特別是在已知過濾偏好設置結果的情況下,可認為待篩查的隱向量數值水平越高,多維度數據集合中的已存儲數據信息量也就越大[11-12]。在多維度指標保持為定值參量時,協同過濾指令的作用范圍越廣泛,隱向量篩查行為的處理程度越深。因此,為獲得理想的多維度數據協同過濾結果,需要限定隱向量篩查行為的作用價值,并且通過計算電子信息傳輸量數值的方法,確定隱向量指標的實際數值水平[13-14]。設γ代表電子信息數據的隱藏系數,f代表多維度數據的協同過濾量,l˙代表電子信息數據的過濾特征值,聯立公式(3),可將電子信息系統的隱向量篩查結果表示為:

式中,θ1、θ2代表兩個不同的電子信息數據維度編碼條件,ΔT代表單位過濾時長,代表既定的數據信息協同傳輸量。
協同梯度是指多維度數據在電子信息系統中能到達的最大傳輸深度值,對于數據信息過濾行為而言,協同梯度值越大,電子信息系統具備的數據參量承載能力越強。在不考慮其他干擾條件情況下,協同梯度值計算結果受到電子信息系統承載能力、數據流傳輸覆蓋面積兩項物理指標的直接影響[15-16]。數據流傳輸覆蓋面積由下限參量v0、上限參量vn兩部分共同組成,上述兩項參數指標間設置的物理距離越長,多維度數據在電子信息系統中能到達的傳輸距離越遠。設ξ代表與電子信息系統匹配的數據承載系數值,聯立公式(4),可將協同梯度值計算結果表示為:

其中,φ代表既定的隱向量數據排查系數,代表多維度數據參量的協同傳輸系數值,代表電子信息參量的平均過濾數值。
至此,完成各項物理系數值的計算與處理,在不考慮其他外界干擾條件的情況下,實現多維度數據協同過濾方法的應用。
為驗證電子信息系統中多維度數據協同過濾方法的實際應用能力,設計對比實驗。在電信號輸出主機中同時輸入多維度數據協同過濾方法、云共享型過濾方法兩種執行流程,其中前者作為實驗組、后者作為對照組。控制跳頻器裝置,使信號量顯示器中物理示數值快速趨于穩定,當其示數量不再發生變化時,將所獲數據平均分成兩份,其中一部分作為實驗組電子信息數據參量,另一部分作為對照組電子信息數據參量。

圖2 電子信息系統中的數據信息收發
QBI 指標在單位時間內數值變化量水平能夠描述電子信息數據的實際傳輸能力,一般情況下,QBI指標數值越大,電子信息數據的傳輸能力也就越強,反之則越弱。實驗時間共計60 min,每15 min 為一個實驗組別,每組實驗數據分別在三個時間點采集數據,時間間隔為5 min,即每組數據獲得三個數據值。通過表1 記錄了實驗組、對照組QBI 指標數值的具體變化情況。

表1 QBI指標對比
分析表1 可知,實驗組QBI 指標在前兩個單位時長內,一直保持小幅上升的數值變化趨勢,而從第三個單位時長開始,這種數值上升狀態開始不斷擴大,且一直延續至實驗結束;對照組QBI 指標在前兩個單位時長內,也一直保持小幅上升的數值變化趨勢,而從第三個單位時長開始,這種數值上升趨勢得到有效抑制,開始呈現連續穩定的數值變化狀態,從第四個單位時長開始,則開始連續下降的變化形式。在整個實驗過程中,實驗組最大值73.84%與對照組最大值34.31%相比,上升了39.53%。
BBS 系數反映電子信息系統對于數據參量的按需提取能力,BBS 系數值越大,電子信息系統所具備的數據參量按需提取能力越強,由于不同時間段的BBS 系數變化趨勢不同,為了便于詳細分析,將實驗數據分為兩個時間段,呈現更多更詳細的數據。實驗數值對比情況如圖3 所示:

圖3 BBS系數對比圖
分析圖3 可知,實驗組BBS 系數在前25 min 的實驗時間內,保持先上升、再下降、然后重復的變化趨勢;在30~55 min 的實驗時間內,BBS 系數則保持先上升、再下降的趨勢。整個實驗過程中最大數值達到了83.15%。對照組BBS 系數在整個實驗過程中始終與實驗組保持相同的變化趨勢,但其均值水平卻遠低于實驗組,其最大數值只能達到70.04%,與實驗組最大值相比,下降了13.11%。
與云共享型過濾方法相比,多維度數據協同過濾方法解決了數據維度混亂問題,這是因為該方法應用了Hadoop 分布框架,定向提取特征信息參量,并且通過設置過濾偏好的方式,得到最終的協同梯度值計算結果,最終有效過濾相關電子信息參量。從實用性角度分析,QBI 指標數值與BBS 指標數值的增大,可在維持數據參量按需提取能力的同時,增強系統主機在單位時間內的數據上傳能力,具備較強的實際應用可行性。