基于信息融合的多元QoS監控方法

2018-01-26 07:27:02江艷張鵬程吉順慧李臣明

微型電腦應用 2018年1期

江艷，張鵬程，吉順慧，李臣明

(河海大學計算機與信息學院，南京 211100)

0 引言

隨著互聯網時代的到來，Web服務的表現形態、運行方式、生產方式和使用方式正發生著巨大的變化。Web服務不斷發展的同時，人們對服務質量(QoS)要求也越來越高，而在動態異質的互聯網環境中，Web服務的QoS具有很大的不確定性，尤其涉及與性能相關的指標(如響應時間、延遲等)，這些指標由于受到運行時間段負載、客戶端位置等外在環境因素的影響隨機變化[1,2]，使得Web服務無法滿足QoS需求。

為了能夠提供具有QoS保證的Web服務，亟待解決的便是如何在實時變化的環境中對QoS進行準確而靈敏地監控。大多數的QoS需求可用概率質量屬性表示[3]。近幾年來，概率監控方法不斷興起，主要包括基于假設檢驗的QoS監控方法[4,5]和基于貝葉斯的監控方法[6-7]?；诩僭O檢驗的方法不支持連續監控，方法對以前的監控結果不可以復用，一旦需求變更，必須重新開始監控，如果客戶需求頻繁變更，此類方法執行效率低下。而貝葉斯方法運用歷史樣本的先驗信息，實現了連續監控。現有方法很少有考慮環境因素對監控的影響，且少數考慮了環境因素影響的監控方法[7-8]在衡量環境因素對監控影響的量化值波動較大，導致監控結果抖動現象較為嚴重。除此之外，現有監控方法大多數僅考慮單個QoS指標，實際上，吞吐量較大的時刻，響應時間可能很長，超出了用戶的忍受范圍，而如果僅監控吞吐量這一個QoS指標顯然不能滿足用戶的需求。

多元QoS在服務組合，服務選擇[9-10]，服務推薦以及服務預測方法中都考慮過且有了很好的應用與證明。然而，在QoS監控領域還沒有考慮過多元QoS監控方法。因而本文提出了一種基于信息融合的多元QoS監控方法，使用PMI算法計算環境因子對監控分類的傾向，解決了監控結果抖動問題，同時通過融合多個QoS屬性信息，一次可以監控多個QoS屬性，能夠更好地監控服務供應商和客戶間簽訂的SLA(Service Level Agreement)[11]。

1 基于信息融合的多元QoS監控

本文提出的基于信息融合的多元QoS監控方法(M-BSRM)的總體結構，如圖1所示。

圖1 M-BSRM總體結構圖

本方法主要分為訓練階段和監控階段：訓練時，先去除噪聲數據，并做歸一化處理，再融合多個QoS屬性信息，提取樣本的環境因子組合，通過PMI算法學習并量化樣本對監控分類的傾向，訓練得到權值庫，根據QoS標準計算得到樣本的先驗信息并初始化監控器；監控時，以訓練階段同樣的方式預處理樣本得到綜合QoS樣本，通過訓練好的權值庫構造加權樸素貝葉斯分類器，調用分類器得到監控結果。

1.1 信息融合

(1)

(2)

經過歸一化后，采用平均分配權值的方法對多個QoS屬性信息進行融合，如式(3)。

(3)

Integrated QoS為第i個樣本的所有QoS屬性樣本融合后的綜合QoS值，Wj為0.25如式(3)。

1.2 計算環境因子對分類傾向性

為了衡量動態變化的環境對監控的影響，本文采用PMI算法來量化環境因素對監控分類的影響，PMI通常用來衡量兩個事物之間的相關性[12]。在特定不變的環境下，服務的QoS會穩定在一定的范圍之內，本方法將PMI用于度量不同的環境因子與監控分類的相關性。實際上，監控的決策行為可以轉化為樣本集的分類結果，因此，環境因素對監控的影響就轉換為環境因素對監控的分類傾向問題。監控中將PMI定義為：在某個監控類別中出現頻率高，但在其他類別中出現頻率比較低的環境因子與該類的相關性比較大，即攜帶該環境因子的樣本就越傾向于此分類。計算環境因子Rt與監控分類ci的相關性，為式(4)。

(4)

PMI(Rt,ci)表示環境因子Rt對類ci的分類傾向量化值，PMI(Rt,ci)值越大，攜帶環境因子Rt的樣本越傾向于ci類。其中，p(Rt,ci)表示攜帶環境因子Rt的樣本屬于類別ci的概率，p(Rt)表示環境因子Rt在整個樣本集中出現的概率，p(ci)表示整個樣本集中類別ci出現的概率。

1.3 基于環境因子與分類的相關性的貝葉斯分類器模型

貝葉斯分類器因充分考慮歷史樣本信息，快速高效而備受歡迎，而QoS標準由概率質量屬性表示，與貝葉斯分類器相得益彰，其分類原理[13]是通過某樣本集X={x1,x2,…,xn}的先驗概率，利用貝葉斯公式計算出其后驗概率，即該樣本集屬于某一類的概率，選擇具有最大后驗概率的類作為該樣本集所屬的類。本方法中定義分類結果集為C={c0,c1},c0表示樣本X滿足QoS標準，c1表示樣本X不滿足QoS標準。判斷X屬于類別ci的概率由貝葉斯公式計算，如式(5)。

(5)

樸素貝葉斯假設樣本相互獨立，p(X|ci)可以轉化為式(6)。

(6)

整個樣本集是一樣的，公式(5)中的P(X)相同，樸素貝葉斯分類器描述為式(7)。

(7)

實際上樣本間并非相互獨立，根據樣本攜帶的環境因子計算其與分類之間的相關性，來判斷環境因子的分類趨向。實際應用中，p(xk|ci)和p(ci)的數值比較小，對于運算精度和計算方法要求都比較高，基于運算方便考慮采用如下貝葉斯決策為判別式(8)。

(8)

取log(1+p(xk|ci)考慮實際概率p(xk|ci)的值小于1，則log(p(xk|ci)小于0，權值wRt代表環境因子對監控分類的傾向值，值越大越傾向于某個分類，而如果與小于0的數相乘，則會起到反作用，導致監控結果錯誤，且log函數在有限定義域上為單調函數，故將概率值加1再取對數值使得加權正確，且對分類的決策結果沒有影響。

2 實驗

2.1 實驗設置

實驗采用兩組數據集。數據集一采用給定標準下的自定義模擬數據集；數據集二為香港中文大學發布的真實世界Web服務質量(Quality of Web Service,簡稱QWS)數據集[14]，數據集中包含150個文件，每個文件中包含服務使用者調用100個服務的QoS樣本數據，詳細信息如表1所示。

表1 QWS數據集詳細信息

實驗取環境因子ip地址(ClientIP)及服務ID(WSID)，響應時間，吞吐量，可靠性，可用性均可通過表中數據直接或間接計算得到。

ClientIP與WSID組合為<12.108.127.136,13977>的響應時間樣本，如圖2所示。

圖2 響應時間樣本

環境因子為< 128.83.122.179 ,10324>的吞吐量數據。圖2中的響應時間均保持在5 200左右，吞吐量均在128左右，如圖3所示。

圖3 吞吐量樣本

總的來說，ClientIP及WSID組合可以代表攜帶此環境因子的樣本的分類傾向。

2.2 實驗結果分析

2.2.1 實驗結果

由于真實數據集沒有確定的QoS標準，為驗證本文方法的有效性，第一組實驗采用一定約束隨機生成數據集，并采用注入錯誤的方式進行驗證，將實驗結果與文獻[7]提出的wBSRM方法以及文獻[4]提出的iSPRT方法相比較。定義綜合QoS需求為“綜合QoS值大于0.8的概率不低于80%”，單元監控中將QoS需求定義為“響應時間(或吞吐量，可靠性，可用性)大于0.8的概率不低于80%”，0.8為歸一化后的QoS閾值。在樣本數為1200-1600處注入響應時間和可靠性閾值小于0.8的錯誤樣本數大于20%，將1000-1800區間的環境因子定義為<128.119.247.210，9217>；在3300-3700樣本處注入吞吐量和可用性閾值小于0.8的錯誤樣本數大于20%，將3200-4000區間的環境因子定義為<129.12.3.74，5834>。監控結果如圖4所示。

橫坐標代表樣本數，縱坐標代表監控結果，1表示Web服務處于正常運行狀態，-1表示Web服務處于失效狀態，0表示未得出結論。從圖4可看出，iSPRT監控結果與事實相悖，多次出現監控結果為0的情況，無論是服務提供者還是使用者都不希望得到沒有結論的監控結果。對于wBSRM及M-BSRM，監控開始時，樣本量較少，M-BSRM與wBSRM都會出現抖動現象，隨著樣本數的增加，監控結果趨于穩定。在樣本數接近1309時，M-BSRM先于wBSRM檢測到服務失效，其監控時融入4個QoS屬性信息，響應時間和吞吐量同時未達到約束標準時PMI算法得到的對c1類的傾向值更大一點。而在服務恢復運行時，M-BSRM比wBSRM方法有些滯后，這是因為使用PMI算法計算這段樣本的傾向時，不滿足響應時間標準與不滿足可靠性標準的樣本之間的差集不為空，實際上監測到服務失效就會返回給服務提供商并對服務調整。同樣地，在融入錯誤的3300-3700個樣本處M-BSRM相較于wBSRM也是先監測到服務失效。綜合圖4的(a)，(b)，(c)，(d)，可看出M-BSRM可以使用較少的樣本數檢測到服務失效。

(a) 響應時間監控結果

(d) 可用性監控結果

圖4 監控結果

第二組實驗采用是QWS數據集[17]。實驗采用控制變量原則，將文獻[7]提出的wBSRM方法和文獻[4]提出的iSPRT方法均采用信息融合方法融合多個QoS屬性信息，再比較監控結果，由于真實的QoS數據值較低，將綜合QoS閾值設置為0.5，綜合QoS標準設置為0.8。實驗結果，如圖5所示。

圖5 監控結果

整體上，iSPRT監控結果與wBSRM和M-BSRM相違背，在520個樣本處，僅M-BSRM方法監測出服務失效，wBSRM與M-BSRM在1385個樣本處及3461監控結果整體上保持一致，M-BSRM先于wBSRM。整個監控過程中wB-SRM出現多次抖動，在樣本數3851附近多次抖動這樣的結果顯然與事實相悖。wBSRM中TF-IDF算法與本文PMI算法量化環境因子對監控影響的量化值，如表2所示。

從表2中看出，wBSRM量化的權值很不穩定，權值會出現0的情況，而監控結果中0作為服務失效一類，這樣貝葉斯分類器完全無法起到作用，監控結果僅受環境因素權值的影響而得到監控結論。

2.2.2 時間效率分析

時間效率分為兩方面：訓練時間和監控時間。M-BSRM與wBSRM的訓練時間比較，如表3所示。

表2 PMI與TF-IDF算法權值比較

表3 訓練階段時間效率比較

M-BSRM的訓練時間明顯小于wBSRM方法。3種方法的監控時間比較，如圖6所示。

iSPRT方法的監控時間比wBSRM及M-BSRM都要長，M-BSRM監控時間略高于wBSRM，這是因為M-BSRM需對多個QoS屬性融合，而wBSRM監控時僅考慮單個QoS屬性，不能滿足用戶要求，顯然，M-BSRM綜合效率比wBSRM高很多。

3 總結

本文在前人研究成果基礎上，融合多個QoS屬性信息并用PMI算法計算環境因子對監控的影響從而有效的監控服務的QoS。

圖6 平均監控時間

在未來的工作中，將重點在以下兩個方面進行優化：1)信息融合時權重的分配，在用戶看來一定有自己偏好要求的QoS屬性，而不是所有的QoS屬性要求一致。選擇恰當的權重分配方法可以使監控結果符合用戶的QoS要求；2)考慮結合上下文樣本之間的關聯性，優化貝葉斯分類器模型。

[1] Mabrouk N B, Beauche S, Kuznetsova E, et al. QoS-Aware Service Composition in Dynamic Service Oriented Environments[C]∥Acm/ifip/usenix International Conference on Middleware. Springer Berlin Heidelberg, 2009:123-142.Zou G, Lu Q, Chen Y, et al.

[2] Zou G, Lu Q, Chen Y, et al. QoS-Aware Dynamic Composition of Web Services Using Numerical Temporal Planning[J]. IEEE Transactions on Services Computing, 2014, 7(1):18-31.

[3] Grunske L. Specification patterns for probabilistic quality properties[C]∥ACM/IEEE, International Conference on Software Engineering. IEEE, 2009:31-40.

[4] Grunske L. An effective sequential statistical test for probabilistic monitoring[J]. Information & Software Technology, 2011, 53(3):190-199.

[5] Sammapun U, Lee I, Sokolsky O, et al.Statistical Runtime Checking of Probabilistic Properties[M]. Runtime Verification. Springer Berlin Heidelberg, 2007:164-175.

[6] Zhu Y, Xu M, Zhang P, et al. Bayesian Probabilistic Monitor: A New and Efficient Probabilistic Monitoring Approach Based on Bayesian Statistics[C]∥International Conference on Quality Software. 2013:45-54.

[7] Zhang P, Zhuang Y, Leung H, et al. A Novel QoS Monitoring Approach Sensitive to Environmental Factors[C]∥IEEE International Conference on Web Services. 2015:145-152.

[8] Wu X, Tian W, Xi Q, et al. Multi-QoS aware automatic service composition[J]. Wuhan University Journal of Natural Sciences, 2014, 19(4):307-314.

[9] Bachlechner D, Lausen H, Siorpaes K, et al. Web service discovery-a reality check[C]// European Semantic Web Conference. 2006:113 - 118.

[10] Li L, Wei J, Huang T. High Performance Approach for Multi-QoS Constrained Web Services Selection[C]∥International Conference on Service-Oriented Computing. Springer-Verlag, 2007:283-294.

[11] Wang S, Hsu C H, Liang Z, et al. Multi-user web service selection based on multi-QoS prediction[J]. Information Systems Frontiers, 2014, 16(1):143-152.

[12] Wu L, Wang D, Guo C, et al. User Profiling by Combining Topic Modeling and Pointwise Mutual Information (TM-PMI)[M]// MultiMedia Modeling. Springer International Publishing, 2016.

[13] Jiang L, Li C, Wang S, et al. Deep feature weighting for naive Bayes and its application to text classification[J]. Engineering Applications of Artificial Intelligence, 2016, 52(C):26-39

[14] Zibin Zheng and Michael R. Lyu, “Collaborative Reliability Prediction for Service-Oriented Systems”[C]∥Proceedings of the ACM/IEEE 32nd International Conference on Software Engineering (ICSE2010), Cape Town, 2010: 35-44.