江艷, 張鵬程, 吉順慧, 李臣明
(河海大學 計算機與信息學院, 南京 211100)
隨著互聯網時代的到來,Web服務的表現形態、運行方式、生產方式和使用方式正發生著巨大的變化。Web服務不斷發展的同時,人們對服務質量(QoS)要求也越來越高,而在動態異質的互聯網環境中,Web服務的QoS具有很大的不確定性,尤其涉及與性能相關的指標(如響應時間、延遲等),這些指標由于受到運行時間段負載、客戶端位置等外在環境因素的影響隨機變化[1,2],使得Web服務無法滿足QoS需求。
為了能夠提供具有QoS保證的Web服務,亟待解決的便是如何在實時變化的環境中對QoS進行準確而靈敏地監控。大多數的QoS需求可用概率質量屬性表示[3]。近幾年來,概率監控方法不斷興起,主要包括基于假設檢驗的QoS監控方法[4,5]和基于貝葉斯的監控方法[6-7]?;诩僭O檢驗的方法不支持連續監控,方法對以前的監控結果不可以復用,一旦需求變更,必須重新開始監控,如果客戶需求頻繁變更,此類方法執行效率低下。而貝葉斯方法運用歷史樣本的先驗信息,實現了連續監控。現有方法很少有考慮環境因素對監控的影響,且少數考慮了環境因素影響的監控方法[7-8]在衡量環境因素對監控影響的量化值波動較大,導致監控結果抖動現象較為嚴重。除此之外,現有監控方法大多數僅考慮單個QoS指標,實際上,吞吐量較大的時刻,響應時間可能很長,超出了用戶的忍受范圍,而如果僅監控吞吐量這一個QoS指標顯然不能滿足用戶的需求。
多元QoS在服務組合,服務選擇[9-10],服務推薦以及服務預測方法中都考慮過且有了很好的應用與證明。然而,在QoS監控領域還沒有考慮過多元QoS監控方法。因而本文提出了一種基于信息融合的多元QoS監控方法,使用PMI算法計算環境因子對監控分類的傾向,解決了監控結果抖動問題,同時通過融合多個QoS屬性信息,一次可以監控多個QoS屬性,能夠更好地監控服務供應商和客戶間簽訂的SLA(Service Level Agreement)[11]。
本文提出的基于信息融合的多元QoS監控方法(M-BSRM)的總體結構,如圖1所示。

圖1 M-BSRM總體結構圖
本方法主要分為訓練階段和監控階段:訓練時,先去除噪聲數據,并做歸一化處理,再融合多個QoS屬性信息,提取樣本的環境因子組合,通過PMI算法學習并量化樣本對監控分類的傾向,訓練得到權值庫,根據QoS標準計算得到樣本的先驗信息并初始化監控器;監控時,以訓練階段同樣的方式預處理樣本得到綜合QoS樣本,通過訓練好的權值庫構造加權樸素貝葉斯分類器,調用分類器得到監控結果。
1.1 信息融合

(1)
(2)
經過歸一化后,采用平均分配權值的方法對多個QoS屬性信息進行融合,如式(3)。
(3)
Integrated QoS為第i個樣本的所有QoS屬性樣本融合后的綜合QoS值,Wj為0.25如式(3)。
1.2 計算環境因子對分類傾向性
為了衡量動態變化的環境對監控的影響,本文采用PMI算法來量化環境因素對監控分類的影響,PMI通常用來衡量兩個事物之間的相關性[12]。在特定不變的環境下,服務的QoS會穩定在一定的范圍之內,本方法將PMI用于度量不同的環境因子與監控分類的相關性。實際上,監控的決策行為可以轉化為樣本集的分類結果,因此,環境因素對監控的影響就轉換為環境因素對監控的分類傾向問題。監控中將PMI定義為:在某個監控類別中出現頻率高,但在其他類別中出現頻率比較低的環境因子與該類的相關性比較大,即攜帶該環境因子的樣本就越傾向于此分類。計算環境因子Rt與監控分類ci的相關性,為式(4)。
(4)
PMI(Rt,ci)表示環境因子Rt對類ci的分類傾向量化值,PMI(Rt,ci)值越大,攜帶環境因子Rt的樣本越傾向于ci類。其中,p(Rt,ci)表示攜帶環境因子Rt的樣本屬于類別ci的概率,p(Rt)表示環境因子Rt在整個樣本集中出現的概率,p(ci)表示整個樣本集中類別ci出現的概率。
1.3 基于環境因子與分類的相關性的貝葉斯分類器模型
貝葉斯分類器因充分考慮歷史樣本信息,快速高效而備受歡迎,而QoS標準由概率質量屬性表示,與貝葉斯分類器相得益彰,其分類原理[13]是通過某樣本集X={x1,x2,…,xn}的先驗概率,利用貝葉斯公式計算出其后驗概率,即該樣本集屬于某一類的概率,選擇具有最大后驗概率的類作為該樣本集所屬的類。本方法中定義分類結果集為C={c0,c1},c0表示樣本X滿足QoS標準,c1表示樣本X不滿足QoS標準。判斷X屬于類別ci的概率由貝葉斯公式計算,如式(5)。
(5)
樸素貝葉斯假設樣本相互獨立,p(X|ci)可以轉化為式(6)。
(6)
整個樣本集是一樣的,公式(5)中的P(X)相同,樸素貝葉斯分類器描述為式(7)。
(7)
實際上樣本間并非相互獨立,根據樣本攜帶的環境因子計算其與分類之間的相關性,來判斷環境因子的分類趨向。實際應用中,p(xk|ci)和p(ci)的數值比較小,對于運算精度和計算方法要求都比較高,基于運算方便考慮采用如下貝葉斯決策為判別式(8)。

(8)
取log(1+p(xk|ci)考慮實際概率p(xk|ci)的值小于1,則log(p(xk|ci)小于0,權值wRt代表環境因子對監控分類的傾向值,值越大越傾向于某個分類,而如果與小于0的數相乘,則會起到反作用,導致監控結果錯誤,且log函數在有限定義域上為單調函數,故將概率值加1再取對數值使得加權正確,且對分類的決策結果沒有影響。
2.1 實驗設置
實驗采用兩組數據集。數據集一采用給定標準下的自定義模擬數據集;數據集二為香港中文大學發布的真實世界Web服務質量(Quality of Web Service,簡稱QWS)數據集[14],數據集中包含150個文件,每個文件中包含服務使用者調用100個服務的QoS樣本數據,詳細信息如表1所示。

表1 QWS數據集詳細信息
實驗取環境因子ip地址(ClientIP)及服務ID(WSID),響應時間,吞吐量,可靠性,可用性均可通過表中數據直接或間接計算得到。
ClientIP與WSID組合為<12.108.127.136,13977>的響應時間樣本,如圖2所示。

圖2 響應時間樣本
環境因子為< 128.83.122.179 ,10324>的吞吐量數據。圖2中的響應時間均保持在5 200左右,吞吐量均在128左右,如圖3所示。

圖3 吞吐量樣本
總的來說,ClientIP及WSID組合可以代表攜帶此環境因子的樣本的分類傾向。
2.2 實驗結果分析
2.2.1 實驗結果
由于真實數據集沒有確定的QoS標準,為驗證本文方法的有效性,第一組實驗采用一定約束隨機生成數據集,并采用注入錯誤的方式進行驗證,將實驗結果與文獻[7]提出的wBSRM方法以及文獻[4]提出的iSPRT方法相比較。定義綜合QoS需求為“綜合QoS值大于0.8的概率不低于80%”,單元監控中將QoS需求定義為“響應時間(或吞吐量,可靠性,可用性)大于0.8的概率不低于80%”,0.8為歸一化后的QoS閾值。在樣本數為1200-1600處注入響應時間和可靠性閾值小于0.8的錯誤樣本數大于20%,將1000-1800區間的環境因子定義為<128.119.247.210,9217>;在3300-3700樣本處注入吞吐量和可用性閾值小于0.8的錯誤樣本數大于20%,將3200-4000區間的環境因子定義為<129.12.3.74,5834>。監控結果如圖4所示。
橫坐標代表樣本數,縱坐標代表監控結果,1表示Web服務處于正常運行狀態,-1表示Web服務處于失效狀態,0表示未得出結論。從圖4可看出,iSPRT監控結果與事實相悖,多次出現監控結果為0的情況,無論是服務提供者還是使用者都不希望得到沒有結論的監控結果。對于wBSRM及M-BSRM,監控開始時,樣本量較少,M-BSRM與wBSRM都會出現抖動現象,隨著樣本數的增加,監控結果趨于穩定。在樣本數接近1309時,M-BSRM先于wBSRM檢測到服務失效,其監控時融入4個QoS屬性信息,響應時間和吞吐量同時未達到約束標準時PMI算法得到的對c1類的傾向值更大一點。而在服務恢復運行時,M-BSRM比wBSRM方法有些滯后,這是因為使用PMI算法計算這段樣本的傾向時,不滿足響應時間標準與不滿足可靠性標準的樣本之間的差集不為空,實際上監測到服務失效就會返回給服務提供商并對服務調整。同樣地,在融入錯誤的3300-3700個樣本處M-BSRM相較于wBSRM也是先監測到服務失效。綜合圖4的(a),(b),(c),(d),可看出M-BSRM可以使用較少的樣本數檢測到服務失效。

(a) 響應時間監控結果

(c) 可靠性監控結果

(d) 可用性監控結果
圖4 監控結果
第二組實驗采用是QWS數據集[17]。實驗采用控制變量原則,將文獻[7]提出的wBSRM方法和文獻[4]提出的iSPRT方法均采用信息融合方法融合多個QoS屬性信息,再比較監控結果,由于真實的QoS數據值較低,將綜合QoS閾值設置為0.5,綜合QoS標準設置為0.8。實驗結果,如圖5所示。

圖5 監控結果
整體上,iSPRT監控結果與wBSRM和M-BSRM相違背,在520個樣本處,僅M-BSRM方法監測出服務失效,wBSRM與M-BSRM在1385個樣本處及3461監控結果整體上保持一致,M-BSRM先于wBSRM。整個監控過程中wB-SRM出現多次抖動,在樣本數3851附近多次抖動這樣的結果顯然與事實相悖。wBSRM中TF-IDF算法與本文PMI算法量化環境因子對監控影響的量化值,如表2所示。
從表2中看出,wBSRM量化的權值很不穩定,權值會出現0的情況,而監控結果中0作為服務失效一類,這樣貝葉斯分類器完全無法起到作用,監控結果僅受環境因素權值的影響而得到監控結論。
2.2.2 時間效率分析
時間效率分為兩方面:訓練時間和監控時間。M-BSRM與wBSRM的訓練時間比較,如表3所示。

表2 PMI與TF-IDF算法權值比較

表3 訓練階段時間效率比較
M-BSRM的訓練時間明顯小于wBSRM方法。3種方法的監控時間比較,如圖6所示。
iSPRT方法的監控時間比wBSRM及M-BSRM都要長,M-BSRM監控時間略高于wBSRM,這是因為M-BSRM需對多個QoS屬性融合,而wBSRM監控時僅考慮單個QoS屬性,不能滿足用戶要求,顯然,M-BSRM綜合效率比wBSRM高很多。
本文在前人研究成果基礎上,融合多個QoS屬性信息并用PMI算法計算環境因子對監控的影響從而有效的監控服務的QoS。

圖6 平均監控時間
在未來的工作中,將重點在以下兩個方面進行優化:1)信息融合時權重的分配,在用戶看來一定有自己偏好要求的QoS屬性,而不是所有的QoS屬性要求一致。選擇恰當的權重分配方法可以使監控結果符合用戶的QoS要求;2)考慮結合上下文樣本之間的關聯性,優化貝葉斯分類器模型。
[1] Mabrouk N B, Beauche S, Kuznetsova E, et al. QoS-Aware Service Composition in Dynamic Service Oriented Environments[C]∥Acm/ifip/usenix International Conference on Middleware. Springer Berlin Heidelberg, 2009:123-142.Zou G, Lu Q, Chen Y, et al.
[2] Zou G, Lu Q, Chen Y, et al. QoS-Aware Dynamic Composition of Web Services Using Numerical Temporal Planning[J]. IEEE Transactions on Services Computing, 2014, 7(1):18-31.
[3] Grunske L. Specification patterns for probabilistic quality properties[C]∥ACM/IEEE, International Conference on Software Engineering. IEEE, 2009:31-40.
[4] Grunske L. An effective sequential statistical test for probabilistic monitoring[J]. Information & Software Technology, 2011, 53(3):190-199.
[5] Sammapun U, Lee I, Sokolsky O, et al.Statistical Runtime Checking of Probabilistic Properties[M]. Runtime Verification. Springer Berlin Heidelberg, 2007:164-175.
[6] Zhu Y, Xu M, Zhang P, et al. Bayesian Probabilistic Monitor: A New and Efficient Probabilistic Monitoring Approach Based on Bayesian Statistics[C]∥International Conference on Quality Software. 2013:45-54.
[7] Zhang P, Zhuang Y, Leung H, et al. A Novel QoS Monitoring Approach Sensitive to Environmental Factors[C]∥IEEE International Conference on Web Services. 2015:145-152.
[8] Wu X, Tian W, Xi Q, et al. Multi-QoS aware automatic service composition[J]. Wuhan University Journal of Natural Sciences, 2014, 19(4):307-314.
[9] Bachlechner D, Lausen H, Siorpaes K, et al. Web service discovery-a reality check[C]// European Semantic Web Conference. 2006:113 - 118.
[10] Li L, Wei J, Huang T. High Performance Approach for Multi-QoS Constrained Web Services Selection[C]∥International Conference on Service-Oriented Computing. Springer-Verlag, 2007:283-294.
[11] Wang S, Hsu C H, Liang Z, et al. Multi-user web service selection based on multi-QoS prediction[J]. Information Systems Frontiers, 2014, 16(1):143-152.
[12] Wu L, Wang D, Guo C, et al. User Profiling by Combining Topic Modeling and Pointwise Mutual Information (TM-PMI)[M]// MultiMedia Modeling. Springer International Publishing, 2016.
[13] Jiang L, Li C, Wang S, et al. Deep feature weighting for naive Bayes and its application to text classification[J]. Engineering Applications of Artificial Intelligence, 2016, 52(C):26-39
[14] Zibin Zheng and Michael R. Lyu, “Collaborative Reliability Prediction for Service-Oriented Systems”[C]∥Proceedings of the ACM/IEEE 32nd International Conference on Software Engineering (ICSE2010), Cape Town, 2010: 35-44.