移動應用眾包測試人員信譽度的模糊評估方法研究

2018-09-07 10:36:52成靜薛峰張逸飛張濤馬春燕

西北工業大學學報 2018年4期

關鍵詞：評價

成靜, 薛峰, 張逸飛, 張濤, 馬春燕

(1．西安工業大學計算機科學與工程學院，陜西西安710021; 2．西北工業大學軟件與微電子學院，陜西西安710072; 3．西北工業大學計算機學院，陜西西安710072)

移動應用眾包測試，是將移動應用眾包測試任務，以自由自愿的方式外包給匿名網絡測試人員[1]，具有靈活方便、可伸縮、成本低、測試場景真實等顯著優勢[2]。但由于其匿名性和非監督性，使得眾包測試人員可能存在測試行為欺詐，以獲取最大收益。為此，通常眾包平臺采用最大期望、最大似然估計數算法[3-4]來評估眾包人員信譽度，存在運算代價高、實時性差等問題；另有學者提出針對信譽評估的數據分類算法[5]，卻只適合簡單標注類型的眾包任務。

本文在充分考慮移動應用眾包測試基本特性的前提下，提出了一種面向復雜眾包測試任務的測試人員信譽度的評估方法，通過劃分可信與不可信2個模糊集合，以移動應用眾包測試任務發包方與測試人員相互間的評分為計算基礎，利用模糊集合理論判斷眾包測試人員對2個集合的隸屬程度，計算評估眾包測試人員信譽度。

1 基于模糊集合的移動應用眾包測試人員信譽度評估

本節從人員評價機制、信譽度評估模型、信譽度計算及更新3個階段，完成對移動應用眾包測試人員信譽度評估體系的構建。

1.1 人員評價機制

評分、評級等形式的評價機制已廣泛應用于電子商務類網站之中，可以很好地反映交易雙方的滿意度，也體現了雙方的信任關系。在眾包測試中，引入這些機制可以有效地表現出對測試服務完成效果的評價，可以作為評估信譽度的基礎數據。

圖1表示一個常用的“5分制”的評價打分形式，可以較好地描述對某一服務或商品的滿意程度。

非常滿意滿意一般不滿意差5分4分3分2分1分

圖1 5分制評分

然而，與普通一對一的互評模式不同，在移動應用眾包測試中，通常測試任務的發包方與測試人員是一種一對多的評價關系。測試任務的發包方需要對多名測試人員進行評價，評估工作量巨大，評分效果差。

為解決這一問題，本文設計了一種偏隱式的評分方式，即通過記錄任務發包方與測試人員的交互行為，將其作為評分依據，以取代雙方的主動評價。如表1所示，考慮以發包方對測試人員所發現缺陷的價值評價為標準，間接反映測試人員在本次任務中體現的價值；也可以通過記錄發包方是否偏向于使用某一位測試人員來體現對其認可的程度。同樣，表2展示了測試人員對發包方的隱式評價，包括對發包方任務的關注、參與等行為，以及缺陷評價的公正性等。使用偏隱式評價的另一優勢在于能較大程度地避免評價者主觀性或惡意性評價，使得評價結果更為直接客觀。

表1 任務發包方對測試人員的評價

表2 測試人員對任務發包方的評價

在得到一系列評分后，需要對各項評分進行綜合。這里采用幾何平均數法對評分進行綜合處理，公式為：

(1)

采用綜合評價機制的主要目的,是為了獲取移動應用眾包測試參與雙方的相互反饋信息,進而將其作為基礎數據開展移動應用眾包測試信譽度評估方法的研究。

1.2 信譽度評估模型

通常,信譽度難以精確量化表示。在眾包測試中,測試人員很難被界定為絕對可信或不可信,因此適合模糊數學理論評估信譽度。本文在獲得移動應用眾包測試任務發包方與測試人員的相關評價綜合得分后,利用模糊數學理論來構建信譽度評估模型。

首先,利用模糊集合思想,在以所有移動應用眾包測試參與人員為范圍定義2個模糊子集,即“不可信”子集和“可信”子集,進而通過判斷每位眾包社區參與者分別隸屬于2個集合的程度,見圖2。例如,當參與者的可信任程度大于其不可信程度時,即其更偏向信任子集,則認為這名參與者是一名可信任人員,否則為不可信。

圖2 眾包人員可信及不可信程度關系

其次,利用從人員評價機制中獲得的綜合評價得分,僅篩選可信任人員的評分作為被評價人員的信譽計算基礎。這樣,在移動應用眾包測試社區的整體運作過程中,每名眾包測試參與人員信譽的計算,形成如圖3所示的一種迭代循環過程。

在整個眾包測試社區中,當想要獲知哪些測試人員是可以信任時,通過向與測試人員有過任務接觸的可信任務發布人員進行確認作為其對測試人員可信的判斷依據。在眾包測試社區整體的評價過程中,對一名參與者的評價是否可作為判斷另一名參與人員信譽計算的依據,主要依賴于這名參與人員本身是否被社區群體所認可,具有最夠的可信度。這樣,每一名參與人員在多次參與測試任務后,經過多輪的信譽迭代計算,其信譽的評估會越趨于準確。

圖3 移動應用眾包測試社區人員評價過程

1.3 信譽度的計算及更新

下面將詳細說明移動應用眾包測試人員信譽度評估模型的具體計算及更新過程。

1) 隸屬度函數的確定

前面提到,通過劃分出2個模糊子集“可信”和“不可信”以及使用可信人員提供的綜合評分來估計參與者的可信情況。下面先分析一下綜合評分的特點。

(1) 因采用5分制進行評分,并且根據評分的計算方式可以得出綜合評分的結果必然是1～5范圍內的實數;利用幾何平均數計算出來的結果變化趨勢必然是一種呈直線狀的線性趨勢。

(2) 評分的高低在一定程度上反映出評價人對被評價人的信任關系,評分越低表明評價人對被評價人的不信任;反之,評分越高則體現為信任。

(3) 根據圖1所示的5分制評分標準:評分為3分是最模糊的狀態;評分為4分及以上的表明評價人對被評價人的肯定;而全部評分為2分及以下的表明評價人對被評價人的否定。

根據上述3個特點,隸屬函數可以直接套用實數域上的常用模糊分布,本文選擇梯形分布作為隸屬函數。梯形模糊分布如圖4所示。

圖4 梯形模糊分布圖

上述3種隸屬函數的解析式如下:

(2)

(3)

(2)式中,A(x)表示不信任模糊子集的隸屬度函數。(3)式中,B(x)則表示信任模糊子集的隸屬度函數。其分布性態形如圖5所示。

圖5 隸屬度函數分布圖形

2) 信譽度計算

移動應用眾包測試參與人員在不斷參與眾包任務的過程中,對他的評價會進行積累,即每個參與者均會有一組評分,而這一組評分則形成了被評價人員的評分范圍。如圖6所示,其中C1和C2之間可能就是某位人員的被評分范圍。

圖6 某被評價人員的評分范圍

在評估某一位參與人員信譽度時,須更多關注該人員表現區間的變化,即其被評分范圍的邊界值，如圖6中的C1和C2點。當該人員的評分在該區間內時,表明其信譽表現屬于正常水平;而當該人員的表現小于C1時,說明他有不良信譽行為;當大于C2時,說明參與人員的信譽得到了更好肯定。

因此,對于每位參與人員的一組評分,當確定了評分范圍后,依據隸屬度函數分布圖形，使用質心法來求出這一組評分的綜合值,質心法的計算過程如下:

(4)

(5)

式中，ZA表示不可信范圍內的質心,A(x)表示不可信模糊子集的隸屬度函數;ZB表示可信范圍內的質心,B(x)表示可信模糊子集的隸屬度函數;a、b表示評分范圍的邊界值。

圖7 評分范圍質心的計算

如圖7所示,當要計算C1到C2范圍內不可信和可信范圍內的質心時。不可信范圍內表示求C3-C4-C6運動軌跡的質心,可信范圍內表示求C7-C5運動軌跡的質心。

求得質心后,將其繼續帶入(2)式和(3)式即可求得被評價人員的一組評分數據,它們分別隸屬于不可信模糊子集和可信模糊子集的程度。這樣的計算方式從不可信及可信的雙重角度來審視被評價人,使信譽估計值更具可信度。于是,可給出如下的綜合信譽度值的計算公式:

(6)

表3 一組被評價人員的信譽度計算

3) 信譽度更新

在信譽值的更新方面,需要考慮如下2個因素：①歷史評分對信譽度計算的影響,考慮影響力的衰減問題,次數越近的評分越能反映出測試人員的當前信譽水平;②不同評價人應具備不同影響力,自身可信程度越高的評價人,對他人做出的評價,自然會有更高的影響。針對上述問題,在信譽度更新的問題上,引入評分影響力因子來控制每一個評分對眾包測試參與人員信譽度的影響。

評分影響力因子的基本作用是確定評分參與信譽度評估計算的有效次數。一般而言,信譽度是一種較為固化的屬性,隨時間增長的變化緩慢,因此,是以使用次數而非時間作為歷史評分的衰減單位。眾包測試參與人員每次參加一項任務,在獲得新評分的同時,歷史評分的影響力會進行一次衰減,當某個評價值的影響力因子衰減為0時,則不再影響眾包人員的評分。

此外,評分影響力因子還包含對不良表現的懲罰系數,評分低則會加強該評分存在次數。這樣,將令眾包測試參人員盡量避免獲取較差的評分。

評分影響力因子由(7)式表示,主要由3個參數構成。其中,α表示評價人員不可信程度和可信程度的貼近度,利用質心數據相減求得,α越小則說明可信和不可信程度越貼近,即該評價人的表現較模糊,影響力低;而α越大則說明該評價人的表現越不模糊且越好,影響力增大;β是懲罰系數,當評分小于5分制的中值2.5時開始生效,以2為底數可以令激活懲罰系數帶來的數影響最小,達到0.5倍;γ是影響力基數,表示一般情況下評分的影響力,例如設置為5次。

(7)

圖8 某人員參與t1至t4次任務的評分邊界變化

圖8舉例說明了評分影響力因子的作用。例如,在t1至t4次,某人員參與任務后邊界值的變化,在t1至t3次時,該人員的最高評分不斷向上,使得其評分區間逐漸向可信任區間靠攏;但在t4次時表現較差,評分突破了原來的最低邊界t1,使得評分區間被拉大,增大了評分區間所包含的不可信區間范圍,導致質心位置的變化,并影響信譽度值;同時,t4次評分將會持續比t1至t3次更大的次數,所以該名人員需要在后續被更好認可,否則將會進一步導致信譽評分的降低。

由此可見,在加入評分影響力因子的信譽度更新機制后,高信度需要不斷積累而保持,而懲罰機制的存在,使不良評分對信譽度會造成更持久的不良影響。

2 移動應用眾包測試人員信譽度的實驗驗證

因眾包測試社區的可用數據目前較為稀少，所以本次采取模擬數據的方式進行實驗驗證。首先，通過分析，利用設置不同的缺陷發現概率范圍和發現缺陷可能性概率范圍，來模擬生成6種具備代表類型的測試人員1 000名。根據測試人員自身水平，將其劃分為優秀型、專精型、穩定型、學習型、欠缺型、欺騙型等6個類型。其次，針對每一種測試任務的情況，設置缺陷數范圍和缺陷被發現概率，來模擬生成測試任務情況。

從模擬出的1 000名測試人員數據中，多次選擇出分別對應優秀型、專精型、穩定型、學習型、欠缺型和欺詐型具有代表性的6名人員數據，并分析他們在任務執行過程中的信譽度變化情況。在實驗中，每名參與人員的信譽度初始值均設定為0.5，即處于可信與不可信的中間模糊狀態。圖9分別展示了6名代表人員，分別進行5種不同難度任務10次的信譽度迭代計算，以及綜合5種難度情況的20次任務迭代計算結果。

圖9 不同類型測試人員在各類型任務下的信譽表現

對于無缺陷任務，如圖9a)所示，這是一種特殊情況，信譽度只增加不減少，因此信譽度變化并不明顯；圖9b)是含有較少數隱蔽缺陷的任務，這類任務具備一定難度，因此優秀型和專精型人員的信譽度在高位持續；圖9c)是含有無嚴重影響缺陷的任務，穩定型人員比較擅長此類任務，因此持續增長，而專精型人員則不適合此類任務，導致信譽度逐漸下降；圖9d)是一般的普通任務情況，各類型人員表現為正常水平，信譽度趨勢劃分顯著符合預期；圖9e)含有較多的缺陷任務，與缺陷正常水平任務相比，各類人員的表現均有更為明顯的波動，主要因為在大量測試缺陷存在的情況下，測試人員因工作量大會漏掉某些缺陷的發現，而對于欺詐型人員因為缺陷的增多，也因他們使用猜測方式命中缺陷的概率有一定提升；圖9f)是混合執行各類型任務的表現，優秀型、專精型、穩定型人員信譽度均呈現較為穩定的持續狀態，學習型人員則有明顯的上升趨勢；欠缺型人員盡管個別有突出表現，但因表現的不持續性，信譽度會持續下降；欺詐型與欠缺型人員較為類似，不持續性更為明顯。

根據上述實驗，當測試人員的信譽突破邊界值時，信譽指標會有較大幅度的變化，但例如欠缺型和欺詐型人員，因為懲罰因素的存在，邊界值下限存在的時間更長，因此信譽度會被迅速降低。隨著迭代過程的不斷進行，信譽度將不斷穩定并趨于精確。上述實驗初步證明，本文所提出的基于模糊集合的移動應用眾包測試人員信譽度評估方法，在面向不同任務情況下，能夠對不同類型測試人員的信譽特征進行有效評估。

3 結論

本文提出了一種基于模糊集合的移動應用眾包測試人員信譽度評估方法，該方法利用信譽度的模糊特性，通過可信人員間的迭代評價，以準確估計出眾包測試人員的信譽水平。下一步，將繼續圍繞信譽評估進行擴展性研究，包括相近信譽度人員的行為一致性分析、基于信譽度的測試任務結果可信程度的智能化判斷等，不斷完善眾包測試可信評估，以提高眾包測試質量。