999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種面向軟件眾包的眾包工人選擇模型

2025-08-03 00:00:00賈俊宇楊嵐心張曉東徐近偉張居正張賀
計算機應用研究 2025年6期
關鍵詞:工人權重評估

Crowdsourcing worker selection model for software crowdsourcing

JiaJunyu1,2a,2b,Yang Lanxin2a,2b,Zhang Xiaodong3,Xu Jinwei2a,2b,Zhang Juzheng2a,2b,Zhang He 2a ,2bt (1.SchoolfuedfotiolUstfetuetae toryofNelSfareoUesijgina;oogte China)

Abstract:Insoftware crowdsourcing,selecting unsuitable workersoftenleads to task failureandreducedsatisfactionamong task publishers.Toaddress theseissues,this studyproposedasoftwarecrowdsourcing workerselectionmodel thatintegrated workercapabilityand worker-task matching.The modelconsistedof acapabilityassessment model basedonlinear programmingand TOPSIS,and a worker-task matching model based on matching functionlearning.Experiments were conductedon a real-worldcrowdsourcingdatasetcomprising9450tasks,8747workers,and98940bidingrecords.Theresultsdemonstrate thattheproposedmodel significantlyimproves task publishersatisfactionandoutperforms baseline modelsinmetricssuchas top-hAccandMRR.Thisstudyhighlights theefectivenessof integratingcapabilityandmatchabilityfor workerselectionand provides a novel approach to enhancing task allocation mechanisms in software crowdsourcing platforms.

Key words:software crowdsourcing;crowdsourcing worker;selection model;capability assessment;matching model

0 引言

眾包(crowdsourcing)是一種采購企業外部勞動力完成任務的策略,已經廣泛應用于各種領域和任務,如藥物發明、圖片標記和圖標設計等[1]。不同于其他領域眾包任務具有簡單、重復、時間短和報酬低等特點2,軟件眾包任務具有復雜、創新、時間長和報酬高等特點[3]。這些特點導致只有具備軟件開發能力的眾包工人才有資質和能力完成軟件眾包任務[4]。為了保證眾包任務順利進行,工人和發布者通常使用眾包平臺作為流程監管和監控工具。目前國內外存在著多家眾包平臺,如Topcoder、智城和豬八戒等。以Topcoder中的眾包流程為例[5],發布者在平臺中發布眾包任務;平臺中的眾包工人競標并提交成果;發布者評估并支付酬勞。上述流程如圖1所示。

軟件眾包在降低開發成本、提升效率和促進創新等方面具有顯著優勢[,但由于其任務復雜度高、挑戰性大,仍面臨諸多問題。高酬金任務吸引大量工人競標,但因平臺注冊門檻低,工人水平參差不齊,且部分工人對自身能力缺乏準確認知,常競標超出能力范圍的任務[7]。這可能導致選用不合適的工人,影響交付質量和發布者滿意度[8]。研究顯示,提高酬金并不總能提升任務質量[9,且軟件眾包任務的平均失敗率達15.7%[10] 。選人不當不僅降低任務成功率,還可能引發發布者和工人的雙重流失,形成惡性循環[8]

打破惡性循環的關鍵在于確保眾包任務的質量符合發布者預期,從而提升其滿意度。眾包工人的能力是影響任務質量的核心因素[1],因此通過評估工人能力,可以有效識別出能力較強的工人。但工人與任務的匹配程度同樣至關重要。通常,具備相關經驗和技能的工人在承擔與其專長相匹配的任務時,表現更為出色[10.12]。因此,為確保任務質量和提升發布者滿意度,需要在競標者中選出既具備高能力又與任務高度匹配的工人。目前的研究多集中于非軟件領域的眾包任務(如圖像標記),并主要通過量化工人能力來幫助發布者作出選擇[13,14]

針對這一問題,本文提出了一種綜合考慮工人能力與任務匹配度的眾包工人選擇模型。該模型包含眾包工人能力評估模型和眾包工人與任務匹配模型兩個子模型,整體框架如圖2所示。眾包工人能力評估模型通過基于線性規劃(linearpro-gramming,LP)的主觀定權法突出每個工人的優勢,并結合優劣解距離法計算工人能力得分,以此得到最優化的能力得分;眾包工人與任務匹配模型則結合工人與任務的信息,構建匹配信號,并通過基于神經協同過濾的深度神經網絡模型預測匹配得分。最終,本文模型通過加權法綜合工人的能力得分和任務匹配得分,旨在幫助發布者選擇既符合任務需求又具備高能力的工人。

為評估模型性能,本文首先收集國內軟件眾包平臺的工人競標記錄構建數據集。隨后,探索了模型的最優權重配置。接著基于最優權重,將得分最高的競標者與實際中標者一致的任務劃分為實驗組,其余任務為對比組。實驗結果顯示,實驗組任務的好評率比對比組高出20百分點。進一步使用假設檢驗驗證了模型對發布者滿意度的積極影響。最后,本文模型與基準模型進行了對比,結果表明本文模型在各項評價指標中均優于其他模型。實驗結果證明,本文模型在提升發布者滿意度和識別令發布者滿意的工人方面具有顯著優勢。

1相關工作

隨著軟件眾包的興起,研究者對其挑戰和改進方法展開了廣泛探討。Candria等人[對文獻進行了分析,以確定軟件眾包中使用的主要流程、實踐、工具和平臺,并了解這些計劃中報告的好處和挑戰。Assemi等人[15]發現了影響發布者和眾包工人成功的31個因素并分為發布者與工人之間的關系、眾包工人的競價行為、眾包平臺特征、工人特征、發布者特征五大類。發布者發布的任務描述長度和任務持續時間對眾包工人的投標金額和后續交付制品的質量有影響。文獻[10]提出了一個概念性任務多樣性模型并開發了一種分析任務多樣性的方法。由于眾包任務發布者最重要的需求是獲得高質量的任務制品,Lyu等人[16提出了一種評估眾包任務制品質量的模型(WEmb)。該模型減少了制品質量評估所消耗的金錢和時間成本。文獻[17]提出了一種利用競爭性實現的錯誤定位方法(CBFL),降低了軟件眾包中定位任務制品錯誤的成本。這些研究有助于眾包任務發布者在眾包平臺中提高任務成功率。

除上述經驗研究外,研究者還嘗試提出多種方法幫助發布者選擇眾包工人。Wang等人[13]提出了一種面向軟件眾包測試場景的多目標眾包工人推薦模型(MOCOM)。該方法通過評估測試任務上眾包工人完成任務的能力來推薦候選眾包工人。Wang等人[5引人了知識圖譜,以提取任務和眾包工人之間的深層聯系,并提出了一種多關系知識增強開發者推薦算法。文獻[18]提出了基于注意力機制和深度神經網絡的眾包工人任務分數預測算法,用于評估工人與任務之間的匹配程度,向任務發布者推薦分數最高的前 K 個開發者。

現有關于眾包工人選擇的研究都是通過量化眾包工人的能力來為發布者提供選擇決策,缺乏對眾包工人與任務匹配程度的考慮。文獻[10,12]的研究發現,眾包工人與任務的匹配程度對任務制品的質量具有重要影響。如果僅選擇能力強的眾包工人用于完成任務,發布者往往很難最終獲得高質量的任務制品。本文提出的面向軟件眾包的眾包工人選擇模型可以直接使用平臺中的工人信息與任務信息來綜合評估眾包工人。

2眾包工人選擇模型

眾包任務發布者選擇眾包工人時不僅需要考慮眾包工人的能力高低,還需要考慮眾包工人和任務的匹配程度。為此,本文首先提出了基于TOPSIS和線性規劃法的眾包工人能力評估模型(topsisamp;linearprogramming,TLP);其次,本文提出了基于匹配函數學習的眾包工人與任務匹配模型(crowdsourcingworkertaskmatchingmodel,CSTM);最后,計算眾包工人能力得分和眾包工人與任務匹配度的加權和,也即綜合考慮了眾包工人的能力和與任務的匹配程度。本文將參與任務競標中能力得分和匹配程度兩者加權和最高的競標者稱為本任務最優待選者,也即認為該競標者是最合適的眾包工人。

2.1眾包工人能力評估模型

由于對眾包工人的能力評估缺少現有指標支持,本文在參考其他工作相關指標的基礎上,組建專家團隊進行多次頭腦風暴,討論出符合軟件眾包場景下工人能力評估的若干指標??紤]到不同眾包任務發布者對工人能力的關注點不同,本文采用專家評估法來確定權重,并允許發布者自行設定權重。為了克服主觀確定權重的不足,僅要求發布者按照指標的重要性分類。另一方面,由于每個眾包工人的優勢指標不同,難以通過設定固定權重得到體現其優勢指標的能力得分,所以,本文提出TLP模型使用線性規劃的方式來分別計算每個工人的指標權重。最后,使用TOPSIS法綜合工人的各項能力指標,得到能力得分。

1)確定評估指標

為挖掘眾包工人能力評估的指標,本文邀請多位專家參與眾包工人能力評估目標分析樹的構建工作,其中包括四名具有多年軟件工程研究經驗的學術界專家,兩名擁有多年開發經驗和眾包任務管理經驗的工業界專家。參考關于眾包工人評估工作[4.5.15.19]中對眾包工人能力的關注維度,進行三次頭腦風暴,共計十五小時。第一次頭腦風暴旨在討論與眾包工人能力直接相關的重要維度,最終選取了知識、工作質量、經驗、信譽和積極性作為第一層子目標。第二次頭腦風暴旨在結合軟件眾包平臺的特點對一層子目標進行更具體的拆分,選取了技能、業務領域、發布者反饋、任務經驗、資質和活躍度作為第二層子目標。在第三次頭腦風暴中,由于第二層子目標已經可以直接對應軟件眾包平臺中的工人字段,專家對平臺中工人的所有字段進行分析,按照第二層子目標篩選字段并歸類,得到指標層。最終構建了如圖3所示的眾包工人能力評估目標分析樹,樹的所有葉子節點為最終選取的能力評估指標。

2)數據預處理

a)指標同方向性處理。為了方便后續綜合匯總,需要首先解決指標集合 F 中存在的同方向性問題,即將所有指標全部轉換為正向指標。指標集合 F={f1,f2,…,fn}=Fp∪Fn∪ (204Fa ,通常包括:(a)正向指標 $F ^ { \dprime }$ 。正向指標為積極的、正向意義的指標,指標數值越高表示對象的該項指標越優。(b)逆向指標 Fn 。逆向指標為一些消極的、負向意義的指標,指標數值越高越體現對象在某些方面的缺點,因此逆向指標數值越小越好,通常采用倒數法將其正向化。(c)適度指標 Fa 。適度指標代表了一些需要綜合考量的指標,其數值不宜太高也不宜太低,而是應趨于一個適度點,距離適度點越近,表示對象的該項指標越優,將其轉換為逆向指標,再使用倒數法將其正向化,如式(1)所示。

其中: wijn 代表第 i 個工人 wi 的第 j 個逆向指標 fjn 的值; wija 代表工人 wi 的第 j 個適度指標 fja 的值: {Afja 為一個常數,代表第 j 個適度指標 fja 的適度點; wijp 代表工人 wi 的第 j 個指標 fj 正向化處理后得到的正向指標。

總目標 能力評估↓ T

一層子目標 知識 工作質量 經驗 信譽 積極性

二層子目標技能業務領域發布者反饋 任務經驗 資質 活躍度指標 擅長技能數 服務領域數 好評率 質量 會員 承接項目數 總收 企業認證 近半年收人評分 等 人級weight,如表1所示。

表1指標權重映射 Tab.1Indicator weight mapping

雖然將指標的重要性映射為權重可以滿足發布者的個性化要求且具有較高的靈活性,但固定權重可能會使得在某一指標上具有極為優異表現的眾包工人難以得到合理得分。在指標重要程度確定的情況下,要突出工人的優勢指標,就要求權重不能為一個固定值。因此,TLP模型不僅為每項指標 fj 設置了預設初始權重weightj,還設立了權重的上限ueight和下限weigh。此外,各權重應滿足總和小于預設初始權重總和。

對于眾包工人 wi ,使用LP計算其各項指標的權重。在預設范圍內計算能使得工人 wi 與最優對象 ω+ 加權距離最小的權重組合。設有 m 項指標,目標函數和約束條件如式(3)所示。

b)數據無量綱化處理。由于各指標的量綱不同,值的范圍也不相同,所以無法使用其原始數值進行計算。本文使用歸一化方法對各指標作無量綱化處理,即將各項數據范圍映射至[0,1],表明其值在全集中的相對位置,使各個指標轉換成可以直接加減的數值。歸一化方式如式(2)所示。

其中: wij 代表原始數據中第 i 個工人 wi 的第 j 個指標 fj 的數值; n 代表本任務中眾包工人的個數; wijnor 代表歸一化后的結果。

c)最優最劣對象提取。在完成上述處理后,提取各項指標中最大值作為“最優對象” O+,O+={max(f1) , max(f2),… max(fn)} ;提取各項指標中最小值作為“最劣對象” o-,o-= {min(f1) ) 。需要注意的是,最優(最劣)對象是從各指標值中選取最高值(最低值)組成的對象,該對象的意義在于方便后續計算,并不一定真實存在。

3)確定指標權重

確定指標權重的方法有主觀法、客觀法和主客觀結合法等[20]。其中,主觀法包括層次分析法和專家評估法等;客觀法包括信息熵法、秩和比法和正態分布法等;主客觀結合法為混合使用主觀法和客觀法確定權重的方法。在眾包場景中,各指標的權重設定應當充分尊重任務發布者的意見,并且不同發布者對眾包工人能力的關注點可能不同,發布者更關注的能力指標應獲得更高權重。在上述多種確定指標權重的方法中,專家評估法的權值設定靈活,可以滿足發布者的個性化需求,但人為的感性認知難以直接量化,發布者可能難以將想法量化成為合適的權重。因此,本文按照指標的重要性,參照層次分析法中對等標準[21]之間的相對重要性定義表,設計了指標重要程度映射表,預設幾個類別,指導發布者對指標作分類。本文為增強不同重要性界限,減少主觀定義誤差,將映射類別減少為5個,將指標的重要性分為一般重要、較為重要、重要、非常重要和絕對重要五個類別,分別對應1\~5的預設初始權重其中: weightj- 代表第 j 項指標的權重下限; weightj+ 代表第 j 項指標的權重上限; 代表工人 wi 的第 j 項指標的權重; M 代表預設初始權重總和; Oj+ 與 wij 均為確定的數值,因此(Oj+-wij) 2為常數。目標函數即為線性函數,此最優化問題即轉換為LP問題。接著,使用LP為每個眾包工人單獨計算權重,保證工人在預設范圍內獲得最有利于自身得分的權重組合。實現了在發布者個性化定制權重的同時,最大限度地突出眾包工人的優勢指標。

4)計算能力得分。在經過數據預處理和確定指標權重后,得到所有待評估對象中最優對象 o+ 、最劣對象 o- 、工人 wi 對應指標集合 Winor={wi1nor,wi2nor,…,wijnor} 、指標權重集合 。計算評估對象與最優對象的加權距離 Di+ 、與最劣對象的加權距離 Di- ,得到各眾包工人的能力得分,分別如式(4)(5)所示。

其中: Oj+ 與 Oj- 分別代表最優對象與最劣對象的第 j 個指標值; wij 代表第 i 名工人的第 j 個指標值; 代表第 j 個指標的預設權重。

接著,計算所有對象與最優對象的接近程度 Ci 。具體計算如式(6)所示。其中, Ci 表示第 i 名工人 wi 與最優對象 o* 的接近程度,其值在0\~1。 Di- 越大,代表該對象距離最劣對象越遠。相應地, Di+ 越小代表該對象距離最優對象越近。當 Ci+ 趨近于1,則代表該對象趨近于最優水平。因此, Ci 數值越高,代表工人能力越強。

最后,將 Ci 歸一化,得到工人的能力得分 Si ,如式(7)所示。

其中: min(C) 代表工人與最優對象接近程度的最小值;max(C) 代表工人與最優對象接近程度的最大值。

2.2眾包工人與任務匹配模型

本文提出了基于匹配函數學習的深度匹配模型一—眾包工人與任務匹配模型(CSTM)。模型重點考慮任務和工人的特征交叉信息。首先,使用眾包工人與任務的特征構造交叉特征,然后拼接匹配信號[14],融合工人特征和任務特征;最后,使用基于神經協同過濾(neuralcollaborativefiltering,NCF)的深度神經網絡預測眾包工人與任務的匹配得分。

CSTM模型對眾包工人的匹配得分預測由數據抽取、構建匹配信號和預測匹配得分三個階段組成。模型使用深度神經網絡來學習工人和任務特征的表示和匹配函數,并進一步預測匹配得分。圖4展示了CSTM模型的整體框架。

1)數據抽取

數據抽取階段的整體過程如圖5所示。本文首先對眾包工人與任務的數據進行數據清洗和異常值過濾,然后將眾包工人的信息分為歷史信息與個性信息,任務的信息分為元信息與需求信息,并根據眾包工人和任務特征的數據類型設計不同的特征處理方式。

對于數值型特征,作分桶、離散化等方式處理;對于枚舉型特征,作one-hot編碼處理;對于集合型特征,作multi-hot編碼處理;對于文本型特征,建立關鍵詞字典,分詞后與關鍵詞字典作交集,轉換為集合型特征。對于眾包工人的唯一標識,需要進行one-hot編碼和嵌入處理。對于參與任務 ti 競標的工人 ,對其唯一標識進行one-hot編碼。由于眾包工人數量較多,one-hot編碼會使得特征向量維度過高且非常稀疏。為了解決維度爆炸問題和提升模型表達能力,對one-hot編碼后的唯一標識作嵌入處理,并與其他處理后的工人特征拼接,構造為眾包工人向量 uwj 。對于任務的唯一標識,同樣進行one-hot編碼和嵌人處理。對于給定任務 ti ,對其唯一標識進行one-hot編碼和嵌入處理后與其他處理后的任務特征拼接,構造得到任務向量 νti

經過上述數據預處理后,將眾包工人的信息(除唯一標識外)根據其含義分為歷史信息與個性信息。歷史信息主要是可以直接進行特征處理的眾包工人歷史工作數據,該信息會隨著工人的任務經歷發生變化,包括承接任務數量、盈利額度和好評率等;個性信息主要指眾包工人的個人信息,該信息主要用在與任務特征中對應信息相匹配,從而構造匹配信號,包括技能類信息和地域類信息等。

將任務的信息(除唯一標識外)按照是否對工人有偏好或要求分為需求信息與元信息。其中,需求信息指任務中對眾包工人提出要求或者對眾包工人存在偏好的相關信息,該信息與眾包工人的對應信息相匹配以構造匹配信號,包括地域信息、技能要求和業務領域等;元信息是指任務信息中除需求信息外的其他對任務直接描述的信息,此類信息可以直接進行特征處理,如任務預算和任務周期等。

2)構建匹配信號

在匹配信號構建階段,首先,逐一匹配眾包工人的個性信息與任務的需求信息,構建眾包工人-任務特征的匹配特征。其次,將眾包工人特征、任務特征和匹配特征拼接,生成匹配信號。對于給定任務 ti 和參與競標的工人 ,構造匹配特征后,共同拼接得到眾包工人-任務特征向量 ,作為模型的輸入向量。模型的輸出向量表示為 ,代表模型預測的匹配得分M。根據給定眾包工人w是否在任務ti 中中標,構造標簽 ,若中標則 為1,否則為0,以此來指導模型計算損失,更新參數。

3)預測匹配得分

本文使用全連接深度神經網絡來學習眾包工人-任務特征 的表示和匹配函數,預測匹配得分。模型的隱藏層共有 h 層,第 p 層的輸出為 lp ,權重為 weightp ,偏差為 Bp ,在隱藏層使用的激勵函數為ReLU,如式(8)所示。在輸出層使用的激勵函數為 softmax,如式(9)所示。輸出結果為 ,代表該眾包工人與任務的匹配得分 u,o

使用二值交叉熵(binarycross-entropy,BCE)作為損失函數,將標簽 與模型預測結果 代入式(10),計算損失。

2.3綜合模型結果

TLP模型可以有效評估眾包工人的能力,但只關注了眾包工人本身;CSTM模型綜合考慮了眾包工人與任務的多項特征,可以預測眾包工人與任務的匹配得分。本文提出面向軟件眾包的眾包工人選擇模型,計算TLP與CSTM得分的加權和,實現了對眾包工人的綜合評估。本文將參與任務競標的工人中綜合得分最高的競標者稱為本任務最優待選者。

TLP以任務為單位計算單一任務內競標者的能力得分,CSTM將眾包工人與任務的特征拼接作為一個匹配信號實現匹配得分預測。本文模型為兩個模型的綜合,并且是以任務為單位對參與任務競標的眾包工人進行綜合評估。對于任務 ti 中的競標者 wj ,使用TLP計算得到能力得分 Sj ,使用CSTM預測競標者 wj 與任務 ti 的匹配得分 ,并加權計算得到綜合得分 ,具體計算如式(11)所示。

其中: W 代表模型權重。為觀察當權重變化時模型效果的變化趨勢,在實驗部分采用從0到1,以0.01為步長的方式設計權重探究實驗。盡管此設計可能會損失一定的準確性,但對于了解眾包任務發布者在選取眾包工人時的偏好具有參考意義。

3 實驗設計和分析

3.1 實驗設計

為了驗證本文提出的面向軟件眾包的眾包工人選擇模型在提升眾包任務發布者滿意度方面的有效性以及在識別令發布者滿意的眾包工人方面的先進性,同時嘗試探究模型的最優綜合權重,本文提出了以下三個研究問題(researchquestion,RQ)以驅動實驗。

RQ1:如何設定模型權重使得眾包工人選擇模型的效果最優?

本文所提眾包工人選擇模型計算TLP與CSTM模型輸出得分的加權和,得到綜合得分。因此,模型權重 W 直接影響了眾包工人的綜合得分。為了回答RQ1,使用軟件眾包平臺中獲得發布者滿分好評的任務作為數據集,通過大量實驗,探究符合發布者偏好的最優綜合權重,以使得模型的效果最優。

RQ2:選擇本任務最優待選者去完成眾包任務,會對發布者的滿意度產生怎樣的影響?

本文所提眾包工人選擇模型從工人的能力和工人與任務的匹配度兩方面綜合評估眾包工人,能夠為任務發布者提供選人參考。工人的選取可能會影響最終任務的質量,選取與任務匹配度較高且能力較強者可以提升任務質量,以提升任務發布者的滿意度。為了回答RQ2,本文使用軟件眾包平臺中的大量任務作為數據集,使用模型計算任務內競標者的綜合得分,將數據集中的任務按照中標者是否與本任務最優待選者一致分為兩組,通過任務發布者對任務的評分體現發布者的滿意度,驗證本文模型在提升任務發布者滿意度方面的有效性。

RQ3:本文所提眾包工人選擇模型在識別令發布者滿意的眾包工人方面是否有更加優秀的表現?

本文所提眾包工人選擇模型綜合了CSTM與TLP模型的評估結果,結合了兩個模型的優點,綜合考慮了眾包工人的能力和工人與任務的匹配度兩方面。為了回答RQ3,以平臺中發布者評分為滿分的任務作為數據集,預測任務的中標者。使用所提模型計算任務內競標者的綜合得分,將模型識別出的本任務最優待選者作為預測結果,與TLP、CSTM以及其他主流眾包工人選擇模型進行對比分析。

3.1.1 實驗數據

本文首先從國內某著名軟件眾包平臺上獲取了任務23025項,眾包工人8747名,眾包工人與任務的競標關系179872對。由于平臺中部分工人賬號已注銷或因違規被凍結,從而導致涉及到的數據無法使用。此外,實驗需要用已產生中標者并且有發布者反饋評分的任務來驗證模型的評估結果。因此需要篩選數據,排除掉以下幾類任務:已被凍結賬號的工人參與的任務、已注銷賬號的工人參與的任務、未產生中標者的任務和發布者未評分的任務。經過篩選后得到該平臺上任務9450項,眾包工人8747名,眾包工人與任務的競標關系98940對。

數據涉及的眾包任務字段如表2所示,眾包工人字段如表3所示。在構建匹配信號時,眾包任務的需要技能可以與眾包工人的擅長技能直接匹配,即直接計算兩個集合的交集,構造匹配特征技能匹配數量。任務的任務類別與眾包工人的服務領域以同樣的方式匹配,構造匹配特征領域匹配數量。比如,眾包工人的擅長技能和任務的需要技能均為枚舉類型,若某任務的需要技能為{Java,數據庫, ,參與該任務競標的某眾包工人的擅長技能為{Java,Python,數據庫},則取其交集得到Java,數據庫,交集中包含兩條技能,則匹配特征技能匹配數量值為2。

Tab.2 Crowdsourcing task field
表3眾包工人字段
表2眾包任務字段Tab.3Crowdsourcingworker field

3.1.2 評價指標

1)發布者對任務的滿意度評價指標

在眾包工人交付任務后,發布者會在一段時間內對任務進行評分,評分為[0\~5]分,其中0\~1視作差評,4\~5視作好評。使用數據集中好評任務所占比例(好評率)與差評任務所占比例(差評率)來體現發布者群體的滿意度。

通過卡方檢驗[22]對“雇傭本任務最優待選者對眾包任務發布者的滿意度沒有影響\"這一假設進行檢驗,如式(12)所示。如果實驗結果拒絕這一假設,則說明雇傭本任務最優待選者對眾包任務發布者的滿意度有影響。

其中: ωa,b 為對照組好評和非好評數量; c?d 為實驗組好評和非好評數量 ∴x2(1) 的值從 χ2 分布臨界值表中查閱。實驗組為中標者與本任務最優待選者一致的任務集合,對照組為中標者與本任務最優待選者不一致的任務集合。

2)預測效果評價指標

本文將模型識別出的本任務最優待選者作為任務中標者的預測結果,選取準確率和平均倒數排名作為模型預測效果的評價指標。

準確率(accuracy,Acc)[23]表示模型中所有預測結果正確的樣本數占總樣本數的比例。本實驗中,將準確率擴展到top-1Acc、top-3Acc和top-5Acc,也即預測結果正確的樣本在總樣本中分別排在第1位、前3位和前5位,具體計算方式如式(13)所示。

其中: ∣Tc 1是正確預測中標者在總樣本中排名為前 k 個的任務數量;ITI為任務總數。

平均倒數排名(meanreciprocalrank,MRR)[24]使用真實結果在模型預測結果中的排名來評估模型預測的性能,如式(14)所示。

其中: rankwi 為任務 ti 的真實中標者在模型預測結果中的名次;ITI為任務總數。

3.1.3基準模型

為驗證本文提出眾包工人選擇模型在幫助發布者選擇眾包工人上的先進性,本文將其與當前流行的工人嵌入(workerembedding,WEmb)[16]模型、基于支持向量機(support vectormachine,SVM)[25]的推薦算法、基于決策樹(decision tree,DT)[26]的推薦算法、基于樸素貝葉斯(Naive Bayes,NB)[27]的推薦算法和基于深度學習的眾包軟件開發者推薦算法[作了對比。

工人嵌入模型是一種基于嵌入的模型。模型自動學習工人質量的特征,利用單層感知機預測作品質量,通過作品質量反映工人質量。本文經過改進模型,將其適用于任務的中標者預測問題。

支持向量機模型是一種基于核函數的分類模型,它的基本思想是在特征空間內求解能正確劃分訓練數據并使其間隔最大的超平面。在本場景中,將支持向量機對眾包工人分類為1的概率記為眾包工人的中標概率。

決策樹分類模型是一種基于樹的分類模型。根節點是信息不確定性最大的節點,當對數據集進一步劃分時,不確定性將逐漸減少。在本場景中,將決策樹對眾包工人分類為1的概率記為眾包工人的中標概率。

樸素貝葉斯模型是一種基于貝葉斯定理,以特征條件獨立假設為基礎的分類模型。樸素貝葉斯提出了條件獨立性的假設,即每個特征獨立地對分類器的結果造成影響。在本場景中,將樸素貝葉斯模型對眾包工人分類為1的概率記為眾包工人的中標概率。

基于深度學習的眾包軟件開發者推薦算法結合任務特征與開發者特征,通過注意力機制與深度神經網絡預測開發者任務分數,用于評估參與者的得分情況,并推薦分數最高的前 K 個開發者。

3.2 結果分析

3.2.1模型的最優綜合權重探究

發布者對任務的評分為滿分則代表發布者對該任務制品是滿意的,該任務的中標者獲得了發布者的認可,發布者對眾包工人的選擇被認為是成功的。實驗使用軟件眾包平臺中發布者評分為滿分的任務集合作為探究眾包工人選擇模型最優綜合權重的數據集,擬合發布者的偏好。

為了探究本文模型的最優模型權重,從0到1,以0.01為步長設置了101組權重設計實驗。表4展示了模型在不同權重配比下的部分結果。

表4模型在不同權重配比下的表現(步長為0.1)

為直觀觀察權重變化時模型的評估效果,圖6展示了模型在不同權重配比時的評估效果??傮w上來看,隨著模型權重由0到1,各指標呈先上升后下降的趨勢,在權重 W=0,39 時,各指標取得最高點。即本文所提面向軟件眾包的眾包工人選擇模型在上述權重時表現最好。

回答RQ1,本文模型的權重 W=0.39 時,最貼合發布者偏好。這意味著發布者在選擇工人時,相比于眾包工人與任務的匹配度,會略傾向于關注眾包工人的能力。本文使用此權重組合作為模型的綜合權重,在下文的實驗中均將使用此權重配比。

圖6不同權重下模型的表現Fig.6Model performanceswith different weightratios

3.2.2模型對發布者滿意度的影響探究

本實驗以任務為單位,使用所提模型計算任務競標者的綜合得分,將綜合得分最高的競標者識別為本任務最優待選者。按照真實中標者與本任務最優待選者是否一致的規則,將數據集中的任務分為實驗組與對照組。其中,實驗組為中標者與本任務最優待選者一致的任務集合,對照組為中標者與本任務最優待選者不一致的任務集合。將0\~1分視作差評,4\~5分視作好評,體現發布者對任務的滿意度,表5展示了兩組任務的平均分、好評率和差評率。

Tab.4Model performanceswith different weight ratios(step size O.1)表5實驗組與對照組發布者的滿意度Tab.5Publishers’satisfaction of experimental and control groups

由表5可以看出,實驗組的低分任務占比均低于對照組,高分任務占比均高于對照組。實驗組任務的好評率高于對照組約20百分點,差評率低于對照組約10百分點,任務的平均分高于對照組約0.7分,發布者對任務展現出更高的滿意度。接著,使用顯著性檢驗探究選擇本任務最優待選者是否會對眾包任務發布者的滿意度產生影響。本文使用卡方檢驗,作出原假設H0:雇傭本任務最優待選者眾包任務發布者的滿意度沒有影響。根據式(12)計算得 χpearson2=343.36 ,查閱 χ2(χ1) 分布臨界值表得知,當 χpearson2gt;7.88 時,有 99.5% 的置信度拒絕原假設HO,由此可得本文拒絕原假設,認為兩組數據分布之間存在顯著差異。因此,雇傭本任務最優待選者會對發布者的滿意度產生影響。

回答RQ2,使用本文提出的眾包工人選擇模型預測結果的任務好評率高于未使用預測結果的任務,發布者選擇本任務最優待選者能夠有效提升對任務制品的滿意度。因此可以認定,本文模型可以有效地為發布者提供選人參考,提升選用與任務匹配度高且能力優秀的眾包工人的概率,有利于提升雇主與眾包工人的契合度,并提升發布者的眾包體驗。依據發布者與眾包工人和平臺之間的關系可以推斷出使用本文所提模型后:對于眾包工人而言,模型能顯式地展示其綜合得分,對于中標者,能夠增加自我肯定,對于其他競標者,能夠幫助工作者了解自身能力,對照具體指標,分析自身不足,對工人提升自身能力起到指導意義;對于軟件眾包平臺而言,為發布者和眾包工人帶來良好的眾包體驗可以提升用戶黏度,增加任務轉換率,吸引新的任務發布者加入。

3.2.3模型的先進性探究

選取軟件眾包平臺中發布者評分為滿分的任務作為模型先進性研究的數據集,使用本文模型對任務內競標者綜合評估,將本任務最優待選者視作模型的預測結果,探究本文模型在識別令發布者滿意的工人方面的表現。

表6展示了本文模型、TLP、CSTM、基于深度學習的眾包軟件開發者推薦算法、基于決策樹的推薦算法(DT)、基于樸素貝葉斯的推薦算法(NB)、基于支持向量機的推薦算法(SVM)、工人嵌入模型(WEmb)八個模型在軟件眾包平臺中的預測效果。回答RQ3,由表6可以看出,本文模型作為TLP與CSTM的綜合模型,其各項指標表現均超過了其他模型且優于兩個單一模型。

表6各模型效果對比Tab.6Performance comparison of various models

對所選模型作進一步分析。工人嵌入模型只使用了單層感知機,難以學習眾包工人的表示與最終得分之間的關系。因此,工人嵌入模型的表現最差,其中,top-1Acc均不足0.2,MRR也最低。支持向量機對數據不平衡問題十分敏感,而在眾包場景下,每個任務存在多個競標者,但最終僅產生一位中標者,正負樣本不均衡問題嚴重。本文雖然對正樣本采取了過采樣來緩解數據不平衡的問題,但表現依然不佳。

樸素貝葉斯有一個重要的前提,即條件獨立假設。在本文中,眾包工人的各項指標并不完全獨立,比如眾包工人承接任務的數量與總收入是相關的。因此,樸素貝葉斯方法表現并不出色。決策樹模型對缺失值和不相關特性并不敏感。因此,決策樹模型綜合表現相較于樸素貝葉斯方法和支持向量機模型更為優秀。但因決策樹模型更適合于離散數據特征較多的場景,而本文中眾包工人的數據類型大多為數值型,所以決策樹在該場景下的表現仍不夠最優。

基于深度學習的推薦算法結合注意力機制與深度神經網絡,較好地捕捉了工人與任務的特征交互關系,性能優于傳統方法。然而,該模型主要針對任務匹配分數預測,缺乏對競標者間相對優劣的綜合考慮。

工人與任務匹配模型利用任務與工人信息生成匹配信號,預測精度較高,但可解釋性較弱。眾包工人能力評估模型依托平臺工人數據字段,直接評估工人能力,減少了異常值干擾,但對歷史數據依賴較高,可能在處理較舊任務時存在偏差。本文模型作為眾包工人能力評估模型和工人與任務匹配模型的綜合模型,結合兩個模型的優點,具有一定的可解釋性,在考慮眾包工人能力的同時,也綜合考慮了工人與任務的匹配度,與發布者關注點貼近,在眾包工人的選擇場景下表現優異。

4效度威脅

實驗使用本文模型得到參與競標的眾包工人在能力和與任務匹配程度上的綜合得分,幫助任務發布者選擇眾包工人。以眾包平臺中的真實任務作為數據集,按照中標者是否與模型評估出的本任務最優待選者一致,將任務分為實驗組與對照組。實驗僅將中標者是否與評估結果一致作為自變量,探究兩組中任務的得分分布情況,反映發布者的滿意度。影響任務評分的因素還包括任務發布者個人的偏好、任務的復雜度等其他因素,因此本實驗存在內部效度威脅。本文通過假設檢驗法對結果作進一步分析,有 99.5% 的置信度認為雇傭本任務最優待選者會對發布者滿意度產生影響,進而確保了實驗具有較高的內部效度。

由于本文集中于一個軟件眾包平臺,所以本文描述的工作存在外部效度威脅。將本文模型推廣到其他平臺時需要進行一定的調整,具體調整內容為:新平臺的眾包工人的評估指標集合需按照目標分析樹中最底層的子目標對工人的指標進行篩選;在新平臺構建匹配信號需要在對所有指標重新分類后進行;在新平臺模型的最優權重需要重新探究。然而上述需要調整的內容,本文都有對應的步驟說明,例如模型權重調整可以直接參考本文的實驗流程,無須重新設計。由此可見,盡管存在外部效度威脅,本文已為模型在其他平臺的推廣應用提供了充分的理論支持和實踐指引。

5結束語

為解決軟件眾包工人選擇問題,本文提出了綜合考慮工人能力和任務匹配度的選擇模型。通過TLP評估工人能力,基于專家構建的目標分析樹和LP計算最優權重,結合TOPSIS得出能力得分;通過CSTM評估任務匹配度,利用NCF預測工人與任務的匹配得分。最終,綜合兩模型結果加權,形成更加貼合發布者需求的工人選擇方案,并為其他非軟件眾包場景提供參考。

實驗基于軟件眾包平臺中的真實數據(9450項任務、8747名工人、98940對競標關系),驗證了本文模型在提升發布者滿意度和任務成功率方面的優越性。結果表明,本文模型不僅優于單一維度的TLP和CSTM,還顯著超越五種先進模型。

參考文獻:

[1]Wang Baowei,Yuan Yi,Li Bin,et al.QAIC:quality-assured image crowdsourcing via blockchainand deep learning[C]//Proc of the 26th International Conference on Computer Supported Cooperative Work inDesign.Piscataway,NJ:IEEE Press,2023:648-653.

[2].Dishman S,DuffyVG.The reaches ofcrowdsourcing:a systematic literature review[C]//Proc of the23rdHCI International Conference.Cham:Springer,2021:229-248.

[3]OppenlaenderJ,Abbas T,GadirajuU.The state of pilot studyreportingin crowdsourcing:a reflection on best practices and guidelines [C]//Proc of ACMon Human-Computer Interaction.New York: ACM Press,2024:184.

[4]劉安戰,郭基鳳.軟件眾包開發者的能力價值率模型研究[J]. 計算機應用研究,2020,37(8):2422-2427,2432.(Liu Anzhan, Guo Jifeng.Research on value ratio model of software crowdsourcing developers’capability[J].ApplicationResearchof Computers, 2020,37(8):2422-2427,2432.)

[5]Wang Zhaozhe,Yu Xu,Jiang Feng,et al.A developer recommendationalgorithm based on multi-relationship knowledge enhancement [C]//Proc of the 6th International Conference on Electronic Information and Communication Technology:Piscataway,NJ:IEEE Press,2023:1-6.

[6] CandriaDDC,Araujo R MD.Crowdsourcing software development—apossiblepath?[C]//Proc of the18th Brazilian Symposium on Information Systems. New York:ACM Press,2022:1-8.

[7]Qiu Sihang,Bozzon A,Birk MV,et al.Using worker avatars to improve microtask crowdsourcing[C]// Proc of ACM on HumanComputer Interaction. New York:ACMPress,2021:1-28.

[8]Li Yuying,Feng Yang,Guo Chao,et al.Crowdsourced test case generation for Android applications via staticprogram analysis[J]. Automated Software Engineering,2023,30(2):26.

[9]Wang Lili,Yang Ye,Wang Yong.Do higher incentives lead to better performance?An exploratory study on software crowdsourcing[C]// Procof ACM/IEEE International Symposium on Empirical Software Engineering and Measurement.Piscataway,NJ:IEEEPress,2O19:1-11.

[10]Rashid T,Anwar S,Jaffar MA,et al.Success predictionof crowdsourced projects for competitive crowdsourced software development[J].AppliedSciences,2024,14(2):489.

[11]Guo Shikai,ChenRong,LiHui,etal.Capability matchingand heuristic search for job assignment in crowdsourced web application testing[C]// Proc of IEEE International Conference on Systems,Man, and Cybernetics.Piscataway,NJ:IEEE Press,2018:4387-4392.

[12]Safran M ,CheDunren.Efficient learning-based recommendation algorithms for top ?N tasks and top .N workers in large-scale crowdsourcing systems[J].ACMTrans on Information Systems,2018,37 (1):articleNo.2.

[13]Wang Junjie,Wang Song,Chen Jianfeng,et al.Characterizing crowds to better optimize worker recommendation in crowdsourced testing[J]. IEEE Trans on Software Engineering,2021,47(6): 1259-1276.

[14]Xu Jun,He Xiangnan,Li Hang.Deep learning for matchingin search and recommendation[J].Foundations and Trends@ in Information Retrieval,2020,14(2-3):102-288.

[15]Assemi B,Jafarzadeh H,AbedinE,et al.Who gets the job?Synthesis of literature findings on provider success in crowdsourcing marketplaces[J].Pacific Asia Journal of the Association for InformationSystems,2022,14(1):40-73.

[16]Lyu Shanshan,OuyangWentao,Shen Huawei,et al.Learning representations for quality estimation of crowdsourced submissions[J].Information Processingamp; Management,2019,56(4):1484-1493.

[17]葉晨,王宏志,高宏,等.面向眾包數據清洗的主動學習技術 [J].軟件學報,2020,31(4):1162-1172.(Ye Chen,Wang Hongzhi, Gao Hong, et al. Active learning approach for crowdsourcingenhanced data cleaning[J]. Journal of Software,2020,31(4): 1162- 1172. )

[18]薛嬋.基于深度學習的眾包軟件開發者推薦[D].南京:東南大 學,2022.(Xue Chan. Recommendation of crowdsourcing software developers based on deep learning[D]. Nanjing:Southeast University,2022.)

[19]YangYu,MoWenkai,ShenBeijun,etal.Cold-startdeveloperrecommendation in software crowdsourcing:a topic sampling approach [C]//Proc of the 29th International Conference on Software Engineeringand Knowledge Engineering.[S.1.]:KSIResearch Inc.and Knowledge Systems Institute Graduate School,2017:376-381.

[20]Fu Chao,Xu Dongling,Xue Min.Determining attributeweights for multiple attribute decision analysis with discriminating power in belief distributions[J].Knowledge-Based Systems,2018,143:127-141.

[21]Lyu Wenzhe,Qiu Xuesong,Meng Luoming.Blockchain localization spoofing detection based on fuzzy AHP in IoT systems[J]. EURASIP Journal on Wireless Communications and Networking,2022, 2022(1):13.

[22]Plackett RL.Karl Pearson and the Chi-squared test[J].Revue InternationaledeStatistique,1983,51(1):59-72.

[23]Cai Xingjuan,Hu Zhaoming,Zhao Peng,et al.A hybrid recommendationsystem with many-objective evolutionary algorithm[J].Expert Systemswith Applications,2020,159:113648.

[24]XingQianli,Zhao Weiliang,YangJian,etal.PB-worker:anovel participating behavior-based worker ability model for general tasks on crowdsourcing platforms [C]/′ Proc of IEEE International Conferenceon Web Services.Piscataway,NJ:IEEE Press,2O2O:37-44.

[25]HuangHai,Wang Yongjian,Zong Haoran.Support vector machine classification over encrypted data[J].Applied Intelligence,2022, 52(6) : 5938-5948.

[26]趙雪,李曉會.面向非獨立同分布數據的聯邦梯度提升決策樹 [J].計算機應用研究,2023,40(7):2184-2191.(ZhaoXue,Li Xiaohui. Federated gradient boosting decision tree for non-ID dataset [J].ApplicationResearch of Computers,2023,40(7):2184- 2191.)

[27]丁月,汪學明.基于改進特征加權的樸素貝葉斯分類算法[J]. 計算機應用研究,2019,36(12):3597-3600,3627.(DingYue, WangXueming. Naive Bayes classification algorithm based on improved feature weighting[J].Application Research of Computers,2019,36(12):3597-3600,3627.)

猜你喜歡
工人權重評估
北歐五國幼兒教育與保育評估體系探析與啟示
滬新不銹鋼樣本:環境規制趨嚴下構建綠色財務績效評價體系
中國商人(2025年14期)2025-08-19 00:00:00
企業資產評估中的財務會計問題及對策研究
通知:全體打工人放一天暑假
績效評估體系在醫院人力資源管理中的應用
中國經貿(2025年7期)2025-08-16 00:00:00
歲月新榮光
新民周刊(2025年29期)2025-08-15 00:00:00
基于信息熵的自適應多分類器交通數據插值模型
基于數學問題解決的神經元結構與功能教學探索
安徽岳西:訂單無人機“飛”出加速度
科學導報(2025年47期)2025-08-05 00:00:00
基于結構熵權法的自適應權重修正河流健康評價方法研究
主站蜘蛛池模板: 中文字幕日韩欧美| 国产精品免费电影| 免费在线色| 亚洲国产精品日韩欧美一区| 久久久波多野结衣av一区二区| 国产第一色| 欧美日韩午夜| 国产剧情国内精品原创| 国产小视频免费观看| 亚洲黄色视频在线观看一区| 久久精品女人天堂aaa| 天天爽免费视频| 无码国产伊人| 国产成人精品一区二区秒拍1o| 中文字幕色在线| 在线无码九区| 亚洲国产精品一区二区高清无码久久 | 麻豆精品在线| 国产精品免费福利久久播放| 亚洲国产日韩一区| 国产精品亚欧美一区二区三区 | 免费国产高清视频| jizz在线观看| 四虎精品免费久久| 91在线无码精品秘九色APP| 91精品久久久无码中文字幕vr| 亚洲日韩每日更新| 91娇喘视频| 人妻21p大胆| 欧美97色| 99ri国产在线| 在线中文字幕网| 欧美色视频网站| 在线看片国产| 亚洲一区二区三区在线视频| 国产在线精品人成导航| 亚洲视频在线青青| 91色老久久精品偷偷蜜臀| 无码人中文字幕| www.狠狠| 五月天香蕉视频国产亚| 精品小视频在线观看| 毛片网站观看| 深爱婷婷激情网| 日韩欧美中文字幕在线韩免费| 国产精品吹潮在线观看中文| 精品无码一区二区三区在线视频| 毛片卡一卡二| 日本www色视频| 人妻无码一区二区视频| 亚洲精品桃花岛av在线| 一本大道AV人久久综合| 午夜丁香婷婷| 亚洲中久无码永久在线观看软件| 亚洲一区二区三区麻豆| 亚洲日韩图片专区第1页| h视频在线播放| 91精品国产麻豆国产自产在线| 国产精品视频导航| 成人年鲁鲁在线观看视频| 国产丰满大乳无码免费播放 | 国产免费怡红院视频| 91人人妻人人做人人爽男同| 亚洲一区波多野结衣二区三区| 她的性爱视频| 国产精品夜夜嗨视频免费视频| 成人午夜视频免费看欧美| 亚洲人人视频| 国产综合精品日本亚洲777| 国产不卡一级毛片视频| 精品视频一区二区三区在线播| 青青草国产一区二区三区| 亚洲性网站| 国产午夜精品一区二区三| 精品视频一区在线观看| 亚洲无线观看| 激情综合网址| 在线观看国产精品第一区免费| 日韩av电影一区二区三区四区 | 亚洲欧美不卡| 日本国产一区在线观看| 午夜一级做a爰片久久毛片|