










關鍵詞:收益分配;聯邦計算;Shapley值法;數據交易;模型改進
DOI:10.3969/j.issn.1008-0821.2024.11.011
〔中圖分類號〕F49;F224.32;G203 〔文獻標識碼〕A 〔文章編號〕1008-0821(2024)11-0108-10
近年來,我國數據要素市場化建設進程穩步推進。貴陽數據交易所、上海數據交易中心等一批數據交易平臺相繼成立,數據要素市場規模不斷擴大,但仍然處于發展的起步階段,面臨數據要素流通困難、市場生態發育不良、場內數據交易量不足等一系列困難與挑戰[1]。由于合作價值和分配規則的不清晰等種種原因,數據供應方入場意愿低下,數據合作開發和交易難以開展。探究合理的預期收益分配機制,為數據供應方提供穩定預期的決策支撐,對促進數據流通、加快數據要素市場化進程,具有重要的研究意義。
多方數據協作是指多個數據供應方開展數據合作開發,提供數據產品,并依據一定的規則對最終的數據產品的收益進行分配。數據供應方的橫向聯合或縱向聯合使得數據資源有效匯聚,促進數據的價值挖掘和數據產品的收益提升。橫向聯合指數據供應方提供數據所具有的屬性相同或相似,多方聯合使得數據所覆蓋的樣本量增加;縱向聯合指數據供應方提供數據所具有的屬性不同,多方聯合主要增加了數據維度。考慮到隱私保護和數據安全,各數據供應方不會直接將數據進行共享匯聚,而聯邦計算為更好地提升多方數據協作水平、釋放數據要素價值提供了重要支撐。在數據交易的撮合環節,依賴聯邦計算等技術,多個數據供應方可以提供部分樣本數據進行數據實驗,根據實驗結果和具體的定價策略對未來數據交易中的數據產品進行估價,進而形成合作與收益分配的意向。
Shapley值法能夠根據各參與者對合作聯盟總目標的貢獻程度進行價值分配。但是,直接將Sha?pley值法用于聯邦計算得到的數據產品預期收益分配也存在若干問題。首先,Shapley值法所考量的通常是模型表現、構建成本等因素,這種單一的因素往往不能全面地衡量各方的貢獻。收益分配不僅要考慮各方對數據產品價值的直接貢獻,也要考慮各方對數據產品開發的間接影響。其次,在交易撮合期間,由于信息不完全,數據供應方決策理性有限,且各方博弈水平存在差異等原因,預期收益分配結果難以準確衡量。因此,對Shapley值法進行改進,才能夠形成有效的聯邦計算的預期收益分配,更有力地支撐多方數據協作的合作意向達成。
本文提出改進的Shapley值法進行聯邦計算的預期收益分配,包括引入影響合作和交易的各類因素,以及使用模糊數對預期收益進行表達。進一步地,通過仿真實驗探究各因素對數據供應方合作與收益分配的影響,為促進數據合作開發提供參考建議。
1相關研究
1.1數據產品交易
數據產品是數據市場的交易對象,包括原始數據集、脫敏數據集、模型化數據和AI化數據[2],既包括某個數據供應方提供的數據,也包括數據合作開發的成果。數據產品應用于具體的業務或生產場景,數據產品價值判斷同樣基于場景。一方面,應用場景產生收益后,數據產品的價值才具體體現,數據產品的供應方應獲得數據產品應用后的部分收益;另一方面,數據產品風險管理責任主要由數據供需雙方承擔,數據產品供應方應盡可能保證數據產品的質量,避免交易風險,提高數據產品的可用性增加收益。
多方數據協作的數據產品收益分配需要評估數據產品質量以及各數據供應方數據產品(即各方因參與數據合作開發提供的數據)質量貢獻。數據產品的質量評估有多個維度。《國家數據質量評價標準》提出了規范性、完整性、準確性、一致性、時效性、可訪問性六大指標。數據產品的價值還可從成本、數據質量、應用價值和品牌價值4個維度綜合評估[3]。此外,由指標所搭建的質量評估模型的應用應該考慮數據交易的不同階段,數據產品的質量評估也應該貫穿數據交易全過程。交易前、交易中、交易后3個階段都應該對即將或已發生交易的數據產品進行評估與審核,并在交易時針對具體場景和需求提升數據產品質量[2]。
數據交易平臺是數據產品交易的場所,也是連接數據供應方、模型訓練方和數據需求方的紐帶,具有監督和服務支撐功能,提供數據信用綜合評估、數據合規審核認證、數據要素綜合評估[4]、數據溯源研究[5]等服務。數據產品交易模式采用撮合交易模式,即平臺進行數據供需關系撮合,不久前成立的上海數據交易中心就是采用此種模式[6]。數據交易平臺應構建“撮合實驗環境”和“生產計算環境”兩個分離的環境,而交易未達成的交易撮合階段應在撮合實驗環境中進行。撮合實驗環境一定程度上保障了數據安全,數據供應方和其他相關方可以在應用平臺所提供的數據處理工具,預測合作前景,選擇合作策略[7]。數據合作開發需要在撮合實驗環境下進行模擬,以方便數據供應方達成合作意向并制定收益分配方案。
1.2收益分配
數據合作開發成果數據產品的收益分配模型需要評估數據供應方的數據價值,由于各方無法統一數據產品的價格以及數據資產的價值,第三方評估成為數據價值評估的重要方法,即委托專業的第三方人士對數據產品、數據資產進行評估[8]。第三方考慮數據資產成本、排他性水平、年齡、風險等因素,根據數據質量評價指標給出評價結果[9],直接或者間接對比近期市場上相似數據資產的交易價格,分析并排除其中差異的影響,給出價格區間以服務于數據供應方達成交易[10]。
數據合作開發的收益分配屬于合作博弈,即各參與方自主決策,簽訂協議達成合作。其中,合作博弈的討價還價模型需要所有參與者就如何價值分配進行談判以達成協議,當各方對價值分配方式達成一致時,合作或者交易才會發生。研究者進一步改進討價還價模型以更好地在收益分配中應用,包括在討價還價模型中考慮社會福利等因素來防止不公平交易[11];用重置成本法、收益現值法給出大數據資產的理論價格區間,構建基于價格區間的三階段討價還價模型[12]。討價還價模型適用于復雜談判條件下的談判,但問題在于耗時且達成合作的協商成本較大[13]。
合作博弈中的Shapley值法為研究者打開了新的思路。Shapley值法根據各參與者對合作聯盟總目標的貢獻程度進行價值分配,符合按勞分配為主的分配原則,并且Shapley值法與隱私計算技術有較好的適配性。現有研究將隱私計算和Shapley值法相結合,在此基礎上提出算法的改進,包括考慮數據異質性對Shapley模型的影響[14],改進Shap?ley模型中貢獻指數計算方法以提升計算效率[15],或結合交叉熵理論和模糊測度構建最優模糊測度Shapley模型[16]。
2基于改進的Shapley值法的聯邦計算預期收益分配模型
2.1收益分配的影響因素
模型構建應充分考慮數據供應方合作和利益分配的各類影響因素與各方博弈水平。合作開發得到的數據產品其價值一方面由模型直接體現,模型訓練的數值結果可作為相關價值的衡量指標;另一方面數據產品的價值間接體現在業務和場景中,不能通過模型訓練直接得到相關價值的衡量指標。相對應在進行利益分配時,一方面,考慮各方對于模型訓練的貢獻,通過模型訓練的數值結果直接表現各方貢獻;另一方面,數據供應方各方帶來的交易風險、減少的交易成本以及創造的隱性價值等因素也應當考慮到利益分配中去。因此,將數據供應方合作的影響因素分為模型因素以及非模型因素,模型因素包括模型的預測準確率、預測穩健性;非模型因素包括應用場景、市場環境、數據信用度、數據投入成本。
1)預測準確率:一般情況下,數據產品服務于預測任務,模型使用歷史數據進行訓練和學習,以預測未來的風險情況和發展趨勢。因此,模型的預測準確率是數據產品對模型學習結果貢獻的最直接體現,各個數據供應方提供的數據對模型預測準確率的提高應當被考慮到數據產品利益分配中去,這恰恰符合以按貢獻分配為主的分配原則。然而,數據對模型預測準確率的貢獻并不能完全體現數據對數據產品價值的貢獻。其一在于模型本身帶來的不穩定性可能會導致對貢獻衡量的偏差,例如改變模型參數或增加模塊,同樣的數據集得到的準確率貢獻就會改變。其二在于數據集對業務場景、交易風險等方面的影響無法體現在單一的預測準確率評價指標中,因此,應當考慮更多衡量因素。
2)預測穩健性:穩定預期是開展合作的重要前提,模型訓練方如果無法在撮合實驗中對未來收益有穩定預期,則可能為避免勞動力和資金投入的浪費而選擇放棄合作;數據供應方如果無法在撮合實驗中明確預期收益,則可能為避免他人的“搭便車”行為而導致的不公平利益分配而選擇放棄合作。因此,各方希望數據產品在模型訓練中的表現具有一定的穩健性,也要求數據供應方各方為預測的穩健性提供支撐,預測穩健性應成為參與利益分配的因素之一。
3)應用場景:數據產品價值的實現依托具體的業務生產場景。數據產品價格,即數據供應方獲得的總體收益是場景中獲得收益的一部分,當合作中只存在橫向聯合時,各數據供應方所提供的數據產品對應用場景的貢獻一致,無需作為單獨的因素納入分配模型。但特殊情況在于,如果數據供應方的合作中存在縱向聯合,數據產品的屬性維度將會增加,適用的業務與生產場景有增加的可能性,最終使得數據產品的獲利增加。所以應當考慮各數據供應方對應用場景數量擴展的貢獻。
4)市場環境:市場環境對數據要素市場具有系統性的影響。相同的數據產品由于市場大環境的變化,其價值也將發生變化。例如,隨著隱私保護規則的收緊,數據產品可應用的業務與生產場景可能受到約束,但隨著隱私保護機制的完善和技術進步,數據產品可應用的業務與生產場景也會增加;當市場對數據交易呈消極的態度時,數據產品的開發成本和交易成本可能增加,其價值可能被低估,而收益反而會減少,反之,當市場對數據交易保持積極態度時,同樣的數據產品開發成本和交易成本都將會下降,其價值也可能獲得較高的認可度,數據供應方可獲得更多收益。
5)數據信用度:數據信用度指數據與數據供應方可被信任的程度,和合作風險息息相關。一方面,數據存在造假敷衍的可能性,數據的信用度低將會嚴重影響數據產品的質量;另一方面,數據供應方本身的信用水平也影響著合作成功的可能性,數據供應方信用水平低,其他參與合作的數據供應方的信息安全可能受到威脅,這將會影響合作進程。數據信用度可依賴數據交易平臺給出評價,平臺可通過整合法人基礎情況、行政許可、行政處罰、守信激勵名單、失信懲戒名單等信息,利用機器學習、專家評級等模型輸出量化的數據供應方信用評級[17],而數據信用度也可作為影響因素嵌入數據供應方合作的收益分配模型。
6)數據投入:數據投入指數據供應方對自身數據的開發投入,例如資金、人力等成本,代表數據供應方對數據合作開發的推動作用以及努力程度。數據投入提高,意味著數據供應方越注重提升自身的數據質量,對合作更加積極主動,越有利于數據產品提升價值。值得注意的是,隨著數據投入增加,數據產品價值與數據供應方收益的增加是邊際遞減的,數據投入不會也不應當覆蓋數據對數據產品價值本身的直接貢獻。
根據以上分析發現,各因素對數據產品價值的影響程度并不相同,可根據對數據產品價值的影響直接與否將其區分為直接影響因素和間接影響因素,如表1所示。直接影響因素的變化可以直接體現在數據產品的價值變化中,包括模型因素中的預測準確性,非模型因素中的應用場景以及市場環境。間接影響因素的變化對數據產品收益的影響具有隱蔽性,通常不會直接體現在數據產品的價值中,包括模型因素中的預測穩健性,非模型因素中的數據信用度以及數據投入。這些因素為數據產品利益分配提供評價標準和參考依據的同時,也激勵數據供應方提升自身的數據質量,提高數據和組織的信用水平,積極參與數據合作開發和數據交易。
2.2基于多因素的修正Shapley值法
假設n個數據供應方組成了合作聯盟S,以合作形式進行數據合作開發,其中任意若干供應方進行合作都會獲得一定收益v,且增加供應方參與合作不會引起收益降低,則全部n個數據供應方合作將帶來最大收益。對于合作聯盟中的個體i,Si代表合作聯盟S中所有包含i的參與者組合,即包含i的S的子集,計算在組合中i的邊際貢獻,并通過權重因子w消除計算順序的影響,加和得到個體i的分配值φi,合作聯盟S中的每個個體的分配值組成了一個Shapley值分配方案。
3仿真實驗
3.1數據描述
利用實驗模擬數據供應方的數據合作開發,進一步驗證數據供應方合作的收益分配模型的適用性和有效性。為盡可能模擬數據供應方的合作,探究收益分配影響因素作用機制,利用公開數據集模擬數據合作開發。本研究選擇計算機視覺的經典數據集MNIST數據集及其識別模型模擬數據的合作開發,MNIST數據集分類任務簡單明確,易于操作,數據量較大,便于數據集分割處理。
假設有3個數據供應方A、B和C參與數據合作開發。分割MNIST訓練數據集為3份,每份20000個訓練樣本,數據供應方A、B和C數據集構成如表2所示。
在模擬數據合作開發過程時,考慮數據“可用不可見”的應用環境,參考聯邦學習傳遞模型參數而不傳遞數據的模式,使構建的模型以某種順序在A、B、C三方的數據集上依次訓練,并在每次訓練后在同一個測試集上測試。改變迭代次數和學習率,得到不同情況下的預測準確率。最后,改變3個數據供應方數據集的訓練順序,使所有順序的數據供應方組合都進行上述操作。
3.2實驗設計
1)影響因素參數設置。由于MNIST數據是同一類型,且有相似數據結構的,則實驗不涉及數據供應方增加使得應用場景拓展的情況,設置任意數據供應方合作得到的數據產品應用場景參數的初始值均為1。市場環境對數據產品價值具有系統性影響,實驗中視為外部影響因素,設置市場環境參數的初始值為1。數據信用度與數據投入修正因子系數初始值設置如表3所示。設間接影響因素修正因子權重(βp,βE,βK)為(1/3,1/3,1/3)。
2)收益模擬函數。在實驗中設計符合實際且合理的收益函數是極其困難的,另外,實驗的目的主要在于發現Shapley值法改進后的有效性和合理性,并分析影響因素。因此,本次實驗擬設計收益模擬函數代替收益函數在Shapley值法中的應用,將因素對收益的影響放大呈現在收益分配結果當中。
首先,考慮收益與預測準確性的關系。當預測準確性極低時,少許增加不會對模型的有效性有本質的提升,都不能夠應用于實際生產服務;當預測準確性較低時,少許增加可能會使模型有效性有較大改善,使其價值大幅提升;當預測準確性較高時,原本的準確率已經達到使用預期,模型價值的提升反而隨著準確率增加而邊際遞減。據此引入Sigmoid函數,以c為收益調整,設計收益模擬函數與預測準確率的關系見式(18):
其次,設計應用場景因子系數為D,則應用場景每擴展1個單位,收益增加1×D×v0。設置D初始值為1。最后加入外部影響因素市場環境,則得到收益函數見式(19):
3.3結果及分析
A、B、C三方數據集模擬數據合作開發的預測準確率結果如表4所示。
從表4中可以看出,模型預測準確率結果有較大的波動性,與實際場景中的模型訓練情況相似,這有利于模擬數據合作開發的實際情況。根據表4直接得到各數據集組合預測準確性的上下限,進一步得到預測穩定性修正因子,如表5所示。
用預測準確率下限數據和上限數據分別進行基本Shapley值法、修正Shapley值法的計算,再引入三角模糊數得到模糊Shapley值法以及模糊修正Shapley值法的計算結果。收益分配值計算結果如表6所示。
分析實驗結果,本文認為模糊修正的Shapley值法博弈模型具有其優越性。Shapley值法使得分配首先避免了單純按照數據量進行收益分配,凸顯了數據供應方的數據集對于最終數據產品的貢獻,使分配結果反映數據質量,數據供應方得到更加合理的分配額;其次,修正Shapley值法加入預測穩健性、數據信用度以及數據投入因素,考慮了數據供應方對數據產品合作開發的間接貢獻,進一步改變了數據供應方得到的分配值,減少了在風險控制、合作投入等方面表現最弱的數據供應方C的分配值。此外,采用模型準確率上下限作為精確值的Shap?ley值法缺少對供應方各自博弈水平的考慮,單次計算結果差別大,確定的分配值其實無法給予數據供應方確定的收益預期,而模糊Shapley值法為數據供應方提供了更具穩定性的預期分配結果作為參考。因此,認為模糊修正的Shapley值法較仿真實驗中的其他模型更適用于數據產品的收益分配。
3.4拓展分析
為具體分析影響因素在數據供應方合作預期收益分配模型中的作用機理,分別改變預期收益精確度、應用市場、市場環境、間接影響因素,觀察預期收益分配結果的變化并得出結論。
1)預期收益精確度的影響分析。預期收益精確度提高,三角模糊數預測準確性的擴散半徑減小。假設所有數據集預測準確性下限提高20個百分點,則分配結果如表7所示,預期收益分配結果下限提高,上限下降,預期收益區間收緊,3個數據供應方的預期都更趨向穩定。因此,使用模糊修正后的博弈模型,數據交易平臺以及模型訓練方在撮合時努力提高預期收益的精確度,能夠形成更穩定的收益預期,促成數據產品的合作開發。
2)應用場景和市場環境的影響分析。考慮應用場景的變化。假設數據供應方B、C的數據應用場景因子d為1,A的數據單獨使用應用場景因子d也為1,而在兩個及以上的數據供應方合作聯盟中,若組聯盟中有A的數據時,得到的數據產品應用場景擴大1個單位,即d為2,那么收益分配結果如表8所示,數據產品總體的預期收益提高;A的預期收益增加量比B、C預期收益增加量略大,即對場景擴展有更多貢獻的數據供應商可獲得更多的收益增加。因此,在數據供應方博弈模型中考慮應用場景影響因素,有利于促使不同行業、不同領域的數據供應方跨領域開展合作。
考慮市場環境的變化,假設外部環境鼓勵數據交易,則設置市場環境參數值增加10%,那么Shap?ley值法分配結果如表9所示。數據產品總體的預期收益增加;同時,原本收益分配較多的數據供應方獲得更多的收益增加量。外部市場環境鼓勵下,在數據產品收益系統性增加時,使用本研究構建的模型進行收益分配,也會放大原本在數據合作開發中表現突出的數據供應方可獲得的收益,鼓勵數據供應方進行高質量數據產品開發合作。
3)間接影響因素的影響分析。如表10所示,提高數據供應方C的數據信用度的修正因子系數,相應地,A、B的數據信用度的修正因子系數減小。得到預期分配結果如表11所示。
對比表9可知,數據產品的總收益不變,使用修正后的Shapley值法,數據供應方C在提高了自身的數據信用度之后,分配額得到了顯著的提升。改變預期穩健性和數據投入修正因子系數,得到的分配結果是類似的。因此,使用修正后的Shapley值法,有利于鼓勵數據供應方進行場內交易,加大數據投入,提供更穩健、更具有信用度的數據。
4結論
本文闡述了基于聯邦計算、數據產品合作開發的多方數據協作模式,分析數據供應方合作的主要影響因素,并構建模糊修正的數據供應合作的收益分配模型,并進行模擬數值仿真分析,觀察各因素對數據產品收益分配結果的影響。研究發現,模糊修正的Shapley值法考慮了數據供應方對數據產品價值的直接貢獻和間接影響,以及各方博弈水平的差異,具有合理性和有效性。模型通過加入預測準確性、應用場景以及市場環境因素,反映數據供應方對于數據產品價值的直接貢獻以及外部環境對數據產品收益的系統性影響;加入預測穩健性、數據信用度、數據投入因素,反映數據供應方合作投入和信用水平對數據合作開發的間接推動力;并且,模型使用模糊數進行預期收益的模糊表達,為數據供應方提供更穩定的預期收益分配結果。
據此,針對數據交易平臺建設和管理機制提出以下建議。首先,數據交易平臺應充分考慮影響數據交易與數據合作開發的各類因素,促進收益分配的公平性。數據開發順利與否以及數據產品的最終價值不僅與預測準確率、模型效用相關,還與多種因素密切關聯,例如穩健性、信任程度等。數據交易平臺在評估數據產品價值時考慮多種影響因素,這樣有利于將數據供應方所承擔的成本納入考量,使分配結果更加公正,也有利于促進數據供應方提升自身的數據質量,形成數據開發良性循環。其次,數據交易平臺應加強對數據交易市場數據的管理與掌控,支撐數據供應方和需求方形成穩定預期。在進行數據產品價值評估以及收益分配時,單一的撮合實驗數據結果不足以支撐數據供應方決策,數據產品市場的總體情況、歷史交易數據等則會對數據供應方形成預期收益頗有助益。然而,這些信息是雜亂的、多源的、動態變化的,數據供應方難以僅僅憑借自身的努力得到有效信息。為此,數據交易平臺應該對數據交易市場的數據進行全方位的管理,提升對數據供應方的支撐服務。