馬國峻,裴慶祺,姜曉鴻
(1. 西安電子科技大學 計算機學院,陜西 西安 710071;2. 西安電子科技大學 綜合業務網國家重點實驗室,陜西 西安 710071)
數字版權管理(DRM, digital right management)技術是數字內容交易過程中對知識產權進行保護的技術、工具和處理過程的總稱,包括對數字資產各種形式的使用進行描述、識別、交易、保護、監控和跟蹤等各個過程。
DRM價值鏈由內容提供商、用戶等多個實體構成,實際中,這些實體都具有“理性”的特點,是以自我利益最大化為目標的。由于利益目標不同,這些實體之間存在利益沖突和策略競爭的現象,例如,一方面,用戶總想以最低的代價來使用數字內容,于是出現了非法共享等行為。另一方面,為了防止數字內容的非法共享,內容提供商采用各種技術手段來控制、追查數字內容的使用[1~3],以維護自身的利益。然而,技術保護的負面作用又加劇了用戶非法共享數字內容的企圖[4]。DRM價值鏈的這種矛盾現象,使人們逐漸認識到發展DRM而應該從綜合各方利益的角度出發,需要尋求利益均衡的解決方案[5,6]。
博弈論也稱作“對策論”,是研究決策主體的行為發生相互作用時的決策以及這種決策的均衡問題的理論,是研究競爭場景下決策主體行為的重要工具。由于DRM價值鏈中實體的決策行為和利益關系,恰好屬于博弈論的研究范圍。因此,一些學者開始從博弈論角度來分析DRM現象、探討DRM價值鏈中各方利益均衡問題[5~8]。和這些工作不同的是,本文并不是單純地用博弈論來解釋DRM價值鏈內實體的行為,也不熱衷于納什均衡點的尋求,而是從非合作博弈的特性入手,首次提出了博弈控制理論,并以此為基礎來探討DRM價值鏈內實體選取策略的原則,為DRM的合理發展提供了理論指導。
由于DRM價值鏈內的各個參與實體間難以形成一個穩定的協議,因此,本文認為DRM價值鏈內的各個參與實體間的利益關系和決策行為表現為非合作博弈。由于非合作博弈不一定有純策略納什均衡點,并且納什均衡點也不一定是全局最優點,即個人理性和集體理性相矛盾。因此,目前DRM價值鏈中參與實體之間難以達到一個全局優化的均衡點。非合作博弈的這一特點是當前DRM現狀的一個根本解釋。因此,DRM的合理發展需要克服個體理性的局限,實現全局優化。為此,本文提出了控制博弈的概念和模型。控制博弈在基本博弈模型的基礎上引入了控制者和控制目標,控制者是全局理性的,被控者是個體理性的。控制者依據控制目標來選擇自己的策略,“迫使”被控者則依據自身利益最大化原則選擇控制者期望的策略,從而實現全局的優化控制。然后,本文從DRM價值鏈的利益關系入手,選取內容提供商和用戶作為博弈的參與者,并對他們的策略和效用進行了分析和建模,建立了DRM控制博弈模型,最后,闡述了內容提供商如何作為博弈的控制者來選擇全局優化策略,以實現和用戶之間的穩定的互利共贏。
一個基本的博弈模型可表示為G=(P,S,U,Γ),其中P表示參與者,S表示策略集,U表示效用函數。
1) P (參與者),是參與博弈的直接當事人,是博弈的決策主體和策略制定者。參與者具有“理性”的特征,他們行動時都是以自身利益最大化目標的。參與者可以是個人也可以是為了一個共同目標或效用而參加博弈的集體。如果G有n個參與者,用P={1,,…n}表示參與者集合。
2) S (策略集),參與者可選擇全部行動規則的集合。如果G有n個參與者,分別用S1,…,Sn每個參與者的策略集,用sij∈Si表示參與者i的第j個策略,同時用S-i表示除參與者i之外的其他參與者選擇的策略集合。
3) U(效用函數),用于計算特定的策略組合下各個參與者收益的大小,如果G有n個參與者,用U1,… ,Un分別表示每個參與者的收益函數。
4) Γ表示博弈的所有納什均衡點集合,即Γ={τ1,… ,τm},其中τi表示博弈G的第i個納什均衡點。τi是一個策略組合對于?i∈P,?σi∈Si有

其中,*iσ稱為參與者i在此均衡點的占優策略。
非合作博弈中,個人理性和集體理性往往是相矛盾的,理性的個體追求自身利益最大化的結果卻實現不了集體利益的最大化,從而也不能真正實現自身利益的最大化。因此,非合作博弈不一定有純策略納什均衡點,同時納什均衡點往往不是全局最優點,如典型的非合作博弈模型—囚徒困境模型。
2.2.1 模型
為了克服個體理性的局限,實現全局的理性,本文提出了控制博弈的概念。控制博弈在基本非合作博弈模型的基礎上引入了控制者和控制目標,控制者也是博弈的參與者,但是控制者是全局理性的,而被控者是個體理性的,被控制的目標總是需求自身利益最大化的。控制者依據控制目標來選擇自己的策略,“迫使”被控者則依據自身利益最大化原則選擇控制者期望的策略,從而,實現全局的優化控制。
1) C表示控制者,控制者是博弈的參與者的子集,即C?P,控制者是全局理性的,控制者會依據全局效用函數W來選擇基于W全局優化的戰略。
2) A是控制策略的集合,A是控制者實施控制的策略集合。

5) W表示全局效用函數,是控制目標的體現。它是控制策略A和的函數,控制者選擇控制策略的目標是使該函數的值最大,以實現全局的最優化。
2.2.1 必要條件
控制者要實現全局優化控制,需要滿足以下基本條件。
1)信息透明,控制者清楚地知道被控者的策略以及效用函數,這樣控制者才能正確地選擇全局優化的策略。
2)控制先行,控制者先于被控者做出控制策略的行動。
為了從控制博弈的角度來研究DRM價值鏈中實體的決策行為及相互影響,并尋求全局優化的解決方案,在前面建立控制博弈的基礎上建立DRM博弈控制模型,內容提供商作為控制者來實施全局優化的策略。
為了便于從博弈角度對其進行研究,本文從DRM價值鏈的內在利益關系和價值目標不同的角度出發,將DRM價值鏈中的眾多實體抽象為2個參與者:內容提供商和用戶。內容提供商的利益目標是通過銷售數字內容來最大程度地獲利,用戶的利益目標則是用最小的代價來使用數字內容。因此,在進行數字內容的銷售和傳播過程中,雙方的利益目標是不同的。正是由于策略目標的不同而導致決策沖突的發生,成為需要用博弈理論來分析和優化原因。
實際中,內容提供商是通過DRM系統來實施各種保護措施和營銷策略的,而用戶是基于已有的DRM系統來購買數字內容的,因此,DRM系統的策略是先于用戶的購買策略的,內容提供商很適合作為控制博弈的控制者,而用戶則作為被控者。所以,本文選擇內容提供商作為DRM控制博弈的控制者,用戶則為被控者。
策略是指參與人的行動規則,它表明了參與者在輪到自己行動的情形下,可以采取的行動。在深入分析內容提供商和用戶決策行為的基礎上,本文對用戶和內容提供商的策略進行了抽象和總結。
3.2.1 用戶策略
用戶是數字內容的使用者,決策行為主要體現在是否使用合法數字內容,因此,用戶有如下策略。
1) 合法購買數字內容,用Su_id表示。
2) 使用盜版內容,用Su_id表示。
3) 不使用數字內容,用Su_nu來表示,當使用合法數字內容或盜版內容的代價太大時,用戶會選擇不使用數字內容。
用戶策略集合用Su來表示,即Su={Su_id,Su_id ,Su_nu }。
3.2.2 內容提供商策略
內容提供商是數字內容的提供者,主要行為集中在提供數字內容是所采用的安全策略,以及銷售價格。本文將內容提供商的行為抽象為如下策略。
1) 銷售數字內容的價格,用dcP來表示。銷售價格是內容提供商進行行銷的主要調控手段,直接關系了內容提供商的收益。
2) 共享策略,用sP來表示。本文將內容提供商的各種技術保護策略統一為共享策略,因為內容提供商使用技術保護策略的主要目的就是限制用戶的共享,以維護自身的利益。因此,數字內容和設備綁定的策略,可以理解為是一種最低限度的共享策略,該策略下,用戶不能共享數字內容;而無技術保護策略,可以理解為一種最大限度的共享策略,該策略下用戶可以任意共享數字內容,且不承擔技術保護的成本。
3) 隱私保護級別,用pL表示。用戶隱私信息有助于內容提供商進行營銷和技術保護,同時也關系到用戶對DRM系統的滿意度,因此,用戶隱私信息保護是內容提供商的一個重要策略。0≤pL≤1指內容提供商對用戶購買數字內容的隱私信息的保護級別,pL =0時,內容提供商不保護用戶隱私,pL =1時,用戶購買數字內容時無任何隱私信息泄漏。
4) 不銷售數字內容,用nsdS來表示。當內容提供商銷售數字內容的效用低于一定限額時,內容提供商將選擇不銷售數字內容。
用戶和內容提供商的策略及其符號如表1所示。

表1 策略符號
本節將討論用戶和內容提供商在不同策略下的效用,用Vdc表示一份數字內容的使用價值,用Pdc表示該數字內容的價格,用Vs表示無技術保護的情況下,用戶合法共享數字內容的效用,用Vp表示用戶隱私完全保護給用戶帶來的效用。
3.3.1 內容提供商效用
內容提供商效用取決于數字內容的價格和銷售數字內容的成本。銷售數字內容的成本主要包括以下幾個方面。
1) 數字內容生產成本,用Ccdc來表示。
2) 共享策略成本,用Ccp-sp來表示。
3) 隱私保護成本,用Ccp-pp來表示。
4) 數字內容共享的負面作用,用fcp-sp來表示。
用σu表示用戶的策略。令內容提供商不銷售數字內容時的效用為0,即

假設技術成熟的條件下,隱私保護成本以及保護性共享的成本相對于整個營業成本來說是可忽略的,即Ccp-s=0以及Ccp-pp=0。則內容提供商提供數字內容,且用戶購買數字內容時的效用表示為

3.3.2 用戶效用
用戶效用主要取決于數字內容的使用價值和使用數字內容的成本。用戶使用數字內容的成本分2種。
1) 用戶使用合法購買的數字內容的成本,對比用戶使用非保護的數字內容的體驗,本文將技術保護的負面作用分為以下3個方面。
a) 內容價格,數字內容是有銷售價格dcP的,用戶購買合法數字內容是必須承擔這個基本費用。
b) 共享限制負作用,用fu-pp表示。包括用戶使用DRM系統的投資,DRM系統對用戶終端設備系統性能的影響以及不能共享所帶來的不便,fu-pp是內容提供商共享策略sP的函數。
c) 隱私泄露負作用,用fu-pp表示,用戶使用DRM系統購買數字內容時,或多或少地都會泄漏用戶的隱私信息,fu-pp是內容提供商隱私保護等級的函數,fu-pp=(1-pL)pV。
2) 用戶使用非法盜版數字內容的成本,主要包括使用盜版數字內容所承受的法律、道德成本以及數字內容質量的損失等。用edV表示這部分成本。
用cpσ表示內容提供商的策略,令用戶不使用數字內容的效用為0,即

用lV表示用戶使用正版數字內容帶來的正面心理效用,則用戶購買正版數字內容的效用為

同時,假設用戶使用盜版數字內容時是可以完全共享數字內容的,自身的隱私信息也是完全安全的,則用戶使用盜版數字內容的效用如下:

數字內容產業健康發展的基本要求是用戶購買合法的數字內容,同時內容提供商能通過出售數字內容而獲利,同時,要盡可能地提高內容提供商和用戶的效用。因此,綜合內容提供商和用戶效用,給出全局效用函數為

其中,cpσ是內容提供商的控制策略,uσ表示用戶在內容提供商選擇cpσ的情況下,依據自身利益最大化而選擇的策略。α和β表示用戶和內容提供商的全局效用系數0<α≤1,0<β≤1。μ和γ表示用戶和內容提供商的策略效用系數函數。

內容提供商總是努力選擇使W值最大的策略。
現在,討論內容提供商如何選擇控制策略。
首先,用戶購買數字內容的條件為

由式(3)~式(5)得:

式(12)可化簡為


為了使目標函數W最大化,內容提供商控制策略如下。
首先,選擇適當的出售價格dcP、共享策略sP和隱私保護等級pL,以確保式(11)、式(13)和式(14)成立,在此基礎上,內容提供商盡可能地提高隱私保護的等級,這樣可以提高用戶的效用,進而提高目標函數W的值,此外,內容提供商還通過選擇適當的共享策略,以進一步提高用戶或自己的效用,以提高目標函數W的值。
為了解決DRM價值鏈中個體理性與集體理性相矛盾現象的問題。本文提出了博弈控制的概念。博弈的控制者依據控制目標來選擇策略,迫使被控者依據自身利益最大化原則選擇控制者期望的策略,從而實現全局的優化控制。然后,對DRM價值鏈中的實體進行了提取,以內容提供商和用戶為研究對象,建立了DRM博弈控制模型,分析了內容提供商如何作為博弈的控制者選擇全局優化策略,為DRM的合理應用提供了理論指導。
[1] FAZIO N. On Cryptographic Techniques for Digital Rights Management[D]. Ph D Dissertation, New York University, 2006.
[2] CORIA L, NASIOPOULOS P, WARD R. A robust content-dependent algorithm for video watermarking[A]. Proceedings of 2006 ACM Workshop on Digital Rights Management[C]. Alexandria, Virginia,USA, 2006.
[3] MALIK H, KHOKHAR A, ANSARI R. Improved watermark detection for pread-spectrum based watermarking using independent component analysis[A]. Proceedings of 2005 ACM Workshop on Digital Rights Management[C]. Alexandria, Virginia, USA, 2005.
[4] ABIE H. Frontiers of DRM knowledge and technology[J].IJCSNS International Journal of Computer Science and Network Secu 216 Rity,2007, 7(1):216-231.
[5] HEILEMAN G, JAMKHEDKAR P, KHOURY J, etal. The DRM game[A]. Proceedings of 2007 ACM Workshop on Digital Rights Management[C]. Alexandria, Virginia, USA, 2007.
[6] CHANG Y. Who should own access rights? a game-theoretical approach to striking the optimal balance in the debate over digital rights management[J]. Artificial Intelligence and Law, 2007, 15: 323-356.
[7] ZHANG Z Y, PEI Q Q, YANG L, MA J F. Game-theoretic analyses and simulations of adoptions of security policies for DRM in contents sharing scenario [J]. Intelligent Automation and Soft Computing, 2011,17(2): 191-203.
[8] ZHANG Z Y, PEI Q Q, MA J F, etal. Cooperative and non-cooperative game-theoretic analyses of adoptions of security policies for DRM[A]. Proceedings of 5th IEEE International Workshop on Digital Rights Management Impact on Consumer Communications, Satellite Workshop of 6th IEEE Consumer Communica-tions & Networking Conference[C]. Las Vegas, Nevada,USA, 2009.