王娟李 玉海



摘要:[目的/意義]政府開放數據質量是影響人們獲取利用開放數據的重要因素,研究政府開放數據質量控制機制,對優化政府開放數據質量,促進公眾更廣泛地參與,實現政府開放數據宗旨具有重要意義。[方法/過程]本文運用演化博弈理論,構建了有限理性的政府開放數據提供者和使用者的復制動態模型,分析在不同的數據質量監管狀態下博弈雙方的進化穩定策略以及實現政府開放數據質量控制的均衡條件。[結果/結論]研究結果表明:高于一定閾值的監管激勵能夠有效控制政府開放數據質量.建立科學的數據質量評估標準和數據質量過濾機制,降低提供優質數據的額外成本以及完善數據發布機制有利于提高數據質量控制效率。
關鍵詞:政府開放數據;數據質量控制;進化穩定策略;演化博弈
DOl:10.3969/j.issn.1008-0821.2019.01.012
[中圖分類號]D63-39 [文獻標識碼]A [文章編號]1008-0821(2019)01-0093-10
政府數據開放(Open Governmem Data,OGD)是政府或政府控制的實體產生的,可以被任何人自由使用、重用和再分配的數。增加政府透明度和數據重復利用是開放政府數據的兩個主要目的:一方面政府開放數據可以提高政府機構的透明度,提升政府公信力,改善政府與公眾之間的關系,并使公眾能夠直接獲取數據并利用數據參與數據驅動型決策,將被動溝通模式轉變為更為積極的公眾參與;另一方面,開放政府數據供社會公眾重復利用以增值和創新,從而有效盤活政府數據資源,創造巨大的社會公共價值,推動經濟增長和社會發展,提升國家整體競爭力。
盡管開放政府數據旨在釋放政府、公眾的創新潛力,但其有效使用也面臨著重大的挑戰。第四版開放數據晴雨表報告指出,政府開放數據通常是不完整的、過時的、質量低下且零散的。在政府機構中,政府數據開放的時間表、流程和責任往往不夠明確。這使得整體開放數據管理和發布工作非常薄弱,而且容易產生多種錯誤。學者Lourenco對美國、英國、加拿大等7國的政府開放門戶網站進行評估,研究發現這些門戶網站缺乏獨立或外部數據質量控制機制。
數據質量是開放數據價值的關鍵,是影響政府數據開放實現增強政府透明度和數據重復利用兩個目標的主要因素。開放數據的質量的不確定性對開放數據價值的實現造成巨大威脅。政府開放數據的使用者通常不是數據提供者,如果沒有專業的數據科學的知識來甄別數據基礎質量的能力,可能獲取低質量的數據卻無法意識到數據質量不足,從而影響根據低質量數據分析結果做出的任何后續決策。此外,政府數據開放中的數據質量控制失敗不僅會妨礙數據的再利用,還會給開發數據門戶的訪問和使用帶來負面影響。
因此,在當下我國政府數據開放平臺建設的關鍵節點,有必要對如何控制政府開放數據質量進行深入研究,探討并實施可行的數據質量控制方案,從而促進政府開放數據的獲取再利用,實現開放政府數據的宗旨,推進政府數據開放行動的順利開展。
政府開放數據提供者為保障開放數據質量,需要投入大量的技術成本、人力成本和資金成本等;開放數據使用者需對政府所發布的開放數據予以積極關注、跟蹤參與、瀏覽檢索下載等,甚至在某些情況下需要按規定取得許可才能訪問獲取,所以獲取政府數據需支付資金、時間、技術等成本。從經濟理性角度來講,政府希望以較少的成本提供開放數據讓更多的公眾關注、獲取、利用開放數據從而促進數據重復利用、釋放數據潛能;而用戶期望通過支付成本獲取優質數據,并能通過數據開發利用實現數據價值,否則可能拒絕獲取政府開放數據。可見,政府開放數據提供者與使用者間就數據質量問題存在著博弈。因此,針對政府開放數據質量控制研究引入博弈論的研究方法具有可行性與必要性。
本文從演化博弈角度出發,將政府開放數據提供者和使用者作為博弈雙方,分析雙方在政府數據開放與獲取過程中的進化穩定策略,找出政府開放數據質量控制的均衡條件,進而探討政府開放數據質量控制機制,以期從開放數據供給的源頭上進行質量控制,從而提高數據質量以及政府開放數據的利用率。
1博弈模型選擇與構建
政府開放數據的供給與獲取是個動態變化和重復的過程。由于數據質量通常是一個多維和相對主觀的概念,數據質量的優劣也較難判斷,并且大多政府開放數據普通用戶和一般政府工作人員往往不具備專業系統的數據科學的知識,因此,政府開放數據參與者的理性通常是有限的,他們必須在博弈過程中學習,經過反復試錯以尋找較好的策略,通常不是一開始就能找到最優策略。
有限理性博弈分析的關鍵是確定博弈方學習和策略調整的模式。由于政府開放數據參與者普遍存在理性的局限性,在反復博弈過程中具有大群體隨機配對的特征,適宜采用演化博弈中的“復制動態”模型來進行分析。
1.1博弈方與策略選擇
政府數據開放構成一個生態系統,開放政府數據(OGD)可被視為政府和公眾之間的跨界信息共享,包括企業、非營利組織和個人。因此,政府開放數據環境下最基本的參與者包括政府開放數據提供者和開放數據使用者。政府開放數據提供者包括各級政府部門、非盈利組織、承接政府外包業務的服務商等;開放數據使用者則是通過政府開放數據門戶、平臺獲取并利用開放數據的任何用戶,包括企業、非營利組織、科研團隊和個人。
依據政府開放數據實踐的實際情況,參與者還包括政府開放數據管理者,對數據的供給和利用起到一定審核、管理作用的組織和機構,通常是專門的政府開放數據管理部門或配備具有專業數據統計技能的專家的第三方部門機構。
本文依據政府開放數據質量的好壞將其分為優質數據和劣質數據兩類,其中優質數據主要指具有規范性、完整性、一致性、準確性、及時性、可解釋性和可信度高的高價值密度的開放數據,而劣質信息與之相反,主要指無序重復、缺漏、不一致、模糊、滯后的低價值密度的開放數據。在政府開放數據生態環境下,數據提供者根據自身擁有的數據資源狀況選擇提供優質數據或劣質數據,而數據使用者在無法判斷數據質量優劣的情況下選擇是否獲取數據。
在有限理性博弈的分析框架中,其核心不是單個博弈方的最優策略選擇,而是有限理性博弈方組成的群體成員的策略調整過程、趨勢和采用穩定性。此處穩定性指群體成員采用特定策略的比例不變,而非某個博弈方的策略不變。因此采用生物進化的“復制動態”機制來模擬該博弈策略調整模式。
1.2研究假設
為了便于構建政府開放數據參與者針對數據開放與獲取的演化博弈模型,結合政府數據開放實踐的實際情況,本文做出如下假設。
假設1:博弈中存在兩類博弈群體,分別是政府開放數據提供者(G)和開放數據使用者(U)。博弈方群體G(以下簡稱G)的策略集合為{g=優質數據,b=劣質數據};其中提供g類數據的比例為x(0≤x≤1),則提供6類數據的比例為1-x。同時,博弈方群體u(以下簡稱u)在不明確其數據質量優劣的情況下,可選的策略集合為|a=獲取,r=不獲取};其中獲取數據的比例為y(0≤y≤1),則采取“不獲取”的策略的比例為1-y。