董康
關鍵詞:數據要素 隱私權力 不平等加劇 數據治理
一、引言
正如電能、內燃機技術與原子能、電子計算機技術分別推動了第二、第三次科技革命的產生,近些年來大數據、人工智能、物聯網等新興技術的快速發展,推動全世界進入以數字經濟為代表的第四次科技革命。在數字經濟時代,數據成為第一生產要素,在整個經濟社會發展中都起到非常重要的作用,①被稱作“21世紀的石油礦”。數字技術對經濟體中的生產、消費以及分配模式都產生了很大的影響,極大地提升了整個經濟體的運行效率。②2005年,我國數字經濟規模只有2.6萬億元,占國內生產總值的14.20%,③至2022年,已經達到50.2萬億元,占國內生產總值的41.5%。④
我國政府也認識到數據對于經濟發展的重要性。在此背景下,2015年9月,國務院在《促進大數據發展行動綱要》中首次從國家層面進行總體規劃,將數據列為國家重要戰略資源,肯定了其對于經濟運行機制、社會生活方式和國家治理能力產生的重要作用。2020年4月,中共中央、國務院發布了《關于構建更加完善的要素市場化配置體制機制的意見》,正式將數據列為第五大生產要素,與土地、勞動、資本、技術并列。2023年3月,國務院成立了國家數據局,專門負責協調推進數據基礎制度建設,統籌數據資源整合共享和開發利用。同年8月,財政部發布《企業數據資源相關會計處理暫行規定》,提出2024年1月1日起企業應在會計報表附注中對數據資源相關會計信息進行披露。以上一系列政策的次第推出,充分體現出我國政府對于數據要素的重視,以及將數據要素作為經濟發展新引擎的決心。
目前很多研究對數據要素給出了不同的定義。其中較為權威的是國家信息通信研究院所定義的:數據要素是指參與生產經營活動,以電子方式記錄并為使用者和所有者帶來收益的數據資源。①可以看到數據要素的存在形式和參與生產的方式與傳統生產要素均有較大的差異,數據要素具有非競爭性、易復制性、部分排他性等完全不同于傳統生產要素的特征。因此,在運用和治理數據要素時不能簡單地套用傳統生產要素的相關方法,應積極探索適合數據要素的新方法,從而發揮其在經濟增長中的特殊作用。
然而,我國對數據要素的使用和治理仍然處于起步階段,在數據收集、數據處理、數據交易等環節缺乏符合數據要素特點的規章制度,導致我國在數據要素使用過程中存在很多的問題。這些問題如果得不到妥善解決,就會成為數據要素發揮作用的絆腳石。目前,相關研究主要集中于個人隱私保護、數據交易市場與數據壟斷中的某一方面,對其他方面的問題研究不足且缺乏系統性。本文將從個人維度、市場維度以及政府維度,較為系統全面地分析我國數據要素流通使用存在的問題,并提出相應對策,以為相關決策部門提供相應的理論支撐。
二、數據要素流通中存在的主要困境及其原因分析
1.個人維度
(1)個人數據攫取與數據主體知情權
近些年來,大數據技術的發展讓人們愈加關注其對個人信息造成的威脅,很多企業都會通過各種渠道收集或提供產品與服務換取人們的隱私數據,并且這些數據的獲取、流通與使用過程通常是在沒有取得數據主體同意的情況下進行。
Gregory指出大數據就是由人構成的,這意味著數據的獲取過程通常都伴隨著對人們非常有侵略性的探測、監視以及跟蹤。②目前信息技術高度發達,各種數字設備無處不在,人們的健康、習慣、信仰與行為等數據大多都被各種公司或研究機構在不直接接觸的情況下獲取。③這致使人們對數據研究活動越來越不信任,以及數據化的需求與數據提供者自主權之間的不匹配等問題。④當數據變為一種新的資本形式,企業或研究機構會用各種方式從任何可能的來源獲取盡可能多的數據,這種動力會催生出更多新的數據收集方法。Mezzadra和Neilson將數據收集類比于資本主義早期對于土地的強占與資源的攫取,他們認為數據的收集過程從本質上應該被理解為數據掠奪。①
企業要想充分發揮數據要素的作用不僅僅需要被動地收集數據,同樣需要積極地創造數據。對于很多商業模式來說,利潤最重要的來源是人們使用某產品或服務產生的信息,②而不是購買該產品或服務支付的貨幣。當人們談論起“數據收集”“數據挖掘”等將各種數據搜集并且整理成可以使用的信息技術時,通常想象這些活動是一種中性積累。但是,從數據攫取這一角度分析這些技術的本質,就可以看到其對于目標人群的監控與剝削。現實生活中有很多可以免費使用的應用程序以及付出很少代價就可以得到的電子產品,我們在使用這些產品或服務時不自覺地變成了為企業生產數據的工具。可以看到,數據要素的發展伴隨著對個人信息的收集以及隱私的侵略。結合以上特點,Zuboff將這種新的經濟形式稱為“監視資本主義(surveillance capitalism)”。③
需要注意的是,這種對于日常生活的監視以及隱私的侵犯通常是在沒有經過個體同意的情況下進行的。目前告知人們其數據被收集主要是通過收集數據的應用程序條款,然而這些條款通常非常繁瑣。早在2008年,McDonald和Cranor就發現一個美國人平均每年要遇到1462個隱私條款,全部讀完它們需要76天。④這些條款不僅非常冗長,其內容也包含很多專業的法律知識。并且,在公司提出這些條款時沒有留給人們任何選擇的空間。對于人們隱私權力的侵犯同樣發生在數據的傳播和使用階段。我國民眾對于自身被收集數據的流通途徑和用途一無所知,并且也沒有出臺明確的法律防止企業將收集到的個人數據分享給第三方。
這些侵犯居民隱私的活動會造成很多負面影響。首先,對于個人數據的科學研究和利用缺乏倫理標準,無法闡明收集與分析這些數據的原則和機制,可能會對被研究人群造成傷害。⑤其次,姓名、證件號碼等個人數據傳播后容易被不法分子利用,進而實施電信詐騙等犯罪活動。最后,企業對大數據的使用也缺乏規范,現在企業可以肆意利用數據得到人們的生活習慣、支付意愿等信息,從而造成相同產品或服務對于不同消費者呈現不同價格的現象。這種利用數據進行的價格歧視行為很大程度上榨取了消費者剩余,給消費者造成利益損失。
(2)數據收集與算法歧視弱勢群體
在收集或使用數據要素的過程中很可能加劇社會中弱勢群體受到的歧視,并且現有解決方法收效甚微。在收集方面,Runes發現進行社會調查時收集到的匯總數據掩蓋了人們種族.收入、教育水平、職業等很多因素的差距,當運用該數據做出決策時,會讓一部分群體獲得過多的收益而忽略一些弱勢群體的需求。⑥各個機構在收集數據時也主要關注社會主流人群的利益,較少考慮弱勢群體。⑦有時數據收集不但不能使弱勢群體獲益,還會對他們造成傷害。比如美國在對亞裔的數據收集基礎設施方面投入巨大,并且經常在對收集到的亞裔數據進行分析后,以恐怖威脅、犯罪、非法滯留等理由對亞裔進行監禁和驅逐。①
在使用方面,數據要素對于弱勢群體的歧視主要是通過算法實現的。算法指的是完成任務的一系列規則,這些規則在以前是由計算機程序員人工編寫,而在數據成為生產要素后,機器學習開始使用一種利用大型數據集自動統計推斷過程開發的特殊算法。這種算法先將要研究的對象量化,再從大量量化結果中歸納模型,然后運用模型研究新的對象,最后根據反饋進行改進。②算法所使用的數據來源于社會中的人,而社會本來就是不平等的,因此算法會偏向于鞏固現在社會存在的權力、邊緣化和優劣模式。③現在很多機構都運用算法來為刑事判決、福利分配、招聘流程以及其他資源分配活動提供指導,然而這種以數據驅動的系統會產生有偏的結果,最終反映并加強社會中的不平等。④例如,The PrincetonReview是美國一家考試輔導公司,其通過算法將廣告大量投放給亞裔群體,并且針對相同的服務有近兩倍概率收取亞裔群體更高的費用。⑤
現在有很多學者都提議使用“反分類(anti-classification)”方法解決算法導致的歧視弱勢群體問題,反分類的含義是在使用算法處理任何問題時禁止使用受到保護的個人特征。然而在實踐中反分類方法并沒有起到防止歧視弱勢群體的作用,反而可能加重這一問題。在2014年,亞馬遜運用算法將每個職位與申請者進行匹配后排序,并且將性別、種族等身份特征從中請信息中剔除,旨在提高效率并減少對弱勢群體的偏見,但結果卻加深了在應聘過程中對于弱勢群體的歧視。因為亞馬遜和其他很多大公司一樣,算法的訓練數據主要來自白人男性,這會讓一些女性以及其他種族特征降低申請人的分數,從而產生歧視弱勢群體的惡性循環,亞馬遜最終在應聘過程中放棄了使用算法。⑥我國雖然不存在種族歧視問題,但是越來越多的公司在招聘時開始運用算法進行篩選,會造成一些與家庭條件相關的(比如社會實踐、實習經歷不足)或者與性別相關的(比如參加過女子社團)指標降低申請者的分數,從而導致對弱勢群體的歧視??梢钥吹?,反分類方法本質上是有缺陷的,這一方法看似從意識形態方面避免了對弱勢群體的歧視,但沒有從數理統計的角度真正解決這一問題。因此,如果一直運用現在的算法而不進行改進,數據要素的使用就會加劇弱勢群體受到歧視。
2.市場維度
(1)數據正反饋機制與企業規模擴大加劇市場壟斷
數據要素主要通過自身正反饋機制、促使企業吞并與合并、幫助企業濫用支配地位等方面加劇市場壟斷。在數據要素自身正反饋機制方面,現代企業以及其他機構都被一種“數據祈使(data imperative)”驅動著,這種力量讓它們要盡可能地從任何可能的來源獲取數據。⑦這就會形成一個反饋回路:擁有大量數據的機構才可以形成某些控制系統,而這些控制系統在運作的過程中又會產生更多的數據,導致數據會越來越集中在一些機構。①對于企業來說,數據與權力和利潤相對應,這種反饋回路會讓某些企業產生無限的權力和利潤,②從而加劇壟斷。
在促使企業吞并與合并方面,首先,數據的產生與收集需要吸引大批用戶使用自己的產品,這需要高額成本開發出高質量的產品,并且需要給予使用者一定補貼,這一過程同樣需要大量資金,因此一般只有大企業才有能力負擔。這些大企業通過免費或低價的產品吸引顧客,然后收集他們的數據來獲取源源不斷的利潤。而互聯網產業的小型公司通常沒有自己的數據庫,很大程度上限制了它們的發展,最終只能倒閉或被收購。公司的合體并不局限于大公司對小公司的吞并,越來越多體量相同的公司也開始進行合并。因為數據集相互補充遠比將數據儲存在很多個“數據孤島”里擁有更高的價值。③在很多行業,數據的合并對于創新活動等方面有明顯的促進作用。如在2015年,也就是我國的“大數據元年”,④很多互聯網公司,如美團與大眾點評、58同城與趕集網等,通過完成合并成為各自領域的巨頭。
除了企業的收購與合并造成的壟斷外,數據要素也使得巨頭企業能夠濫用自身的市場支配地位從而造成壟斷。⑤這種支配地位指的是一些掌握大量數據資源的企業通過自身的力量與地位將其他競爭者擠出市場的一種狀態,任何占據市場支配地位的企業都會阻礙其他競爭對手獲取數據從而壟斷市場。還有一部分企業通過自身的力量無法達到擠出其他企業的目的,便與一些企業通過協議的方式達成同盟,在同盟內部數據共享、協同經營,進而排除其他企業以實現壟斷,當市場規模足夠滿足同盟內各企業的盈利需求時,這種“共贏”的協議壟斷模式就會持續下去。⑥可以看到,數據要素讓市場更容易形成壟斷。
(2)數據交易市場亟待完善
現階段,我國數據交易市場比較混亂,主要存在產權不明確、交易機構經營不力、安全性難以保障、分配機制不健全等問題。
第一,數據產權不明確,發生交易活動時易產生糾紛。清晰的產權規定與合理的權屬登記制度是數據能夠在市場中順利交易的基礎。數據產權主要包含數據的所屬權、使用權、收人權三個方面,明確數據產權就是要確定這些權利的界限與歸屬。然而數據要素由于不同于傳統生產要素,其產權確定非常復雜,我國目前還沒有法律對數據產權如何確定給出明確解釋,⑦也沒有對數據這一新型生產要素建立符合其特征的產權登記制度。這使得數據在進行交易時主要轉讓的是交易權而非產權,⑧從而影響交易各方利益分配。在數據產權確定困難的情況下,數據無法采用傳統物品完備的交易方式進行交易,參與交易各方的利益也很難有法律保障。
第二,大部分數據交易機構經營不善,無法發揮其促進數據交易的作用。我國大部分數據交易機構發展現狀都與預期相差甚遠。在現有的40多家各類數據交易機構里,只有大概1/3的機構官網仍然正常運營,其他機構已無法通過網絡與其聯絡業務。通過天眼查app對這些機構進行查詢發現很少有機構正式員工超過10人。①羅曼和田牧通過對我國第一家大數據交易所——貴陽大數據交易所進行實地調查后發現,該交易所的業績與預期值差距非常大。②
第三,對數據的安全保護做得不夠到位。數據要素由于其具有的特殊性質,在交易時存在很多安全問題。數據由于虛擬性和易復制性,非常容易被泄露。一些不法分子可以通過黑客技術、雇傭商業間諜等非法途徑獲得其他企業計劃交易的數據,讓數據出售方遭受巨大損失。
第四,數據參與分配機制不健全,存在分配不公平的問題。黨的十九屆四中全會提出,要健全數據要素按自身貢獻參與收入分配的機制,其中數據要素的自身貢獻由市場決定,其獲得的收入由貢獻決定。但數據要素的貢獻難以確定,其作用很多時候體現為促進其他生產要素的生產效率提升,難以量化其單獨的貢獻。同時,國內目前對于數據收入分配的主體仍然存在較多爭議。一些學者認為,企業是數據要素的收入分配主體,因為企業在收集、處理這些個體產生的數據時消耗了大量資金,而正是這些資金讓這些數據擁有價值;③一些學者認為,數據收集對象才是數據要素收入分配主體,因為數據并不是那些企業自身創造或生產的,而是這些數據收集對象在日常生活中產生的。④還有一部分學者認為大數據技術人員應該作為收入分配主體,因為是他們的勞動讓數據擁有交易的價值。⑤我國政府針對這一問題已提出解決思路,國務院在2022年12月發布的《構建數據基礎制度更好發揮數據要素作用的意見》(下文中簡稱“數據二十條”)中指出要尊重數據產生過程中各方的權益,并由各方共同使用、共同受益。但由于具體各方貢獻程度和受益比例缺乏明確規定,目前這一構想實施較為困難。數據要素自身貢獻以及收入分配主體的不確定性抑制了各經濟主體生產與交易數據要素的積極性,阻礙了數據交易市場發展。
3.政府維度
(1)缺少抵制數據要素負面影響與促進其發揮作用的相關法律
目前我國政府有關數據要素的相關立法還明顯不足,主要體現在數據要素市場法制化程度不足、居民隱私保護缺失、反壟斷措施欠缺、無法有效促進數據共享四個方面。
第一,我國數據要素市場法治化程度非常低。首先,數據要素市場缺乏頂層立法。雖然國務院以及各個部委出臺了多項規范數據要素市場的相關規定與政策,但是這些政策相互之間缺乏協調性,在頂層制度設計方面欠缺統籌規劃,因此無法形成完善的法律框架。其次,數據要素市場相關法律缺乏層次性。我國雖然形成了一定的多層次、多領域數據要素市場法律法規體系,但是仍然存在嚴重的法律法規斷層以及政策不延續的問題。很多直接對數據市場進行規范的法律層次偏低而立法部門眾多,導致效力低下,而頂層法律過于籠統,無法解決一些具體的事務與糾紛。最后,數據要素市場相關法律可操作性較差。頂層立法與法律層次性欠缺直接導致了我國數據要素市場相關的法律法規可操作性不足,在實踐中無法實現對數據的綜合性監管。同時,數據要素市場中的單行法與配套法律建設不健全也使得法律執行起來較為困難。⑥
第二,我國缺乏保護居民隱私的法律。目前我國對居民的哪些數據不能被收集以及收集到的數據如何使用等問題還沒有明確規定,使得居民個人隱私被泄露以及弱勢群體受到歧視事件頻頻發生。
第三,我國防止互聯網巨頭企業借助數據要素形成壟斷的相關法律不足。雖然2021年11月8日我國正式成立了反壟斷局,主要是為了監管互聯網巨頭企業,并且因為阿里巴巴、美團涉嫌壟斷對其進行了罰款,但仍然有很多企業借助數據要素形成市場支配地位,榨取消費者剩余,說明相關反壟斷立法還需要繼續跟進和完善。
第四,我國缺乏法律讓一些企業將產生的數據進行共享,壓制了數據要素的潛能。數據要素的邊際報酬始終為正,且具有很強的規模經濟效應。這意味著在經濟社會中某行業各個企業的數據要素如果匯總在一起,其價值必然高于數據要素單獨存放于各個企業的價值之和。①然而各個企業沒有動力與同行業的競爭對手去分享數據,這樣會降低它們在行業中的競爭力,②導致“囚徒困境”出現,最后所有企業都選擇不分享數據。這說明全社會沒有選擇進行帕累托改進,數據要素使用出現了市場失靈的現象,導致其真正價值無法被發揮出來,需要相關法律法規進行糾正。
(2)數據準確性欠缺影響政府決策
數據的準確性對于數據要素發揮作用至關重要,然而政府很可能因為客觀或主觀原因使用傳遞錯誤信息的數據。數據要素在經濟社會中發揮的主要作用之一就是提供決策所需的重要信息,因此數據的質量問題直接關系到決策是否合理。相比于企業,政府部門收集的數據更容易出現傳遞錯誤信息的問題。因為通常情況下,企業收集的數據很快就會被投入使用并產生相應的結果,如果數據錯誤導致公司虧損,員工會承擔嚴重后果。而政府部門數據短時間內不會產生影響,并且數據發生問題時難以追責,導致政府部門數據收集人員的工作態度與專業素養均不如企業。并且,政府部門還有動機去刻意修改數據以完成上級考核目標。
數據傳遞錯誤信息主要有主觀和客觀兩方面的原因。就客觀原因而言,首先,目前很多領域數據量太大而無用信息太多。比如在2020年3月以來有關新冠疫情的論文數量猛增,然而這些數據大多都沒有經過同行評議,造成數據準確性問題。大量質量無法保證的數據對于對抗疾病的科學家和尋求科學指導的政策制定者來說,是一種非常嚴重的“知識負擔”。③其次,數據的收集和處理工作需要很多設備以及專業技術人員的支持,因此資金和人員投入量較大,很多組織在數據的收集和處理階段會因為資金不足、人員專業技能欠缺等問題導致數據質量降低。很多發展中國家就因為缺乏相應的資源,無法運用合格的數據來衡量和追蹤本國的各種問題。④最后,數據在各個部門不統一也會導致傳遞錯誤信息。Luengo-Oroz等認為各個國家在抗擊新冠疫情時沒有明確的、國際通用的數據標準,導致各個國家之間在抗擊疫情的決策方面缺乏一致性和協調性,很大程度上降低了抗疫措施的效力。⑤
就主觀原因而言,一些政治團體會通過修改數據定義或改變統計方法來扭曲數據表達的信息以達到自身的目的,數據的定義和統計方法對于表達的含義有非常大的影響。在定義方面,Poirier對美國環境保護署有毒物質排放清單的數據定義進行了研究,發現該清單中各數據的值會隨著不同政治團體所倡導的主題而改變,服務于政治目的,并不能很準確地反映出污染物的真實情況。①在統計方法方面,一位深圳環境執法部門的工作人員接受采訪時指出,政府收集了很多公司提供的購買生產材料記錄以及其他財務數據,但是這些數據是非常容易偽造的,無法反映公司真實的環境保護情況。②可以看到,政府有時收集并公布的數據是偏離事實的。
我國目前大部分統計工作都由國家及各地方統計局完成,需要什么數據以及采取何種統計方法都有國家統計局制定的標準,因此不會存在美國等國家出現的國家內各部分數據標準不一致的問題。但是我國在數據收集和處理環節還存在較大的問題。首先,很多統計工作都由沒有任何統計知識的社區工作者完成,并且一些地方統計局工作人員缺乏專業知識,使得在數據的收集和處理環節容易出現較大誤差。其次,我國數據收集和處理過程缺乏監管,一些地方統計局在完成統計工作后缺乏嚴謹的復核和糾錯的過程,③也導致工作人員對數據準確性的重視程度下降。最后,我國政府會將一些項目(如體育館、地鐵站選址等)交給研究機構或高校完成,而這些研究機構或高校經常將數據收集(如對居民的調查問卷等)布置給學生,嚴重影響了數據的準確性。當政府使用這些無法傳遞準確信息的數據制定政策時,政策通常無法達到其應有的效果。
三、解決數據要素流通困境的對策建議
1.保護公民隱私權力,降低個人信息泄露造成的危害
現階段我國在使用數據要素過程中侵犯個人隱私權力主要是由數據分類不明確、數據使用者缺乏讓數據主體擁有知情權的義務、數據使用者對知情權重要性認識不足等原因造成的。
由于數據要素具有非均質性,不同數據對于人們的影響有差異,因此政府在制定相關法律保護數據主體隱私時,應該考慮將數據要素分為公開數據和隱私數據。對于公開數據,數據主體在創造時已經知道這些數據可以被公眾任意接觸到,因此可以適當放寬使用限制,著重挖掘該數據蘊含的價值,需要注意的是數據即使公開使用者也應向數據主體表明使用目的。對于隱私數據,由于會對個體產生非常重大的影響,應該制定嚴格的保護政策,只有在威脅人身安全、打擊犯罪時才能夠被國家機關使用。同時政府應注重對自己擁有的隱私數據的保護,由于國家安全的需要,以及對一些行業的壟斷等原因,政府擁有大量民眾的隱私數據,一定要對這些數據的儲存方式和用途進行嚴格審核。
同時,當人們的隱私數據被收集和使用時,確保人們的知情權與拒絕權非常重要。企業或科研機構在運用數據要素時信任是非常重要的問題。Gilbert等通過調查發現,如果運用個人數據進行研究時事先征求數據主體同意,很多人是愿意參與這些研究的。④因此數據要素的使用者應解決好數據主體知情權與接受度等方面的問題,從而取得數據主體的信任,這樣才能夠在保護隱私的基礎上得到想要的研究結果。應規定任何組織在收集數據前,必須告知該數據的流通路徑以及潛在的用途,同時不得將任何產品或服務與同意提供不必要的個人數據綁定在一起,真正給予人們知情權和拒絕權。
然而我們需要認識到,每次數據被轉移或用于其他用途時都征求所有數據主體的意見是一件非常困難的事情,并且可能阻礙數據要素和數字經濟的發展。①劍橋大學認為,“通用數據保護條例(GDPR)”中對個人數據用途的限制嚴重遏制了國家創新潛力。②我國也應注意過度保護隱私可能產生的弊端,可以考慮規定交易和用于其他用途的數據在涉及個人隱私時,必須進行脫敏處理,從而在保證個體隱私權的前提下最大程度發揮數據要素的作用。
2.促進經濟主體平等,防止市場壟斷與歧視弱勢群體
針對數據要素可能帶來的壟斷問題,我國應該主要采取以下措施:首先,應規定企業不能通過數據壁壘、數字技術壁壘限制其他企業發展。我國應加強數據和技術共享機制,在保證研發積極性的前提下讓所有企業擁有公平的競爭環境。其次,應該要求壟斷企業對自己的產品或服務合理定價,防止企業刻意壓低價格獲得壟斷地位。很多運用數據要素的企業通過補貼等手段短期內吸引了大量用戶,用戶量的增加讓企業可以獲得更多的數據,從而提升自己的產品與服務,這會讓很多用戶產生對于該企業產品或服務的依賴,企業也會繼續保持低價阻止其他企業進入。反壟斷部門應規定數據壟斷企業的產品價格應反映其產品價值,禁止刻意壓價。最后,應該對于科技巨頭的收購和合并行為加強監管,防止單個企業掌握過多用戶數據,從而占據市場支配地位。我國已經開始采取此類措施,2021年7月由騰訊主導的虎牙和斗魚合并因為所占直播市場份額過高被叫停,同年11月我國正式成立了國家反壟斷局,其重點任務之一就是互聯網行業反壟斷監管。我國應繼續強化對科技巨頭合并的監管,防止單個企業通過數據聚集控制市場。
同時,我國應注意防止數據要素導致人與人之間的不平等加劇。數據驅動技術運作的機制就是通過算法從已經發生的事中尋找規律,從而將過去與未來聯系起來,數據分析很可能會依賴過去有偏差的數據,加劇未來社會的不平等。③因此,算法的設計應該考慮如何修正以往數據存在的偏差。然而現在絕大部分算法都不對外公開,并且對于算法的有效性、公平性等驗證也是由開發人員自己進行。④我國應該請算法研發人員以外的專業人員對每個算法進行測試,客觀指出該算法的局限性與缺點,同時召集相關專家為算法的公平性等指標制定行業標準,確保算法不會歧視弱勢群體。我國政府現已開始關注這一問題,在“數據二十條”中指出應加強大型數據企業對弱勢群體的幫扶。
3.充分發揮政府作用,促進數據要素健康高效發展
數據作為一種新的生產要素,想要充分發揮其作用,除了出臺政策引導企業外,必然離不開政府的大力作為,政府應主要在以下幾個方面發揮作用。
第一,在統計數據真實性方面。造成數據傳遞錯誤信息的原因主要有客觀原因和主觀原因兩類??陀^原因相比于主觀原因更容易解決,首先,我國應該加強政府官員和企業管理者對數據統計工作重要性的認識,給予政府和企業的統計部門足夠的資金。這些資金既要用于購買高端的信息化設備,保障統計部門硬件完善,又要提升工作人員的福利待遇,吸引高層次人才進入統計部門。其次,我國應該加強對統計部門在職人員的培訓與監管,可以通過定期組織考試來監督統計人員堅持學習專業技能。在此基礎上,還要加強對于工作成果的監管。應成立專家小組對統計結果進行匿名評估,實行明確的獎罰制度,保持工作人員的責任心和積極性。最后,我國應該加強各基層、各企業統計部門之間數據的銜接性與協調性,保證各部門數據可融合、統一使用。
主觀原因主要包括企業為了逃避處罰或夸大經營效果、政府官員為了政績而刻意更改統計數據,這一類問題需要從數據質量和數據解讀兩個方面去解決。從數據質量方面來講,首先,我國應該對于各個指標進行更加嚴謹和科學的界定,完善統計工作各個環節的規章制度,這樣可以減少企業與政府在統計數據方面的自主性。其次,我國應該經常組織對統計人員的教育活動,加強《統計法》的執行力度,對違反規定流程、私自篡改數據的統計人員給予嚴厲的處罰,從而建立一支高效率、實事求是的統計隊伍。從數據解讀方面來講,在使用數據時不應該只關注數據的具體數值,應該關注指標詳細的解釋,在分析數據時應該對數據收集的文化環境以及數據相關者的利益予以考量,研究這些因素有助于理解數據偏差并進行修復;同時應該重視數據中的缺失值,①將缺失值也當作數據,考慮缺失的原因等,這樣才能在分析數據時得到全面、真實的信息。
第二,在數據要素市場建設方面。首先,政府應保證數據要素產生過程中各方都獲益。數據要經過整理、清洗等步驟才能變為有價值的數據要素,然而這些步驟的實行者很多時候不是數據主體,因此政府應明確規定生產數據要素各方所有權比例確定方法,當交易數據要素獲利時按規定分配各方利益。其次,政府應該為數據要素定價制定合理程序,數據要素的非均質性使其定價非常困難,政府可考慮放棄統一定價,讓數據交易雙方在談判中確定價格并成立第三方監管機構監督談判過程,確保各方利益不受損。最后,政府應注重對于交易數據種類的監管,由于數據交易非常隱蔽,一些涉及個人隱私、國家安全的數據也在市場上交易,政府應對于交易此類數據的人員進行嚴懲,保證交易數據的合法性。
第三,在數據要素匯總方面。目前的政策使得各經濟主體都不會去分享自己的數據,從而無法發揮出數據要素的全部潛力,對整個社會造成效率損失。如同傳統的市場失靈問題一樣,數據要素的市場失靈問題也需要政府解決。政府應該成立國家級別的數據共享平臺,要求各個企業或科研機構提交研發、生產、產品使用過程中產生的數據,然后將有互補作用的數據匯總后返還給企業研發部門和科研機構并對研發成果給予相應的獎勵,從而大幅度增加我國各行業科技研發效率。
第四,在數據人才培養方面。目前我國嚴重缺乏數據人才,2025年大數據核心人才的缺口將達230萬。②同時我國大數據行業大專及以下學歷求職者供不應求,而碩士及以上學歷供大于求,這說明我國大數據行業缺乏應用型人才。③因此我國應該推動高職及大專院校開設大數據相關專業,完善大數據人才培養體系。不但要重視大數據專業學生的理論知識學習,還應該多讓學生去企業進行鍛煉,培養其應用理論知識解決實際問題的能力。