付 超(貴州廣播電視大學遠程教育教學部)
通過文獻梳理發現,當前缺乏針對我國數據素養分類的研究。僅有劉培等從研究視角和側重點的角度介紹了國外數據素養的三種類型:工匠型數據素養、參與型數據素養及交互型數據素養。[1]我國大數據發展迅猛,在國家高層高度重視、數據經濟突飛猛進、數據基礎設施建設日漸完善、數據技術日新月異的大背景下,相關的數據素養“軟件”研究必須跟上“硬件”步伐,才能夠促進我國大數據向縱深方向發展。因此,本文對大數據時代我國數據素養進行分類研究,以期填補我國數據素養分類研究的空白。
通過對國內數據素養研究文獻的梳理發現(見表1),已有研究對象明確且相對集中,主要研究對象為科研人員、圖書館員、教師、學生、編輯、記者等;研究領域主要涉及科研機構、各級各類圖書館、學校、大眾傳播行業等。這表明主流研究文獻認為數據素養是特定人群應當掌握的“技能”或“從業準則”,是少部分人的事情,僅有少數文獻闡述了公民個人在大數據背景下提升個人數據素養的重要性和具體途徑。在大數據時代,任何個人、公司、企事業單位等非政府組織、各級政府組織集數據的生產者、使用者、傳播者、受益者(損益者)等多重角色于一身,數據素養已經成為大數據時代個人及組織的基本素養和技能,數據素養絕不僅是少部分人的事,對數據素養的研究也絕不應該囿于特定人群。
為了更好適應大數據環境,讓數據技術更好發揮作用,身處大數據時代的任何個人和組織都必須具備過硬的數據素養,但已有數據素養教育研究的主體非常有限,缺乏針對公民個人、社會組織以及創新型數據人才的教育研究和行動。數據素養已經成為制約國家和地區大數據向縱深方向發展的重要因素,數據素養“軟實力”與數據基礎設施、數據技術等“硬實力”共同決定地區及國家大數據的發展程度。因此,必須重視公民個人及各級各類社會組織的數據素養,著力提升數據素養教育的針對性,數據素養的分類研究即是強化數據素養教育針對性的重要措施。

表1 國內數據素養主要研究對象及主要研究領域
筆者在2019年對貴州省公民數據素養現狀進行問卷調查研究時發現,公民的數據素養意識淡薄是普遍現狀,大部分已有研究也認為數據素養是特定人群和特殊領域的事情。在大數據時代,為避免成為新時代的“文盲”,必須自上而下形成全民參與數據素養提升的意識,構建以政府、教育行政主管部門、各級各類圖書館、學校、公司、企事業單位等社會組織,以及公民個人為主體的數據素養教育和提升體系。總之,要打造人人皆須具備過硬的數據素養的共識。
本文按照研究對象以及數據素養能力水平將當前我國數據素養劃分為面向公民個人的基礎型數據素養、針對專業人士及特殊領域的專業(職業)型數據素養和針對數據人才(如數據算法師、數據分析師)的創新型數據素養。本文將從含義界定及能力特征兩個方面分別闡述三種類型的數據素養,能力特征主要圍繞數據意識、數據思維、數據能力、數據倫理與道德、數據規范五個維度展開。
2.1.1 含義界定
基礎型數據素養是指在大數據環境下,公民個人及社會組織為了適應時代需要必須掌握的數據技術和數據能力。具體來說,是指個人及組織運用數據思維收集、分析、使用、傳播數據及體現數據價值的能力,以及在此過程中體現出來的數據倫理和數據規范。[24]基礎型數據素養突出基礎性和通識性,具有廣覆蓋(涉及所有個人及組織)、能理解(大數據)、能運用(基本的數據技術)等特點,擁有基礎型數據素養的個人及組織就如同具備基本的聽說讀寫能力,處于掃盲水平,是大數據時代個人及組織更好利用大數據的必備素質。
2.1.2 能力特征描述
(1)數據意識。① 明確認識數據的重要性,了解數據在消費、決策、學習、職業生涯、個人隱私中的重要作用。以消費為例,數據意識要求個人須從主觀上加強隱私保護,盡可能防止個人數據的泄露,減少因個人數據泄露造成的損害。2019年,北京市消費者協會發布的大數據“殺熟”問題調查結果顯示:56.92%的被調查者表示有過被大數據“殺熟”的經歷。[25]導致出現大數據“殺熟”現象的原因很多,但從個人角度而言,必須加強自我隱私保護意識,減少個人數據信息泄露。② 有借助數據解決問題的意識。有觀點認為,大數據的真正價值在于預測,通過相關關系或是采取尋找關聯物的方法,個人及組織可以進行“精準預測”,并及時解決問題。UPS國際快遞公司與汽車修理預測就是這方面的典型案例,通過監測車輛的各個部位,UPS公司只需要更換零件而不必更換車輛,大大降低了發生交通事故的概率。③ 有數據權屬意識。美國塔夫茨大學全球商業理論權威巴斯卡爾·查克·拉沃爾蒂提出了“新型GDP”(Gross Data Product)的概念。[26]權屬問題直接關系到個人和組織的利益,當前我國尚缺乏數據權屬意識的培育與形成,但是,隨著大數據的深度發展,數據權屬意識必將深入人心,作為數據貢獻者的個人和組織,理應得到相應的數據利益和回報。
(2)數據思維。① 具備大數據思維方式。大數據思維要求重視相關關系,這是由大數據的相關性特征決定的。在高速信息化時代,為了得到即時信息,實現實時預測,就必須要借助大數據分析技術。[24]企業據此可以實現“精準營銷”,政府依此可以實現“精準治理”。大數據具有全樣本性的特點,用全數據樣本的思維方式思考問題、解決問題,能夠大大減少企業成本和政府行政成本。② 具有一定的數據批判性思維。了解數據局限性,不盲目崇拜數據。由于政府數據機構審查機制的缺陷,以及數據輸入端的GIGO (garbagein,garbageout) 效應,[27]數據總是“臟兮兮”的。因此,如果不加分析地將大數據奉為“金科玉律”,必然會陷入數據泥潭不可自拔。
(3)數據能力。① 具備一定的數據直覺能力和收集能力,能夠對數據保持一定的敏感性,結合實際需要判斷數據價值,具有在“大數據”中獲取、提煉所需“小數據”的能力。② 具備一定的數據評估能力和清洗能力。因為數據審查機制的缺失、GIGO效應等因素,我們收集到的數據并非完美無缺,評估數據真偽和數據價值是使用數據的前置條件,而如何清洗數據、讓“臟數據”變成“干凈數據”是實現數據價值的關鍵環節。很顯然,數據素養的缺失是不可能完成這一任務的。③ 具備一定的數據分析和決策能力,即對數據進行分析處理,使之產生價值的能力。[24]值得欣慰的是,有不少教科書“手把手”教導我們如何使用各種軟件以實現數據可視化,方便高效地完成數據分析。因此,掌握基本的數據分析方法并不是一件遙不可及的事情。“數據驅動決策”的趨勢在變得日益重要,這些基礎性的數據可視化軟件能夠更加直觀地呈現數據規律,幫助用戶發現數據價值,使決策更加科學。
(4)數據倫理與道德。了解數據生產、采集、傳播和使用中所涉及的道德和倫理問題。在大數據時代,每一個人都是數據的生產者、傳播者、使用者和受益者(受害者)。基礎型數據素養要求身處大數據環境下的個人及組織自覺遵守數據道德,在數據生產、采集、傳播和使用各個環節中恪守底線原則,時刻保持同理心,不觸犯不傷害他人名譽和利益。
(5)數據規范。了解有關數據隱私問題和保密問題。盡管針對公民個人數據信息保護的專門法律規范尚未出臺,但并不意味著用戶可以打擦邊球或是為所欲為。基礎型數據素養要求個人及組織必須主動了解網絡安全法、電子商務法、民法總則、刑法等法律中相關的數據隱私及數據保密條款,加強個人與行業自律,自覺遵守并踐行相關規范。2.2 專業(職業)型數據素養2.2.1 含義界定
本文所說的專業(職業)型數據素養是指專門針對科研人員、圖書館員、教師、學生、編輯、記者等對象,主要涉及科研機構、各級各類圖書館、學校、大眾傳播行業等領域,立足于專業(職業)要求,需要研究對象熟練掌握專業(職業)要求的數據能力,以便各類人員具備相關領域規定的專業(職業)素養要求,恪守專業(職業)數據規則和倫理。專業(職業)型數據素養具有明確的對象性、極強的針對性、典型的專業領域限制。
2.2.2 能力特征描述
(1)數據意識。能夠意識到數據在個人專業(職業)發展中的重要作用,并利用數據助力專業(職業)發展。中國社會科學院語言研究所詞典編輯室對數據意識下的定義是“對各種可能與自己的學習、工作、生活相關的數據敏感,具有關注和發現相關數據的意識和興趣”;[28]王春生提出,“數據意識體現在生活中就是能夠積極利用各種數據來提高自己的生活質量,進行日常生活決策等;體現在工作中就是具有收集工作中產生或與工作相關的數據的意識,以方便進行各種決策,或支持自己的科學研究”的觀點;[29]張憲麗等認為,數據意識包括數據感、數據權利意識和數據使用意識等;[30]郝媛玲等認為,數據意識包括主體意識、獲取意識、共享意識、更新意識、安全意識等方面。[31]
(2)數據思維。① 在思想上認識到大數據對專業(職業)發展的重要性。孫眾等認為,教師要對數據有較強的敏感性與接受度,能有意識地、自覺地、主動地獲取數據,為改進教學提供證據來源;[32]金兼斌提出,對新聞記者而言,數據素養的核心內容是對數據的親切感和直覺,記者要努力成為一個全身散發著“數字泥巴”氣息的人。[33]② 重視數據相關關系。教師可以借助數據的力量,提取出隱含的、未知的、有潛在應用價值的教學信息,掌握輔助教學決策的系列工具。[34]③ 能夠批判性地評估數據源、客觀評價數據質量、識別數據中存在的問題,不盲目崇拜數據。宋甲麗等通過對在校本科生、碩士生、博士生、科研人員等群體的調查研究顯示:學生對數據科學性及準確性的判斷主要依靠發布數據機構的權威性,科教人員則主要利用實驗來驗證。[35]
(3)數據能力。① 具有專業(職業)要求的數據技術并能夠獲取目標數據,數據處理技術正成為確保新聞生產能力的又一種決定性因素。[33]② 能夠發現與專業(職業)相關的數據瑕疵并使用正確工具進行數據清洗的能力。如,對隱私數據的辨別與保護、對數據失真的辨別、對數據的綜合應用能力,包括數據的收集、獲取、管理、分析、清洗、利用與交流等。[36]③ 能夠批判性評價與專業(職業)相關的數據。郝媛玲等通過對國內外相關研究的總結和分析,認為數據素養包含對數據的批判性思維能力,其本質是對統計素養和信息素養的延伸和擴展。[31]④ 具有較強的數據分析及可視化能力。左平熙以咨詢館員為研究對象,認為應根據實際的咨詢問題確定所要分析的數據對象和數據邊界,以便數據價值再現。[7]
(4)數據倫理與道德。① 在專業(職業)范圍內,數據的生產、采集、使用、分享中所涉及的道德和倫理問題。隆茜提出“了解數據采集、使用、分享中所涉及的道德和倫理問題,能夠尊重他人的數據,使用時能夠注明出處”的觀點;[37]孟祥保認為,數據引用規范性是數據利用行為的倫理維度,并提出了需加強國內科研人員數據素養的忠告。[12]② 尊重數據原創,自覺維護數據創造者的利益和名譽,注明文獻及數據出處,自覺遵守數據發布和使用中相關的社會規范。凌婉陽以科研人員為研究對象,認為科研數據倫理的核心是:在數據生產、采集、使用和分享的過程中,保護他人數據權益的同時,保護好自身的數據權益。[38]
(5)數據規范。① 熟悉專業(職業)范圍內有關數據隱私問題和保密問題。黃如花等將對數據產權及隱私權、數據倫理原則的了解程度、能否對所引數據進行規范說明作為學生數據倫理的評價標準。[39]② 踐行專業(職業)范圍內數據共享和保存的相關注意事項。王春生研究了數據管理過程中數據生命周期、元數據及保存方法等注意事項。[29]③ 注重專業(職業)范圍內數據權屬問題并自覺尊重他人的數據知識產權。楊文建提出在使用第三方數據時不得用于營利目的;尊重數據來源的法律法規和道德規范,保證數據的完備性,不得惡意截取篡改和歪曲數據;不侵犯他人隱私和利益;注意數據使用的規范性,為學生樹立正面形象等建議。[40]
2.3.1 含義界定
創新型數據素養,是數據創新型人才通過分析最大化呈現數據價值,用好用活數據,為個人、企業等社會組織、為地區經濟發展、為國家社會向縱深方向發展作出特殊貢獻的能力和素質。具備創新型數據素養的人才往往具有獨到的眼光和靈敏的數據嗅覺,能夠迅速發現數據價值與數據商機,具有極強的數據敏感度和數據創新能力,通過深挖數據價值,為組織或個人做出精準決策。顯然,不管是社會組織還是國家發展,擁有創新型數據素養人才是有效挖掘“數據石油”的關鍵因素,專業的數據分析師、數據算法師、統計學家、人工智能專家即是典型的數據創新型人才。
大部分數據價值都是潛在的,需要通過創新性分析來釋放其價值。套用舍恩伯格的比喻“數據的真實價值就像漂浮在海洋中的冰山”,[41]127在大數據海洋中,具備基礎型數據素養的人只能看到冰山一角,而絕大部分隱藏在表面之下的數據價值只有具備專業水平和創新水平的人群才能夠發現,這就是數據算法師、數據分析師、統計學家、人工智能專家越來越受社會追捧的原因。舍恩伯格認為,在大數據時代,專家將會逐漸被數據算法師們取代,并直言“行業專家和技術專家的光芒都會因為統計學家和數據分析家的出現而變暗,因為后者不受舊觀念的影響,能夠聆聽數據發出的聲音”。[41]180
2.3.2 能力特征描述
(1)數據意識。具有獨到的眼光和靈敏的數據嗅覺,能夠迅速發現數據價值與數據商機,具有極強的數據敏感度和數據創新能力,通過深挖數據價值,為組織或個人做出精準決策。
(2)數據思維。① 對收集到的數據有極強的批判思維和懷疑精神,盲目信任收集到的數據是不負責任、不專業表現的理念深入他們的內心,對收集的數據表現出習慣性的懷疑是他們的職業特點。② 能夠發現數據的多重價值,秉持大部分數據的價值來自于二次甚至多次挖掘的思維方式。
(3)數據能力。① 能夠根據豐富的工作經驗和專業能力發現數據中的離群值,發現數據中暗含的缺陷,并高效解決數據瑕疵問題。② 具有系統的數據完整性校驗能力——準確評估數據問題大小,準確定位導致數據問題的原因,利用適當的軟件及表格進行校驗,并進行數據清洗以便進行下一步的數據分析工作。③ 掌握全面系統的分析方法,能夠對數據進行深度分析,并不斷在數據研究的方法論方面進行創新和突破。④ 熟練掌握運算法則,能夠根據實際需要選擇適當的分析和預測工具,對計算結果及可視化后的數據能夠進行準確解讀,以確保為之服務的公司、企業、政府部門甚至個人能夠通俗易懂。⑤ 具有極強的軟件運用能力,甚至在數據軟件開發方面有自己的獨到的見解和貢獻。創新型數據人才不一定是某一問題的專家,但絲毫不影響他們透過數據現象認識事物本質。
(4)數據倫理與道德。① 熟悉數據生產、采集、使用、分享中所涉及的道德和倫理問題。② 尊重數據的創造者,自覺維護數據創造者的利益和名譽。③ 高度的自覺性,恪守職業規范與職業道德。
(5)數據規范。正因為創新型數據人才在數據能力方面的突出之處,加強對他們的數據規范將會顯得比任何一個群體都更加重要。從理論上講,創新型數據人才須具備習得規范的能力和意識,但在實踐中,也必須加強規則意識訓練,使他們成為規則踐行者。任何行業都有其行業準則,數據算法、數據分析、數據技術工程等創新型領域自然也有其從業準則,如數據算法師可能在公正、保密、資歷及專業水準、不濫用數據信息為個人牟利等方面有具體要求。[41]229
目前,學界并沒有對數據素養的含義形成統一的定義。本文認為,數據素養是指在大數據背景下,公民個人、公司、企事業單位等非政府組織、各級政府組織運用數據思維收集、分析、使用、傳播數據信息的能力以及在此過程中體現出來的數據倫理和數據規范。[24]不管是哪一種類型的數據素養,其包含的維度并沒有本質上的區別,區別在于各種維度對不同群體的要求不一樣。表2從數據意識、數據思維、數據能力、數據倫理與道德、數據規范五個維度對不同類型的數據素養水平等級進行了描述。
隨著大數據向縱深方向發展,數據素養將成為國家,公司、企業等社會組織以及公民個人之間重要的競爭力。如果缺乏數據素養,人們在運用科技和使用工具時仍將停留在帶有自我局限性的、實驗性的和自我滿足的原始階段。[42]但在現實中,數據素養的重要性并未得到應有的重視。毫無疑問,數據素養的普及是一個漫長而艱難的過程,涉及到組織(個人)意識、目標定位、實際需求、數據隱私保護、學習培訓、投資回報等問題。個人可以通過自主學習獲得某些數據素養,但系統的數據素養的習得必是一個系統工程,需要政府及教育行政主管部門、各級各類學校、圖書館、公司企業等社會組織以及公民個人的共同參與。在這個全民皆是數據的貢獻者、使用者、受益者(受害者)的年代,任何組織和個人都必須參與到數據素養提升行動中來,以便能夠用好用活大數據,體現數據價值的同時實現自己的權益。

表2 不同類型的數據素養水平等級描述
3.2.1 分類型提高數據素養教育的針對性
根據教學目的、教學手段、教育對象特征等,著力提升數據素養教育的針對性和實效。① 基礎型數據素養教育要體現廣覆蓋、能理解、能運用的特點,對公民及社會組織進行通識型、基礎性的數據素養教育,以掃除大數據文盲為主要目的。② 專業(職業)型數據素養教育具有對象明確、針對性強及典型的專業領域限制的特點,因此,專業型數據素養教育要立足于專業(職業)發展需求,提高研究對象熟練掌握專業(職業)要求的數據能力,以便相關人員具備相關領域規定的專業(職業)素養要求,恪守專業(職業)數據規則和倫理,具備專業(職業)發展所需要的技能和素質。專業(職業)型數據素養教育一定要在針對性上下功夫。③ 創新型數據素養教育的側重點應放在對數據創新型人才的數據倫理、數據道德和數據規范的教育及意識培育方面,創新型數據人才具有一般人所不具備的數據能力,但他們并不天然具備與數據能力相匹配的數據倫理、數據道德和數據規范。考慮到創造性和破壞性成正比,加強對數據創新型人才的數據倫理、數據道德和數據規范教育顯得比任何一個群體都更加重要。
3.2.2 形成一套自上而下、全員參與的數據素養教育體系
如前所述,在大數據時代,數據素養絕不是特定人群和特殊領域的事,數據素養已經成為大數據時代個人及組織的基本素養和技能。因此,為避免成為數據時代的“文盲”,必須形成一套自上而下的,以政府、教育行政主管部門、各級各類圖書館、各級各類學校、公司、企事業單位等社會組織、公民個人為主體的數據素養教育和提升體系,全民普及,全民均須具備過硬的數據素養意識的理念。
3.2.3 將數據素養添加到學校主流課程教育中
我國自2016年開設數據科學與大數據技術專業以來,截至2019年,共有479所高校開設了該專業,其中,2016年3所、2017年32所、2018年248所、2019年196所。但現階段我國高校數據科學專業建設普遍呈現出課程體系缺乏系統性、教學科研資源嚴重匱乏的現實困境。[43]因此,應以此為契機,加大高校對數據素養教育的重視和投入,將數據素養添加到學校主流課程教育中,增強學生、教師、各級各類學校、科研工作者、政府及教育行政主管部門對數據素養的重視,讓高校大學生在學校習得扎實的數據素養知識,養成良好的數據素養,為我國數據素養教育奠定牢固的理論基礎和提供模范的行為方式。
3.2.4 加強對基礎型數據素養和創新型數據素養的研究
目前,國內關于專業(職業)型數據素養的研究頗多,有力地推動了我國科研人員、圖書館員、教師、學生、編輯、記者等群體數據素養的提升,促進了我國科研機構、圖書館、學校、大眾傳播等行業的發展。今后,為了充分實現我國的“數據紅利”,必須加強對基礎型數據素養和創新型數據素養的研究,將數據素養研究對象擴大到身處大數據環境下的每一個個人及組織。如,加快出臺具有我國大數據發展特色的、符合我國國情的《數據素養指南》讀本;強化針對數據分析師、數據算法師、統計師等群體的從業規范研究;強化對公民數據素養意識的培育研究,加快相關數據隱私和數據保護法律法規的研究等。