朱美光, 張李盈, 王忠勇, 趙 軍
(1.鄭州大學 旅游管理學院,河南 鄭州 450001; 2.鄭州大學 數學與統計學院,河南 鄭州 450001; 3.河南財政金融學院 人工智能學院,河南 鄭州 450046; 4.鄭州大學 力學與安全工程學院,河南 鄭州 450001)
截至2020年年底,全球移動互聯網用戶規模達44.6億,全球數字經濟占GDP比重已超15%。隨著數據爆發式增長與海量集聚,大數據逐步融入人們日常生活。個人社交、交通出行、旅居行為和健康狀況上報等生活方式產生大量實時數據;門戶網站、商務評論、用戶評價,天氣預報、醫護監測、公民決策、社交留言、電子訪問等信息交互形成多源海量異構的動態數據。
大數據背景下,“互聯網+電子政務”也成為政府部門放管服的重要組成部分。目前,靈活運用信息和數據的能力對個人決策(如選擇出行路線、學校、投資公司等)至關重要[1],數據逐漸成為經濟的新資源、發展的新引擎、信息的新礦山、科研的新依據和決策的新源泉[2-7],成為滲透各行各業的重要生產因素[8],在科技、社會、經濟與管理等方面發揮著巨大作用。
如何高效利用數據及信息進行決策?需要什么樣的知識和能力?該類知識和技能怎樣培養和習得?圍繞這幾個現實問題,本文在探討數據素養概念演變、數據素養培育面臨困境基礎上,基于數據素養多維度分層模型,探討現代大學人才數據素養培育機制創新途徑。
隨著大數據技術應用滲透拓展,數據素養相關研究顯著升溫[2-7],但學術界對數據素養概念尚未形成一致認識。數據素養是一個多維度多層次,以實踐為轉移、需求驅動下的復雜性博弈過程中逐漸形成的綜合性系統概念。
大數據帶來生活便利的同時也觸發一系列社會問題,形成相關技術挑戰。
1)信息安全問題。互聯網用戶個人信息、購物數據、瀏覽偏好等隱私泄露,會引發電話騷擾或電信詐騙等安全問題。網站攻擊與漏洞利用正向批量化、規模化方向發展,信息安全不僅造成個人隱私泄露與用戶權益受損,甚至危及國家安全。
2)數據合規使用。①社會數據獲取,通過信息查詢獲取出行路線、交通工具、飯店酒店等精準數據,數據合規使用,需要人們掌握相應的數據獲取方法;②數據信息提取,數據本身并不是信息,為了使數據有用,必須從數據中提取信息,數據信息提取能力成為未來基本素養和必備技能。
3)數字鴻溝。數字鴻溝是指在全球數字化進程中,不同國家、區域、組織、個體之間由于對數據信息、網絡技術擁有程度、應用程度及創新能力差別而造成的信息落差及“貧富”兩極分化趨勢[9]。
4)信息繭房。信息繭房是指信息傳播中用戶只關注、選擇和推送感興趣內容和主題,由此所形成的蠶繭般桎梏。大數據時代,網絡和信息技術高度發達,個人可以選擇信息閱讀和了解,大數據、智能分析技術促使系統平臺根據用戶喜好推送消息[10],這都推動了信息繭房的形成。信息繭房一旦形成,容易使人將偏見錯認為真理,產生極端盲從行為和認知,并排斥客觀合理觀點,導致網絡群體極化,使社會黏性喪失,將對個人和社會造成負面影響。
5)數字治理赤字。數字治理是指在數字材料生命周期內對數據進行的歸檔、保存、管理和評估全過程。大數據技術的更新迭代使得數字領域發展不平衡、規則不健全、秩序不合理、技術不完善等治理問題日益突出,給數字治理帶來挑戰。數字治理赤字成為亟待解決的全球性治理難題。
6)數據信息可靠性。互聯網技術出現之前,數據來源雖然有限,但通常可靠,數據信息可靠性檢驗只需具有理解和批判性地評估數據的能力,被稱為統計素養。互聯網出現后,人們除需具備統計素養外,還須從信息源中選擇數據、評估數據質量、評價數據可信度與可靠性。
隨新一代信息技術和人工智能不斷拓展,大數據、云計算、物聯網、AI(Artificial Intelligence)、區塊鏈、5G等技術延伸至日常應用領域,數據驅動催生的數據需求異動致使數據素養的概念不斷演化,大數據時代面臨的問題及能力需求(如圖1所示)。 結合知網有關數據素養進行文本檢索,可看出這些問題和能力需求涉及多個維度和不同層次。

圖1 大數據時代面臨的問題及能力需求圖Fig.1 Problems and capability requirements in the era of big data
什么是大數據時代的數據素養?它是解決大數據技術所引發的社會問題所需的知識體系和關鍵技能。在現實需求驅動下,數據素養的概念內涵不斷被認識并在生產實踐中被完善。
FRANK M和WALKER J等將數據素養定義為理解和使用數據的能力,互聯網環境下指閱讀、獲取、處理、分析和使用數據的能力[11]。閱讀數據包括理解數據及其所代表內容;獲取數據包括收集和提取數據;處理數據包括創建、獲取、清理和管理數據;分析數據包括過濾、排序、聚合、比較和其他此類分析操作;使用數據指利用數據進行決策或向特定受眾傳達信息。FRANCOIS K和 MONTEIRO C認為數據素養包括四方面:一是將算法作為計算機科學研究的技術方法;二是研究程序員和設計師間交互作用的社會學方法;三是將數學算法作為圖形和法律代理人來研究的法律方法;四是研究算法倫理的哲學方法,給出理解大數據及其權力和局限性對公民自身發展和社會繁榮都非常重要的結論[12]。CHRISTOZOV D和 TOLEVA-STOIMENOVA S總結出數據素養概念演變及其與社會文明發展之間的演化關系(如圖2所示)[13]。

圖2 數據素養概念演變及其與社會文明發展的演化關系Fig.2 Evolution of the concept of data literacy and its relationship with the development of social civilization
CHRISTOZOV D認為人類文明史可看作是人類文化的進化,大數據素養是該演變的重要環節。人類文明進化任何一個階段都將社會劃分為“識字”和“文盲”,這兩者帶來的差別在當前反映為“數字鴻溝”。由此來看,“大數據”將“數字鴻溝”提高到了新的維度[13]。
圖2中曲線表示“信息素養”的變化,信息素養這里指人類獲取和從可獲取數據學習的能力,即獲得信息及分享信息獲取知識的能力。圖2顯示信息素養演變過程分為兩大時期:基礎素養時期和數字素養時期。基礎素養時期這種能力表現為閱讀、寫作和做算術等;數字素養時期,包括計算機素養、信息素養、網絡素養、大數據素養四個階段,最后階段能力表現為大數據素養。計算機素養是指使用工具能力,而不是處理信息的實際能力。數字素養是指通過使用數據進行信息傳遞的專業素養和綜合技能[12]。本文提及的“數據素養”是“數字素養”在大數據時代的具體體現,包括大數據時代數字素養能力需求,也包括其他數據相關能力需求。
依據心理學鄰近法則,采用CiteSpace軟件對知網數據關鍵詞聯系進行結構映射共現分析, 數據素養關鍵詞共現圖譜(如圖3所示)。

圖3 數據素養關鍵詞知識圖譜Fig.3 Data literacy keyword knowledge gragh
圖3中節點數是關鍵詞個數,邊數是關鍵詞之間的連線數。只要關鍵詞在同一篇文獻中出現過,兩者之間就會有一條連線。連線代表關鍵詞之間的聯系,線條深淺與年份相對應,用于標志每一年有哪些主要關鍵詞。由此可見,近年來數據素養關鍵詞主要涉及大數據、信息素養、數據素養能力、數據素養教育、數據分析及分析素養、大數據管理及應用、數據管理、數據可視化、數據意識等多個層次多個維度。因此,數據素養概念與數據素養教育教學改革也應該是多層次和多維度的。
大數據時代數據素養是在特定社會成員(全球或國家層面上、作為商業實體或公共機構的社會組織內)間建立的一種新劃分:具有數據學習能力的人與依賴相關機構解釋的人。隨著大數據技術與日常生活、工作學習的不斷融合,不論對個人、組織還是團體,提高自身(大)數據素養是獲取競爭優勢的有力工具。這是否會成為未來加大(或彌合)數字鴻溝的關鍵,將是數據素養教育面臨的現實問題。
1)應用工具和技術方法限制。受專業劃分所限,不是所有學生都能夠學習和掌握數學與統計學知識體系。由此,他們在處理數據時,要么依賴信息經紀人,要么依賴數據挖掘工具等相關計算機應用程序。受限于應用工具和技術方法,他們難以深入了解結果與問題之間的關聯程度,致使該類探索數據行為難以通過描述對象數據獲取認識事件本質,也無法對事實形成正確的認知,一定程度上阻礙大數據時代的數據素養培育實效。
2)復雜數據與專業知識制約。大數據時代,對于某些復雜數據類型的分析需要專業知識和專門工具,譬如網文《騎手困住系統里》爆紅中提及的網約平臺企業系統算法對零工化背景下配送騎手的動態管理,需要運用人工智能和區塊鏈技術與機器深度學習,壓縮了獲取該種類型數據素養的人員范圍。
解決由數據或大數據引發的問題,所需要的知識和能力與問題主體層級密切相關。一般可將問題的主體劃分為三個層級:普通大眾、工作中要使用大數據的人員、專業從事大數據相關工作的人員。每一層級主體對大數據能力需求又分為三個維度:被動使用、靈活掌握和主動思考。
對普通大眾來說,應具備大眾媒體使用技能,進一步掌握避免互聯網使用過程中個人隱私泄露的注意事項,還應逐步養成使用數據進行思考、判斷和解決問題的意識。
大數據時代,使用大數據的工作人員群體日益增大。該類工作人員,不僅要了解數據知識,還要涉及數據提取、數據挖掘、數據運用的全部環節,因此,需要掌握數據收集、初步整理、挖掘分析、應用等知識和技能。受大數據海量、動態、異構和非結構化特征影響,該類工作者所需的知識技能在不斷更新和迭代。
專門從事大數據及大數據技術方法研究的專業人員,需要具備最全面、最系統的大數據技術知識和專業技能,需要擁有大數據技術應用能力、大數據學習能力和大數據轉化能力。大數據學習能力包括數據收集過程中對因果關系深刻理解的“智慧”,即通過科學的數據收集處理和信息技術應用,關注比較、驗證和提取數據的多樣性與不同來源數據的可用性,規避信息不對稱產生的系統風險。數據使用是指有意識地通過使用技術從數據中學習專業知識,包括學習數據性質的知識以及追蹤、評估數據來源的技能,處理特定數據集的技能,驗證數據可靠性,測試解釋數據有效性的技能,利用數據技術、專業知識解決實際問題的能力。大數據學習能力還必須考慮并平衡有效性(所獲得知識的最終價值)和效率(將資源表示為數據處理、學習和應用知識所用的時間和精力)。
通過數據學習增加了信息泄露風險,因此需具備能規避或消除數據外泄風險的能力。此外,還需要深刻理解數學、統計學、機器學習等數據分析技術以及相應適用范圍和約束條件、所得結論或結果的現實意義、科學性和有效性。如通常給定的統計技術要求使用變量獨立,如果變量不獨立,或變量獨立性未被驗證,則該技術不能提供有價值結果。如何識別這些障礙、如何在上述情況下進行分析或解釋探索結果?這些能力遠遠超出高等學校通過教育教學獲得的一般統計知識,需在學習過程中總結形成。
綜上,數據素養培育須與大數據需求相對應,包括必要的使用計算機或數字技術、分析技術及數據可視化等相關技能,具體包括:①數據獲取能力。需要掌握和運用一門編程語言,會使用數據庫技術,能運用適當檢索方法提取有用數據。②數據解釋能力。運用大數據技術及提取和呈現嵌入數據中的信息能力。不僅要理解給定分析技術可做什么,還需理解給定技術的約束條件;不僅需要數學和統計專門知識,還需具備運用數據可視化技術解釋現實問題的能力。③知識涌現能力。應用各種技術和方法描述獲取的知識,批判性地處理所獲得的信息,避免或減少誤解所造成的風險,并從所得信息中獲取知識價值。④建立數據智慧。數據智慧對應于理解數據背后的驅動力、因果關系或實體演化和結構變遷的本質過程。數據智慧需要高度的抽象思維和概念技能,是數據素養演變的主要驅動力,也是大數據時代專業技能、綜合素養與核心競爭力的綜合體現。
綜上分析,提出大數據時代數據驅動背景下數字化人才培養多維分層模型(如圖4所示)。模型包含3個層次9個維度要素。根據不同行業人群對數據素養能力需求差異,可采用分層遞進方式,將數據素養能力培育培養分為3個層次:基礎層、非專業層與專業層。

圖4 數據素養培育多維分層模型示意圖Fig.4 Schematic diagram of multidimensional hierarchical model of data literacy cultivation
基礎層重在普通大眾數據素養能力培育。普通大眾應具備大眾媒體使用技能(微信二維碼的使用和安全,互聯網購票系統的使用,網絡支付系統的使用,高德地圖、百度地圖等)、(互聯網)隱私保護意識(如不在朋友圈發家人、孩子照片,不在網上隨意填寫私人信息等)、數據思維和解決問題意識(如利用網絡評價大數據選擇合適物品與購買地址,利用大數據識別常見騙局的意識和能力)等數據素養。
非專業層注重專門技術及工作人員數據素養能力培育。政府部門、醫療機構、金融機構、農業、材料、生物等行業和領域都或多或少涉及大數據運用問題,要求他們能夠對大數據進行分析并解決現實問題,了解大數據特征特點,了解其海量、多源、異構和非結構化特征,掌握數據提取、檢索、匯總整理方法技術,掌握大數據分析方法,并能靈活運用相關分析軟件。
專業層面主要針對專門技術和研究人員。一是專業從事大數據技術及數據分析研究工作者應具備信息能力;二是應具有規范的、嚴密的數學、統計、計算機理論知識與專業技能;三是應具備數據智慧,也就是從數據中學習和總結經驗,甚至發現或創新數據理論的能力。
基礎層數據素養培育途徑涉及義務教育階段自然滲透和有意識培養,中小學社會能力課堂中加強數據素養典型案例講解宣傳,中小學數學課堂中加深統計思想和數據應用技術相關內容。此外,還需加強社會宣傳,向城市社區和村民小組定向宣傳和重點推介內容產品生命周期、新媒體使用技巧、互聯網隱私保護。
非專業層數據素養需要現代大學、企事業單位和專業機構形成合力,通過產學研創新系統,形成大數據技術創新、上中下游及創新環境與最終用戶的有效對接與深度耦合,促成大數據生產、學習、科學研究、實踐運用的綜合性、系統性合作。現代大學應積極開設數據教育、統計方法教育、計算機教育等課程,重視數據素養專業教育和技能培養;鼓勵互聯網平臺、數字企業、超算中心、數據中心等機構對專業技術人員數據素養的培養和專業技能培訓,充分發揮平臺生態價值。
專業層數據素養培育需專業教育(數據專業類本科教育)和高級數據素養(大數據、人工智能專業類碩博士教育)培育。2015年教育部批準設立數據科學與大數據技術本科專業,數據科學植根于數學、統計學、計算機科學等相關學科,以來源多樣、結構各異、規模巨大、傳輸高速、應用廣泛的大數據為研究對象,旨在解決大數據在獲取、處理、分析、展示與應用領域的數據挖掘、機器學習、人工智能、數據庫、統計計算理論與實踐問題,高級數據素養培育強調基礎為先、夯實數據統計與分析、系統與計算方面的基礎理論知識體系,以大數據分析為核心,以數學、計算機科學、統計學為基礎支撐,注重高水平大數據研發能力培養。
隨著新一代信息技術與大數據應用迭代,數字化人才培育成為現代大學人才培養目標。
依據去中心化思維,采用區塊鏈技術,構建治理主體平等、治理機制高效、治理過程透明和治理模式精細的現代大學數字治理體系。一是建立人才培養自組織體系,推廣大規模MOOC(massive open online course)和小范圍SPOC(small private online course)課程,通過點對點傳輸和分布式賬本技術,賦能各種類型各個層級數據素養培育主體,實現基礎層、非專業層和專業層教育主體平等,實現教育權力去中心化。二是建立教學能力動態考評機制,采用共識算法,規避教師為中心控制教學所產生的權力中心化和知識碎片化,通過多元化主體、分布式測評和鏈式時間序列,實現師生教育教學話語實時協商,實現學生的主動學習和自動智能履約。
采用多中心數據組織模式,充分挖掘數據驅動的數字化人才培養數據價值,打造數據采集合法合規、保障數據安全有效、數據交換透明可追溯的數字人才培育創新生態服務系統。
一是創立數據驅動創新生態系統,建立涵蓋數據確權、數據采集、數據存儲、數據交換和數據應用的數據素養培育創新生態系統數據治理體系,確保數據安全保障和數據所有者收益。二是建立數字人才培育服務體系,通過構建數據層、網絡層、共識層、激勵層、合約層和應用層,真實記錄各層各類教育主體數據素養培育過程,拓展數字化人才培養領域和服務范圍。
依托信息素養培育數據采集,時序化數字人才動態監測,教育教學數據保真化驗證,民主化創新共生生態營造和多維分層數據素養認證傳導,建立現代大學數據素養培育評測系統。①建立信息素養動態測評體系,依據分布式記賬、時間戳和智能合約技術,通過采集學員行為、思維、情感和認知數據,實現對數據素養培育動態監測和教學管理的運行測控;②健全數據素養培育溯源驗證體系,采用不可改寫、算法共識和塊鏈架構技術,通過概念認知、價值認同和道德約束,結合自評、互評、評教交互和服務推送結果,對數據素養培育過程的數據真實性、行為規范性進行溯源性驗證。