王利東,劉永朝
(1.大連海事大學,遼寧 大連 116026;2.大連理工大學,遼寧 大連 116024)
隨著大數據技術的快速發展,人工智能進入一個全新的發展階段,數據智能正與各領域產生著深度的融合,智能化產品已經深入各個行業[1]。數字技術正日益對生產活動產生重要影響,傳統產業借助于大數據和人工智能技術從數據中發現有價值的知識輔以生產、銷售與管理決策,數字化、智能化特征趨勢日趨明顯。在此背景下,數據不但是信息的載體,更是一種重要的生產要素。數字經濟正在成為新型經濟形態,成為整個經濟活動中重要的一環。在數據科技時代,無論個人生活、科學研究還是社會管理都是在一定的數據環境下進行的,因此擁有數據素養成為一項通用的技能。
數字時代賦予研究生教育新的挑戰與機遇。研究生是我國科技創新和社會發展的主要源泉之一。大數據時代,數據素養必然是大部分學科研究生應具備的科研素質。研究生數據素養的提升有利于增強他們在數據科技時代中的核心競爭力,為我國經濟和社會發展提供源源不斷的智力支持和人才支撐。目前,國內高校已經開始注重本科生和研究生的數據素養教育,培養學生的數據思維和數據分析技能,使他們準備好迎接新時代所帶來的機遇與挑戰[2-3]。
本文以CNKI(中國知網)數據庫公開發表的文獻作為數據源,通過文獻分析軟件CiteSpace 梳理、探討了國內有關研究生數據素養的教學研究發展現狀及存在的問題,并針對問題提出促進研究生數據素養的建議,為今后開展研究生數據素養教育提供參考。
盡管數據素養對于學生發展很重要,但目前對數據素養定義尚未形成統一的界定,在文獻中存在相關的術語有“數據素養”“數據信息素養”“科學數據素養”“科研數據素養”“研究數據素養”等[4]。綜合來看,數據素養是對統計素養和信息素養的延伸和擴展,泛指具備數據意識和數據敏感性,能夠掌握合理和恰當的技術來獲取、分析、處理、利用和展現數據,并對數據具有批判性思維的能力。
擁有數據素養就是具備了一項通用的技能,使得個體能夠在“一切都被記錄,一切都被分析”的數據化時代生存和發展[5]。國內高校已經開始注重研究生的數據素養教育,關于數據素養的教研論文是相關教學經驗交流的平臺,對相關文獻進行分析可以了解數據素養教學研究現狀和借鑒經驗。本文首先對“數據素養”的關注度指數分析(檢索范圍:源數據庫,包括期刊庫、博士論文庫、碩士論文庫、報紙庫、會議庫),圖1 顯示了自2010 年以來主題為數據素養的論文發表情況,大致分為三個階段,第一個階段為2010—2012 年,該階段每年文獻發表數量較少,處于起步階段。第二個階段為2012—2016 年,處于發展階段,數據素養受到一定重視和關注,該階段每年發文量呈指數增長。第三階段為穩健發展階段(2016 年至今),該階段發文量相對穩定,每年保持在90 篇左右。在2020 年發文量達到最大值105篇。我國對數據素養的研究整體上呈現出穩健發展的狀態。

圖1 關注度指數分析
研究生是高校科研活動的主要參與者和貢獻者,是國家科技力量的重要儲備。大數據和人工智能蓬勃發展的背景下,大部分學科研究生的科研活動要涉及數據的采集、分析、建模和應用等環節。廣泛開展研究生數據素養教育,培養研究生的數據素養能力將有利于學生綜合素質的提升、國家科技創新和經濟社會的發展。因此,分析與討論我國研究生數據素養的現狀和對策有利于進一步優化研究生數據素養的發展策略。
本文以CNKI 收錄的相關教學研究文獻為數據源,以CiteSpace[6]為工具進行文獻梳理,從文獻分析視角分析國內研究生數據素養的研究現狀。CNKI 數據庫平臺學術資源豐富,并具有較高的權威性和專業性。使用“專業檢索”選項,輸入檢索命令“TKA=(數據素養+ 數據信息素養+ 科研數據素養+ 科學數據素養+ 研究數據素養)AND TKA=(研究生+ 碩士+博士)”,檢索時間截至2022 年9 月7 日,共獲得89 條文獻。對檢索結果進行文獻復檢、參考文獻追蹤后,最終得到67 條滿足要求的文獻,構成本研究的數據集,并以RefWorks 格式導出文獻信息。
本文利用陳超美教授團隊研發的CiteSpace 可視化分析軟件和Excel 軟件數據統計模塊,對67 條文獻數據的發文機構和期刊以及高頻關鍵詞等信息進行分析,梳理研究生數據素養教學改革與研究的現狀,同時結合本校的數據素養類建設與教學情況提出相應的分析與討論。
1.發文量。發文數量反映了對研究主題的研究熱度。利用中國知網的計量可視化分析對該領域相關文獻進行總體趨勢分析。圖2 截取了2006 年到2022 年間與研究生數據素養研究有關所選文獻、參考文獻和引證文獻的變化情況。

圖2 總體趨勢分析
所選文獻中有關研究生素養的研究最早出現在2015 年曲德強發表的《當代大學生數據素養的現狀分析及培養方法研究》論文中,文中分析了本科生與碩士研究生數據素養的特點、區別及存在的問題。所選文獻的發文量整體上呈現穩中有升的狀態,表明研究生數據素養已經得到了有效關注,但研究熱度不高,處于醞釀發展階段。參考文獻可追溯到1992 年,2006 年之前參考文獻的數量在2 篇以內,在2016 達到峰值57 篇后逐年減少。2016 年是數據素養從快速發展到穩健發展的一個轉折點,數據素養相關教學研究的不斷深入,為研究生數據素養的發展奠定了堅實基礎。引證文獻自2016 年起一直處于快速發展階段,文獻數量在2020 年達到峰值109 篇,說明國內學術界和教育界對研究生數據素養的關注度正逐年上升。
2.作者所在單位及文獻來源。識別研究生數據素養的所在單位和文獻來源有助于后續研究人員快速掌握該領域的研究前沿與最新動態,為深入研究打下良好基礎。本文按第一作者所在單位列出了前13 所發文量較多的單位,并統計了相關單位的被引量,結果見圖3。

圖3 單位發文量與被引量分析
從圖3 中可以看出,發文量最多的單位為武漢大學,發文量占總發文量的7.46%;其次是黑龍江大學,占比5.97%。中國科學院大學、江蘇大學和山西醫科大學發文量相同,分別占總發文量的4.48%。在被引量角度上,67 篇文獻的總被引數為778 次,篇均被引數為11.61次。其中,武漢大學在2018 年發表的《數據素養教育:大數據時代信息素養教育的拓展》被引量位于榜首[8]。文獻總被引量排在前3 名的單位分別是武漢大學、中國科學院大學和江蘇大學。從中可以看出武漢大學在發文量和被引量上都表現突出,為研究生素養領域的核心研究單位。中國科學院大學和江蘇大學在發文數量上低于武漢大學,但他們成果的總被引次數都超過了50 次,表明在該領域具有較高的影響力。
本文所選文獻主要來源于期刊文獻和碩士論文兩部分,其中,期刊文獻占比70%。根據學科分類可將期刊文獻分為圖書情報類、科學技術類、教育類、醫學類和其他五部分。圖書情報類期刊發文量占總發文量34%,包括《情報理論與實踐》《圖書情報工作》《圖書與情報》《現代情報》《圖書館學研究》和《圖書館理論與實踐》等13 種期刊。這表明研究生數據素養教學研究與改革主要集中信息檢索領域,更多的工作是關注于信息檢索與分析等相關的教學改革與研究。教育類期刊占比13%,包括《教育現代化》《工業和信息化教育》和《高等工程教育研究》等9 種期刊。大科學技術類期刊占比7%,包括《科技創業月刊》《江蘇科技信息》和《河北科技圖苑》等4 種期刊。醫學類期刊占比6%,包括《南京中醫藥大學學報》《醫學與社會》和《醫學信息學雜志》等4 種期刊。
3.作者分布分析。識別研究生數據素養研究領域的核心作者,有利于提升后續研究者信息資源的獲取效率。利用軟件CiteSpace 進行作者共現分析,共涉及115位作者。根據普賴斯定律可知,構成研究生數據素養研究領域的核心作者群的條件為每位核心作者至少發文兩篇,并且核心作者的總發文量應占所有作者發文量的一半以上。所選文獻中共有13位作者發文量大于等于2 篇,累計發文量29 篇,占總發文量的43.28%。這表明國內研究生數據素養研究領域尚未形成能夠持續對其進行深入探索和研究的核心作者群。雖然沒有形成核心作者群,但可以通過發文量和被引量等確定該領域的代表性作者。從發文量角度,浙江財經大學的吳成、中國科學院大學的胡卉和山西醫科大學的賀培鳳等三位學者發文量最多。從被引量角度,武漢大學司莉、中國科學院大學的胡卉、江南大學張群和江蘇大學張曉陽等學者的文獻被引量都超過30 次,這表明三位學者的研究工作對同行研究起到引領作用。從合作角度看,研究生數據素養的研究者傾向于在機構內部獨立研究,或者進行小范圍內的合作研究,并且合作不夠緊密和深入。
4.高頻關鍵詞。本文基于CiteSpace 可視化文獻分析軟件,對樣本文獻進行關鍵詞共現、節點中心性分析以及關鍵詞聚類分析,以此揭示研究的核心內容及出現頻率、相互聯系。出現頻次排在前十名的關鍵詞,由高到低依次是數據素養、研究生、大數據、信息素養、影響因素、扎根理論、數據分析、人才培養、博士生和大學生。其中,中心度大于等于0.01 的關鍵詞除搜索詞“數據素養”和“研究生”外,還包括“大數據”“影響因素”和“人才培養”,這表明它們也是研究生數據素養教學研究重點關注的子領域。其中,“大數據”的詞頻最高,大數據時代來臨,數量龐大、結構復雜的數據集使研究生對數據素養具有強烈需求。其次是“影響因素”,大數據背景下,各個學科對研究生數據素養的要求逐漸增加,但專業特征、課程設置和教育環境等都會影響數據素養的提升效果。相關影響因素已引起研究人員的關注,并給出了相應的建議。人才培養是該領域關注的又一熱點,人才培養是國家強盛和民族振興的基石。強化研究生的數據素養,既是提升研究生科研創新能力的核心要素,又符合當下社會對高層次人才的需要。
通過CiteSpace 軟件輸出所選文獻關鍵詞的聚類圖譜,見圖4。圖譜中共97 個關鍵詞節點和161 條連線,網絡密度為0.0346。可見,目前我國研究生數據素養的研究領域范圍廣,研究學科也逐漸從圖書情報領域向醫學、教育、科學技術等領域拓展,但研究內容不夠緊密。CiteSpace 根據圖譜網絡結構共生成6 個聚類結果,分別為“信息素養”“影響因素”“大數據”“研究生”“學習方式”和“現狀分析”。其中,最大的類為信息素養,信息素養類別主要探索數據素養興起的動因以及數據素養與信息素養、統計素養等相關概念的異同點。影響因素類別主要聚焦于數據素養培養的相關因素。大數據類別主要從數據意識、數據資源和數據分析等多個維度對數據素養進行探究。研究生類別主要關注研究生數據素養的調查分析、教學手段、評價量表等視角進行研究。從文獻統計分析角度看當下研究生數據素養的教學研究主要圍繞信息素養、影響因素、教學模式和評價體系等方面展開。

圖4 關鍵詞聚類圖譜
結合圖2 和圖4 可知數據素養教育前期關注的群體大多數是圖書館學領域的教師,并且關注的內容大多是有效地獲取、分析、利用文獻數據庫等信息素養層面的研究,涉及的數據分析技術較少,尚未達到能使學生有效且恰當地處理自己專業領域實際數據的目標。從2016 年至今的文獻已開始關注數據挖掘、數據分析、數據編碼、評估指標等技術性內容的教學探索。例如,王路漫等學者以“醫學大數據分析”教育實踐為例,探索了數據素養通識教育與具體學科深入交叉與融合教學策略[3]。
隨著國內數據產業的發展,各行業需要一批面向領域的數據分析應用型人才,為社會發展提供智力支持。數據產業需要多學科深度融合、協調發展。國內部分科研院所成立交叉科學研究中心,關注于大數據和人工智能的交叉學科研究與人才培養,以服務于經濟社會發展。數智時代的到來給研究生教育帶來機遇與挑戰。強化研究生的數據素養,既是提升研究生科研創新能力的核心要素,又符合當下社會對高層次人才的需要。因此,提升工科類、經管類、醫學類、交叉學科類專業的研究生數據分析、處理及展示技能是十分必要的,從學校和教師層面都應提升研究生數據素養的提升策略。高校應開設研究生數據通識教育課程,同時加強師資隊伍建設,提升教師團隊的數據素養。教師注重引導學生將理論教學和實踐應用相結合,在講解數據分析等基本算法的同時也應提升數據處理軟件應用能力、數據倫理和數據安全等相關道德及法律法規,提高研究生的綜合素質。數據分析技術、算法與數學理論密切相關,以數學基礎課提升研究生數據素養,提升數據建模的實踐能力也是一種可行的方式。在“矩陣分析”“優化方法”“模糊數學”“隨機過程”和“數據分析與建模”等數學基礎課教學中,可以借助案例教學的手段,通過逐步揭示算法背后的數學原理,使得學生更直觀地體會到數學在數據分析中的關鍵作用,輔以自主科研訓練激發學生學習興趣的同時,提高他們解決實際問題的能力,以此全面提升研究生的數據素養,為培養社會需求的創新人才提供支持。
大數據背景下,市場對數據人才素養的需求越來越高。本文以CNKI 近十年與研究生數據素養相關的文獻為研究對象,借助Cite-Space 軟件分析了發文量、發文機構、發文期刊和高頻關鍵詞等情況,以此得到了當代研究生數據素養教學研究的研究現狀及不足。針對如何提升數據分析技術和應用實踐等問題,本文從開設通識課程及依托數學類公共基礎課等視角給出提升研究生數據素養的建議。大數據與人工智能快速發展的背景下,研究生數據素養教育和教學研究在理論和實踐方面存在較大的發展空間,需要學校、教師結合社會人才新需要,努力探索新教學內容、教學模式及實踐方法,從多角度、多方位提升研究生的數據素養。