李榮遠 龍法寧 陸釗


摘要:隨著第四次工業革命的到來,各產業設備逐漸走向智能化。計算機類專業人才培養引入數據科學思維至關重要,針對計算機類工科生思考模式由數據到知識,最終用知識解決問題的傳統思維。提出以數據科學與大數據技術、人工智能等專業為背景,探索學生從數據直接解決問題的數據科學思維培養模式。擁有數據科學思維三要素能力(理論、實踐、精神)是每個學生必備條件。文章研究如何將數據科學思維融入課堂教學中,探索在學習新技術前,以數據為導向,激發學生從數據收集到萃取價值過程中數據科學思維模式。
關鍵詞:數據科學;傳統思維;大數據思維;數據科學三要素;數據價值
中圖分類號:TP18? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)01-0144-03
Abstract: With the advent of the fourth industrial revolution, various industrial equipment is gradually becoming intelligent. It is very important to cultivate computer professionals to introduce data science thinking. The traditional thinking of computer engineering students from data to knowledge, and ultimately to solve problems with knowledge. Put forward the background of data science, big data technology, artificial intelligence and other majors to explore the data science thinking training model of students solving problems directly from data. The ability of the three elements of data science thinking (theory, practice, and spirit) is a prerequisite for every student. This article studies how to integrate data science thinking into classroom teaching, and explores how to use data as the guidance before learning new technologies, and stimulate students' data science thinking mode from data collection to value extraction.
Keywords: data science; traditional thinking; big data thinking; three elements of data science;data value
1 引言
2013年,Mattmann CA[1]和 Dhar V[2]在《自然》和《美國計算機學會通訊》上分別發表題為《計算——數據科學的愿景》和《數據科學與預測》論文,從計算機科學與技術視角討論數據科學的內涵,使數據科學納入計算機科學與技術專業的研究范疇。之后隨著數據摩爾定律爆發,將數據科學推向頂端[3]。
“數據科學”與“大數據”是兩個既有區別又有聯系的術語,可以將數據科學理解為大數據時代一門新科學[4]。數據科學是一門以“數據”為研究對象, 并以數據統計、機器學習、數據可視化等為理論基礎, 主要研究數據加工、數據管理、數據計算、數據產品開發等活動的交叉性學科[5]。數據思維是學會如何獲取數據、分析數據、萃取數據價值和應用數據的思維[6]。目前,大數據已受到各學科領域的高度關注,成為包括計算機科學和統計學在內的多個學科領域的新研究方向。同時,大數據研究中仍存在一些誤區或曲解,如片面追求數據規模、過于強調計算架構和算法、過度依賴分析工具、忽視數據重用、混淆數據科學與大數據的概念以及全盤否定大數據等[7]。計算機工科生主要是培養實際應用能力的工程技術人員,注重實踐培養。但現狀中,學生遇到數據不知從何著手,用什么工具。計算機或大數據方向學生學習過各種工具。如編程語言:C、Java、Python;大數據主流架構:Hadoop、Spark;機器學習模型:決策樹、隨機森林;深度學習模型:BP神經網絡、CNN、RNN等。缺少使用數據科學分析處理能力,不會融會貫通,或其在學習過程中注重單一概念、模型、算法,無系統性及邏輯性,整個培養過程以運用各種工具為主,缺少以數據為基礎到解決問題的邏輯能力。培養模式并不是掌握所有知識體系,再去解決問題,而是根據部分知識直接去解決問題。因此,計算機類或大數據方向教學環境中融入數據科學思維至關重要,并養成數據思維習慣是人才培養模式的關鍵[8-9]。
2 數據科學思維模式
2.1傳統思維到大數據思維模式
面對數據,學生思維模式一般有兩種,傳統思維和大數據思維。傳統思維是我能為數據做什么,而數據科學思維是數據能為我做什么。數據科學主要是從數據中發現潛藏的有價值的信息,并直接解決問題。如圖1中對中文翻譯“你好嗎”傳統思維與大數據思維思考模式的異同。
(1)傳統思維:
Step1:將“你好嗎”這句話通過分詞,如根據自己系統已有的知識,將句子分3個詞,找出這3個詞對應的各中文。
Step2:將英文字母進行組織。
(2)大數據思維:“你好嗎”這個句子在現實中多次用“How are you”來表示,基于數據直接預測出答案。
2.2數據科學DIKUW模型
數據科學主要研究目標從數據D(Data)到信息I(Information)、知識K(Knowledge)、理解U(Understanding),最終到智慧W(Wisdom)的轉化,如圖2所示數據科學DIKUW實例轉換模型。從數據到智慧呈現金字塔形式逐級攀升,體現思維從過去到未來的一種思考模式。以計算機就業實例為導向,逐一分析未來需學習哪些知識,從而適應社會的發展。DIKUW模型思考過程如下:
(1)數據:發現一些零散的數據。
(2)信息:通過多條數據之間的關聯得到對應的信息。
(3)知識:從多條信息中發現模型、規律,獲得新知識。
(4)理解:利用新增信息、知識理解和洞見新的機會。
(5)智慧:做出數據驅動型決策,有選擇性地投資,降低風險,預測未來。
2.3數據科學三要素原則
數據科學不同于其他學科,應具有重要的三要素原則:理論、實踐和精神[10]。其中理論與實踐一般在各學科中都有涉及。但要保持終身學習的能力,精神至關重要。如3C精神,Creative Working(創造性地工作)、Critical Thinking(批判性地思考)、Curious Asking(好奇性地提問)。需要將這些精神融入理論和實踐中去。這3種精神是支撐學生終身學習的精神支柱。
3 數據科學思維課程體系建設
數據科學思維根據數據科學三要素原則,現代信息技術的發展,如百度大腦6.0、自動駕駛汽車、腦機接口Neuralink、智慧倉儲、華為5G等高新技術加速萬物互聯,設備逐漸走向智能化發展。數據科學思維在各項新技術中起關鍵作用,培養學生養成數據科學思維的能力至關重要。教學培養過程中應從以下幾個方面設計。
3.1理論學習
開設數據科學導論理論+實踐課程,或者在計算機導論課程中插入數據科學理論知識,由校企合作或資深專家親授,將現實應用中的云計算、大數據、物聯網、人工智能、信息安全、5G技術整體串接。以案例為導向激發學生興趣,開闊視野,結合專業知識啟發性地思考。
3.2實踐鞏固
通過校企數據挖掘可視化平臺、虛擬仿真平臺或者開源數據挖掘可視化平臺來實踐鞏固數據科學理論知識。國家推行產教融合、校企合作培養模式,大量企業走進高校,利用企業數據挖掘可視化平臺:如曙光、星環大數據挖掘可視化平臺;開源可視化平臺如Orange、R-Programming、WEKA、RapidMiner等,通過虛擬化技術生動地將模型展示在學生面前,從而激發學生動手實踐樂趣。
(1)入門階段:零基礎學生通過平臺上組件推拽、流程指向即可實現數據挖掘可視化,方便學生快速掌握機器學習、深度學習等大量模型。
(2)進階階段:開設數據科學核心編程選修課程,如Python、R,兩種語言已在統計學和機器學習占用一席之地。已開發大量包,兩者之間可以通過接口相互調用,學習兩者語言是精通數據科學必經之路。企業或學校用現實案例,以企業項目(人臉識別、電影推薦、情感分析、詞云圖)、競賽題目(Kaggle、泰迪杯數據挖掘挑戰賽、數學建模)為導向,以數據為中心,問題為導向。通過實踐學習,讓學生掌握數據科學工具能做什么,以及如何做,啟發學生數據科學分析問題的能力。
3.3終身學習的精神能力
具有數據科學理論和實踐能力,并不行,還需具有良好的精神素質。根據平臺虛擬結果的展示,培養學生深度思考的能力,如機器學習訓練模型結果差,分析是否過擬合、模型選擇是否合理、特征處理是否正確、參數設置是否合理等多維度思考模式,培養學生在解決最終問題的同時,反思為什么,只有讓學生保持好奇心同時具有批判性精神是學生終身學習的動力。
4 結語
未來社會逐漸走向智能化,各校高度重視培養先進人才,特別是數據科學與大數據、人工智能等專業人才,目前一些高校已經制定一些培養方案,但人才缺失面臨一些問題,數據科學思維培養方式是今后教學改革的重要目標。
參考文獻:
[1] Mattmann C A. Computing: A vision for data science[J]. Nature, 2013, 493(7433): 473-475.
[2] Dhar V. Data science and prediction[J]. Communications of the ACM, 2013, 56(12): 64-73.
[3] Gartner J. Gartners 2014 hype cycle for emerging technologies maps the journey to digital business[OL]. http://www.gartner.com/newsroom/id/2819918.
[4] Provost F, Fawcett T. Data science and its relationship to big data and data-driven decision making[J]. Big Data, 2013,1(1):51-59.
[5] 朝樂門.數據科學理論與實踐[M].北京:清華大學出版社, 2017.
[6] 姜海紅.淺談大學計算機基礎通識課程如何培養學生計算思維與數據思維能力[J].計算機產品與流通,2020(1):258.
[7] 崔琳,吳孝銀,張志偉.面向學生計算思維培養的數據科學與大數據技術專業課程體系建設模式探究[J].無線互聯科技,2020,17(4):121-122.
[8] 陳鯨.未來互聯網+大數據時代數據科學發展與應用[J].網信軍民融合,2019(06):17-20.
[9] 朝樂門,邢春曉,張勇.數據科學研究的現狀與趨勢[J].計算機科學,2018,45(1):1-13.
[10] 朝樂門.數據科學[M].北京:清華大學出版社, 2016.
【通聯編輯:王力】