賈立秀 林忠 韓磊
摘? 要:隨著大數據和云計算等新興技術的發展,數據科學與大數據專業應運而生。本文根據應用型本科人才培養的特點和要求,結合筆者開設的數據清洗技術課程的經驗,初步探討了該課程的教學目的、教學內容和考核方法等課程教學設計問題。現階段開設的數據清洗技術課程重點培養學生掌握專業基礎理論知識和提高工程實踐能力,凸顯其專業核心類課程的地位,注重與大數據人才需求的接軌。
關鍵詞:數據科學? 大數據技術? 數據清洗技術? 教學初探
中圖分類號:TP311.13-4;G642 文獻標識碼:A 文章編號:1674-098X(2021)07(a)-129-03
On the Teaching of Data Cleaning Technology for Big Data Specialty
JIA Lixiu*? LIN Zhong? HAN Lei
(School of Computer Engineering, Nanjing Institute of Technology, Nanjing, Jiangsu Province, 211167 China)
Abstract: With the development of emerging technologies such as big data and cloud computing, majors in data science and big data emerged. According to the characteristics and requirements of application-oriented undergraduate talent training, the author combines her own experience in Data Cleaning Technology course to preliminarily discuss the course teaching design issues such as the course's teaching purpose, teaching content and assessment methods. Data Cleaning Technology course offered at this stage focuses on cultivating students to master basic professional theoretical knowledge and improve engineering practice capabilities, highlighting its status as core professional courses, and focusing on the integration of big data talent needs.
Key Words: Data science; Big data technology; Data cleaning technique; Teaching exploration
隨著大數據時代的到來,數據即是最寶貴的“石油資源”,具有國家戰略意義[1],數據質量的重要性日益顯著。大數據具有規模性、高速性、多樣性和價值稀疏性等時代特征,其數據質量問題尤為突出。數據清洗是提高數據質量的重要技術,保障大數據的可用性。在很多大數據項目中,數據清洗工作在開發時間和預算方面占30%~80%[2,3]。現實世界中“臟”數據無處不在,數據不完整、不一致或不正確會嚴重影響數據分析和挖掘的結果,從而產生消極的作用[4]。數據清洗技術是一門活躍的學科,在數據管理和數據分析的歷史上發揮了重要作用,并且仍在快速發展。此外,數據清洗被認為是大數據時代的主要挑戰,因為在許多應用中,數據的體積、速度和多樣性不斷增加[5]。
數據清洗方面的研究最早出現在美國[6],“臟”數據每年導致大約14%的美國醫療支出被浪費,每年讓美國經濟損失3萬億美元以上。2012年,英國一次性投入1.8億英鎊用于大數據領域的科研與創新,并將大數據作為八大前瞻性技術領域之首。2015—2016年QS世界排名前50的大學中有17所大學開設數據科學相關碩士培養計劃,其中10所在美國,6所在英國,1所在新加坡[7]。2013年,韓國多部門聯合發布“大數據產業發展戰略”,于2015年初,給出全球進入大數據2.0時代的重大判斷。2013年6月,日本公布了新IT戰略——《創新最尖端IT國家宣言》,全面闡述了2013—2020年以發展開放公共數據和大數據為核心的日本新IT國家戰略。2017年,我國工業和信息化部印發了《大數據產業發展規劃》,全面部署“十三五”時期大數據產業發展工作。2016年,教育部批準北京大學、中南大學及對外經貿大學開設數據科學與大數據技術專業,2018年增至283所[8]。數據科學與大數據技術是一門新興學科專業,其課程體系相關建設尚在發展與完善中,具有獨立性、交叉性、實踐性和系統性等特點[9]。
本文以南京工程學院2018級數據科學與大數據專業為例,從教學目的、教學內容和考核方法等方面初探應用型本科課程《數據清洗技術》教學,以學生為主體,不斷激發學生的學習熱情和學習主動性。
1? 教學目的
從數據科學與大數據專業人才培養方案可以看出,數據清洗技術課程的教學重點應放在讓學生掌握如何使用數據清洗技術解決特定業務領域的問題,在完成本課程學習后能夠熟練地應用數據清洗技術解決企業中的實際工程問題。作為大數據專業的專業核心類課程,需要講解數據清洗的理論、方法、流程、工具及技術等內容,為學生進一步學習數據分析、數據挖掘和數據可視化等課程奠定基礎。具體而言,本課程的教學目的主要包括以下幾點
(1)理解數據清洗的理論、方法、流程、工具及技術。
(2)掌握數據質量的評價指標和問題分類。
(3)掌握ETL的關鍵技術和常見工具的基本功能。
(4)掌握數據去重、缺失值處理以及異常值處理的方法。
(5)熟悉多數據源的合并,掌握不一致和數據粒度的轉換及數據的合計處理。
(6)提高使用數據清洗技術解決實際問題的能力和動手實踐能力以及學習數據科學相關知識的興趣。
眾所周知,興趣是最好的老師,培養學生的學習興趣和學習信心是本課程教學的最基本的目的。此外,學生對先修基礎課程,如概率論與數理統計、機器學習、Python、R語言、MySQL、數據采集技術及數據存儲技術等學習積累直接影響該課程的教學效果,該課程教學中盡量保持數據科學基礎知識在廣度上和數據清洗技術在深度上的平衡。
2? 教學內容
該課程采用理論與實踐相結合的教學方式,理論知識和實際工程問題相互滲透融合。教學內容主要包括理論教學和實踐教學兩部分,選取的教學內容主要來自《數據清洗》(李法平主編)、《數據清洗》(黑馬程序員編著)、《大數據分析:Python爬蟲、數據清洗和數據可視化》(黃源、蔣文豪、徐受蓉主編)、《數據清洗》(黃源、涂旭東、羅少甫編著)和《大數據清洗技術》(王宏志著)等,符合應用型本科數據科學與大數據專業人才培養方案的培養目標,主要體現在學習難度適中和課程學時合理。下文將從理論教學和實踐教學兩部分討論教學內容的編排,其中理論教學占32學時,實踐教學占16學時,總共48學時。
2.1 理論教學內容設計
考慮到數據清洗理論正在快速發展,理論教學內容在參考相關書籍的同時,要實時更新解讀國內外最新的經典圖書及重要的學術論文,開闊學術的視野,提高學生學習的興趣和主動性。理論教學內容主要包括以下幾個方面。
(1)數據清洗的基本概念和原理,常見數據清洗的策略、方法與基本流程,以及數據質量的評價指標和問題分類。
(2)Microsoft Excel數據清洗基本操作,ETL的概念、體系結構和關鍵技術,ETL的常見工具Kettle、OpenRefine、DataWrangler和Hawk下載安裝、基本概念及基本功能。
(3)使用至少一種軟件工具,如Kettle、Open Refine、Python和R語言等進行數據去重、缺失值處理和異常值處理。
(4)使用至少一種軟件工具,如Kettle、Open Refine、Python和R語言等進行多數據源的合并、不一致數據轉換、數據粒度的轉換及數據的商務規則計算。
(5)數據的增量加載、全量加載以及MySQL和Oracle的批量加載,數據加載異常的處理。
2.2 實踐教學內容設計
實踐教學主要通過機房上機實驗完成,結合實際工程項目問題,精心挑選難度適中的上機實驗題,由淺入深,環環相扣,步步推進,進一步加深對理論知識的理解,充分調動學生的學習主動性,并培養學生學習的興趣。實踐教學內容主要包括以下幾個方面。
(1)Microsoft Excel數據清洗基本操作。該實驗項目通過企業招聘職位信息的數據集練習使用Microsoft Excel進行數據清洗的基本步驟、方法及常見的數據清洗函數。
(2)Kettle軟件數據清洗基本概念和基本功能。該實驗項目通過網絡爬蟲獲得的某基金網站的基金名稱和基金代碼信息數據集練習使用Kettle軟件進行數據重復和錯誤等問題的處理。
(3)OpenRefine、DataWrangler、Hawk軟件數據清洗的基本概念和基本功能。該實驗項目通過企業招聘職位信息的數據集練習使用OpenRefine、DataWrangler和Hawk軟件中至少一種進行數據重復、缺失、數據粒度過大等問題的處理。
(4)使用Kettle、Python、R語言進行數據去重、缺失值和異常值處理。該實驗項目通過用戶訪問某網站的數據集和某公司就業人員收入數據集等練習使用Kettle、Python與R語言進行數據完全去重,不完全去重,刪除缺失值,填充缺失值以及異常值檢測、刪除異常值、修補異常值處理。
(5)使用Kettle、Python、R語言進行數據轉換。該實驗項目通過某公司的2個分公司不同城市的銷售數據集練習使用Kettle、Python、R語言進行不一致的數據轉換、數據粒度的轉換及一些商務規則的計算。
上述實驗內容設計秉承難度適中、切合實際工程問題的原則,不僅使學生深入理解專業理論知識,還培養了學生利用數據清洗技術解決企業中的實際工程問題的能力。
3? 考核方法
本課程采用傳統的閉卷筆試的考核方式,題型有單項選擇題、填空題、判斷題、簡答題和綜合題等五大類,題型豐富,重點考查了學生對于本課程基本理論知識的掌握程度。平時成績占總成績30%,其中考勤、課堂表現和作業部分各占5%,上機實驗部分占15%,期末考試成績占總成績的70%。設計合理的考核方案,讓學生重視理論知識和上機實驗操作,其中上機實驗一方面可以通過實驗報告考查學生對理論知識的掌握,實驗報告內容主要包括題目、設計方案、源程序清單、程序運行結果和實驗總結與思考;另一方面可以通過實驗結果考查學生解決實際工程問題的能力,學生根據具體的實驗要求編寫代碼實現相應的功能,教師對學生編寫的代碼進行提問,要求學生能講解算法設計流程和每句代碼的含義。這樣的考核方法使得學生不僅注重理論知識的學習,更激勵學生認真準備上機實驗,以提高學生解決實際工程問題的能力。
4? 結語
本文探討了應用型本科數據科學與大數據技術專業《數據清洗技術》教學的相關問題。從教學目的、教學內容和考核方法等方面做了一定探索,正確認識數據清洗技術在大數據專業人才培養方案中的地位,對應用型本科數據科學與大數據技術專業的相關教育工作者或有一定的參考價值。堅持以學生為主體的教學,因材施教,培養學生學習的興趣和信心,以培養高質量的大數據人才為目標,是課程今后努力的方向。
參考文獻
[1] 鐘澤靈.大數據背景下的政務信息化治理探討[J].中國信息化,2021(3):106-107.
[2] 謝智穎,何原榮,李清泉.基于時空相關性的公交大數據清洗[J].計算機工程與應用,2021(4):1-11.
[3] 葉鷗,張璟,李軍懷.中文數據清洗研究綜述[J].計算機工程與應用,2012,48(14):121-129.
[4] 郝爽,李國良,馮建華,等.結構化數據清洗技術綜述[J].清華大學學報:自然科學版,2018,58(12):1037-1050.
[5] Tang N. Big Data Cleaning[C]//Asia-Pacific Web Conference. Springer,Cham,2014:13-24.
[6] Badia A. Data Cleaning and Pre-processing[M]//SQL for Data Science.Springer,Cham,2020:77-169.
[7] 陳振沖,賀田田.數據科學人才的需求與培養[J].大數據,2016(5):95-106.
[8] 張永亮,劉子昂.大數據專業國內外建設現狀與發展特征分析[J].科技風,2021(3):125-126.
[9] 賀文武,劉國買.數據科學與大數據技術專業核心課程建設的探索與研究[J].教育評論,2017(11):31-35.