李思維,徐 偉
(1.中國鐵路蘭州局集團有限公司,甘肅 蘭州 730050;2.上海大學悉尼工商學院,上海 200444)
隨著大數據時代的來臨,越來越多的企業開始重視信息技術的發展,逐步建立部門級、企業級數據倉庫。通過構建合理的數據倉庫,企業可以集成存儲生產信息、物流信息、人事信息等數據,并從相關數據中挖掘有價值的信息,及時做出科學決策以推動企業經營發展。數據倉庫的應用遍布于各個行業,尤其是商科領域的應用效果顯著,包括金融、財會、市場營銷、管理、商務、物流、經濟、人力資源管理等行業,對當代學生能夠掌握構建數據倉庫的方法提出更高的要求。合理建設數據倉庫實驗平臺對提升當代學生實踐創新能力具有一定的意義[1-5]。
國內高校很早就開始進行數據倉庫實驗平臺構建的相關研究。2013年,同濟大學提出構建數據倉庫與數據挖掘教學實驗平臺[5],該平臺可以開展Apriori、ID3、BP等算法實驗,同時,可以在安卓移動端進行操作[6];2015年北京信息科技大學提出了基于專業信息的數據倉庫實驗平臺建設思路[7];2018年安徽城市管理職業學院建立了習題式及項目式大數據實驗教學平臺[8];2020年大連理工大學構建了基于Hadoop的數據算法庫教學實驗平臺[9]。目前,在建設數據倉庫實驗平臺過程中,對數據源、數據標準與數據質量缺乏合理的處理技術及教學環境,無法對數據進行精準快速處理。針對上述問題,本文從數據倉庫相關課程現狀及提升學生能力的現實需求出發,提出了一種能夠自主配置數據源、數據加載、數據清洗、數據可視化的智能化數據倉庫實驗平臺。同時平臺內置行業應用數據集,引導學生對數據進行智能化管理,提升學生解決實際問題的能力。
目前,“數據倉庫”課程開展過程中,教師主要講述數據倉庫的原理和應用,偏重理論教學,缺乏適量的實驗教學活動。需要在完成相應的理論教學外,設計合理的配套實驗,加深學生對數據倉庫構建的深入理解。一個良好的教學實驗平臺具備如下特點。
在進行數據倉庫實驗時,平臺需要為學生提供多種可以使用的數據來源,確保學生可以接觸多方面的數據,理解數據質量產生的原因。若平臺提供的數據不夠齊全,將導致學生進行的實驗不夠嚴謹,影響課程實驗的效果。多方面的數據源是平臺最主要的特征之一,可確保學生學習多樣化。
在進行數據倉庫教學平臺設計時,需要保證學生與教師之間的交互,在教師布置任務時需要保證學生及時準確地接收到教師發布的作業,在學生提交作業時為教師提供批改與反饋的機制,確保雙方具有和彼此溝通交流的機會。
實驗平臺需要保證學生在進行實驗時每一步操作都簡易方便,并且操作的圖標可以讓學生不耗費太多時間就能記住并且熟練操作。
數據倉庫平臺用來存儲數據,為后續數據挖掘、數據分析及可視化分析提供服務,一般包括以下3部分:①多種數據源的連接。本實驗平臺提供多種數據源的訪問接口,包括關系型數據庫、分布式大數據庫、文本數據,支持跨源跨庫的分析。②ETL模塊。提供豐富的處理轉換組件,通過拖拽式的操作,實現了數據抽取、清洗、轉換、裝載及調度,用于構建數據倉庫,完成數據融合,提升數據質量,服務數據分析。③數據處理及商務智能分析應用。具備數據挖掘處理功能,并可完成可視化報表構建,基于可視化工具完成數據分析等功能。數據倉庫工作流程如圖1所示。
數據倉庫實驗平臺功能框架如圖2所示。本平臺基于B/S架構,學生只需要安裝主流瀏覽器即可,通過訪問網絡地址,能夠登錄實驗平臺,開展實驗教學研究。
數據倉庫實驗平臺由登錄頁、實驗操作區、師生互動區、作業管理區組成。

圖1 數據倉庫工作流程示意圖

圖2 數據倉庫實驗平臺功能框架示意圖
在“數據倉庫”實驗課上,任課教師預先導入班級數據。學生輸入學號和密碼進入實驗平臺,選擇相應的功能模塊進行后續實驗操作。功能菜單包括實驗操作區、師生互動區、作業管理區。在師生互動區,教師能夠與學生在線交流和互動討論。在作業管理區,教師可以發布實驗,并設置實驗有效期,學生可以完成實驗并提交實驗內容,教師可以對提交的學生實驗進行在線批改。完成批改后,學生能夠及時查看實驗分數和批改信息。
實驗操作區是數據倉庫的核心功能區,主要包括數據源配置、數據加載,數據清洗、數據挖掘分析及可視化分析應用。本平臺通過使用ETL—Kettle工具完成數據處理工作。Kettle平臺作為功能全面的開源ETL工具,為平臺的多種數據源和多種特色功能提供了保障,并且支持學生在平臺內進行自主創新。
學生可以自主建立與不同數據源的通道,完成不同數據的加載工作。同時學生可以使用平臺內置的爬蟲框架對網頁數據進行抓取。成功獲取數據后,平臺集成了Kettle的ETL工具,學生可以自主在實驗操作區對數據進行過濾、排序和拖拽等多種操作。
學生可以完成數據集選擇、Kettle操作界面、數據挖掘算法實驗以及可視化實驗,在進行數據抽取實驗時,平臺支持學生選擇多種不同的數據源,通過Kettle建立數據庫連接,包括本地的數據庫連接及教師為學生提供的云端數據庫連接,實驗平臺支持MySQL、SQL Server及Oracle等多種數據庫,實驗過程如圖3所示。學生也可以選擇使用平臺提供的爬蟲工具,將網站或網頁內所需的數據進行提取,并將圖片上的內容解析為文字,保證學生從自己所選的網址出發訪問其相關網址的同時,從中獲取自己需要且正確的數據。此外,該實驗平臺允許學生在平臺內對需要的數據內容進行自定義并自行上傳。在學生進行數據抽取實驗時,平臺會自動進行鏈接至Kettle,在使用學生所選擇的數據來源之后,實驗平臺會確保學生可以及時準確地完成實驗,并保存備份已完成的轉換至平臺內,以防丟失。

圖3 數據倉庫學生實驗過程示意圖
實驗平臺內置了多種現有的算法,在進行數據挖掘算法實驗時,學生選擇學習內容所需的算法進行實驗,包括基于密度的聚類算法DBSCAN、粗糙集屬性約簡算法和BP神經網絡等算法等[10],平臺允許學生使用各種算法進行簡單的數據挖掘,同時支持編寫自定義算法對數據進行挖掘。本實驗平臺主要使用gcc編譯器以供學生進行代碼的編譯[5],并對于學生已完成的代碼部分進行及時保存。平臺支持學生使用多種計算機語言,包括C++、Java、Python語言等進行編程,更加靈活。
在學生進行可視化轉換時,實驗平臺將學生在實驗時所使用的數據庫自動導入進Power BI平臺中,幫助學生快速對于所需可視化的數據庫數據源進行選擇,在進行編輯和建模[11]的同時完成可視化的實驗。
本文對商科院校當前的數據倉庫教學現狀進行了分析,探討了學生掌握知識所面臨的實驗平臺缺乏問題,闡述了開展數據倉庫實驗平臺建設的重要性,從數據源、數據管理、數據處理及商務智能應用等方面提出數據倉庫實驗平臺的設計方案,為雙一流商科院校數據類課程提供指導性的解決方案。