黃丹珍 李小強
摘 要: 文章根據數據倉庫發展的現狀和教學存在的問題,從理論和實踐出發,對這些問題進行闡述,以求在以后的數據倉庫課程教學中取得較好的教學效果。
關鍵詞: 數據倉庫 存在問題 解決策略
在當今的信息時代,數據時刻以指數方式增長,人們每天都在不知不覺中與形形色色的數據打交道,如銀行查詢取款、電話通訊等。然而在這個數據大爆炸時代的背景下,如何利用這些信息和數據,并從這些數據中提煉出幫助人們選擇和決策的信息,成了當今社會的一門重要科學;當然也成了當今高校的一門重要課程和研究方向(數據倉庫與數據挖掘)。因為數據倉庫是建立在數據庫基礎上的一門科學,而且理論與實踐都較復雜,所以一般在本科高年級或者研究生才開設此專業和課程。我從數據倉庫原理特點出發,探討了當前數據倉庫原理課程教學中存在的一些問題及解決策略。
一、教學內容不統一
因數據倉庫是一門新型科學技術,教學目標和教學大綱要求沒有明確的要求,因此該專業的課程選擇非常廣泛,各高校教學側重點有所不同。
由于數據倉庫的主要特點是強調解決現實生活中的問題,這樣課程安排和教學的內容必須貼近行業需求,說白了就是讓學生在就業時有好的選擇,因此,該專業對學生的實踐、動手能力的要求標準非常高。目前,我接觸的大多數數據倉庫理論課程,雖然注重實用技能,但教學方法仍然停留在傳統基礎上,有很大比例的教學內容是圍繞原理展開,對實際應用和操作能力的要求遠遠不夠,因此,對在原有課程內容繼續進行調整,使設置課程的基本原則建立在將數據倉庫理論與現實生活實踐相結合的基礎上,并使學生自由選擇課程內容,使不同專業方向的學生有選擇地培養動手能力,同時通過調整理論課和選修課的比例,獲得符合自身發展方向的知識。
事實上,盡管數據倉庫的技術發展飛速,但基礎理論是相對穩定的,也就是說,數據倉庫的基本理論是變化不大的,因此,在進行教學時要保持教學大綱基本穩定,而課程內容設置時,努力將基本理論擴展到操作實踐中,使學生在掌握數據倉庫理論的基礎上更理解實踐中為何要這樣設計,并且推陳出新。
二、教材的選擇存在的問題
數據倉庫教材,無論是對教師還是學生來講,都有不可替代的作用,它是該課程教學內容的主要依據,教材的不同,直接影響教學方法的實施。目前,市面上的數據倉庫教材形式多種多樣,根據學生對職業規劃側重點的不同,基本教材可分為原理教材、實踐應用型教材和理論與應用型教材。對學習數據倉庫的學生而言,僅僅學習理論,與應用脫鉤顯然是不行的,因此,大多數高校選擇應用型教材或者理論和應用相結合的教材,但這樣籠統地選擇仍然是不夠的。根據數據倉庫的特點,學生專業方向有很大不同,目前存在的專業方向大致有數據過濾、數據抽取、數據建模、數據報表等,因為專業方向的不同直接影響學生的未來就業,這無疑增加了教材選擇的難度,同時,同一類型的教材無法滿足不同學生的需求,編纂者無法把教學內容涵蓋所有的理論和實踐。
以上都是教材選擇面臨的問題,要通過簡單選擇不同類型的教學材料顯然是不能夠解決所有問題的。這就要求教師在教學過程中,盡量選擇和補充符合專業和專業方向所需要的材料,同時通過改變教學方法,使教學內容更具有突出的針對性和實用性。
三、教學設計存在的問題
教學設計就是指課堂教學的設想和計劃,這對數據倉庫這門課來講非常重要,因為數據倉庫原理的復雜性且技術本身還在不斷更新,簡單地采用課題實錄、過程呈現或者導學案例只會使課堂索然無味。
我認為數據倉庫教學設計應該在以下幾個方向設計:
1.營造氛圍,借機提出問題
一堂課的氣氛很重要,導入課題更重要,在數據倉庫的教學中要精心設計導入語,做到一上課就牢牢地吸引學生的注意力,并激發學生的學習興趣。
2.加強與學生的探討、互動
在課堂合適的時機,加強與學生的互動,引用不同的案例,使學生在老師的引導下,充分發揮主動性與能動性,提高自我解決問題的能力,這對學習數據倉庫這門課來講很容易做到,同時建議老師采用這種教學方式。
3.解釋、概括
某些老師不重視這個環節,通常比較簡單或沒有。建議:不能忽視,將這個環節上出一定的特色。很多老師在這個環節略微帶過,其實這部分很重要,所謂老師的職責“傳道授業解惑也”,在課堂的結尾處,對數據的倉庫的精髓進行概括和解釋,一般會取得畫龍點睛的效果。
4.當堂訓練,鞏固達標
這個環節跟所有的課一樣,主要讓學生當堂鞏固,加深理解。
四、教學方式、方法要有所側重
數據倉庫作為一門實踐標準要求很高、而理論基礎又比較深的課程,在教學目標的設定上對學生提出比較高的要求,不僅要求學生有比較扎實的理論基礎,而且要求實踐操作能力強。但目前從事教學的教師有豐富項目經驗的非常少,這就使這門課教學方法顯得單一甚至枯燥,有的學校甚至直接將實踐這一非常重要的技能培訓直接扔給學生的實習單位;而單一的理論教學,會導致學生缺乏實際的操作經驗,不能滿足工作的需要,很難達到企業的用人標準,更別說滿意。
因此,為了解決上述問題,我們應該從根源入手,根據教學目標的要求,加強對學生實踐技能的培養,這些都需要對教學方式和教學方法進行改革。
首先在硬件配置方面,給學生提供模擬崗位操作實踐環境,通過以理論、應用、培養個人能力為目標的教學方式,讓學生在掌握數據倉庫理論的基礎上,對各種實際的數據倉庫開發項目進行分析演練,以達到學以致用的教學目的。同時,在教學方法上和教學過程中,教師要積極引導學生通過各種方式自主設計數據倉庫項目,從被動和主動兩方面,培養他們學習和實踐的能力。下面介紹幾種比較合適數據倉庫的教學方法:
1.老師、學生互動式的教學方法
互動式教學指在教學過程中,學生與老師雙方在平等的基礎上進行交流、探討、協商,根據各自依據,彼此討論、辯解甚至激烈的碰撞,達到以理服人、以事實為依據的教學效果,這種教學方法既能調動學生學習的主動性,又可以拓展學生的創造性思維。
這里我們舉一個關于數據抽取的教學方法,當然是先由老師講解數據抽取的原理、必要性及實現的過程;接著老師就要通過一個具體的簡單實例(用SQL來實現)講解一個具體實現的過程,接著老師可以提出問題,在問題的基礎上提出更復雜的案例,由于前面老師已經作了比較詳細的案例分析,學生一般都可以通過自己的思考和動手完成這個更復雜的案例,接著老師就可以數據抽取的算法準確性、效率提出問題,并講解對大型數據進行數據抽取時應該做哪些準備,有經驗的老師還可以介紹他們在具體生活中的案例是怎樣實現的等,通過這些講解,讓學生深入思考、理解數據抽取的精髓,并開始探討如何改進現有的案例算法,達到課程循序漸進、逐步理解、到掌握的最高目的。對于一些具體案例,老師還可以通過精彩的視頻演示給學生看后,再探討、再加以理論與現實的引導,從而使學習過程生動、直觀,最后使學生實現掌握的目標。
2.自主學習
數據倉庫是一門理論比較深,高年級或者是研究生才上的課程,因此學習該課程的學生一般都具備良好的信息技術基礎,自學能力也比較強,所以,該課程由老師引導,解剖難點后,讓學生自主學習是一種很好的教學方法。比如,數據采集與數據清洗部分的講解,如果老師一味在課程上講,如何如何,其結果是學生一知半解,或者只有一個印象,但如果把學生分組,老師共同參與討論,學生在分組討論中理解為何有些數據必須在歸納在這個維度上,那些數據必須剔除,那些數據是錯誤的;最終老師做歸納總結。通過這種自主學習的過程,讓學生摸索現實項目中存在的問題,老師與學生共同學習、討論,這樣不僅加強了學生對專業知識的掌握,而且鍛煉了學生的口才,加強了師生之間的交流。
3.教師博客、微博與數據倉庫教學
現在上課的時間一般是45分鐘,學生要在課題上掌握所有知識是不可能的,因此在課余時間加強與老師的溝通是一種必不可少的方式。目前比較多的方式是E-mail,但該方式功能太過單一。校園網也提供了基于論壇、師生互動等平臺,但由于受校園網的限制,應用也不是太廣泛。最近興起了微信等平臺,老師可把自己的教學理念、教學日志、教學內容等上傳到網上,也可引用國內外優秀資料鏈接到自己網頁上;學生可在老師上微信上留言、討論、下載等,老師也可隨時隨地地回答學生的問題,這就極大地豐富了交流的方式,不受空間和時間的限制。
4.考核方式
數據倉庫這門課目前大多數學校的考核方式還是以期末筆試為依據,這就在一定程度上遏制學生平時學習的動力,大學學生很喜歡的一種方式是期末突擊學習,應付考試。杜撰這種弊端,就要調整考核方式,使學生花更多時間在平時積累實踐經驗上,這里我們可以借鑒一些國外的教學的經驗:
(1)把學生分成很多組(可以自由組合,體現民主),讓學生在業余時間完成規定的實驗項目;這個作為平時成績的一個重要依據。
(2)有條件的學校,邀請一些從這里畢業的老生回來串聯,讓他們介紹他們實踐中的實戰經驗,并在允許的情況下讓學生自愿加入一些項目的開發,這個也可以作為平時成績加分的參考。
(3)基于數據倉庫的特性,期末考試改為上機開卷考試,在規定時間完成項目的比例,作為評分依據。
五、在數據倉庫不同專業方向講解的側重點不同
1.數據采集,數據清洗
數據采集是建立數據倉庫的第一步,它是保證后面數據挖掘的準確性的保證,在講解此部分時,要側重業務流程的講解,不斷地提示學生數據采集時要保證數據來源的準確性與關聯性,同時對不用的和不正確的數據進行清洗。在進行案例教學時,盡量選擇簡單業務流程的案例,同時在案例中舉幾個例子說明數據來源的重要性及數據清洗的必要性;在案例教學中,還讓學生初步理解什么是事實表,什么是維度表等。
2.數據建模
數據建模是數據倉庫建立的第二步,這一部分講解較為復雜,首先要讓學生理解什么是邏輯表和物理表,理解這兩部分可以引用工具教學,市面上的建模工具比較多,選取一款比較流行的(例:ERstudio);事實表和維度表是這部分的重點,要詳細講解,這是學生理解數據倉庫后面部分的基石,另外在星系模型、雪花型模型講解時,可采用類比講解法,比較為何幾種模型存在的必要性。
3.數據抽取
數據抽取聽起來好像是比較簡單的一步,這一部分老師講解時一般會比較簡單,但它是連接實時數據與數據倉庫關鍵的一步,也是技術性要求較高的一步,這部分可以專門作為一門課程講,老師可選擇用SQL/Plus語言講解,條件好的學校也可以選擇比較流行的軟件(infomatica等)進行講解,因為該部分技術性較強,盡量讓學生上機訓練,安排學生按一定時間完成要求的案例任務。
4.數據集市
數據集市是數據倉庫子集,主要是把中央數據倉庫劃分成若干個不同子集,以滿足不同部門對歷史數據的報告需求。這一部分老師講解時主要是讓學生搞清數據集市與數據倉庫概念上的區別。
5.數據展示
數據展示對技術、藝術都有一定的專業要求,同時對交流能力也要求很高,這部分老師講解時可把它分三部分進行。首先在講解技術時讓學生加深對維度表的理解,同時引用一到兩款軟件,了解數據展示是怎么進行的;在講解展示的方式時,比較不同類型的報表直覺效果,并向學生強調雖然給決策層提供的數據一樣,但不同的展示方式往往取得意想不到的效果,報表盡量做到直觀、簡單,同時給學生若干個案例,讓學生用不同的報表展示方式展示相同的數據進行類比;在講解對決策層的業務理解需求時,主要是給學生講解交流技巧,讓學生在掌握決策層需求時,頭腦中有設計的思路等。
六、結語
根據數據倉庫發展的現狀和目前教學過程存在的問題,本文作者根據自己的工作經驗(6年數據倉庫工程師,2年高校計算機教學),從理論和實踐出發,對這些問題做了簡要闡述,以求在以后的數據倉庫課程教學中,取得較好的教學效果,使學生在學習這門課中掌握數據倉庫的精髓,同時體會到團隊和溝通的重要性。隨著數據倉庫技術的發展和需求的不斷更新,數據倉庫這課還需要不斷深化和探索,最終越來越與現實接軌,并達到提高教學質量的目的。
參考文獻:
[1]李嶶,李宛州.基于數據倉庫技術的進銷存系統的設計與實現.2001(10):93-94.
[2]W.H.Inmon.數據倉庫.機械工業出版社,2000,5.
[3]林字等編著.數據倉庫原理與實踐.北京:人民郵電出版社,2003.
[4]張春陽,周繼恩,劉貴全,蔡慶生.基于數據倉庫的決策支持系統的構建,計算機工程,2002(4):249-252.
[5]陳德軍,盛翊智,陳綿云.基于數據倉庫的OLAP在DSS中的應用研究.2003(1):30-31.
[6]朱明,數據挖掘.合肥:中國科技大學出版社,2002,5.
[7]陳京民等.數據倉庫與數據挖掘技術[M].北京:電子工業出版社,2002.
[8]毛國君等.數據挖掘原理與算法[M].北京:清華大學出版社,2005.
[9]陳文偉等.數據挖掘技術[M].北京:北京工業大學出版社,2002.