王子甲


摘 要:隨著信息技術等數據采集方法的進步,海量數據逐漸成為各個行業的重要資源,被廣泛用于工業生產和科學研究。對于大學工科專業,無論是培養科研后備力量,還是為工業界輸送技術人才,都應該拓展大數據相關理論方法的教學。該文在論述大數據分析方法背景的基礎上,論證了大數據教學的必要性,分析了大數據教學的特點,提出了數理統計相關基礎課程由各自學院結合該專業單獨開設,增加面向大數據編程教學的比重等建議。
關鍵詞:大數據 教學 工科專業 數據挖掘
中圖分類號:G64 文獻標識碼:A 文章編號:1674-098X(2016)02(a)-0120-04
Abstract:With the advancement of data collection technologies,big data becomes a significant resource in various fields of engineering.It is generally applied both in industrial world and scientific research.To engineering majors,teaching of big data theory and technology should be emphasized either for educating future research staffs or for providing technicians for industry. In this paper,the necessities and key points of teaching big data skill in colleges were discussed after the introduction of the background of big data.It is suggested that mathematic skill of big data should be taught in combination with the corresponding major,and programming skill related to big data should be emphasized.
Key word:Big data;Teaching;Engineering majors;Data mining
信息技術的快速發展為數據采集提供了越來越多的方法和手段。隨著大量實時數據的連續積累,傳統的數據存儲和挖掘方法逐漸不能適應現實需求,大數據的概念隨之被提出來。大數據一般指在因數據量巨而無法在可容忍的時間內用傳統的軟件工具采集、清洗、管理和處理的數據集[1]。具體來講,大數據的大,首先,體現在容量上,大數據不是樣本,而是事件發生時積累的全部數據。其次,體現在速度上,大數據一般都意味著實施連續的數據采集。最后,大數據體現在多樣性上,包括文本,圖像,視頻聲音等多種類型。
大量連續的數據集,為更全面深入地認識各種問題提供了豐富的素材,也對原有的數據處理和挖掘方法提出了挑戰。大數據的機遇和挑戰在互聯網等相關領域表現的最為突出,尤其是新興的移動互聯網領域。無論是網絡訪問數據,還是諸如基于移動互聯網的叫車、導航和餐飲服務,其本身就是大數據來源,為企業和研究人員研究消費者行為提供了重要資料。在非信息技術領域,比如公共交通行業,大數據也逐漸成為政府決策和交通模型研究的重要資源。典型的如北京地鐵交通智能卡數據,日刷卡量達600萬人,長年的數據積累可以被用來研究交通行為、交通政策乃至城市結構的演變。因此,目前在就業市場上基于大數據的分析技能受到越來越多的用人單位的重視,相關科研機構也越來越需要具備大數據相關分析方法或編程技能的本科生或研究生。
然而目前的課程大綱中,對于大數據相關的理論與方法并沒有給予應有的重視。筆者調研了海淀區大部分高校,就本科教學而言,有關數據統計分析與挖掘的教學,主要放在大學三年級的數據基礎模塊,代表性課程為概率論,開課教師多為理學院老師,帶有通識性教育的特點。就研究生階段而言,大數據分析所涉及的基礎理論主要通過數理統計和數值分析相關課程來講授。這些教學模塊并沒有對大數據及其相關的理論分析與應用技術做充分的強調。對此,該文在分析大數據教學必要性的基礎上,提出大數據教學的要點,為工科專業培養具備大數據思維和技術處理能力的人才提供參考。
1 工科專業大數據教學的必要性
隨著信息技術在各個行業的應用,海量數據逐漸被采集和積累,面向大數據的統計分析技能需求越來越大。以培養人才為主要目標的高校需要跟上產業的發展,因而有必要結合各個專業的實際需求開設大數據相關課程。
1.1 大數據已經成為各個行業的重要資源
隨著信息化、自動化程度的提高,各個行業都開始積累大量連續且多種形式的數據。數據的量級是前所未有的。以交通行業為例,傳統的數據采集方法往往采用抽樣調查的方法,利用問卷獲取居民的出行信息。不僅成本較高,獲取的數據量也有限,準確性難以保證。隨著信息技術的進步,尤其是GPS導航的普及,以及公共交通系統自動售檢票設備的應用,為交通行業提供了大量實時連續的數據。再加上監控系統、圖像識別等設備與技術的應用,可以說目前交通行業已進入大數據時代。以北京為例,目前公共交通領域都采用自動售檢票系統,日地鐵刷卡量達600萬人,路面公交刷卡量達1 000萬人。公交系統內部監控視頻系統每日產生萬T視頻數據。同時路面交通6.7萬輛出租車GPS數據,以及地圖搜索引擎積累的導航數據,共同構成了北京城市交通的大數據。
這些數據占用了大量的存儲空間,也為我們全面地分析問題提供了寶貴的資源。怎么從如此大規模的數據中挖掘有用信息,引起了行業人員越來越大的重視。這點從谷歌大數據搜索趨勢可以看出。如圖1所示,從2011年開始,大數據搜索量開始飛速增長。這說明大數據已經成為信息化社會數據統計和數據挖掘的新形式。作為培養創新型人才的基地,高校在這種社會潮流中不能落后。這點不僅要體現在科研上,更要體現在教學上。因此,開設大數據教學是大勢所趨。
1.2 企業需要具備大數據處理能力的技術人才
企業是大數據的擁有者。海量的數據為各類企業監測設備運行狀態、識別目標客戶、提升效率和增加利潤提供了潛在途徑[2]。多項研究表明,深入挖掘企業積累的大數據,可以優化企業的倉儲、供應鏈管理等環節,降低成本,提高效益,提升顧客的滿意程度[3]。
一旦大數據帶來的實際效益為企業所充分認識,以追求利益最大化為存在目的的企業就會成為大數據挖掘的第一推動力。隨著近幾年大數據技術在經濟效益轉化上取得的成果越來越大,更多的企業開始著手挖掘大數據,尤其一些互聯網巨頭,都紛紛成立了大數據實驗室。隨著企業大數據相關業務的拓展,其對大數據方面的人才需求就越來越大。根據華盛頓郵報[4],McKinsey環球研究所估計截止2018年僅美國經濟和商業領域的大數據高級分析人才的市場需求就達4.4~4.9萬,其他大數據分析人才需求量達400萬。
如此大規模的市場需求,如果高校不能及時調整培養方案,增加大數據相關的教學模塊,就不能滿足社會對這方面人才的需求。所以,從人才市場需求的角度,國內大學有必要盡快開展大數據教學。
1.3 科學研究需要大數據人才
大數據挖掘在各個領域的需求,最終會反饋到科研領域。這點從近十年SCI論文檢索數據庫Web of Science收錄的大數據主題相關論文數量可以看出來。筆者檢索了近些年SCI數據庫大數據主題相關論文的年收錄量,如圖2所示,以大數據為主題的論文在2006年的年收入量是1 000篇左右,而到2014年,年收入量已突破4 500篇。SCI論文數據庫代表著高水平的科研成果。以大數據為主題的高水平科研成果從2011年開始飛速增長,這點與圖1谷歌搜索服務提供的大數據相關熱度基本一致。說明全社會對大數據的關注,很快反應到了科學研究領域。
與科研領域大數據相關研究需求與研究成果快速增加的情形相悖的是,國內高校在本科和研究生培養過程中對大數據挖掘理論與方法的教學沒有給予足夠重視,缺乏相關的教學模塊。以交通運輸專業為例,新入學的碩士生或博士生,在大數據處理方面既缺乏課程培訓,也缺乏研究經驗,需要團隊從零開始傳授交通大數據挖掘相關方法。這種現象在多個專業都是普遍存在的。因此,從培養科研后備人才的角度,高校有必要開設大數據相關課程。
2 大數據教學的要點
充分認識了大數據教學在工程專業人才配上上的必要性,下一步就是如何開展好大數據教學,使學生通過大數據課程的學習,掌握大數據挖掘相關的理論與方法,滿足就業市場與繼續深造的需求。對此作者走訪旁聽了部分英國大學大數據相關的課程,也調研了國內部分高校開展的數據挖掘方面的課程,總結了大數據教學的兩個要點,以期為大數據教學的推進提供參考。
2.1 數學基礎課與專業案例相結合
大數據處理對機器學習相關的數學方法,特別是統計分析理論要求較高。目前大多數高校都在本科及研究生培養的過程中開設了概率論及數理統計相關課程,然而這些課程一般由理學院數學系的相關老師講授,具有工科專業通識教育的特點。這會造成一些突出問題。最主要的是這種模式會弱化案例教學的作用,過于強調理論,而理論的應用,尤其是理論在各自專業上的應用,不能被很好地強調。即使包含了案例教學,但是案例往往是抽象的,或者與各個工科專業沒有關聯,學生不能意識到教授的理論知識能否能在本專業應用,應用在什么地方,以及如何應用。這會從根本上影響學生的學習興趣,進而影響到學習效果。
因此,有必要借鑒國外先進的教學理念,在大數據理論教學中采用本專業老師教授大數據挖掘以及機器學習相關理論。筆者在英國University College London交通中心旁聽了數據采集與分析相關的研究生課程,發現該課程即由交通中心的老教授主講。其授課內容與國內研究生數學基礎課的數理統計類似,不過適度弱化了理論部分,增加了大量的交通工程數據分析案例。從學生的課程參與情況,以及參與科研項目過程中對相關理論的應用效果來看,這種教學模式不僅能讓學生意識到理論方法在本專業的價值,還能讓學生快速掌握應用的方法。甚至部分教授采用半節課理論講解,另外半節課邀請企業或政府部門相關從業者針對所講理論在實際中的應用進行演講。這些教學模式都值得在大數據教學中加以借鑒。
2.2 著重編程能力的培養
大數據對自主編程能力的要求很高。這主要由兩方面決定。其一是數據的預處理,由于大數據一般涉及繁蕪叢雜的原始數據。這些數據存儲格式,字段意義,數據類型種類較多,使用現成的統計軟件已不能滿足原始數據預處理要求,而手工處理也不現實,因此一般需要自主編程,針對數據的具體問題設計對應的預處理算法。比如公共汽車網絡一般包含很多線路和車站,線路和車站的名稱、編碼也存在不盡統一之處。體現在公共汽車刷卡大數據上就是字段編碼存在混亂,與GIS數據上車站的地理位置不能一一對應。對于這種情況,要可視化公交車網絡客流,必須對刷卡數據預處理。如北京龐大的公交網絡,手工處理不現實,這就需要研究人員自主開發對應模塊完成該工作。其二,海量數據對計算復雜度提出了新的要求。很多情況下不是傳統算法不可行的問題,而是不能在適合的時間內處理完大規模數據的問題。以地鐵網絡客流實時顯示系統為例,如果路徑選擇算法不能在較短的時間內給出結果,從實時的角度就其結果就沒有意義。大數據處理需要復雜度更低的可行算法,甚至在有些情況下需要設計并行算法,使用多個計算設備同時計算[5]。
所以,培養具備大數據思維和能力的人才,必須強調編程能力的培養。把編程相關課程作為大數據培養模塊的基礎課程,并體現大數據編程的特色。英國紐卡斯爾大學的Big Data Analytics模塊就是由計算機相關專業的老師開設。課程大綱中強調編程能力和算法設計,并專門教授了并行計算相關內容。
3 結語
隨著數據采集和存儲技術的進步,大數據逐漸成為各個行業尤其是工程相關專業的熱點。在這種形勢下,本文研究了工科專業大數據教學的問題。首先分析了大數據在實踐和科研領域的發展現狀和未來趨勢,認為無論是生產企業,還是科研相關單位,對大數據人才的需求都是迫切和巨大的。因而,從滿足未來人才市場需求的角度,大數據教學的問題必須引起國內高校的重視。工科相關專業有必要增設大數據培養模塊?;诒匾裕偨Y國內外目前在數據處理方面的教學經驗和問題,提出了開展大數據教學的要點。其一,大數據理論教學必須與本工科專業相結合,側重案例的相關性。其二,自主編程能力是大數據能力的重要體現,因而必須予以重視。目前大數據教學在國內還處于起步階段,需要各個專業的同仁結合本專業的特點展開積極的探索,構建合適的大數據培養模塊,成為本科及研究生培養課程體系的重要一環。
參考文獻
[1] Snijders,C.,Matzat,U.;Reips,U.-D.“Big Data”:Big gaps of knowledge in the field of Internet[J].International Journal of Internet Science,2012(7):1-5.
[2] Stefanovic,Nenad.Collaborative Predictive Business Intelligence Model for Spare Parts Inventory Replenishment[J].Computer science and information systems,2015,12(3):911-930.
[3] Hahn,G.J.;Packowski,J.A perspective on applications of in-memory analytics in supply chain management[J].Decision support systems, 2015(76):45-52.
[4] Steven Overly.As demand for big data analysts grows,schools rush to graduate students with necessary skills[N].Washington Post,2013-09-15.
[5] Bussaban K.,Waraporn P.Preparing Undergraduate Students Majoring in Computer Science and Mathematics with Data Science: Perspectives and Awareness in the Age of Big Data[J].Procedia-Social and Behavioral Sciences,2015,197(25):1443-1446.