文/陸以勤
華南理工大學科研大數據實踐
文/陸以勤

作為以理工見長的華南理工大學,在大數據科學和工程相關領域,包括大數據的整個生命周期的各個環節(數據采集、通信、海量處理、包括計算機能力、存儲等)的研究一直非常活躍。有關大數據研究的科技基地就有:廣東省大數據分析與處理工程技術研究中心、廣東高校海量大數據的智能信息處理與安全工程技術研究中心、廣東省人體數據科學工程技術研究中心及廣州市人體數據科學重點實驗室等。為了培養大數據的應用創新人才, 學校充分發揮廣東省的產業優勢,與多家世界知名企業建設了如“華南大數據創新人才培養基地”“信息技術與大數據創新人才培養基地”等科研和人才培養基地,還設立了“云計算與大數據”碩士專業。為了支撐大數據的科研和教學,除了通用多款統計分析工具,學校搭建大數據的分析平臺、大規模數據的Hadoop系統平臺,為大數據的挖掘、存儲、分析提供支撐。學校科研和業務活動本身產生大量的數據,例如學校的兩個附屬醫院、大數據交換中心及二級部門的業務數據等,經過嚴格的脫敏處理,經過數據主管單位的允許,可以提供給科研研究,另外,學校與多家企業合作,采集多個企業級數據源,其中包括社交網絡數據(人人網、開心網和新浪微博的真實數據約在10T左右)、交通數據網(6T左右)、鋼鐵現貨交易第三方電商平臺、百度、阿里云等名機構的完整的海量數據,可在平臺上展開數據信息交易、數據挖掘、數據統計與分析等應用,不斷提升運用、解釋、挖掘數據的能力。為了給大數據科研團隊提供良好的支撐環境,學校還計劃建設“科研大數據服務平臺”。
(作者單位為華南理工大學)