999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據實驗室建設與應用研究

2018-06-05 08:27:18李馥娟
實驗技術與管理 2018年5期
關鍵詞:實驗室功能實驗

李馥娟

(江蘇警官學院 計算機信息與網絡安全系, 江蘇 南京 210031)

隨著移動互聯網、物聯網、社交網絡等應用的快速發展,數據的產生、存儲、分析、展示等方式都發生著深刻變化,不同來源、不同結構、不同功能數據的應用價值越來越多地引起人們的重視,大數據已成為目前整個信息技術行業中關注度最高、發展最快、市場需求最旺盛的技術之一,成為學術界和工業界研究的重點和熱點。目前,對于傳統數據挖掘和處理技術的研究和應用成果已經非常豐富,但原有的軟件技術和常用的軟件處理工具在面對大數據這一具有特定屬性的數據集時,在技術和方法上都遇到了困難和挑戰。

在學術界和企業界加快大數據技術研究和應用創新的同時,政府職能部門也在大數據專業人才培養方面提出了一系列具有重要指導意義的政策文件。其中,在2015年8月31日國務院印發的《促進大數據發展行動綱要》中就提出:“創新人才培養模式,建立健全多層次、多類型的大數據人才培養體系”,并鼓勵采取跨校聯合培養等方式開展跨學科大數據綜合型人才培養。在此環境下,一些高校開始設置大數據相關專業,推動大數據學科建設,加強大數據人才培養,為大數據產業發展提供有效保障。根據教育部公布的普通高等學校本科專業備案和審批結果中提供的信息,從2015年首批開設“數據科學與大數據技術”專業以來,開設該專業的高校到2016年已經達到35所。然而,由于大數據專業是一個新型專業,即使是目前已經開設該專業的高校,也是在不斷實踐中探索人才培養的具體內容和環節,沒有現成的模式可供借鑒和套用。為此,本文立足社會人才需求和大數據人才培養要求,結合本校大數據相關課程建設中取得的成功經驗,從大數據專業人才培養的具體要求出發,提出了大數據實驗室建設的內容和方法。

1 大數據實訓平臺設計

大數據實驗室的建設,在突出大數據技術和應用固有功能的同時,還需要充分借鑒現有實驗室建設、應用和管理中的既有成果,提升大數據實驗室的建設和應用水平,最大限度地發揮實驗室在服務教學和科研中的功能[1-2]。大數據實驗實訓平臺具體由6大功能模塊組成。

(1) 大數據處理支撐平臺。該平臺一般以開源Apache Hadoop為基礎,其功能是為整個實驗實訓平臺提供對海量數據的分布式處理。該支撐平臺除提供了Apache Hadoop 項目中的HDFS(Hadoop Distributed File System,Hadoop分布式文件系統)和MapReduce編程框架兩大基本組件外,還提供了Hadoop Streaming、HBase、Hive等主流組件[3]。為便于進行實驗,并可以更快速、更準確、更穩定、更可靠地從各類無序的海量數據中挖掘有價值的信息,對支撐平臺在安全性、易管理性、高可用性等方面進行了優化。

(2) 教學管理支持平臺。該平臺充分借鑒現有在線學習系統的功能,采用B/S架構,以便于對教學課程、實驗教材、教學資源庫等進行集中管理和訪問授權。同時,通過增加在線評估、在線測試等輔助功能,有效提升教學質量。

(3) 云課堂綜合服務平臺。云計算是支撐大數據的關鍵技術之一。該平臺基于云計算技術,為實驗者提供虛擬教學桌面和虛擬實驗桌面。虛擬教學桌面的功能與傳統在線互動教學平臺類似,為師生提供桌面共享、在線測試、分組討論等功能,以提高教學質量;虛擬實驗桌面提供Hadoop部署環境和實驗應用環境,強化對大數據基礎理論的學習和實踐應用的訓練。

(4) 虛擬化實驗平臺。大數據技術離不開虛擬化技術的支持,在具體實驗過程中,各類大數據組件的安裝部署、數據分析等操作都需要在虛擬機上進行。該平臺需要提供虛擬機的創建與配置、虛擬化網絡環境設置[4]、存儲資源分配等管理功能,為實驗者提供虛擬化實驗環境。

(5) 應用建模分析平臺。大數據分析和可視化建模[5]是大數據技術中直接服務于具體應用的兩項功能,也是大數據技術最具代表性的功能體現。建模分析平臺整合了大數據分析和可視化建模兩大功能,支持典型的數據分析算法,實驗者可直接通過圖形化的組件、以拖拽方式進行數據分析模型的搭建,以降低大數據建模難度。

(6) 師生客戶端。師生客戶端以Web方式,除實現傳統的在線資源管理與師生互動功能,還提供有關大數據技術的開發工具,使實驗者可以根據學習需要選擇安裝所需的開發工具,編寫和調試代碼。

2 主流大數據技術

2.1 大數據技術框架

近年來,隨著大數據應用越來越被重視,各類大數據技術得到了雨后春筍般的發展,分別圍繞大數據采集、大數據預處理、大數據存儲及管理、大數據分析及挖掘、大數據展現和應用等方面進行了大量創新性研究和實踐,取得了大量成果。就Hadoop生態圈而言,短時間內推出了很多各具功能特征和應用特點的組件,并快速得到了應用。在大數據學習中,需要根據學習者的特點,有選擇地選取學習內容,使其較為系統全面地學習當前主流的大數據技術。根據教學需要,本文認為對于大數據技術框架的學習,主要包括以下內容:數據抽取工具Sqoop、分布式海量日志分析工具Flume、分布式存儲系統HDFS、鍵值數據庫HBase、數據倉庫Hive、分布式計算框架MapReduce/Yarn、內存計算Spark、流式計算Storm、數據挖掘算法庫Mahout、機器學習工具包MLLib,以及其他主流大數據組件[6]。

2.2 數據挖掘算法庫Mahout

云計算和大數據被稱為一枚硬幣的兩面,掌握云平臺下的編程方法是學習大數據技術的基礎。不像單機或傳統的網絡環境,在云平臺下編程時首先要掌握云平臺框架,并要熟悉某一個具體算法的原理,增加了學習和應用的難度。然而,Mahout的推出,在學習大數據技術與教學難度之間取得了一個平衡。Mahout是Apache基金會的一個適用于Hadoop云計算平臺的開源項目,提供了一個可擴展的云平臺機器學習經典數據挖掘算法庫[7-9],以幫助開發人員在不需要自己編寫復雜算法、不需要掌握太深的云平臺框架和數據流程理論知識的條件下,通過調用Mahout相關算法的程序接口來方便快捷地創建智能應用程序。

(1) 聚類算法。一個聚類即是一類具有相同特征的數據的集合,位于該集合中的每個個體是相似的,而不同聚類中的個體是不相似的。聚類是將一個數據集合根據特征的不同分割成多個被稱為簇或類別的子集,使得同一子集中的元素盡可能相似,而不同簇中的元素盡可能相異。聚類分析的目的就是把一組無標簽的數據加上標簽,是一個迭代學習的過程。Mahout算法庫中聚類模塊包含的算法主要有:Canopy、K-Means、Fuzzy K-Means、Mean Shift、Spectral、Minhash、Top Down。表1對算法的主要功能進行了描述[10]。

表1 Mahout算法庫中聚類模塊主要功能描述

(2) 分類算法。分類算法是數據挖掘、機器學習和模式識別等領域用于解決分類問題的方法,具體通過對已知類別訓練集的分析,從中發現分類規則,以此預測新數據的類別。分類是一種基于訓練樣本數據(這些數據都已經被貼了標簽)區分另外的樣本數據標簽的過程,即解決另外的樣本數據應該如何貼標簽的問題。分類算法和聚類算法的不同之處在于,當具體的學習過程有指導時稱為分類,而無指導時稱為聚類。有指導是指在具體的訓練過程中訓練樣本數據已經貼上了標簽,而無指導則不同。Mahout算法庫中分類模塊包含的算法主要有Logistic Regression、Bayesian、Support Vector Machine、Random Forests、Hidden Markov Models。表2對算法的主要功能進行了描述[10]。

表2 Mahout算法庫中分類模塊主要功能描述

(3) 協同過濾算法。在推薦系統中,協同過濾算法是應用最為廣泛的一種算法。在大數據環境中,協同過濾算法的核心思想是首先確定一個指定用戶的興趣,然后以該用戶為樣本在海量用戶群中尋找具有相似興趣的用戶并形成一個集合,綜合該集合中每一個用戶對某一信息的評價,該評價即為該指定用戶對此信息的喜好程度預測。Mahout算法庫的協同過濾算法主要有Distributed Item-Based Collaborative Filtering和Collaborative Filtering using a parallel matrix factorization,前者是基于項目的協同過濾算法,其簡單思想就是利用項目之間的相似度來為用戶進行項目推薦;后者的核心思想是把所有的用戶以及項目想象成一個二維表格,利用表格中有數據的單元格來預測用戶(空單元格)對項目的評分,進而得到推薦結果。

3 主要的大數據開發工具

任何一項應用技術的學習都應遵循環境和方法的一致性,對于大數據技術的學習更應如此[11-12]。一般情況下,大數據開發工作的流程為:安裝開發工具→配置開發環境→編寫代碼→代碼編譯→制作jar包→將jar包上傳服務器→程序運行→代碼修改→再次上傳程序調試。如此反復的練習,也是學好大數據技術的基礎。通過對當前大數據開發工具的綜合分析,結合高校教學特點和需要,從培養應用型大數據人才的角度出發,介紹典型的3種大數據開發工具。

(2) R語言。R語言是一款完整的開源的具有數據處理、統計分析和繪圖等功能的軟件系統,其功能組件主要包括:大數據的存儲和處理,具有強大向量、矩陣運算功能的數組運算工具,統計分析工具,統計制圖工具,簡捷而強大的編程語言等。強大的統計分析功能是R語言適用于大數據處理環境的一大優勢,R語言通過以R軟件包形式發布的大量數學計算和統計分析工具,使開發者能夠在一個開放環境中靈活地對各類結構化、非結構化和半結構化數據進行處理分析,還可以根據用戶具體需求設計出統計計算模型。例如,在Hadoop中,通過MapReduce將TB和PB量級的數據處理后可生成GB量級的數據,被縮小后的數據再在R語言中利用MPI并行處理框架構建的機群計算進行處理,大大提高了數據處理的效率。

4 結語

大數據技術是大數據價值得以體現的基本手段,云計算、分布式處理技術和具有感知功能的物聯網等技術的發展,為大數據的采集、處理、存儲、分析處理及過程和結果展示等提供了技術支撐和方法保證。大數據專業及其相關課程的建設需要緊扣大數據技術的發展,創新性地探討其人才培養體系。其中,大數據實驗室的建設和應用探討,更是從人才培養的最基礎性的需求出發,提供最基本的知識和方法保障。本文提出了一套適應大數據人才培養需要的實驗室建設方案,強調在系統掌握大數據基礎知識的基礎上,通過科學地設計實驗實訓方案,使實驗者較為扎實地掌握目前主流的大數據技術。本實驗室建設方案的特點是在充分借鑒在線學習平臺已取得的被大家普遍認可的應用功能的基礎上,突出了大數據技術的完整性和系統性,尤其是突出了云計算技術在大數據中的應用,真實體現了云計算與大數據之間的關聯性。當然,作為一項既復雜又在快速發展中的技術,如何使實驗室建設在充分體現技術特點的同時,更能夠較好地反應人才培養要求,本文尚有一些考慮不周的地方,這也是作者下一步繼續研究和實踐的一個方向。

參考文獻(References)

[1] 李輝,張標,高萬林.大數據實驗平臺及資源建設的思考與探索[J].實驗技術與管理,2016,33(7):195-199.

[2] 尹學松,蔣融融,張吉先,等.面向大數據遠程開放實驗平臺構建研究[J].中國遠程教育,2016(11):28-34.

[3] 董新華,李瑞軒,周灣灣,等.Hadoop系統性能優化與功能增強綜述[J].計算機研究與發展,2013,50(增刊):1-15.

[4] 李馥娟.虛擬機技術在復雜網絡實驗中的應用[J].實驗技術與管理,2009,26(12):79-83.

[5] 崔迪,郭小燕,陳為.大數據可視化的挑戰與最新進展[J].計算機應用,2017,37(7):2044-2049,2056.

[6] 程學旗,靳小龍,王元卓,等.大數據系統和分析技術綜述[J].軟件學報,2014,25(9):1889-1908.

[7] Barrachina A D,O’Driscoll A. A big data methodology for categorising technical support requests using Hadoop and Mahout[J].Journal of Big Data,2014,1(1):1-11.

[8] Eluri V R,Ramesh M,Al-Jabri A S M,et al.A comparative study of various clustering techniques on big data sets using Apache Mahout[C]//Mec International Conference on Big Data and Smart City.IEEE,2016:1-4.

[9] Bamnote G R,Agrawal S S.Evaluating and Implementing Collaborative Filtering Systems Using Apache Mahout[C]//International Conference on Computing Communication Control and Automation.IEEE Computer Society,2015:858-862.

[10] 樊哲.Mahout算法解析與案例實戰[M].北京:機械工業出版社,2014.

[11] 劉鳳娟.大數據的教育應用研究綜述[J].現代教育技術,2014,24(8):13-19.

[12] 周情濤,何軍,胡昭華.基于GPU的Spark大數據技術在實驗室的開發應用[J].實驗室研究與探索,2017,36(1):112-116,131.

猜你喜歡
實驗室功能實驗
也談詩的“功能”
中華詩詞(2022年6期)2022-12-31 06:41:24
記一次有趣的實驗
做個怪怪長實驗
電競實驗室
電子競技(2019年22期)2019-03-07 05:17:26
電競實驗室
電子競技(2019年21期)2019-02-24 06:55:52
電競實驗室
電子競技(2019年20期)2019-02-24 06:55:35
電競實驗室
電子競技(2019年19期)2019-01-16 05:36:09
關于非首都功能疏解的幾點思考
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 无码有码中文字幕| 97国产在线视频| 色噜噜狠狠狠综合曰曰曰| 国产精品午夜电影| 亚洲AⅤ波多系列中文字幕| 国产真实自在自线免费精品| 91麻豆精品视频| 久久久国产精品免费视频| 国产精品成人一区二区不卡| AV片亚洲国产男人的天堂| 精品国产黑色丝袜高跟鞋| 91探花在线观看国产最新| 日a本亚洲中文在线观看| 国产激爽爽爽大片在线观看| 中国特黄美女一级视频| 欧美日韩一区二区在线播放| 久热中文字幕在线| 在线国产综合一区二区三区| 久久国产香蕉| 久久伊人色| 欧美成人精品在线| 激情在线网| a毛片基地免费大全| 在线中文字幕日韩| 国产一区二区在线视频观看| 精品一区二区三区视频免费观看| 国产精品伦视频观看免费| 日韩欧美中文| 亚洲精品福利网站| 成年人久久黄色网站| 高清无码手机在线观看| 九九热精品视频在线| 日韩中文精品亚洲第三区| 91精品免费久久久| 日本草草视频在线观看| 欧美成人免费一区在线播放| 91青青草视频| 国产大片喷水在线在线视频| 91啪在线| 亚洲天堂久久久| 日韩无码黄色| 五月天久久婷婷| 国产精品开放后亚洲| 亚洲人成在线精品| 亚洲日本中文综合在线| 日韩AV无码一区| 三区在线视频| 亚州AV秘 一区二区三区| 国产69精品久久| 天天综合网在线| 久久亚洲欧美综合| 免费A级毛片无码无遮挡| 欧美激情视频在线观看一区| 色综合国产| 18禁高潮出水呻吟娇喘蜜芽| 操操操综合网| 日韩视频精品在线| 欧美成人二区| 日本欧美视频在线观看| 久热精品免费| 91在线免费公开视频| 欧美综合中文字幕久久| 亚洲国产91人成在线| 伊人激情综合| 热久久这里是精品6免费观看| 国产欧美日韩va| av在线5g无码天天| 亚洲一区二区约美女探花| 国产在线小视频| 天堂亚洲网| 亚洲无码37.| 色视频国产| 亚洲国产中文欧美在线人成大黄瓜 | 国产成人1024精品下载| 日韩中文精品亚洲第三区| 久久国产V一级毛多内射| 亚洲人妖在线| 久久免费视频播放| 久久青青草原亚洲av无码| 美女一区二区在线观看| 99精品国产自在现线观看| 日韩精品毛片|