999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的課程診改大數據可視化分析研究與應用

2023-09-21 18:03:06陳俊生彭莉芬
天津中德應用技術大學學報 2023年3期
關鍵詞:大數據

陳俊生 彭莉芬

摘? 要:針對職業院校課程診改的時效性和準確性需求,基于Hadoop平臺并綜合運用Scrapy爬蟲框架、Echarts可視化工具等設計大數據可視化分析系統,以實現異源異構課程診改大數據的快速采集、預處理、存儲、分析、挖掘和可視化展示。可視化分析結果以圖、表等方式向用戶展示課程診改大數據背后的關鍵信息和有用知識,為教學管理部門和教學團隊改進課程教學提供支持。

關鍵詞:Hadoop;課程診改;大數據;可視化分析

中圖分類號:G712? ? ? 文獻標識碼:A? ? 文章編號:2096-3769(2023)03-053-06

在大數據無處不在的今天,包括制造、金融、汽車、互聯網、餐飲、電信、能源、物流、體育、娛樂和教育等在內的社會各行各業都已經融入了大數據[1]。大數據由于具有體量大、數據類型繁多等特點,傳統的數據采集、處理和分析方法已經遇到了相應瓶頸,需要借助于功能更加強大的大數據處理平臺。其中,Hadoop是最受關注且被運用最多的一種,幾乎所有主流廠商都基于Hadoop提供開發工具、商業化工具和技術服務等,如谷歌、雅虎、微軟、思科、淘寶和騰訊等都支持Hadoop[2]。隨著大數據分析處理技術的快速發展,大數據正在對社會發展產生深遠的影響,大數據決策也正在成為一種新的決策方式[3],因此如何對分析結果進行直觀有效和科學合理的展示就顯得尤為重要。大數據可視化分析是指用簡單明了、清晰有效的圖形或動畫等呈現出大數據中蘊含的信息,便于從中提煉出最為重要及關鍵的信息,獲取最為有用的知識與價值,是理解和洞察大數據本質(seetheunseen)的重要途徑,也是體現大數據價值的關鍵[4],近年來正在成為大數據分析領域的研究熱點之一。

課程教學作為職業院校人才培養的關鍵環節,直接影響著人才培養的質量。在職業院校全面推進教學診改的大背景下,課程診改以課程建設為統領,以提高課程教學質量為目標,按照事前、事中、事后三個環節實施。事前設定目標和標準,事中進行監測預警,事后診斷與改進[5]。目前,絕大部分職業院校在事前的目標和標準設定方面都較為完善,但事中如何進行準確監測預警,事后如何進行科學合理的診斷與改進,卻缺乏足夠的數據支撐和有效的數據分析手段,仍然存在診斷與改進不及時和不到位的情況。鑒于此,研究如何基于Hadoop平臺實現課程診改大數據的可視化分析,可幫助學校教學管理部門和教學團隊做出科學合理的課程診改決策,提升課程教學質量。

一、大數據可視化分析的關鍵技術

(一)大數據采集技術

大數據具有體量大、數據類型繁多和產生速度快等特點,因此如何進行海量異源異構數據的快速采集是大數據可視化分析的基礎,也是大數據可視化分析技術的研究起點。在互聯網行業快速發展的今天,數據采集方式有了質的飛躍,包括傳感器采集、日志采集、網絡爬蟲采集和數據庫采集等[6]。其中網絡爬蟲采集指的是在網上到處或者定向抓取特定網站網頁數據的自動化程序,由于其使用靈活且可以高度定制,還支持非結構化數據的抽取,所以在數據采集領域被廣泛使用。

網絡爬蟲可以通過Python、Java和PHP等多種語言實現,由于有強大的第三方程序庫的支持,其中以Python實現最為便捷。Scrapy是用純Python編寫的專門用于爬蟲程序開發的應用框架,由多個模塊組成,用戶一般只需要開發少數幾個模塊就可以輕松實現相關主題的爬蟲。Scrapy框架各模塊的功能和使用需求如表1所示。

Scrapy 框架雖然使用簡單、高效,但也存在不足,例如,Scrapy框架下的爬蟲不支持分布式、單線程執行、內存消耗過大等,因此深入理解 Scrapy 框架的擴展機制,通過改進和擴展框架中的一些模塊來彌補其不足是十分必要的[7]。

(二)基于Hadoop的大數據分析處理技術

Hadoop是Apache軟件基金會旗下的一個開源分布計算平臺,為用戶提供系統的底層細節透明的分布式基礎框架,具有良好的跨平臺性,且可以部署在廉價的計算機集群中,目前被公認為大數據標準開源軟件[8],其與大數據分析處理相關的核心組件如下:(1)分布式文件系統(HDFS)和MapReduce是Hadoop的兩大核心,HDFS是對谷歌文件系統的開源。HDFS可運行在廉價機器集群上且可以處理超大數據集,在設計上HDFS把硬件故障作為一種常態來考慮,因此在部分硬件發生故障時,仍能最大限度地保證文件系統的可用性和可靠性;MapReduce是一種大數據集離線并行計算框架,其核心思想就是“分而治之”,它把原始數據集切分成若干個獨立的數據塊,再分發給若干個子節點來并行處理,最后通過整合各子節點的結果得到最終結果。(2)HBase是一個構建在Hadoop之上的分布式的、面向列的開源數據庫,HBase不同于一般的關系數據庫,它是一個非常適合對非結構化數據進行存儲的數據庫。(3)Hive是基于Hadoop的數據倉庫工具,它提供了類似于關系型數據庫SQL的查詢—HiveQL,Hive將HiveQL轉換為MapReduce任務運行,而不必開發專門的MapReduce應用,因此十分適合對結構化數據進行統計分析。(4)Sqoop是專門為大數據集設計的,是用來在Hadoop和各種數據系統之間進行雙向數據交換的工具,通過Sqoop可以實現在HDFS、Hive、HBase和關系型數據庫之間的數據遷移工作。

(三)數據可視化技術

隨著大數據技術的快速發展,可視化展示的應用需求越來越多,各種可視化展示工具也應運而生,常見的數據可視化工具包括D3.js、Data.js、Google Chart Tools、High Charts、Echarts、iCharts、R、Tableau和Python(如pyplot包)等[9]。其中ECharts是由百度團隊開源,并于2018年初捐贈給Apache基金會,是一款基于JavaScript的數據可視化工具。ECharts由于其簡單易用、量級合適,且可以提供生動、直觀、可個性化定制和可交互的數據可視化圖表,所以在可視化領域應用范圍十分廣泛。

二、系統的設計與實現

(一)系統整體架構設計

系統整體架構設計如圖1所示,旨在通過快速有效地對相關行業大數據進行采集,并基于Hadoop及其核心組件實現數據預處理、存儲和分析挖掘工作,最終通過可視化工具圍繞相應指標和維度對分析挖掘結果進行合理展示。

具體來說,數據采集與清洗層負責對業務系統數據、網站標準接口數據和網絡公有數據進行采集和初步清洗工作;數據存儲與管理層負責對初步清洗以后的數據進行集成和存儲工作;數據處理與分析層負責對預處理后的數據進行分析和挖掘工作,并將分析和挖掘的結果加載到結果數據庫中;數據應用層通過自定義數據接口實現對結果庫數據的訪問,并將數據推送至前端進行可視化展示和交互等,用戶通過瀏覽器即可使用。

(二)系統實現的技術流程

系統主要圍繞數據采集、預處理、存儲、分析、挖掘和可視化展示等環節設計與實現。借助于數據庫采集工具和自主設計的Scrapy分布式爬蟲完成原始數據的快速采集工作;使用Kettle和Sqoop等實現數據預處理工作,并將預處理后的數據存入分布式數據庫Hbase中;數據的分析和挖掘工作主要由Hive和MapReduce實現,結果數據將被推送至后臺MySQL結果數據庫中;前端通過自定義數據接口獲取結果數據,并通過Echarts等可視化工具實現后臺數據到前端可視化圖表的轉化,系統實現的技術流程如圖2所示。

(三)系統關鍵環節的設計與實現

從實現難度和對系統的重要性影響方面來考量,系統設計與實現的關鍵環節包含以下四個方面。

1.分布式爬蟲設計

系統需要圍繞課程診改的指標和維度進行數據采集,雖然每個學校的校情不盡相同,但課程診改的目標鏈、標準鏈的指標和維度大體相通,以某校課程診改為例,需要采集的數據對照關系,如表2所示。

由表2可知,除了需要采集業務系統和線下數據以外,還有來源和維度眾多的網絡標準接口數據及網絡公有數據需要通過爬蟲采集。考慮到大數據分析的數據量級和課程診改的時效性問題,采用傳統的單機爬蟲會受到帶寬、CPU和IO等因素限制,爬取效率過低,無法出色完成網絡數據的采集工作,因此設計性能更優的分布式爬蟲是必需的。

通過上節的分析可知,雖然Scrapy 框架默認不支持分布式,但其具有良好的可擴展性,因此重點對基于Scrapy的分布式爬蟲策略進行研究,項目組借助于Redis(一種key-value存儲系統,具有極高的讀寫性能),并基于redis的特性對Scrapy做了相應的改進和擴展,進而設計并實現了所需的分布式爬蟲。具體來說完成了Scheduler、Duplication Filter、Item Pipeline和Base Spider四個組件的改進和擴展工作,改進和擴展的策略包括:(1)在scheduler組件中重寫了爬蟲調度模塊,把原有的Scrapy隊列換成了Redis數據庫隊列,從而實現了分布式調度工作;(2)在Duplication Filter組件中使用Redis的set結構實現對request的去重工作;(3)在Item Pipeline組件中將Item存儲在Redis數據庫隊列中以實現items processes集群和分布式處理;(4)在Base Spider組件中不再使用原有的Spider類,重寫的RedisSpider繼承了Spider和RedisMixin這兩類,RedisMixin是用來從Redis數據庫隊列中循環讀取url的類。

2.大數據預處理核心要素

由于采集到的數據通常無法直接用于后續的數據分析,因為對于來源眾多、類型多樣的數據而言,數據缺失和語義模糊等問題是不可避免的[10],因此必須進行數據預處理操作。大數據預處理包含數據清洗、數據規約、數據轉化與數據集成等[11],其核心要素是數據的歸一化表示和存儲,即如何實現眾多數據系統中異構數據的快速遷移和集成。由表2可知,課程診改的數據具有異源異構的特性,具體來說業務系統數據和線下考核文件數據一般都存儲在Oracle或MySQL數據庫中,爬取的數據為了操作的方便一般會直接寫入HBase數據庫中,分析和挖掘的結果需要存入到MySQL結果數據庫中,以便最終被可視化展示。面對眾多的數據系統,研究如何在不同數據系統之間快速實現數據遷移至關重要。由上節的分析可知,Sqoop是專門為大數據集數據遷移工作而設計的,結合Sqoop的特點和系統開發實際,利用Sqoop在不同數據系統之間的互導操作實現數據的快速遷移和集成。具體實現過程如下:

(1)業務系統數據導入到HBase

啟動Hadoop集群和HBase,在HBase上創建所需的數據表,然后通過shell命令導入數據,以導入教務系統中學生評教表score至HBase中為例,導入的命令如下:

sqoop import--connect jdbc:mysql://bgserver:3306/gradedb--username root-P--table score--hbase-table "gradedb"--column-family "score"--hbase-row-key "sid,cid"--hbase-bulkload

(2)分析和挖掘結果導入到Mysql結果數據庫

啟動Hadoop集群和MySQL數據庫服務器,登錄MySQL數據庫服務器并完成結果數據表的創建,然后通過shell命令導入數據,以導入Hive統計分析以后的學生評教數據為例,導入的命令如下:

sqoop export--connect jdbc:mysql://bgserver:3306/gradedb--username root-P--table score--input-fields-terminated-by ','--export-dir /user/hive/warehouse/gradedb.db/score/*

3.基于大數據思維的文本數據挖掘算法思想

系統分析和挖掘的數據對象大體可以分為兩類,即結構化的業務數據和非結構化的網絡評論等文本數據。對于結構化數據可以通過搭建Hive數據倉庫,并利用HiveQL來完成統計分析;而對于非結構化的文本數據主要是用來分析學生對于某些課程的關注點(評論文本的關鍵詞)及情感傾向(正面或負面),需要自行設計算法完成。

由于市面上成熟的開源中文分詞工具很多,所以關注點的分詞、詞頻統計和排序等工作實現較為便捷,因此本環節的研究工作主要集中在關注點情感傾向的分析算法設計上。目前文本關鍵詞的情感傾向分析方法主要有情感詞典方法和機器學習方法兩大類[12],由于中文語義的特殊性,這兩種方法實現的門檻都比較高。考慮到關注點情感傾向只需區分正負面,而處理的又是大數據集,所以關注點情感傾向與課程評教評分之間總體必然呈正相關[13]。鑒于此,項目組設計了基于大數據思維的關注點回溯分析法來分析關注點的情感傾向,即將關注點回溯到評教評分數據中,結合評分的高低分布來判定關注點的情感傾向。具體的算法流程設計如圖3所示。

4.數據可視化展示的實現

數據可視化展示作為大數據可視化分析最后一個同時也是最重要的環節,由圖2可知,分析和挖掘的結果均存放于MySQL結果數據庫中,故數據可視化分析結果展示的具體步驟包括:(1)基于Mybatis開發自定義數據接口,向上層提供MySQL結果數據庫的數據訪問與處理功能;(2)結合課程診改的指標和維度需求,綜合運用HTML、CSS、Java Script、Vue和Echarts等,選擇合適的圖表對后臺結果數據進行科學合理的可視化展示。綜合前面的技術流程和可視化展示的步驟即可實現課程診改大數據的可視化分析。

三、可視化分析結果的應用價值

正如前文所述,課程診改大數據可視化分析的結果旨在通過簡單明了、清晰有效的圖形呈現出課程診改大數據中蘊含的重要及關鍵信息,從而獲取到最為有用的知識與價值,能夠為教學診改提供科學的決策支持。為了便于說明,這里以某高校“大數據技術基礎”課程診改的部分可視化分析結果為例來對其應用價值進行分析。

(一)分析學生的課程視頻觀看行為和觀看趨勢

由圖4可知,大部分學生的視頻觀看次數都在0~50次之間,觀看300次以上的學生寥寥無幾,說明大部分學生對于課下自主學習的積極性和重視程度不夠;學生單次觀看時長大都集中在0~20min之間,這說明在當前快節奏的生活中,短小精悍的微課版視頻可能會更受學生歡迎,這也為后續課程視頻資源的建設和完善提供了新的方向。

由圖5可知,學生按教學周的視頻觀看人次和觀看時長總體呈正相關,期初呈現快速增長趨勢,期中下降趨勢明顯,期末又呈現出逐步回升的態勢,這說明新學期伊始的新鮮感和期末考核之前的緊迫感會刺激學生的觀看欲望,而期中階段是學生最容易放松的時候,這也是教學過程中需要及時預警并要求教學團隊加強過程監管的階段。

(二)分析學生網絡評論中對于該課程的關注點

由圖6可知,學生對于該課程的正面關注點主要集中在OBE加分制、過程考核、課堂互動、1+X課證融合等方面,這說明教學團隊在授課過程中注重課堂互動、過程考核和OBE加分制的正向激勵作用等教學方法,以及積極推行1+X課證融通的課程教學改革得到了學生們的普遍認可,這些都值得在其他課程教學過程中推廣和應用。當然除了這些正向的關注點以外,也應看到還有諸如枯燥、嚴厲和拖堂等相對負面的關注點,這些則是教學團隊后續需要重點診改的地方。

本文綜合運用大數據可視化分析技術(大數據采集技術、基于Hadoop的數據分析處理技術和數據可視化技術等)對課程診改大數據進行分析。實踐證明,分析結果以圖、表等簡單明了、清晰有效的方式呈現出課程診改大數據中蘊含的信息,便于從中提煉出關鍵的信息和有用的知識,能夠為學校教學管理部門和課程教學團隊推進課程診改、有效提高課程教學質量提供相應的支持。在系統設計與實現過程中,構建了相對完整的大數據可視化分析系統框架,能夠為教學診改的學校、專業教師和學生等用戶進行大數據可視化分析提供一個較為完善的模板。

參考文獻:

[1][3][8][10]林子雨.大數據技術原理與應用[M].北京:人民郵電出版社,2021:11-34.

[2]王艷,蔣義然,劉永立.基于Hadoop的大數據處理技術及發展[J].信息記錄材料,2020(11):021.

[4]Zikopoulos P, Eaton C. Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data[M].New York:McGraw-Hill Osborne Media,2011:1-10.

[5]教育部辦公廳關于建立職業院校教學工作診斷與改進制度的通知[L].教職成廳[2015]2號.

[6][11]天津濱海迅騰科技集團有限公司.數據采集與預處理項目實戰[M].天津大學出版社,2020:45.

[7]李代祎,謝麗艷,錢慎一,等.基于Scrapy的分布式爬蟲系統的設計與實現[J].湖北民族學院學報(自然科學版),2017,35(3):6.

[9]賈利娟,劉娟,王健,等.基于PyEcharts的全球玉米貿易數據可視化系統建設及應用展望[J].農業展望,2019,15(03):46-54.

[12]洪巍,李敏.文本情感分析方法研究綜述[J].計算機工程與科學,2019,41(4):8.

[13]陳俊生,彭莉芬.基于Python+Echarts的大數據可視化系統的設計與實現[J].安徽電子信息職業技術學院學報,2019(4):6-9.

Research and application of Hadoop-based big data visualization analysis of curriculum diagnosis and reform

CHEN Jun-sheng, PENG Li-fen

(Anhui Vocational College of Electronics & Information Technology,

Bengbu Anhui 233000, China)

Abstract: Aiming at the timeliness and accuracy requirements of curriculum diagnosis and reform in vocational colleges, a big data visualization analysis system is designed based on Hadoop platform and comprehensive use of the Scrap crawler framework, Echarts visualization tools, etc., to realize the rapid collection, pre-processing, storage, analysis, mining and visual display of big data of heterogeneous curriculum diagnosis and reform. The visual analysis results show users some potential key information and useful knowledge in the big data of curriculum diagnosis and reform in diagrams and tables, which can provide support for teaching management departments and teaching teams to improve course teaching.

Key words: Hadoop; Curriculum Diagnosis and Reform; Big Data; Visualization Analysis

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 国产成人乱无码视频| 久草视频福利在线观看| 久久频这里精品99香蕉久网址| 日本亚洲最大的色成网站www| 国产农村妇女精品一二区| 国产精品人人做人人爽人人添| 在线无码av一区二区三区| 日韩毛片基地| 久久婷婷五月综合97色| 福利一区三区| 国内精品伊人久久久久7777人| 综合社区亚洲熟妇p| 国产成人高清精品免费| 国产真实乱了在线播放| 国产女人18毛片水真多1| …亚洲 欧洲 另类 春色| 五月婷婷综合色| 午夜不卡视频| 国产成人成人一区二区| 国产网站免费| 日韩国产综合精选| 久久黄色小视频| 久久亚洲美女精品国产精品| 又粗又硬又大又爽免费视频播放| 国产美女91视频| 亚洲a级毛片| 青青草原国产免费av观看| 老司机午夜精品网站在线观看 | 国产小视频a在线观看| 久久久波多野结衣av一区二区| 91小视频在线| 亚洲天堂.com| 天堂在线www网亚洲| 国产人成在线观看| 91成人精品视频| 国产在线97| 91久久精品国产| 成人一级黄色毛片| 97影院午夜在线观看视频| 日韩区欧美区| 99久久亚洲综合精品TS| 综合网久久| 亚洲一级毛片| 国产精品久久国产精麻豆99网站| 国产精品无码AV片在线观看播放| 无码 在线 在线| 5555国产在线观看| 午夜视频在线观看免费网站 | 免费毛片网站在线观看| 国产97公开成人免费视频| 欧美精品成人一区二区视频一| 国内精品手机在线观看视频| 久久不卡国产精品无码| 久久精品只有这里有| 97在线国产视频| 久草国产在线观看| 午夜免费小视频| 在线精品自拍| 广东一级毛片| 国产最新无码专区在线| 天堂成人av| 国产成人91精品免费网址在线| 久久久国产精品免费视频| 国产浮力第一页永久地址| 日本亚洲成高清一区二区三区| 国产精品3p视频| 国产网站一区二区三区| 欧美一区二区啪啪| 亚洲黄色高清| 欧美yw精品日本国产精品| 国产成人精品一区二区不卡| 99在线小视频| 伊人色在线视频| 四虎成人精品在永久免费| 国产成人免费高清AⅤ| 欧洲一区二区三区无码| 亚洲日韩精品欧美中文字幕| 狼友av永久网站免费观看| 国产成人高清精品免费| 久久精品午夜视频| 香蕉精品在线| 国产精品无码AV片在线观看播放|