楊塤 姚進 黃丹梅



摘要:在對大數據生命周期研究的基礎上,提出大數據生態系統參考架構,并基于在線學習行為的特點及研究方法,構建出在線學習行為的大數據分析模型,為大數據領域及在線教學領域標準化及相關研究工作帶來深遠意義。
關鍵詞:大數據;生命周期;在線學習;架構;模型
中圖分類號:TP399 文獻標識碼:A
文章編號:1009-3044(2020)13-0281-03
1背景
在線學習行為指學習者在線上學習平臺,如MOOC、SPOC等的在線學習網站上登錄、觀看視頻、提交作業、參與討論、考試等一系列與課程學習相關聯的行為。
如今,各領域都離不開大數據分析,大數據背景下的在線學習平臺記錄了學習者從登錄至退出平臺所經歷的全部學習路徑數據,為研究者從在線學習平臺中提取學習者的大量行為數據提供了保障。
本文基于大數據研究模型及分析路徑,首先討論大數據的生命周期模型,再基于此模型構建大數據生態系統參考架構,最后提出基于大數據架構的在線學習行為分析模型。
2大數據生命周期模型
大數據生態系統參考架構的制定需考慮的重要因素是大數據信息生命周期,信息生命周期指的是信息的收集、存儲、處理和維護的全過程,包括信息識別、信息收集、信息傳輸、信息存儲、信息處理以及信息維護和使用六個階段。大數據的數據集合規模龐大,遠遠超出了傳統數據庫工具軟件在獲取、存儲、管理和分析方面的能力范圍。由于大數據具有數據規模海量、數據流轉快速、數據類型多樣和價值密度低等特性,傳統信息生命周期理論已不適于大數據動態的生命周期管理需求,因此,必須針對大數據特征以及價值挖掘和決策的實際,對大數據的生命周期進行分析。
針對大數據在流動的不同階段的不同特征,本文將大數據生命周期從數據源到目的客戶的整個過程劃分為采集、存儲、傳輸、使用幾個階段,并在從采集到使用的過程中加人對數據的“加工”處理與反饋模塊,具體環節如圖1所示。
2.1數據采集
數據采集階段根據應用場景和客戶要求從諸如無線傳感器節點、RFID等感知設備以及從云服務器、數據庫、網絡、用戶終端等渠道對各類數據進行全面、高效地收集和聚合嘲。
2.2數據存儲
大數據存儲是指將傳統基礎設施中長期保存的數據以及數量巨大、難于收集、處理、分析的數據集持久化到計算機中。大數據應用的爆發性增長直接推動了存儲技術的發展。大數據的存儲已經不單單是對這些數據的物理存放,如存放在某服務器硬盤,還需要采用一系列的技術,如分布式存儲、虛擬化技術、數據倉庫、非關系數據庫、分布內存分析計算、硬件計算,將海量、分散、無序、異構的數據經過高效的組織和映射,最終形成便于用戶檢索和使用的數據模式。
2.3數據傳輸
數據傳輸是指依據適當的規程和協議,將數據從數據源到數據宿之間通過一條或多條鏈路進行傳送。此處數據傳輸專指大數據的傳輸。大數據的傳輸是大數據流動的核心和數據共享的基礎,依托的是網絡通信技術,將存儲在服務器和數據庫中的數據傳遞給上層應用和使用者。數據傳輸過程需要尤其注意協議安全、數據泄漏、破壞、攔截、密鑰管理等安全問題。
2.4數據使用
數據使用是大數據應用的目的及結果,是大數據價值的最終體現,是客戶對數據進行有效利用的過程,例如利用大數據進行精準營銷、利用大數據規劃實時交通路線躲避擁堵、利用大數據從大量客戶中快速識別出金牌客戶等。
2.5數據“加工”
數據“加工”是指數據從最初的采集到最終的使用,除了需對數據進行存儲和傳輸,還需對數據進行深入的“加工”,主要過程有:對采集到的數據進行初步的過濾、加工、分類,再對其進行關聯、聚類、建模、預測等數據處里,最終再提交給使用者或上層應用。而對數據的這些“加工”,是可以根據使用者和應用程序的反饋,不斷進行優化,即根據反饋結果再次進行關聯、聚類、建模、預測、加工、分類等,直至關聯規則、聚類分析方法、以及建立的預測模型能使得數據應用效果達到最優化。例如,在商務應用中,依照聚類分析的結論,幫助市場分析人員從廣泛的客戶庫中找到不同的客戶群,并使用不同的購買模型來表征不同的客戶群體特點。
3大數據生態系統參考架構
大數據生態系統參考架構可以很好地描述以數據為中心的端到端數據采集、轉換、分發和使用。分析大數據生態系統架構的意義在于:一來可以讓大數據的生命周期更好的被產業、策略制定者、用戶所理解;二來可以定義相關的組件和功能以確定其邊界、互操作性、安全含義等。
以數據為中心,基于大數據生命周期特點,對大數據生態系統參考架構進行構建,該架構用以描述大數據從采集到使用的生命周期各階段數據流向及可能的轉換過程。
大數據生態系統的組成有四個部分:數據源、數據轉換、數據架構和數據應用。如圖2所示。構建該架構時,將大數據的安全和管理問題作為架構中獨立的模塊跨層存在,以支持其余各層的功能和服務嘲。該架構既結合了大數據生命周期特點,又考慮了安全及管理等因素。
3.1數據源
數據源即產生大數據的對象,具備5v的特點,它們是Vol-ume體積:數據量很大,及采集、存儲和計算都有很大的量。大數據的起始測量單位至少為P(1(千T)、E(1百萬T)或z(十億T)。Variety多樣性:來源和種類多樣化,包括以地理位置信息、日志、圖片、視頻、音頻等表現的結構化的、半結構的化以及非結構化的數據;Value價值:數據具有相對較低的價值密度;Ve-locity速度:數據的增長速度快,處理速度快,對實時性的要求高。例如,搜索引擎能讓用戶查詢到幾分鐘之前的新聞,而實時推薦功能依賴于個性化推薦算法的實現。Veracity準確性:數據的準確性和可靠性,即數據的可信度和質量。
3.2數據轉換
為了提取數據中有價值的部分,當數據在生態系統中傳播時,就要對其進行不同方式的處理和轉換,數據轉換通常至少包括數據采集、聚合、匹配、數據挖掘。每個數據轉換功能都可能會有它特定的預處理階段:包括注冊和元數據創造,可能會用到不同的適應其要求的數據架構,以及會有不同的隱私和安全策略要求。
3.2.1采集
數據可以采用不同的方式和形式被采集。數據收集階段收集來自相同安全規則和策略的或相同結構的數據集,產生出的元數據隨后將被進一步聚合。采集數據時,由于數據量大,數據來源多樣化,價值密度低,需要不斷改進和完善數據采集方法,制定數據采集標準。
3.2.2聚合
相關聯的元數據組成的數據集合被聚合成更大的集合,這個過程稱為聚合。聚合后,要么每個對象的信息更加豐富,要么集合中的對象的數量得以增加。新的集合適用的安全規則和策略和原始集合的類似。例如,將源頭數據進行分裝整理規范化后,以API的形式提供給開發者團隊及企業調用,就是一種聚合。數據經過聚合,能夠被挖掘出更多的價值。近兩年來,對數據聚合的需求的趨勢從基礎泛娛樂數據到汽車服務數據,再到互聯網金融信用數據行業,可以看出,企業服務和數據的專業性需求越來越高。
3.2.3匹配
不同元數據(如關鍵字)的數據集被聚合成更大的集合。匹配后,每個目標的信息更加豐富。例如,通過追蹤用戶觀看視頻、點擊廣告、社交偏好等行為,提取高頻母嬰用戶,并鎖定該類人群喜愛的綜藝節目和電影電視劇,再精準投放母嬰廣告,就是一種對推廣信息與目標消費進行匹配的過程,匹配后,商業推廣效果將從量級和精準度方面脫穎而出。
3.2.4數據挖掘
數據挖掘是從大量的數據中提取數據的過程,隨著物聯網應用的普及,信息感知無處不在,信息量巨大,但價值密度較低。如何挖掘數據的價值是大數據時代需要解決的最重要的問題。數據挖掘需要結合業務邏輯并通過諸多方法來實現,例如,統計、機器學習、在線分析處理、專家系統、情報檢索和模式識別等。數據挖掘從不同的角度和維度分析數據,并產生能標識數據內部關聯的信息的摘要。有兩種形式的數據挖掘:描述性的和預判性的。描述性的數據挖掘給出已有數據的信息;預判性的數據挖掘給出基于現有數據的預測。
3.3數據架構
大數據的數據架構是支持數據轉換功能和滿足數據存儲需要的一系列數據存儲或數據庫軟件、服務、存儲和網絡的總和。
為了使數據處理的效率更高,具備不同5v特點的數據可以使用不同的技術進行處理,采用不同的存儲技術進行存儲。處理和存儲技術的選擇和“轉換”功能模塊中對數據的加工處理無關。因此,通常同樣的數據可以使用不同的獨立的數據架構轉換多次。
訓練:例如去標識、采樣、模糊處理,構建數據分析模型前,需要對數據進行訓練。
存儲和檢索:例如NoSQL和SQL數據庫中各類不同類型數據的加載和查詢。
3.4數據應用
數據應用是大數據最終的目的和價值體現。大數據應用時,會以呈現出不同的形式、不同的粒度、以及適用于不同的安全策略及規則。大數據可應用于任何領域、任何產業,如網絡運營商/電信業、工業、商業、政府領域、健康醫療領域、金融領域、教育領域等。
4在線學習行為大數據分析模型
根據在線學習行為分析的特點,基于上述大數據生態系統架構模型,構建出在線學習行為大數據分析模型,如圖3所示。
該在線學習行為大數據分析模型是圖2大數據生態系統參考架構的具體應用和體現,前者與后者采用相同的體系結構,均具備數據源、數據轉換、數據架構、安全、管理、數據使用幾個模塊,只在不同的模塊體現出電子商務的特點。例如在數據轉換部分,體現出在線學習應用的學習風格、學習路徑等業
5結束語
本文根據提出的大數據生命周期模型及特點,構建出大數據生態系統參考架構,定義了大數據應用必備的功能組件,大數據生態系統參考架構適用于各種大數據應用,本文最后給出的在線學習行為大數據分析模型就是大數據生態系統架構的具體實現。本文的工作有助于大數據研究領域及在線學習行為研究工作的標準化,使大數據領域研究者及基于大數據進行在線學習行為研究的參與者從中受益。