羅 攀 馬 淵
(1.重慶電子工程職業學院 重慶 401331;2.渝中區公安分局網絡安全保衛支隊 重慶 400044)
信息技術的發展推動了社會的進步,以教育行業為例,互聯網的發展給教育的改革提供了強大動力,引領了教育的線上化。在線教育不同于傳統的線下教育,它是指以互聯網為媒介,完成教學和學習的行為。在線教學模式具有很多優勢,比如,身處不同地點的不同人群可以同時參加學習,師生的交流更加多樣化,教學形式更全面,教學管理可以實現自動化等[1]。
2020《中國在線教育行業市場前瞻分析報告》顯示,2020年在線教育的市場規模超過2000億元,用戶規模超過2.3億人。如此龐大的市場規模和用戶量,使在線教育行業產生了海量的數據。眾所周知,數據是非常重要的戰略資源。通過數據,我們可以總結過去、預測未來,也可以發現當前的不足從而進行調整。在線教育行業的數據種類繁多,比較重要的有:學員的學習數據、學員市場的情況、行業本身的發展等。通過大數據和人工智能等新技術,對這些數據進行處理,可以達到更加精準地匹配目標客戶,提高企業的服務質量,擴大行業利潤等目的。因此,建立一個安全、科學的數據中心,為在線教育企業提供決策和服務是很有必要的[2][3]。
在線教育企業的運營模式一般是這樣的:企業先制訂主營業務,然后通過廣告吸引目標客戶,當客戶通過瀏覽廣告或其他途徑了解之后有報名意愿時,及時和企業簽訂合同并支付完成交易訂單。訂單形成之后企業為學員提供服務,給學員制訂計劃并完成授課,服務期限結束整個服務流程隨之結束。如果學員在服務期間不滿意或有其他特殊情況可通過投訴解除合同。通過對在線教育企業的運營過程分析,我們把數據大致分為廣告數據、訂單數據、授課數據和服務數據四大類。首先,企業在一些大眾廣告平臺投放廣告,如今日頭條、百度等,當目標客戶瀏覽到廣告欲進一步了解時,企業咨詢人員在線提供咨詢服務。學員認為符合自己的期望有意購買時,銷售人員引導學員簽訂合同,這一過程完成后就會產生廣告數據和訂單數據。學員簽訂合同后接受企業的服務,企業講師對學員進行授課或進行其他教學活動,該過程產生大量的學習數據。同時,企業通過建立論壇、群聊等,供學員反饋問題和投訴,同時加強用戶的粘性,這也是非常重要的數據。根據前面的分析,得出在線教育企業的數據組成和數據流向,如圖1所示。

圖1 在線教育企業的數據組成及流向圖
根據上述對在線教育企業數據的需求分析,結合廣告數據、訂單數據、授課數據、服務數據這四類數據的特點和數據流向,我們設計了數據中心。該數據中心主要是為企業的在線教育系統服務,給在線教育系統的后臺提供接口調用,保證數據的實時性、準確性和安全性。鑒于此,我們設計了數據中心,其整體架構如圖2所示。

圖2 在線教育企業的數據中心架構
從數據中心的架構圖可以看出,其主要結構分為5層,最底層是數據庫層,包括MySQL、日志信息和文件信息等,其主要目的是存儲一些原始數據和日志信息。第二層是數據同步層,在線教育每時每刻都有大量數據產生,廣告數據、訂單數據都在實時刷新,這就需要進行數據同步,我們通過阿里開源的數據抽取工具canal對原始數據表進行抽取,通過kafka工具進行實時推送,保證數據的實時性。第三層是數據存儲層,該層起到承上啟下的作用,對下層數據處理之后給上層接口提供數據來源,其主要采用的是redis存儲系統,周期性寫入底層數據,從而實現主從同步。對一些離線查詢需求或跨表處理,我們采用Hbase數據庫來存儲。第四層是數據處理與查詢層,由于下層已經對原始數據進行了抽取、存儲,該層可以直接應用,該層使用Spark或ElasticSearch等工具完成數據處理和查詢功能。第五層是數據接口層,通過下層復雜處理后的數據可以給外部系統提供接口,這些接口為在線教育企業系統的后端和一些報表提供調用。這五層的流程完成之后,從最開始的原始數據到最終形成數據接口給其他的系統開發人員使用,數據中心在功能方面的整個工作就完成了。
結合前文敘述的需求分析和結構設計,對于在線教育企業來說,擁有一個結構層次分明、數據處理高效的數據中心是至關重要的。通過數據中心,企業的研發人員可以利用各種各樣的數據指標研發出不同類型的報表,通過這些報表,企業就可以對當前的運營狀況做到精細化掌握,并能及時發現當前企業在經營方面面臨的問題,并及時做出科學的決策部署。另一方面,企業的產品經理可以利用這些數據開發出不同的產品,而推廣和銷售人員也可以使用這些數據為企業開拓更為廣闊的市場,進而為企業帶來更多收益。
本文設計的關于在線教育企業的數據中心架構,使用了當前互聯網行業一些最先進的技術手段,我們先對在線教育企業的數據的組成和結構進行了詳細分析和總結,再對相關技術手段進行調查研究,最后使用結構化的原則對數據中心進行分層設計。整體結構科學,技術手段先進,可以給在線教育企業的數據中心建設提供一些借鑒。