廉穎



摘要:近年來有關學生用戶畫像的研究較多,但是關于研究成果應用到具體學生管理的相關成果相對較少,而且學生管理復雜性高難以照搬通用。所以,在用戶行為畫像的理論方面和應用方面都有很大研究空間,而本文選用智慧校園進行學生用戶數據的搜集,通過大數據相關挖掘算法進行學生行為畫像研究,對學生的消費習慣、興趣偏好和學習習慣進行綜合分析,為學校不同管理者提供數據,方便進行輔助教學管理。
關鍵詞:數據挖掘;用戶畫像;教學管理
中圖分類號:TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)20-0038-03
1 研究背景與意義
目前用戶畫像有了一定研究,在國外Giuseppe Amato[1]等人通過研究圖書館用戶的數據,挖掘分析其閱讀習慣,進而構建畫像,為讀者推薦圖書的目的?,F在隨著技術的發展,用戶畫像被定義為指根據用戶的關鍵特征、網絡活動、網絡社交等行為給用戶建立一個抽象標簽。本文通過構建大數據平臺對學生數據進行挖掘,構建學生食堂消費畫像,上網瀏覽畫像,自習室使用的畫像幫助學生管理者決策。
2 學生采集
當前,我??衫貌煌南到y對教育大數據進行采集和分析,這些系統涉及到教務管理、財務管理、圖書管理、一卡通管理等方面。另外,教育大數據之中還含有其他軟件提供的數據,比如超星學習通,釘釘學習的數據。由于數據結構復雜,在正式形成學生用戶畫像之前,需要解決兩個重要問題:一是數據如何存儲分析;二是怎樣確定標準化的數據。一般來說,用戶畫像由三個基本要素構成[2],用戶特征是其中之一,另外兩者為用戶標簽與用戶屬性。屬性數據給出了學生的基本信息,如籍貫、性別、姓名、學號、年級等。用戶的特征數據比較繁雜,我們抽取關聯性較高的一些的數據進行研究。對于校園教育大數據來說,其突出特征主要有兩個,首先是數據總量龐大,難以準確地進行計量;其次是數據結構表現出明顯的復雜性。考慮到由于數據的結構性或非結構性之間也存在誤差,因而需要對數據進行ETL轉換,為防止出現信息孤島問題,還應當構建科學而合理的數據模型。
3 大數據平臺系統架構
具有數據采集功能的ETL工具庫是我校大數據平臺系統的關鍵構成部分,該工具庫不僅支持數據訪問權限的分配,而且具有工作效率高、集中度高等優點,其采集的數據主要來自于以下幾個方面:一是互聯網環境中具有分散特性的海量數據;二是軟、硬件的運行日志與設備數據;三是數據中心內外的所有數據,其中也包括新增數據源。大數據平臺從我校信息系統中采集到相關的數據信息之后,首先選擇Hadoop分布式大數據存儲方式,然后再使數據得到分類存儲,執行此項操作時可利用三種分布式存儲技術,即HIVE、HBASE與HDFS。對于部分僅僅需要預測趨勢而不需要具有較高計算實時性的學生用戶數據,應當選用HIVE這一存儲技術。SPARK與HBASE這兩種存儲技術對互聯網、一卡通等數據具有良好的適用性,這類數據往往提出了較高的實時性要求。另外,當數據來自于表格或文本時,所選用的分布式存儲技術應當是HDFS。對數據存儲以后進行下一步的數據分析挖掘,例如以我校學生的用餐數據進行用戶畫像,首先選取用餐有關的相關數據,抽取相應的數據特征,基于Python編程語言選擇對應的算法進行分析預測,然后將多用戶的標簽進行用戶畫像的生成,最后根據用戶畫像進行輔助教學管理。如圖1是我校大數據平臺技術框架圖。
4 數據分析挖掘
4.1 特征值提取
當原始數據采集完成過后,由于有的數據存在一些問題,比如特征編號不一致,字段表意不清,標簽特征不明顯等等這種不完整的數據,為了提高數據集的搜集效率和結果的準確性,給后面的研究提供統一標簽。標簽的提取思路如下,我們定義大的標簽所占的權重較大,小的標簽所占權重較小,所以畫像上面的每個標簽大小不同,由此可以確定畫像的重要特征。說明并存儲用戶特征是針對學生用戶建立畫像模型的出發點,為了構建可計算并支持讀取的用戶畫像模型,應當以用戶的行為日志、消費偏好、興趣、個人基本信息等為依據。實際上,使用戶特征得到向量化與標簽化處理是用戶畫像建模的真正意圖,這樣做不僅可以獲取到便于計算的數據,還可使語義信息更為精確,從而為后期處理算法創造了良好的條件。需要強調的是,在向量化處理用戶屬性時,不應當忽略數值的連續性與離散性。
4.1.1 特征值維度
在獲取到數據之后,怎么從大量的數據中選取有助于刻畫用戶畫像的數據,對數據挖掘過程有非常大的影響。如果數據特征值維度較少,用戶畫像的準確性將大打折扣;否則,不僅會增加時間成本還需要系統提供更大的存儲空間??傊?,最適宜的數據特征值維度應同時兼顧效率與精度。為保證所獲取數據的有效性,除了要深入剖析其每個屬性以外,有時還需要數據特征通過Python的一些工具統計后進行可視化。
4.1.2 特征值關聯性
特征值與畫像之間的關聯性分析,如何用較少的特征較準確的刻畫用戶畫像,有必要對二者的關聯度展開分析,并在此基礎上通過算法加以預測。以分析學生的某科目考試成績為例,首先應當明確性別、年齡、思維模式等屬性,然后再探究這些屬性與成績之間的關系。在獲取屬性數據的過程中,需要搜索和查看有關聯性的多種表。比如:為了明確用戶上網地點,既需要查看設備地點設置表,也需要調取用戶登錄日志。再如,若要將ISBN順利添加到圖書借閱信息表中,應使該表與圖書基本信息表相關聯。對于其他屬性,應當利用Python或Web API到網上進行采集。以某種圖書為例,可通過豆瓣API與ISBN相關聯來獲知其內容簡介、關鍵詞與讀者評價狀況。
4.2 特征值標簽化
語義化和短文本是數據特征標簽的兩個基本特性,前者是指標簽的實際含義易于理解,該特性既可使業務需求得到滿足,又增強了用戶畫像模型的真實性。后者是指標簽比較簡約,可以較為直觀是學生的特征,一般不需要再分即可描繪用戶畫像,同時也能為數據分析提供方便,還可使軟件更為高效率地提取標準化信息。值得一提的是,單純的打標簽不能等同于用戶畫像,這是因為后者需要依托計算機來處理屬性與標簽向量化。從本質上來說,文字標簽是對用戶畫像進行可視化處理的一種手段,通過讀取其展示的信息即可了解用戶的偏好與行為趨勢。不同標簽之間建立了一個關系網,但是只強調了權重大小與屬性關系,并沒有表達非繼承關系以及包含與被包含關系。基于此,標簽比分類更具有靈活性。不過,由于參與的用戶基本不受限制,因而標簽的權威性得到了弱化。