馮麗丹
(柳州鐵道職業技術學院 廣西 柳州 545616)
當前,大數據信息技術和移動網絡通信技術發展趨勢迅猛,互聯網用戶對于數據的需求特點逐漸趨于復雜化,是一個動態變化狀態。因此,為便于用戶高效利用資源,節約時間,根據用戶的需求特點實現個性化推薦至關重要。這就要求相關領域學者投入精力研究如何從海量數據資源中挖掘并向特定用戶推薦有價值的資源。本文旨在研究大數據背景下基于用戶特征庫的個性化資源推薦技術相關內容,分析發展現狀并展望未來趨勢,以期凸顯大數據背景下資源共享的優勢,為廣大互聯網用戶的生產生活提供便利,推動互聯網技術進一步發展。
隨著時代的進步和社會經濟的發展,包括互聯網、物聯網和人工智能等在內的現代化科技高速發展,由此造成的網絡數據噴涌而出并持續積壓形成龐大的數據庫。這顯然為人們全面了解和深入解決某些問題提供了有力支撐,但是這一切的前提是解決用戶如何從海量的數據中找到自己需要的有價值的數據的問題。現階段已有大量有關數據分析和數據挖掘等數據處理技術的研究,但是隨著互聯網的應用范圍進一步擴展,處理海量數據也面臨越來越多的新問題,相關技術的深入研究迫在眉睫。
隨著大數據技術的不斷發展,與學習相關的資源個性化推薦逐漸成為其主要研究方向之一。相關研究包括:探討在互聯網大數據的背景下如何通過變革資源服務模式實現更高效的學習方式;分析探討大數據背景下國內外先進資源推薦技術應用的實例,尤其是在與教育資源相關的適應性教學和精細化教學管理等方面;當前國內外大數據應用相關的工作熱點傾向于管理與決策工作方面,具體表現為要求信息化平臺結合用戶需求進行后臺分析,據此制定切合用戶群體特征的個性化資源服務策略。
用戶特征庫具體包括不同用戶的各類信息包括興趣愛好、專業領域等的整合,以期通過收集整理用戶的不同方面的特征來獲取他們對于資源需求的偏向,從而對用戶進行精準分析,建立用戶標簽,最終形成個性化用戶檔案模型。在信息化管理及應用平臺中,利用基于用戶特征庫的個性化資源推薦技術,可以獲得用戶對資源信息的屬性關聯性信息,實現平臺資源信息的高匹配度的個性化推薦,不但為用戶提供有價值的數據資源服務,還能有效節約用戶在海量數據資源中挖掘有用資源的時間和金錢成本,具有重要的現實意義。
在當前大數據背景下,個性化推薦技術是處理海量互聯網數據應用最廣的數據處理技術,對解決互聯網數據過度積壓問題起到至關重要的作用。
個性化資源推送服務目前的研究覆蓋領域已經達到相對全面的狀態,包括動態過程、靜態過程以及應用更廣的兩者結合的過程分析方法。其中,采用靜態數據分析方法的具體方式表現為綜合線上線下對用戶的受教育程度,對新技術的可接受性和適應性等的調研結果,分析不同用戶各項指標間的差異,并用數據形式表現出來。而動態數據分析方法的應用則表現為在實際資源推送服務中系統根據用戶在尋求資源的過程中表現出的不同行為習慣和興趣愛好等方面的差異及變化及時做出相應的調整,從而完成高效的個性化資源推薦服務[1]。
在實現個性化資源推送的算法中,目前主流的算法主要有以下幾種:(1)基于內容的推薦;(2)基于關聯的推薦;(3)基于項目的協同過濾;(4)基于模型的協同過濾。
研究從主流推薦算法入手,通過幾種推薦算法的組合使用,從大數據中分析及構建用戶特征,建立用戶狀態數據庫、網絡交互關系庫和特征模型庫,基于此設計個性化的資源推送服務框架,并提出個性化資源推送的實施策略,使信息化平臺能夠實現更精準的個性化智能推送服務。
研究立足于靜態數據和動態數據相結合的方法來分析用戶特征。在實際應用中采取將動態數據分析方法作為主導,靜態數據分析方法作為補充的方案,面向的用戶群體為尚未參與學習平臺資源推薦活動的用戶,將各項調查結果作為輔助參考依據。獲取的工具主要利用Felder-Silverman學習風格量表來進行。動態數據獲取適合于有學習行為發生的用戶,數據獲取方式主要是從教育大數據中進行挖掘和分析。
在分析和構建了用戶特征模型之后,為了進一步有效地實現教育大數據中用戶個性化學習資源推送的目標,基于用戶特征模型構建用戶個性化學習資源推送框架的構建參照Map Reduce數據處理框架進行設計,主要包括數據收集層、數據處理層、數據分析層和數據呈現層四個方面。
數據收集層主要收集用戶的靜態數據和動態學習行為數據。數據收集層還具備存儲其采集到的大量數據的功能,這些數據的處理工作主要由數據處理層完成,數據處理包括提取數據的關鍵詞,并依據關鍵詞進行分類整理,降低重復率,綜合過濾無用的數據信息等。
個性化資源推送的實施策略主要有兩個步驟:第一步,對知識點內容進行資源特征標記,存儲在資源特征庫中;第二步,結合用戶特征與資源庫的資源特征,考慮個性化學習資源如何推送給相應的用戶。在推送過程中,可以依照前期學習風格量表的調查分析用戶特征,依據不同學習風格特征的用戶對于資源的偏好完成資源類型的個性化推薦,即基于內容的資源推薦。
3.4.1 建立用戶狀態數據庫、網絡交互關系庫和特征模型庫
在建立用戶特征模型之前需要判斷用戶是否首次進入信息化平臺學習,并據此進行相應的后續操作:如果是,用靜態數據獲取的方式建立用戶特征模型;如果不是,則需要結合首次進入獲取的靜態數據和學習行為發生后獲取的動態數據進行對比,確認用戶模型。用戶模型分析中需要利用數據存儲層存儲的數據,然后在分析層對用戶的個體特征、學習狀態、偏好類型、學習路徑、交互關系等進行分析,建立用戶狀態數據庫、網絡交互關系庫和特征模型庫。此外,還需要考慮是否存在某一方面具有相似特征的用戶,利用Pearson相關分析方法分析用戶之間是否具有相似性。
3.4.2 個性化資源推送實現路徑中,基于特征匹配的資源推送
這一步驟的實現需要結合用戶的特征及資源的差異性兩者之間的聯系程度,兩者聯系越密切,存在的相同或相似之處越多,則系統針對用戶特征選擇某一特定資源的可能性就越大。這一具體過程通常采用用戶之間相似度計算方法,在進行相似度匹配時還可以利用歐式距離計算其相似度的大小。
基于用戶特征庫的個性化推薦技術通常是基于搜集用戶在互聯網上表現出來的對某類資源的喜好程度實現的。但是在實際的互聯網大數據環境下,這種簡單直接的方法的可操作性難以達到期望值,因為相比于用戶表現出來的顯性喜好,用戶往往還存在許多未表現出來的隱形喜好,將這些以其他隱性形式表達的用戶喜好納入個性化資源推薦系統是該系統發展面臨的挑戰之一。
基于用戶特征庫的個性化推薦系統在設計完成后投入實際應用場景時仍然會面臨問題。這是由于系統在試用時通常是基于一個較小規模的數據實現,但是在實際的互聯網大數據環境中,系統需要處理的數據量巨大且數據結構也處于動態變化的狀態,因此實際應用的效果通常并不理想[2]。
隨著社會經濟的高速發展,互聯網普及和技術發展為人們的工作學習生活都提供了巨大的便利,但是大數據背景下海量數據的積壓也為人們獲取有價值的資源造成負擔。如何從海量數據中挖掘出用戶需要的有價值的數據逐漸成為當前的研究熱點,因此,基于用戶特征庫的個性化推薦技術的研究具有重要的現實意義。