周萌 徐慶 李丹 李崇 齊鵬

【摘要】? ? 隨著互聯網的迅速發展,網絡學習社區己經深入到了廣大互聯網用戶的生活中,其正在以驚人的速度不斷地影響著互聯網用戶的學習。隨著平臺使用時間的積累,許多的平臺都擁有龐大的閱讀資源,學習資源和用戶后臺數據。從而出現了資源過載、學習迷航等新的閱讀和學習問題。本文通過ALS矩陣分解算法,實現了大數據平臺的基于用戶的協同過濾推薦算法,從而提升網絡資源需求的個性化和細致化,最終為黨建平臺的用戶提供個性化的閱讀和學習資源推薦服務,并在一定程度上對平臺中的課程教學起到現實的指導意義。
【關鍵詞】? ? 大數據? ? 學習資源? ? 機器學習? ? 智能推薦系統
緒論
學習習近平關于大數據戰略的要求背景下,深入研究“大數據是信息化發展的新階段”、“要運用大數據提升國家治理現代化水平”的指導思想,將黨的建設工作和經濟社會的發展進行深度融合,不僅可以提升黨的建設工作效果還可以幫助社會經濟的可持續發展。因此,在黨建工作的中提出基于大數據的推薦系統的設計,正是在大數據戰略背景下,將科學技術應用到黨的建設工作中來的典型課題。本文以基于ALS模型的協同過濾算法來實現石油黨建APP學習資料推薦系統,正是基于此課題的研究成果,該系統的實現可以為黨建工作提升精準性和實效性,具有重要的實踐意義。
一、推薦算法及推薦系統研究現狀
推薦算法是當前大數據背景下的重要工具,是針對性解決用戶需求提升數據準確性和效率的重要手段。目前常用的推薦算法有基于人口統計學、內容協同過濾以及混合等的推薦機制,被廣泛應用于各個領域。其中SPARK是專用為了處理大數據而開發的計算機引擎,是基于分布式的計算平臺,與Map Reduce它的優勢是可以將運算的結果保存在內存中從而更好的適用于數據挖掘和矩陣分解等算法。而在推薦系統中應用最為廣泛的為個性化推薦算法,該算法的概念是上世紀90年代提出的,是一種可以針對不同行業進行個性化計算而迭代出更加適用的結果,主要應用于電影行業、新聞推送、音樂推薦以及媒體廣告等的商業領域,如Movie Lens、Ad Wards等。
二、基于大數據的推薦系統設計
2.1大數據的基本概念
當前對于數據的定義雖然還沒有統一,但是其涵蓋的內容基本一致,通常是指那些包含了有價值信息的,但無法通過常規的計算機工具來提取、存儲、搜索等處理的龐大信息。其中IDC對大數據的特征進行了總結,具備巨大的信息規模、迅速的數據流轉性、多樣化的數據類型以及準確性。
2.2大數據平臺架構介紹
本文針對SPARK平臺來進行展開討論,該生態系統下包含了流計算、結構化數據的處理、圖計算以及機器學習等子項目,是用以管理大數據的重要工具和手段,在此基礎上SPARK還可以提供如Flume、Kafka、HDFS等具有分布式數據特性的集成方式,來實現大數據的管理工作,以及各種算法的應用與實現。
2.3智能推薦算法
1.協同過濾算法介紹
基于鄰域和近鄰的內存推薦和基于模型的推薦是協同過濾推薦算法的兩種基本類型。其中以基于內存的推薦算法為例,是通過相似偏好或者特征的方式來對用戶的需求進行推薦,因此進行實施推薦前需要先讀取用戶的內存信息從而實現比對與識別。而基于模型的算法則是通過建立的各類用戶的喜好模型來進行推薦。相比而言基于內存的算法要更加有效,但是由于運算時需要讀取大量數據,因此會造成一定的局限性,冷啟動和數據稀疏都會對其造成一定地影響。
2.基于ALS模型的推薦方法
在模型推薦算法較為流行的是ALS模式算法,該推薦方法是基于評價數據集而建立的用戶與項目的評分矩陣,一般表示為N*M,公式中N表示為用戶數量,M表示為項目數量。在實際推薦算法的運算過程中,由于用戶并不會對每一個項目進行評分,因此會造成項目數據集的稀疏性,也就是說所形成的矩陣集是非常稀疏的。因此,為了使算法更加趨于準確,會在已有數據規律的基礎上進行數據模擬填充,從而得到任意用戶對任意項目的評分,最后獲得預測得分,以此來實現推薦。
三、基于大數據的智能推薦實現與效果——以石油黨建App為例
3.1石油黨建App的大數據架構和推薦系統架構
本文基于Spark構建的石油黨建APP學習資料推薦系統主要分為兩個部分進行(如圖1所示):離線計算部分和實時在線計算部分,該系統是一個可以結合離線計算與在線計算的架構,能夠解決一些推薦系統的實時性需求,還能利用批量的離線數據進行推薦。
從架構的縱向組織結構分析,整個系統包括兩個子系統組成:離線推薦與在線推薦。從數據流可以看出,兩個子系統都按照數據輸入、中間處理、結果數據輸出等步驟進行,為增加系統實時性,從這三個層面均使用了高性能的設計。
3.2石油黨建平臺學習資源的用戶行為現狀
石油黨建平臺是獲取用戶數據的關鍵來源,而用戶行為數據的收集與整理,從而建立起用戶與項目之間的評分,可以為其它用戶實現有效的推薦,并隨著使用用戶的數量增加而推薦趨于準確。利用ALS算法來對學習者的隱性信息進行收集,包括用戶的課程互動天數、次數以及在論壇中的活躍程度等行為數據。通過SPARK平臺中Ndayact數據項來對用戶的相關數據進行收集,從數據庫統計結果來看共記錄了21234條用戶行為數據。其中課程互動天數和人數的分布數據,在分析后發現存在持續下降的趨勢。其中互動天數最少的僅為1天,而用戶人數最多時達到了3232人,占到了總用戶人數的43%左右。互動天數保持時間最長的有1人,共持續了167天,平均互動天數為4.2天。通過模型的創建發現,第36天和第55天存在顯著差異,也就是說36天以內保持互動的用戶最多且較為頻繁,而大于55天的數據顯示,用戶活躍度存在非常明顯的下降。所以石油黨建APP針對用戶在36天和55天時,采取鼓勵和監督機制,以促進學習的持續性和效果的保證。
3.3大數據智能推薦對石油黨建App學習資源的指導
1.充分運用大數據分析提升黨建學習的精準性
在大數據時代,可以通過推薦算法將各組織部門對于石油黨建學習的重點內容進行快速識別,從而起到快速定位的作用。對于各地區學習的進度和效果進行實時的采集并分析,從而便于高效的指導,促進黨建學習工作的有效開展。同時,通過對個人數據的采集與大數據的比對,可以為個人學習提供差異性分析,從而為個體的學習計劃提出建議,并實現學習資料和課程的個性化推薦,實現黨建學習工作的精準性。
2.充分運用大數據分析提升黨的制度建設的實效性
通過石油黨建學習工作的內容以及學習行為分析,可以對黨建工作的規劃以及相關制度建設進行監督,并利用大數據分析的方式來識別當前黨建學習相關制度的建設情況,以及實施有效性,從而起到發現問題解決問題的目的。并依據當前地區黨建學習現狀進行基于黨建資料和課程的推薦,從制度建設和資源精準推薦的角度來使問題得以快速的解決,從而針對性的通過石油黨建APP來幫助石油黨建學習制度的建設和制度實施有效性,解決石油黨建最后一公里的問題。
四、總結與展望
本文是基于大數據平臺相關技術以及當前主流推薦算法和系統的研究為基礎,來對石油黨建APP學習資料的推薦系統進行設計,采用基于ALS模型的協同過濾算法優化方案,來實現石油黨建APP的系統。基于ASPARK大數據平臺的石油黨建APP資料推薦的功能的實現,可以提升黨建學習工作的精準性以及制度建設的實效性。但是本系統目前還無法有效的對在線推薦的信息進行準確的更新,在系統延遲方面還有待改進。此外在數據倉庫管理方面,由于對于大量用戶行為數據的分析工作比較粗淺,因此還需要進一步引入數據挖掘技術來進行提升,從而建立起高效數據倉庫的推薦引擎,為更好的提供學習資料的推薦提供支持。
參? 考? 文? 獻
[1]姚敦紅.基于教育大數據的課程授課教師推薦系統設計[J].電腦知識與技術,2020,16(26):8-9+22.
[2]胡赫薇.基于大數據下的智能推薦系統設計[J].電腦編程技巧與維護,2020(07):126-128.
[3]薛琳蘭. 基于大數據技術的電商推薦系統的設計與實現[D].青島大學,2020.
[4]吳榮,段宏濤.基于Hadoop平臺的Spark快數據推薦算法解析——以其在圖書推薦系統中的應用為例[J].數字技術與應用,2020,38(06):115-117.
[5]朱麗,付海濤,馮宇軒,裴欣彤,孫宇.基于大數據平臺的課程教學資源推薦系統應用探究[J].計算機產品與流通,2020(06):209.
[6]謝路倫. 基于Spark的電商用戶行為分析與研究[D].北方民族大學,2019.