金銘

摘要:在大數據時代下,互聯網信息呈井噴式爆發,信息過載問題的嚴重性越發凸顯。目前,最直接、有效緩解信息過載的方法是使用大數據推薦系統,關于大數據推薦系統的研究越來越被信息行業所重視。文章關于推薦系統與大數據進行了具體分析,并對大數據環境下推薦系統的核心技術展開了詳細探索,同時也豐富了該領域的理論研究成果。
關鍵詞:大數據;推薦系統;協同過濾
中圖分類號:TP311? ? ? ? 文獻標識碼:A? ? ? ? 文章編號:1009-3044(2018)34-0253-02
隨著移動終端和移動應用在各個行業的大力普及,推進了互聯網信息數量的不斷增長,大數據也因此引起了社會各界高度關注。僅僅在2009年,Google公司就為美國貢獻了將近540億美元的GDP值,因此,大數據技術的不斷進步對社會各個領域的影響不容忽視[1]。
科技在豐富人類生活的同時,也出現了弊端,比如造成信息過載現象,人們如何高效地從大量數據中提煉出滿足自身需求、有價值的信息則是目前信息領域中的熱點問題。當今處理信息過載問題首選辦法為推薦系統,但是傳統集中式推薦系統在處理海量數據、異構數據時會出現不同問題:例如處理大規模的數據時,推薦系統性能發揮不全;推薦系統缺少實用性和即時性;推薦系統其算法的擴展與改進問題;指導理論的發展有待提升等。
目前在大數據背景下,針對推薦系統的研究工作已取得一定進展,但尚未形成一套有效的支撐理論,同時期技術尚未成熟。為了更好地推進研究工作的發展,筆者關于大數據與推薦系統展開了具體分析和探索。
1 推薦系統與大數據
1.1傳統推薦系統
傳統概念中的推薦系統在推薦環節主要由數據預處理和數據生成構成。在數據預處理過程中,推薦系統首先要匯總大量數據的特征,征集數據用戶的個人傾向和偏好以完成數據預處理;在數據生成過程中,推薦系統結合用戶興趣搜索,在推薦算法中得出推薦項目數據集合[2]。
偏好獲取技術的定義是借助數據信息跟蹤用戶興趣、選擇傾向、性格特點等信息,以便做到實時向各個用戶發出不同的網絡需求服務,同時依據用戶需求的變動適時做出調度[3]。傳統用戶偏好獲取技術根據建模及啟發式的兩種形式來搜集用戶偏好信息和數據,以顯性獲取或是隱性獲取的兩類原則執行相關任務。啟發式數據用戶獲取法通過其他簡約的方法來獲得用戶需求,比如相似度計算等方法和建模式法則等,而建模式法則是借助引入機器學習技術獲得一個模型。推薦系統根據用戶偏好及時間遷移,研究得出自適應法,比如遺傳計算法、神經網絡技術法可以充分解決以上問題。
以信息過濾的角度來分析,傳統意義上的推薦系統具體細分為混合推薦系統、內容推薦系統和協同過濾推薦系統。在移動終端大量普及的時代,推薦系統也因此誕生。
1.2 大數據的概念和特征
在短期中應用常規軟件對其內容和數據進行獲取、處理的集合項被稱作是大數據。大數據技術可以從各個不同種類的數據中直接、快捷地獲取有價值信息。下述幾大應用技術均可采取大數據技術,比較常見的可擴展存儲系統、云計算平臺等[4]。
大數據的顯著特征眾多,信息領域的學術界將大數據特征歸納后統稱作“5 V模型”,具體為:價值大密度低、難識別等。
1.3 傳統推薦系統與大數據推薦系統的不同
傳統推薦系統與大數據推薦系統二者之間存在顯著差異,具體如表1所示。
2 大數據研究文獻的統計
我們國家針對“大數據”的了解與探索遲于西方國家。在20個世紀80年代時候,知名學者阿爾文·托夫勒便在《第3次浪潮》中將大數據譽為“第3次浪潮的華彩樂章”。截止到目前,西方發達國家關于“大數據”的探索和運用一直遙遙領先于全球其他國家,沃爾瑪、甲骨文等全球物聯網緊緊抓住大數據打來的商業機會。
縱觀我國,“大數據”領域的研究成果一直較少,其中比較有代表性的為韓青青等人發表的《我國大數據領域研究論文的計量分析》,該著作分別從文獻、關鍵詞和作者3個層面探討了我國大數據,并得出下述結論:近年來,我國大數據研究表現出快速發展的水平,并成為當今研究領域熱門課題,并漸漸發展成完善的文獻研究機構,但是研究力量依然有待提升。
3 大數據環境推薦系統核心技術
3.1 選擇分布式文件系統管理數據
傳統意義上的推薦系統技術主要負責對少量數據計算、小容量文件的儲存,同時其屬于面對服務器的架構。中心服務器會對用戶消費、瀏覽等數據進行搜集和整理,并對這些數據進行計算以此得出滿足用戶個性化需求的推薦。但是一旦數據規模超過其可處理的容量時,服務器難以實現對全部數據的下載和存儲,此時會采用外存置換算法及多線程技術,但是I/O上的性能瓶頸仍然存在,最終系統處理大量的數據時效率下降,推薦結果生成時間延長。因此總結出傳統集中式的中心服務器難以有效、高速的應對和處理海量用戶、海量數據,無法適應推薦系統新的發展需求。
大數據推薦系統實質上由分布式文件系統管理數據構成,而在這些數據構成上主要是借助集群技術來實現的。大數據推薦系統其系統框架可滿足大數據高效、及時處理海量數據和數據可擴展等要求,系統架構為處理大數據創造了有利條件[5]。Hadoop的分布式文件系統(Hadoop distributed file system, HDFS架構是其中的典型。大數據推薦系統其文件系統主要采用網絡多臺節點存儲的方式,和傳統文件系統有著明顯區分,數據文件存儲打破了傳統意義中其在本地單一節點的存儲模式,可以在互聯網環境下存儲在多個節點中。除此之外,文件的位置索引管理通常為一個或者若干個節點來處理,用戶端通過集群來實現數據的讀取與錄入:利用中心節點得到文件存儲的具體方位,接下來和集群中的節點進行通訊操作,最后以網絡形式把節點內數據進行讀取存于本地。上述過程中出現的冗余數據存儲、文件切分、數據出錯恢復及中間網絡通信等各個環節均由HDFS負責管理,實現形式是將客戶端的HDFS接口進行調用。
3.2 借助集群技術處理的分布式計算架構
通過集群來處理分布式計算的框架比較常見,典型的有Hadoop軟件的MapReduce功能屬于分布式計算框架,可看作開源計算框架的一種。MapReduce算法的關鍵點為“分而治之”,在讀取大量數據集的處理方面,通過以由主節點負責的各個分界點來實現,接下來利用對各個分界點中間結果的統一處理,得出計算結果。MapReduce架構可以解決編程過程中分布式存儲、容錯均衡和網絡通信等各種問題,并將處理過程化作兩個函數:map和reduce。Map宗旨是完成主任務的細分,將其分成多個小任務;reduce主要是對分解之后多任務處理結果的統一整合[6]。
3.3 推薦算法并行化
越來越多的集團式上市企業或大規模企業對可處理海量數據的推薦算法有著強烈需求,所需處理的海量數據甚至可達到TB級乃至PB級的存儲量。典型的案例有:騰訊Peacock主題模型分析系統則要對十億文檔、百萬主題以及百萬詞匯開展主題模型訓練,單是百萬詞匯乘以百萬主題的算法矩陣,其數據存儲量已達3TB,百萬主題和十億文檔相乘的矩陣,則高達3 PB的數據存量。達到TB級乃至PB級的數據存儲量不能采用傳統串行推薦算法,因為串行算法在處理海量數據時性能低下,耗費時長過多,不適應大數據處理的需求。而大數據集的推薦系統則采取分布式文件系統以及并行算法,該并行化技術滿足了高效處理海量、分布式、異構數據等的要求。
參考文獻:
[1] 孟祥武,紀威宇,張玉潔. 大數據環境下的推薦系統[J]. 北京郵電大學學報,2015,38(02):1-15.
[2] 劉海鷗. 面向大數據知識服務推薦的移動SNS信任模型[J]. 圖書館論壇,2014,34(10):68-75.
[3] 劉海鷗.面向云計算的大數據知識服務情景化推薦[J]. 圖書館建設,2014(07):31-35.
[4] 劉進,胡大權,陳家佳.面向海量數據的推薦系統的研究[J]. 現代電子技術,2016,39(12):59-61+65.
[5] 岑凱倫,于紅巖,楊騰霄.大數據下基于Spark的電商實時推薦系統的設計與實現[J]. 現代計算機(專業版),2016(24):61-69.
[6] 米可菲,張勇,邢春曉,蔚欣.面向大數據的開源推薦系統分析[J].計算機與數字工程,2013,41(10):1563-1566.
【通聯編輯:唐一東】