孫雨生 李亞奇 朱金宏
(1.湖北工業大學經濟與管理學院 武漢 430068)(2.湖北工業大學職業技術師范學院 武漢 430068)
伴隨移動互聯網、社會化媒體、云計算、物聯網等技術發展和應用深化,人類全面進入大數據時代,海量、分布、異構信息資源與有限用戶認知能力間矛盾凸顯,信息過載、用戶個性化信息需求難發現、難真正滿足問題日益嚴重。作為主流信息服務方式與工具,傳統信息推薦系統基于單機節點高性能計算機、集中式單塊架構(易構建、測試、部署、橫向伸縮但系統調用復雜、職責不清、持續交付周期長、技術選型及維護成本高)提供信息推薦解決方案(基于屬性、行為數據進行用戶(需求、興趣)、推薦項目建模以提取用戶、項目特征,經推薦算法處理并過濾、調整推薦結果后推薦),雖部分滿足用戶個性化信息需求、實現信息資源合理配置及利用效率提升但難適應海量異構、增長迅速、分布稀疏、關聯復雜、應用多樣化的大數據環境及其對系統架構的更高要求,致使大數據采集、存儲、管理、計算、分析成本和難度劇增且推薦效率不高,面臨應用頻繁演進、架構日趨復雜、負載動態均衡、資源分布協同等挑戰,急需改造、重構傳統信息推薦系統架構體系以基于分布式架構模式并整合云計算、大數據(涉及分布式并行計算、負載均衡、分布式緩存、分布式文件系統及數據庫等)等技術和方法優勢滿足大數據環境下信息推薦系統核心功能需求(涉及推薦個性化、動態化,功能、代碼及數據處理分散化,跨進程高效協同等)及關鍵非功能性需求(涉及高效并發、動態I/O、安全可靠、按需擴展、健壯容錯、易維護、低成本、高性能等),在實現推薦系統業務功能、整合技術及數據資源、集成信息基礎設施同時支持迭代式并行開發、分布式協作并保障信息推薦系統架構規范性(涉及描述、約束、設計、質量等)、可復用性、易維護性,最終提升信息服務質量、性能及用戶體驗,提高信息資源及信息基礎設施利用率,因此,研究基于大數據的信息推薦架構體系問題有重要意義。
本文先以知網、萬方的學位論文庫、期刊論文庫及維普的期刊論文庫為信息源,以“大數據”和“推薦”為關鍵詞組合在題名中檢索相關文獻(截止2020年8月1日,從知網獲碩博論文55篇、期刊論文183篇,從萬方獲期刊論文114篇(新發現14篇)、碩博論文48篇(新發現9篇),從維普獲期刊論文176篇(新發現19篇),共268篇文獻有效);其次,詳讀文獻歸納基于大數據的信息推薦架構體系并根據提及頻次、內容質量詳細標注,本著最大限度反映國內基于大數據的信息推薦架構體系研究進展重要文獻、優中選優(剔除標注次數少、與其他標注文獻內容重復文獻)原則選出42篇參考文獻(內容覆蓋280篇文獻);最后從體系結構、功能模塊、推薦機理三方面闡述國內基于大數據的信息推薦架構體系研究進展。
基于大數據的信息推薦系統架構體系基于系統結構(涉及元素及其關系、元素外部可見性)構建,旨在基于架構實現多角色(用戶、系統分析師、軟件工程師、系統管理員等)協同溝通、決策的規范和機制以高層次、系統化解決信息推薦系統設計、復用、質量保障和維護等問題,指導信息推薦系統規劃、設計、實現,深刻影響推薦系統的業務場景實現、(新)技術運用和未來拓展(適應新應用需求),主要研究架構描述、設計、風格(如B/S、微服務、分布式架構等)、評價和構建方法等,涵蓋軟硬件架構并受功能、非功能性需求及條件約束,常按生命周期分概念設計(涉及頂層組件及其關系)、詳細設計(基于靜態視圖(涉及邏輯視圖、開發視圖)、動態視圖(涉及運行視圖、物理視圖)、數據視圖全面系統細化概念架構)和開發實現(涉及詳細設計架構、編程實現架構)。本文基于分層思想實現推薦業務專業化、推薦功能分模塊封裝、推薦機制按應用場景描述策略,分別闡述基于大數據的信息推薦系統體系結構(概念架構,旨在識別子系統、構建系統體系結構并基于體系結構定義組件及模塊間通信機制、系統網絡拓撲、系統軟硬件方案)、功能模塊、推薦機理,進而劃分信息推薦系統構成部分以遵循業務邏輯,按應用場景組織、協同功能模塊、信息推薦技術、信息資源、信息基礎設施提供基于大數據的信息推薦服務。
基于大數據的信息推薦系統常基于B/S模式、分布式架構構建,多分界面表示層(即終端應用層[1],支持實時可視化交互[2](注冊、登錄[3~4]、瀏覽[3,5]、檢索、評價、交流[5]、反饋[2,6~7]),結果展示[5,8~12](熱點排名[6~7])、分類及管理[4,6~7])、服務提供層(基于推薦(算法)引擎離線、實時計算)、業務邏輯層(支持業務邏輯控制,涉及業務校驗、資源調用等[6~7])、數據訪問層(支持數據預處理[4]、檢索、更新、持久化[4])、數據資源層(支持分布式數據采集、存儲、管理)、基礎設施層(基于軟硬件、通信設施的分布式集群與云平臺),基于功能模塊、應用接口實現層間、模塊間通信。
陳玉兆[1]、鄧玉林[4]提出基于B/S架構推薦系統分推薦終端(含移動、PC、電視端)和終端應用(界面表示)層[1]、業務層(涉及推薦后臺、推薦引擎,用基于Mahout協同過濾、基于內容推薦算法等處理離線數據并將結果存入數據庫(常結合用戶行為并輔以基于文本相似度熱點推薦算法、自定義算法在線推薦);分應用功能層(支持檢索、推薦及其管理、數據采集、用戶興趣分析)、公共服務提供層、數據訪問層[4])[1]、數據資源層(基于HDFS或NoSQL存儲,基于Hive、Pig-Latin等ETL處理、管理用戶及商品[4]數據等)、基礎設施層(分基于Hadoop協同過濾集群、基于內容計算集群,基于MapReduce分布式應用架構橫向擴展集群);葛曉偉[13]提出分界面層、推薦層、邏輯層(分推薦處理(基于改進算法)個性化推薦,基于熱點排名非個性化推薦,支持用戶管理、注冊)、數據層(持久化數據,基于Sqoop遷移數據)、基于Hadoop的云平臺層;陳澤[14]、岑凱倫[15]提出基于Hadoop、Lamp架構推薦系統體系包括在線Web服務系統(含推薦請求解析、賬戶認證管理、工程(推薦算法、數據、模型集)管理模塊(企業用戶交互接口,通過新建工程、添加數據、配置算法、離線建模后供推薦請求模塊調用))、實時計算系統(基于Storm計算用戶實時行為、離線結果以推薦[14])、離線計算系統(訓練推薦模型[15],響應前端請求,存儲計算結果)、存儲服務器(采集、收發日志、清洗數據、均衡負載[15])。
陳陽雪[6]、金志福[7]提出B/S架構、MVC模式教育資源[7]、MOOC平臺課程[6]推薦分界面層、事件響應層(記錄用戶行為、默認評分,生成推薦)、推薦引擎層(基于內容、基于項目、基于矩陣分解模型推薦)、業務邏輯層、數據層(存儲、計算、統計評分)、數據采集層并支持系統各層管理[6](涉及場景配置、冗余備份、系統監控、數據維護);張進良[2]提出基于學習資源智能推薦模型分用戶層、服務層(支持基于學習者模型的個性化界面、檢索、學習路徑生成及干預、評價方式,學習資源自適應推薦及報告可視化等)、分析層(分析學習者、資源數據并基于Agent檢索、匹配、管理、推薦)、數據層(采集并挖掘系統數據,涉及云資源、交互、考評、檔案管理、數據感知(源自傳感器、RFID、GPS等)等);于凱[16]提出分效用評價層、推薦生成層(基于矩陣、隱式反饋、社會化情境、群組特征推薦)、數據預處理層(采集用戶興趣、上下文信息構建社會化網絡)、源數據層(采集顯隱式反饋、社會化網絡數據、人口統計學特征)。
李梅珍[5]提出基于高校圖書館科研數據知識庫推薦系統分智能服務層、數據處理層(采集、清洗數據,聚類用戶,挖掘并推薦)、基礎數據層(涉及用戶信息庫、館藏資源庫)。
沈杰[8]、房璐璐[9]、郭博林[10]、劉敏[11]、周夢蒲[12]提出基于Hadoop、MVC模式[9]電影[12]、音樂[10]推薦系統分應用(視圖[9])層、推薦算法層(生成推薦候選集、管理反饋[10])、業務(控制[9])層(支持用戶興趣建模、項目數據分析)、數據(模型[9])層(采集、預處理數據)、資源監控統計分析層[11](展示集群計算狀態[8]);張健[17]提出有線電視推薦系統技術架構分業務接口層(支持推薦位(直播、點播及其他系統)管理、人工存儲、元數據封裝、結果訪問)、數據分析層(基于推薦算法)、計算處理層(基于Hadoop分布式計算、實時流處理)、數據預處理層(ETL處理)、數據存儲層(基于SQL、NoSQL)、數據源層(涉及用戶行為、媒體資源、網絡爬蟲數據、實時操作數據、推薦日志)。
張興旺[18]提出移動推薦服務分可視化交互層(基于Web門戶)、應用層(支持單主體、多主體協同進行單領域、跨領域(終端)移動推薦,移動端、PC端、專用端、門戶、物聯感知端、生物體驗端、隱形終端交互)、核心服務層(涉及服務部署、注冊、檢索、匹配、組合、優化、調度、運行、負載均衡、容錯處理、監控、評估、交易、協作)、中間件層(涉及資源虛擬化、服務化、協作化,數據感知、采集、傳輸、存儲、分析、預測)、大數據資源層(涉及服務數據[18]、設計、管理、仿真、集成、試驗、計算、存儲、網絡等資源及信息);王俞翔[3]提出推薦系統分用戶交互層、推薦引擎層(分用戶數據采集及預處理、離線推薦、用戶檢索及請求處理三模塊,提供閾值檢測、數據集分割、任務提交服務)、計算存儲層(基于Hbase、MapReduce、HDFS、MySQL);胡蓉[19]提出服務推薦系統分服務推薦層(基于用戶協同過濾、服務聚類)、大數據存儲層、大數據采集層(涉及服務描述、請求、評分、日志);尹培培[20]提出基于主題特征的地理大數據挖掘與推薦系統分地理數據分析層、數據挖掘算法層(含數據挖掘(基于地理大數據屬性(主題特征)聚類分析)、推薦算法)、數據存儲中心層(基于HDFS、ETL工具存儲、管理(經清洗、集成、選擇和加載將數據轉換為易處理格式)數據(空間、非空間))、云計算平臺層。
基于大數據的信息推薦功能模塊常針對大數據環境下復雜分布式推薦系統特點,基于深度優先迭代開發(縱向迭代完整功能后持續集成再交付)、分治思想劃分功能集,核心是用戶交互界面(展示結果并管理[4](排序及可視化、監控等[21])、采集用戶注冊登錄[22~23]、行為及反饋[6,24]信息)[6,21,25]、模型管理(支持用戶、推薦項目建模)模塊、推薦引擎(算法)模塊(離線計算并在線推薦[23]以響應請求,存儲、檢索、優化推薦算法[25])、大數據存儲模塊[26](存儲數據庫及其操作信息[25]、日志信息[6],涉及用戶興趣[6,10,14,21](注冊[6])、行為[6,10,21](收藏、點擊[25]、評價[8,22]與反饋[14]、交易[1,14,25]等)信息及項目特征信息[8,10,14,25]、情境信息[10,26]及推薦結果[9])、大數據采集[6,26]模塊,通過模塊并行開發、單元及集成測試后推薦。
陳玉兆[1]、鄧玉林[4]、胡一[25]、賈利娟[27]提出電子商務推薦系統分渠道[27]管理、輸出(涉及商品、用戶評價(評分及其均值)、E-mail、編輯推薦[25])、在線推薦(基于HDFS需求按日期、行為次序分類數據并計算用戶興趣度[1,4,27],基于日志分析用戶行為構建興趣相似群[1],基于協同推薦[4]、用戶瀏覽商品特征優化老用戶推薦列表[1],基于內容[1,4,27]向新用戶推薦[1])、離線計算(預處理[4,27](ETL處理[1],基于TF-IDF向量化用戶、項目特征[4]),基于規則庫并集成分類器、雙層關聯規則進行分類、Web挖掘[27])、輸(接[27])入[25](從Web服務器采集[4]用戶(群)歷史、實時興趣及行為、商品特征并更新[25])模塊,此外,陳玉兆[1]認為離線計算模塊包括混合協同推薦與內容推薦向老用戶推薦、基于文本相似度向新用戶推薦熱點,分計算層(推薦)、數據層,由腳本程序控制運行、推薦程序基于MapReduce分布式處理HDFS中數據(ApplicationMaster節點監督程序運行狀況并定時反饋給主節點、重啟失敗節點任務,在Reduce階段匯總推薦項目形成原始推薦列表)并將結果存入關系數據庫;胡一[25]認為包括用戶交互(界面)、推薦引擎、推薦模型、數據操作庫、數據庫模塊;陳澤[14]認為分企業用戶(管理賬戶、構建推薦工程及配置算法、評估推薦效果)、Web服務接口(推薦)、(非)個性化推薦算法及模型庫(含內容模型、用戶行為模型、用戶興趣模型,存儲離線計算系統處理原始數據后形成、服務實時計算系統的模型數據)、基礎數據庫模塊;此外,金偉晟[28]認為分用戶登錄注冊(涉及信息安全、信息提取)、服務推薦(基于MapReduce、可信社團算法)、Web服務組合優化(基于改進量子粒子群優化算法)、數據壓縮策略選擇(基于HBase數據分類冷熱數據進而選擇)、基于目的用戶訪問控制(結合隱私偏好增強、基于目的訪問控制模型)、海量Web信息抽取(基于DOM樹節點屬性與視覺特征抽取)模塊;嚴克文[29]提出物流推薦系統分推薦算法、用戶興趣模型管理(基于用戶相異度矩陣構建、局部進化)、用戶行為記錄(采集、檢索、更新、標記)模塊。
陳陽雪[6]提出基于MOOC平臺課程推薦系統分數據用戶交互、推薦結果篩選及微調(過濾已訂閱課程)、推薦引擎(基于混合推薦)、數據存儲、數據采集、系統管理(主要是系統狀態監控調整)模塊;張進良[2]提出基于學習資源智能推薦模型分個性化服務、學習者分析(涉及用戶統計、特征挖掘、可視化、預測)、學習資源分析(涉及資源的描述、標注、用戶分析、關聯及聚合、效能分析、進化)、智能推薦引擎(基于Agent)、數據源(感知、挖掘、轉換并分類存儲數據)模塊;金志福[7]提出教育資源推薦Web子系統分熱點排名(普適推薦)、資源評價、資源推薦(基于用戶搜索、瀏覽內容)、資源檢索模塊。
劉海鷗[26]提出圖書館知識服務情境化推薦系統分基于情境的用戶興趣本體建模、推薦引擎、并行推薦(基于并行處理、情境化協同推薦)、大數據采集與存儲模塊;劉海鷗[30]提出移動圖書館推薦系統分大數據服務應用融合(基于情境感知、大數據挖掘技術推薦)、大數據融合(基于大數據采集與預處理、云計算并行處理、分布式存儲、可視化技術聚類、挖掘、重組并統一表示、協同管理、可視化資源)、大數據采集模塊。
房璐璐[9]、沈杰[8]、王娜[24]提出電影推薦系統分應用接口(分參數接收、數據輸出(支持推薦查詢[9])、數據采集(基于Flume[8])[24]接口)、業務與用戶交互[24](含應用場景(推薦渠道、時機、內容))、推薦處理(基于Hadoop、MapReduce、Spark[9,24]、協同過濾、隱語義模型、個性化算法[24])、數據存儲(外部采集、反饋、爬取的信息[24])、系統監控[24](監控系統CPU、內存、I/O負載)模塊;郭博林[10]提出音樂推薦系統分推薦展示及反饋、個性化推薦(基于聚類構建動態用戶興趣模型并推薦)、數據預處理、數據采集(基于數據庫、日志系統、網絡接口、傳感器)、系統管理(管理用戶、音樂作品)模塊。
陳軍[21]提出學生就業推薦平臺分用戶交互、個性化推薦(基于Mahout結合實時、歷史數據進行在線、離線推薦,涉及興趣相似用戶計算、推薦引擎,結合歐式距離推薦并基于反饋信息優化)、數據處理(構建學生日志、簡歷數據庫,預處理數據(基于Hadoop、數據挖掘引擎標簽化數據),構建企業、學生動態多維畫像)、數據采集模塊;高娟[23]提出勘探生產門戶信息推薦系統分UI用戶交互、推薦結果處理(過濾、排序、解釋)、推薦引擎(基于Hadoop)、爬蟲(基于Flume采集門戶網站數據、用戶網站行為日志)模塊;楊清智[31]提出手機應用推薦系統分用戶標簽(支持多維分析、可視化統計)、推薦系統(計算近鄰及安裝概率)、數據倉庫(支持數據清洗、轉換、IP解析)、網絡爬蟲模塊;江澄[32]提出基于QoS歷史記錄的服務組合推薦系統分結果解釋、服務組合(按用戶請求基于DCAH、CBSC法組合推薦服務)、大數據集成、服務大數據采集模塊;肖敏[22]提出問診推薦系統分用戶交互、醫生推薦(基于Hadoop、協同過濾算法離線構建用戶-用戶、醫患相似矩陣結合Web服務器在線增量計算并推薦)、疾病診斷(基于BP神經網絡模型結合用戶病癥診斷)模塊,涉及Nutch服務器(爬取醫療網站形成實驗數據集);王嘯[33]提出基于移動互聯網推薦系統分結果推薦(隨機向新用戶推薦,基于用戶協同過濾、興趣群組向老用戶推薦)、用戶興趣群組構建(向量表示用戶興趣,基于Canopy算法發現)、網頁采集與分類(基于Venus采集并構建規則庫、集成分類器分類)模塊。
基于大數據的信息推薦機理旨在設計推薦系統實現預期目標的協作方式和流程,主要涉及分布式數據采集、預處理(抽取、分類[34]、過濾[5,32,35]、清洗[10,21,23,32,34,36~37](重復訪問記錄、登錄提示/錯誤、編輯(上載新聞)頁面、特定后綴網址等[23])、去重[5]、補充[10](擴展[4])、標準化[4,10,34~35]、融合[10,34,36]、變換[4,36](歸并中間記錄網址、分類網址[23])、歸約[36](按需提取、刪除屬性[23])等)、存儲(緩存)、特征提取、用戶及項目建模、推薦算法處理和推薦結果展示。
鄧玉林[4]、嚴克文[29]提出電子商務[4]、物流[29]推薦流程:采集用戶數據(檢索[4]、評分[29]、偏好)并存于數據庫,預處理后基于潛在語義分析、分片聚類分別分析用戶長期、短期興趣[4],基于相異度矩陣構建用戶興趣模型[29]并結合推薦算法推薦,基于用戶選擇評價增量、局部進化用戶興趣模型[29];賈利娟[27]提出基于運營商大數據產品推薦流程:采集、預處理運營商數據,基于兩步聚類挖掘用戶目標特征集,基于時序關聯規則挖掘生成集合進而預測用戶行為集并去重后生成推薦列表;金石[38]提出基于運營商管道大數據電子商務推薦流程:采集運營商管道家庭寬帶用戶流量數據,基于深度包解析技術提取用戶特征,基于用戶行為提取標簽、構建家庭畫像,基于用戶標簽結合改進GBDT算法預測值、改進SVD算法預測值加權融合推薦。
陳陽雪[6]提出基于MOOC的課程推薦流程:采集用戶、日志、行為及課程數據并存儲,基于MOOC隱式評分模型改進傳統偏置矩陣分解算法、基于項目協同過濾算法過濾并排序后推薦。
劉海鷗[30]提出移動圖書館推薦流程:基于移動圖書館、移動終端、社交網絡、WiFi、RFID采集用戶、行為、情境數據,構建用戶情境興趣模型(基于大數據處理法構建用戶-項目評分矩陣、結合情境修正相似度算式并計算相似度)并通過相似度預測未評分項目進行情境化推薦;馬曉亭[35]提出圖書館個性化閱讀推薦流程:基于圖書館大數據資源(文件、音視頻、圖像),預處理后匹配、挖掘、提取價值并整合成個性化閱讀服務支持大數據,基于大數據分析(相關性分析、關鍵讀者發現與ID匹配)預測讀者需求,定制(基于閱讀方式、喜好、情緒預測需求)、精準實時推送(基于閱讀方式、服務安全性管理、質量監控)個性化服務,基于QoS評估(服務總收益率)控制、優化讀者需求發現過程;柳益君[34]提出高校圖書館個性化推薦流程:全面采集并格式化用戶歷史行為的顯隱式反饋,構建用戶行為本體模型(基于云平臺存儲用戶行為大數據并存儲、檢索、應用RDFS/OWL本體模型,預處理成格式一致、結構清晰、易擴展基礎數據以整合用戶行為大數據),構建并存儲用戶興趣本體(提取多樣隱性本體(基于神經網絡建模預測用戶環境情境興趣,基于聚類結合協同過濾、關聯規則算法挖掘用戶情境興趣,基于JGraphx、大規模網絡深度分析發現主題興趣)、顯性本體(基于行為日志統計分析)并以RDFS/OWL本體模型表示),基于用戶興趣模型推薦;劉芷茵[37]提出圖書推薦流程:采集(基于圖書館系統)并清洗圖書數據后存儲,基于并行計算、協同過濾算法離線計算用戶相似度以發現并緩存近鄰,基于Kafka、Flume實時采集結合Storm增量運算(提高近鄰精確性)、離線計算結果實時推薦;劉海鷗[39]提出基于用戶畫像圖書館知識服務情境化推薦流程:采集用戶(基于注冊、門禁、檢索、門戶網站)、情境(基于GPS、RFID、WiFi、基站、傳感器)信息并預處理、存儲,構建多維標簽模型庫、用戶畫像模型,基于并行計算、情境建模發現相似資源并結合協同過濾算法匹配用戶與資源推薦。
沈杰[8]、房璐璐[9]、周夢蒲[12]提出電影推薦流程:基于數據接口[8~9]、Flume[8]采集用戶行為(評分、日志)、項目數據并儲存,經抽取、清洗、離線計算(基于用戶、項目協同過濾、Slope One、LPTA算法[8])生成離線推薦結果并存儲[8],結合在線推薦部分推薦;郭博林[10]提出音樂推薦流程:采集音樂系統數據(涉及用戶信息、音樂作品、用戶日志(行為及其靜態上下文(主要是用戶基本信息)、動態上下文(基于日志系統、上下文感知技術獲取聽歌時用戶位置、時間、播放次數、評分等動態信息)信息))、傳感器(獲取原始信息(常含混、不準甚至矛盾)并在感知層預處理以分離上下文獲取與應用)和網絡接口數據并預處理,聚類(K-Means++)用戶興趣,結合因子分解機計算影響因子(興趣變化及地域化、作品生命周期、區域環境、季節)權值動態建模用戶興趣,基于內容推薦生成候選集并結合作品熱度推薦。
崔金棟[40]提出基于大數據和微本體的微博信息推薦流程:基于爬蟲采集微博信息,存儲并預處理構建微博信息微本體(基于ICTCLA分詞、標注詞性、降噪后基于TF-IDF挖掘微博熱點詞匯、話題抽取領域概念層次后聚類并以三元組文件存儲,基于Jena結構化OWL本體后導入Protégé)、主題微本體(提取并預處理標簽、確定詞間關系、標簽聚類(K-Means)建模、微博主題本體化并儲存),基于圖匹配算法匹配微本體及主題本體進行推薦;陳軍[21]提出就業推薦流程:爬取第三方平臺就業數據并預處理、存儲,構建事實標簽(經文本無格式化、切詞、詞匯過濾(無意義、停用、缺失詞)、詞頻統計、中心性計算以確定高頻關鍵詞并基于TF-IDF賦權,結合LDA主題模型聚類高頻關鍵詞主題),構建標簽模型(基于K-Means法聚類事實標簽),計算聚類相似度并據此推薦用戶畫像標簽(相似學生、學生群、企業群屬性),結合用戶歷史信息(基于學生與企業性質及招聘等信息聚類企業和學生)、在線行為(涉及搜索、轉發、下載、瀏覽等,基于協同過濾算法推薦學生近鄰、合適工作)、社交網絡關系(混合基于內容、協同過濾推薦算法及在線相似度測試進行推薦)推薦職位并構建反饋機制進行優化;周浩[41]提出微博好友推薦流程:爬取并存儲微博文本,預處理(分詞、標注詞性、去停用詞)數據并用模型(布爾、向量空間)表示(基于文檔頻率法、信息增益法、互信息法選擇特征,基于布爾權值、詞頻法、TF-IDF計算權值)后基于K近鄰、支持向量機算法分類微博文本,基于信任度和局部隨機游走算法計算用戶相似度,構建推薦候選集并結合時間衰減興趣分類算法推薦;江澄[32]提出基于QoS歷史記錄的服務組合推薦流程:采集(基于傳感器、網頁點擊、移動設備應用服務、RFID等)歷史服務數據并記錄(選擇元數據構建后續所需數據結構)、預處理后存儲,基于DCAH(基于分解全局約束和取歷史記錄均值策略的服務組合推薦法提高推薦時效性)、CBSC(基于CLARA聚類的服務組合推薦法提高推薦精度)法推薦最佳服務組合;胡蓉[19]提出服務推薦流程:采集(用戶使用、服務描述)數據,聚類用戶(預處理用戶日志,構建用戶興趣模型進而聚類)、服務(提取、預處理服務標簽、功能,計算特征相似度進而聚類)進而基于用戶聚類結果過濾用戶(提取用戶使用服務上下文(影響用戶選擇和評分服務),過濾生成上下文一致用戶集),結合用戶評分、上下文一致用戶集、目標服務所在蔟,計算評分相似度并基于閾值選擇近鄰以協同過濾推薦目標服務;張興旺[18]提出移動推薦服務流程:采集用戶、歷史行為信息并提取用戶特征進而檢索、生成推薦信息集,基于機器學習算法優化移動推薦指標(如點擊率、評分)生成移動推薦服務模型,分別計算用戶對推薦集、推薦集中各信息認可度后按推薦指標排序推薦;董小妹[36]提出技術創新平臺技術推薦流程:采集Web內容、使用、結構數據及用戶信息,預處理后挖掘(構建模型(表示為用戶-項目評價矩陣、主題關鍵詞列表、加權關鍵詞向量)、發現模式及知識規則)并同步至推薦系統,通過基于本體協同過濾算法在線推薦;段文彬[42]提出基于大數據聯盟數據資源推薦流程:檢索、分析、整理Web資源信息生成RSS文檔并聚類、基于集結器整合信息內容并結合用戶興趣庫基于RSS feed匯總推薦。
綜上,本文從體系結構、功能模塊、推薦機理三方面闡述了國內基于大數據的信息推薦架構體系研究進展:基于大數據的信息推薦架構體系遵循請求分散化、推薦離線化、業務專業化、存儲分布化、計算并行化、開發迭代化原則[3],以應用場景為導向、信息推薦功能及關鍵技術為核心、依托大數據資源及信息基礎設施,通過體系結構組織的功能模塊(可動態調整、低耦合高內聚)、面向應用場景的推薦機理有效構建領域性基于大數據的信息推薦分布式架構體系:體系結構常分用戶交互層、服務提供層(含推薦引擎)、業務邏輯層、數據訪問層、數據資源層、基礎設施層;核心功能模塊包括用戶交互界面、模型管理(支持用戶興趣、推薦項目建模)、推薦引擎、大數據存儲、大數據采集模塊;推薦機理關鍵在于大數據采集、預處理、分布式存儲、特征提取,用戶及項目建模、推薦算法處理和推薦結果展示。
接下來,筆者將按信息推薦系統處理流程分析大數據采集、組織、挖掘與分析、展示等關鍵技術研究成果,揭示國內基于大數據的信息推薦關鍵技術研究進展。