999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

國內基于大數據的信息推薦研究進展:核心內容

2020-08-19 12:59:27孫雨生朱金宏李亞奇
現代情報 2020年8期
關鍵詞:大數據

孫雨生 朱金宏 李亞奇

摘 要:[目的/意義]從用戶興趣建模、推薦機制、信息資源管理3方面闡述國內基于大數據的信息推薦核心內容研究進展。[方法/過程]文章用內容分析法歸納了263篇文獻內容,從用戶興趣建模、推薦機制、信息資源管理3方面闡述了國內基于大數據的信息推薦核心內容研究進展。[結果/結論]基于大數據的用戶興趣建模主要結合大數據技術改進傳統用戶興趣建模,包括模型表示、模型初始化和模型進化;基于大數據的推薦機制主要改進、混合傳統推薦機制并優化推薦結果;基于大數據的信息資源管理包括數據采集、數據挖掘、數據表示、數據存儲和數據更新。

關鍵詞:大數據;信息推薦;用戶興趣建模;信息資源管理;個性化

Abstract:[Purpose/Significance]In order to reveal research development on core content of information recommendation based on big data in China from three aspects of user interest modeling,recommendation mechanism and information resource management.[Method/Process]Using the content analysis method,the authors summarized the content of the 263 articles,and expounded the core content research development of information recommendation based on big data in China from three aspects of user interest modeling,recommendation mechanism and information resource management.[Result/Conclusion]User interest modeling based on big data mainly improved traditional user interest modeling with big data technology.It included model representation,model initialization and model evolution.The recommendation mechanism based on big data mainly reforms,combined the traditional recommendation mechanism and optimized recommendation outcome.The information resources management based on big data included data collection,data mining,data representation,data storage and data update.

Key words:big data;information recommendation;user interest modeling;information resource management;personalization

伴隨移動互聯網[1]、社交網絡[2]、GPS、智能終端[3-7]、云計算[8-9]、物聯網[2,6,10-12]等技術迅猛發展,人類社會急劇變革并快速邁入大數據時代(從數據荒漠邁向信息海洋:領域行業性應用亟待智能化[1,4,13-15]改造、數字化創新,用戶獲取信息來源、工具及維度日益豐富,導致信息處理量、認知負荷猛增),致使信息過載[4-5,9,11,16-23]、知識掩埋[9,12,22](信息不規范轉載、差異化處理(標注社會化[3,12]、標準多樣化[10]分別導致結果同質化、失真)等固有問題愈發嚴峻,對此,目前多采用信息推薦機制實現由以信息資源管理為核心向以用戶個性化服務為核心轉型并最終達到“信息找人”目的,傳統信息推薦技術多通過算法定制、規則提取等[4,10,21,24-32]提升信息服務效率及質量、提高信息資源處理自動化程度及挖掘深度以實現“千人千面”并緩解用戶認知負荷但存在間接加劇用戶圈層化(忽視用戶潛在需求[4,13,16,33]致使推薦模式趨同、結果重復[10,13,25,31,33]、處理“數據荒漠”問題方法較固定(集中、全局式處理)、難適應多源異構海量數據[1,4,12-13,17,19,27,30-31,33-36]環境(影響推薦效率[3,33,37]等問題,客觀急需構建面向大數據的新型信息服務機制,在這種形勢下,基于大數據的信息推薦應運而生,其以本體[33]、全局計算(相似填充[1,4,10,16,20-21,25,35]、模型構建[15,26,28,36]、神經網絡[3,21,29,33]、數據(局部、典型值[3]、聚類[1,3-4,10,19,21,23,29-30,33,36]、分布式[8]、分段[29]挖掘[38]、深度學習[1,23]等技術精準定位“信息海洋”中用戶需求[35],基于并行化思想[1,4,16,19,24,36]并結合用戶情境[8,13,22]、社會關系、動態反饋[7,36]等優化[16,18]推薦機制及結果以智能推薦,結合大數據處理技術[8,10,24-25,33,35-37]多渠道全面系統動態采集并分別壓縮、重構、整合[27]數據(含信息、知識)資源以部分解決傳統信息資源管理中數據缺失、來源限制、信息匱乏[32,39]等問題及信息推薦擴展性、稀疏性、冷啟動等問題[1,4-5,10,12,14,16,18-19,21,23,25,28-31,33-36]進而實現大規模、多樣化、動態化[1,13,16,18,34]、個性化[8,15,22,26,30,33]智能推薦并促使信息推薦邁入“一人千面”時代。因此,研究基于大數據的信息推薦問題有重要意義。

本文以知網、萬方的學位論文庫、期刊論文庫及維普的期刊論文庫為信息源,以“大數據”和“推薦”為關鍵詞組合在題名中檢索相關文獻(截至2020年3月8日,從知網獲期刊論文166篇、碩博論文55篇,從萬方獲期刊論文114篇(新發現14篇)、碩博論文48篇(新發現9篇),從維普獲期刊論文176篇(新發現19篇),合計263篇);詳讀263篇文獻歸納國內基于大數據的信息推薦核心內容研究進展并根據提及頻次、內容質量詳細標注,本著最大限度反映國內基于大數據的信息推薦核心內容研究進展重要文獻、優中選優(剔除標注次數少、與其他標注文獻內容重復文獻)原則選出43篇參考文獻(內容覆蓋263篇文獻);最后從用戶興趣建模、推薦機制、信息資源管理3方面闡述國內基于大數據的信息推薦核心內容研究進展。

1 基于大數據的用戶興趣建模

作為基于大數據的信息推薦前提和基礎,用戶興趣建模核心是提取、處理特征、行為等屬性數據以構建、存儲(緩存)、進化用戶興趣模型,精準表示用戶興趣[34]。

1.1 建模思路

鄧玉林[36]基于分片聚類構建用戶短期興趣模型,基于潛在語義分析特征向量矩陣并聚類出興趣集構建用戶長期興趣模型;屠海龍[23]、嚴克文[28]基于用戶相異度(用同項目評分差絕對值度量)、項目特征[29]向量構建用戶相異度矩陣以量化用戶興趣間差異進而構建用戶興趣模型;丁繼紅等[9]構建用戶(風格、動機、認知、目標、興趣)、項目(類型、格式、交互方式、難易度)、行為軌跡(時間、地點、載體、天氣、心情)子張量并關聯融合(張量連接,張量同維合并、張量異維保留、張量內元素相乘(原多張量中元素排列組合成新張量元素)),基于學習者、學習時間、學習地點、所用設備、資源五維融合子張量構建用戶興趣模型;此外,段文彬[32]基于傳播貢獻度(用戶點擊數與訪問量)、用戶影響力(轉發次數、他人評價、被提及數)、用戶活躍度(系統自動評論數,用戶對數據資源評論數,用戶回復他人評論數和用戶周訪問數)構建用戶興趣模型并基于粗糙集識別潛在用戶、離散化潛在用戶數據(分割屬性種類)、約簡潛在用戶關鍵屬性、基于置信度提取規則構建潛在用戶興趣模型。

1.2 模型表示

基于大數據的用戶興趣模型表示主要研究表示原則和方法,遵循表示基本原則、結合多種方法規則化、層次化、多元化表示用戶興趣:前者包括模型、方法、數據分別管理,模型低耦合高內聚,用戶、項目、規則易匹配,模型易遷移復用;后者多用矩陣法,丁繼紅等[9]提出基于張量法,王俞翔[10]提出基于用戶-項目評價矩陣法,鄧玉林[36]提出基于特征向量矩陣法,謝瑤瑤[25]、嚴克文[28]提出基于相異度用戶矩陣表示法,胡蓉[21]提出基于向量空間模型法、基于顆粒度法、基于神經網絡法,鄒小波[1]提出基于張量分解法、基于網絡模型法、基于主題模型法,李翠平等[5]提出基于語義網絡法,董小妹[33]提出基于本體法,屠海龍[23]提出基于譜聚類法(用子圖表示用戶聚類結果,用節點表示用戶群的共同興趣項,用節點間邊權值表示用戶群興趣相似性)。

1.3 模型初始化

區別于傳統用戶興趣模型多基于用戶顯性信息初始化并結合隱性信息優化,基于大數據的用戶興趣模型多用大數據技術全面系統采集、處理用戶屬性、興趣、行為、情境、項目等信息初始化并結合基于大數據技術的用戶隱性興趣預測進行優化。

1.3.1 數據采集

此處僅闡述用戶信息采集,其他見3.1節。

1)采集來源

鑒于大數據環境下用戶興趣建模動態性、精確性需求及用戶興趣數據來源廣泛,用戶興趣大數據采集需基于平臺計算能力限度、用戶容忍度(結合QoS評價確定)構建用戶興趣大數據集群以動態、全面、準確采集(遷移)用戶顯隱性數據,包括社交媒體[18,27]、用戶數據庫、智能終端[3,13,16,24,28,30,33-34,40-41]、傳感器[13]、物聯網[32],此外,段文彬[32]以用戶征信平臺為數據源。

2)采集類型

針對用戶興趣,李翠平等[5]按穩定性分長期(反映真實興趣)、短期(反映興趣變化,多與熱點相關)興趣;段文彬[32]按存在形式分顯性(包括用戶主動定制[5](回答問題)、歸一化評分[35](兩級、多級評分)、傳統用戶信息(紙質文獻型、縮微聲像型)、數字用戶信息(單機、聯機型)[32],直觀易獲取[16]但耗時且主觀性強)、隱性[18](被動記錄、自動生成,真實性強但缺少交互)興趣,按保密性分公開、半公開、非公開型,按存儲介質分傳統型(紙質)、磁介質型(軟盤、光盤、硬盤)、網絡型(網絡平臺、云存儲)、無介質型(交流獲取未記錄載體信息),按用途分業務型、管理型、戰略型[32]。

3)采集內容

主要采集用戶基本信息[6,22,33](涉及ID、姓名、性別、出生年月、民族、地域[13]、婚姻、學歷、專業、單位、職業[22,33]、語言、宗教、社會關系、住址、社團、收入、聯系方式[8]、權限[41]、興趣信息(性格、特長、標簽[2,7,19,24,28-29]、行為信息[18,22-23,28](注冊(年齡、注冊時間)、登錄(ID、地點、時間、操作系統、登錄設備)、請求[21](輸入、檢索(主題詞、時間、地點、關聯度)、咨詢)、瀏覽[39](閱讀(內容與模式)[13]、觀看[23],涉及對象[6](類型[36]、名稱、路徑、訪問頻次[18,33,36]、點擊[39](是否點擊、點擊時間地點、滯留時長、點擊順序)[36]、推薦確認(推薦項目ID、用戶反饋、時間、地點)、收藏、下載、購買[32-33,36,39]、評價(評分[5,41]、評論,涉及對象ID、時間[41]、地點、內容[36]、分享、社交[13]、線下移動路徑[13]、情境信息[8,22](領域、知識層次[8]、語境、場景(心理情緒[13][13,22]、時空[13,21]、所接觸項目信息[21-22](項目描述[21]、項目內容(音頻、視頻、書目、專利、文獻[22]、所屬主題[5,18]、項目操作(轉載、排序、熱點及趨勢分析[5,18]、社交網絡構建)、終端參數[13,22](品牌、機型、操作系統、芯片型號、內存容量))。

4)采集方式

基于大數據的用戶興趣采集強調時效性、全面性,方式分在線采集(初始化用戶興趣模型)、離線采集及混合采集(進化用戶興趣模型)且多在線采集:尤海浪等[17]、劉海鷗等[22]基于Flume實時采集用戶日志;陳玉兆[16]基于多終端采集用戶數據并離線存儲;楊國龍[29]基于企業大數據平臺采集用戶數據;鄧玉林[36]基于Hadoop采集用戶興趣數據,調用用戶數據庫接口采集用戶注冊信息,通過系統日志提取、Cookie(分析用戶日志)采集用戶登錄、檢索行為并分析其網站瀏覽信息及習慣,通過推薦系統數據庫采集用戶推薦確認、評分信息,通過瀏覽器(涉及Cookie、JS)歷史記錄(用戶、電商商戶)采集用戶購買信息;韓莉[38]基于Web采集非結構化數據填充用戶數據;李佳[40]基于MySQL、Oracle、HBase等數據庫采集用戶數據。此外,孟祥武等[18]提出重點研究大數據環境下用戶隱性數據采集方式。

1.3.2 數據處理

1)數據預處理

多結合在線計算(用神經網絡[3]、云計算虛擬化技術[24]處理結構化數據(文本[33]、標簽[2,7,19,24,28-29]、用戶基本信息[6])、離線處理(標準化、結構化(集成NLP、概率統計、AI與機器學習方法[29]半結構化、非結構化數據)實現數據清洗、歸一化[33]、規范化、合并/拆分(均衡大數據分析粒度)[29]、集成存儲:婁建樓[12]基于TF-IDF、分布式計算預處理行為文本、項目信息[29]得出用戶興趣標簽;胡蓉[21]通過更新停用詞、擴展縮寫詞、提取詞干預處理用戶日志;段文彬[32]基于列表刪除、成對刪除法剔除完全隨機缺失數據,基于加權法、單值插法、極大似然估計、最大期望算法預測填充隨機缺失數據以預處理用戶興趣;鄧玉林[36]基于TF-IDF法、單一數據標準化法、混合數據標準化法預處理用戶興趣。此外,段文彬[32]構建HDFS物理存儲層、虛擬資源池層(虛擬化并動態替換數據節點)、數據轉化層(通過縮放特征、構造特征、逆規范化重構數據并統一格式)、資源組合層(構建用戶興趣數據集)預處理用戶、項目數據。

2)興趣度量化及優化

基于大數據的用戶興趣度量化涉及用戶興趣特征量化(結合大數據分析統計頻率、設定權值)、基于用戶區分度的興趣特征權值調整以精確表示用戶興趣項及興趣度:胡蓉[21]提出基于文檔頻率法(按文檔頻率閾值選擇特征詞)、信息增益法(基于評估特征詞出現前后信息量差異的熵值選擇特征詞)、互信息法(基于在特定類別中出現頻率選擇特征詞)、x2統計量法(檢驗列聯表按與文檔類別關聯度選擇特征詞)、文本證據權法(計算類別出現頻率與特征詞出現時類別出現條件概率之差以按與類別相關度選擇特征詞)、TF-IDF法量化特征權值并選擇特征詞集構建用戶興趣模型。

1.4 模型進化

集中于基于大數據更新動態學習、更新用戶興趣模型:針對前者,王俞翔[10]歸一化評分以計算均值,重設評分區間(端值分別為所有最小值、最大值均值,降低稀疏性),計算新用戶-項目評分矩陣并構建評分預測算法促進用戶興趣學習。針對后者,胡蓉[21]混合時間窗口法、遺忘函數法以引入時間因素、兼顧長短期興趣進行模型更新;嚴克文[28]基于用戶選擇、評價進行模型增量更新;胡一[34]分別基于用戶反饋(評價、評分)、Web日志挖掘(針對用戶行為)進行模型直接、間接更新。此外,鄒小波[1]基于數據倉庫離線數據計算用戶評分矩陣偏置量、相似度(方便系數參數調優),訓練迭代次數、正則化系數、數據集類型參數并融入偏置量、相似度進行模型進化。

2 基于大數據的信息推薦機制

信息推薦機制是推薦系統核心,直接決定推薦性能,基于大數據的信息推薦機制針對大數據環境下信息推薦面臨問題,對傳統推薦機制進行并行化改進(提升推薦規模、動態性,解決冷啟動問題)、組合(提升推薦針對性、多樣性)、推薦結果優化。

2.1 基于大數據的推薦機制并行化改進

2.1.1 基于內容推薦

基于內容推薦分析提取項目特征并向量化[4],匹配用戶興趣模型并推薦(?;谟脩襞d趣主題向量、Web日志特征向量加權、計算后推薦[33],大數據環境下基于內容推薦機制改進集中于內容提取算法優化以提升提取規范性(精度、效率)并降低提取規模:嚴克文[28]通過提前遴選項目特征[42]并形成用戶需求配置文件,依托信息檢索、過濾[25]獲取并推薦項目[28]以改進內容提取過程;謝瑤瑤[25]基于關鍵詞賦權(TF-IDF[4,25,36,40]、概率模型[25,29]、特征分析[4,35]、NLP、模糊聯想記憶神經網絡、AI[29]、統計分析、機器學習[25,29]等改進內容提取技術;葉志強[41]提出結合用戶興趣、評分均值賦權用戶興趣項,計算詞頻差異特征并向量化文檔以提升內容提取精度;董小妹[33]提出基于反饋信息的自適應學習算法改進內容提取效率。

2.1.2 協同過濾推薦

協同過濾推薦定義與內涵見文獻[26],推薦思路契合大數據處理特點,基于大數據的協同過濾推薦機制依托大數據聚類、壓縮緩解傳統協同推薦的數據稀疏、海量異構問題,通過用戶及項目特征預測、補全及提取規范化提升相似度計算精度、推薦效率。

1)基于內存協同過濾推薦

大數據環境下基于內存協同過濾推薦基于評分矩陣發現與目標用戶(項目)相似用戶(項目)并結合其對候選項目評分推薦[4,40],多針對大數據特點通過算法改進提高推薦質量,流程為評分采集、相似度計算、近鄰發現、評分選擇、項目推薦[4,19,25,30,40,43](TOP-N推薦[4,11,40],按對象分基于用戶協同推薦和基于項目協同推薦。

針對大數據環境下基于用戶協同推薦中相似度計算問題,鄒小波[1]結合RecTree(推薦樹)并行化構建葉子節點以聚類用戶向量進而改進用戶相似度算法;曹萍[4]基于Spearman秩相關、條件概率法量化相似度;沈杰[30]基于AC(余弦調整)、MSD(均方差)、SRC(Spearman秩相關)法量化相似度;鄧玉林[36]基于歐幾里德距離量化相似度;李佳[40]基于Jaccrad相似度、余弦相似(空間向量相似度[4,10,16,19,28-29,33,36,40]、Pearson相似度[4,10,16,19,28,30,33,36,40]、修正余弦相似度[4,10,19,28,40](剔除用戶平均評分[4,10,28,40]以降低計算量、提升計算精度)量化相似度。此外,謝瑤瑤[25]正交化處理近鄰數據以標準化并加權近鄰評分進而預測用戶評分。

針對大數據環境下基于項目協同推薦中相似度計算問題,曲朝陽等[15]基于用戶興趣形成初步推薦結果,基于Apriori算法挖掘項目關聯規則以基于項目協同推薦并調整結果序列;張健[42]結合項目特征、評分數據處理改進項目建模,基于項目間相似度確定近鄰,進而結合用戶興趣模型、Pearson算法推薦[4,10,19,29,33,35,40]。

2)基于模型協同過濾推薦

主要研究大數據環境下基于模型協同推薦用戶-項目模型構建及模型相似度計算問題[19],鄒小波[1]提出整合臨近算法、協同過濾算法的KNN-ALS算法,基于回歸法填充評分矩陣缺失值以改進用戶-項目模型構建,進而結合矩陣分解(結合交替最小二乘法、考慮用戶或項目相似度)改進模型相似度計算;曹萍[4]提出基于原始評分矩陣初步生成用戶平均評分并挖掘用戶及其項目行為后優化以構建用戶-項目模型,基于評分均值(剔除異常評分)相似度、依托概率計算/設定的閾值(壓縮計算范圍)優化用戶-項目模型相似度并行化計算;陳玉[14]提出構建用戶-項目評分矩陣并基于改進FCM算法聚類成簇進而基于簇中矩陣相似度協同推薦;屠海龍[23]融合項目-類別矩陣、用戶-項目評分矩陣構建用戶-項目偏好矩陣[19],基于CSPA(節點間相似度)思路集成圖聚類算法、BC-Slope One(混合聚類、評分排序)算法生成矩陣相似性譜聚類進而并行化推薦;丁繼紅等[9]基于用戶-項目-行為軌跡融合張量構建全局用戶-項目張量,抽取學號、時間、地點、設備、項目號五維特征融合成子張量,進而關聯兩者分析(高階奇異值分解后融合子張量并選擇)出核心張量、因子矩陣并連續模乘以通過相似填充進行重構,進而得出近似張量進行推薦。此外,董小妹[33]構建領域本體庫描述用戶、項目,基于層次、屬性信息分別計算用戶本體、項目本體相似度進而分別構建用戶、項目本體樹以輔助并行化協同過濾推薦;李佳[40]提出混合時間因子(降低舊興趣權值)、共同評分項目數優化用戶相似度,基于K-Means聚類相似用戶,基于偏差矩陣分解預測近鄰用戶項目評分并計算其真實、預測值均差,優化用戶對項目評分預測進而推薦;胡蓉[21]按評分相似度閾值聚類用戶-項目評分并計算相似用戶平均評分,加權后預測目標用戶評分,提升協同推薦速度、精度。

2.1.3 情境化推薦

基于大數據的情境化推薦整合、挖掘線上線下情境數據以補全數據、提升情境化推薦精準性、動態性,實現情境推薦模態化、應用生態化,主要研究推薦情境分類、推薦機制改進:前者按獲取途徑分線上用戶行為情境感知(基于用戶檢索、時空行為分析大數據網絡環境,支持按行為特點推薦)、線下物理情境感知(依托實名制及云計算、數據挖掘技術,基于物聯網、傳感器感知),按應用場景分情境預測(基于用戶信息、興趣及檢索記錄)、情境主體互換(通過用戶間情境信息交互豐富當前情境以滿足所有用戶情境化推薦需求)、情境進化(融合用戶行為歷史、知識需求動態構建大數據情境)[8]。針對后者,鄒小波[1]融合上下文情境、時間衰減因子進行基于時間上下文情境推薦;周蘇亭[8]基于云計算、大數據技術挖掘用戶檢索記錄、興趣并結合用戶情境進行個性化推薦、基于反饋優化相似度計算以提升推薦效果;馬曉亭[13]構建用戶情境數據庫,基于推薦質量反饋、移動設備實時情境感知預測用戶需求變化進而推薦;此外,胡蓉[21]提出上下文情境感知推薦范式分上下文預過濾(推薦前按上下文預過濾推薦相關數據集)、上下文后過濾(推薦后基于上下文過濾/排序推薦結果)、上下文建模(結合推薦情境進行用戶興趣、資源建模及推薦機制設計)。

2.1.4 社會化推薦

基于大數據的社會化推薦基于社交網絡、社交媒體挖掘用戶社群、信任網絡補全用戶數據以提升數據稠密度,尋找相似(信任)用戶集,挖掘潛在(新異)關系進行推薦:吳淑凡[2]基于Mark-ov鏈圖隨機游走算法構建隨機游走模型C-LRWR(基于網絡結構推薦算法預測鏈路):先通過標簽傳播算法提?。ㄓ脩簦┕濣c特征以標簽化用戶并劃分社區、計算社區用戶相似度,為用戶推薦好友集及其感興趣社區;劉海鷗[11]提出移動SNS信任模型以從信任網絡聚集、共引維度挖掘移動SNS潛在社會信任關系,并行化推薦相似用戶集;沈杰[30]提出按項目類別分類用戶,基于標簽傳播算法挖掘候選信任用戶集,用皮爾遜算法計算目標用戶與信任用戶評分相似度并用Logistic函數映射成信任值進而確定信任用戶集,計算信任用戶項目類評論占全項目類總評論比例以確定并并行化推薦高信任度項目類;金偉晟[19]提出可信社團發現方法分基于圈定法(涉及基于譜平分法、W-H法(電阻網絡電壓譜))、基于距離法(涉及Kernighan-Lin法、可信標簽傳播法)、基于聚類法(涉及分裂層次聚類法、凝聚聚類法、分裂聚類法)3類,常用于劃分評估用戶信任網絡、計算網絡內用戶間相似度以協同推薦。此外,婁建樓等[12]提出基于用戶RT-G貪婪算法實時推薦網站:基于信任網絡發現合適數量用戶并基于其評價網站標準發現目標用戶可能感興趣網站集,融合通過迭代發現的最信任用戶集及其網站訪問頻度形成最終網站推薦列表。

2.2 基于大數據的推薦機制組合

基于大數據的混合推薦應用廣泛性僅次協同過濾推薦,其基于結構調整、流程改造、算法優化動態適應大數據海量、異構、稀疏、快速生成特性并提升推薦性能,主要研究算法混合方式并按混合機制、階段分類:按混合機制分特征組合[4]、特征擴充(主要算法集成次要算法特征信息[4,40]、分層混合(前算法結果輸入后算法推薦[4,16]、元級混合(將前面算法所得模型迭代輸入后序推薦算法進行推薦[4,40]以整合各模型優勢[4]、分區混合(按場景選擇算法[16][4,16,36,40]、切換[24](推薦過程中動態調整算法[4,16]、推薦結果(加權[4,16,28]混合[4];按混合階段分前融合(直接融合推薦算法再推薦)、中融合(推薦過程中按預期效果將一推薦算法融入另一算法框架[28]、后融合(直接融合推薦結果)[4,16,40]。此外,姚靜天[31]按推薦流程分并行式、串行式、整體式(并行、串行式混合);李翠平等[5]基于Duine框架動態配置大數據環境下內容推薦和協同過濾推薦(預測填充)算法混合參數。

2.3 基于大數據的推薦結果優化

主要是基于QoS(以服務屬性揭示服務質量及其用戶滿意度[19,21]最優化大數據環境下推薦結果排序組合(按功能需求組合非功能屬性以提升用戶滿意度[3,19],?;诘湫椭稻垲愃惴?、全局計算效用均值法實現:江澄[3]基于典型值(分片代表值)法、均值法簡化QoS數據處理:前者用基于CLARA聚類法的CBSC推薦服務組合:聚類候選服務的歷史記錄集(規模較大時用CLARA算法,較小時用PAM算法)并用其聚類中心點分別表示,按QoS指標生成服務集及其組合方案效用值進而推薦最佳方案;后者用DCAH法推薦服務組合:依托全局約束分解(按比值分解為局部約束并據此選擇記錄)、服務歷史記錄均值(代表整體記錄集)分別計算候選服務組合歷史記錄均值及效用值并推薦。

3 基于大數據的信息資源管理

鑒于大數據6V(容量大、種類多、生成快速、可變性高、真實性強、價值分散)1C(復雜度高)特點,全面采集、高效挖掘、規范表示、分布式混合存儲并增量更新海量分布異構數據成為大數據環境下用戶、項目、推薦過程信息資源管理基本需求以支持用戶興趣建模、推薦機制改進、信息資源配置進而優化推薦效果。

3.1 數據采集

大數據環境下數據采集旨在全面采集推薦所需用戶、項目及推薦過程類信息,此處闡述后兩類信息,用戶信息見1.3.1。

3.1.1 采集來源

大數據環境下數據來源多樣、較固定并線上線下混合,涉及社交媒體[18,27](Facebook[20]、Twitter、微博、微信[7,13,42]、QQ、BBS、博客[27]等)、(Web、代理)服務器(基于Cookie采集日志[15,33]、數據庫系統、智能終端[3,13,16,24,28,30,33-34,40-41](手機、PDA[13,34]、iPad[36]、有線電視、遙控器、機頂盒[41]、RFID標簽)、傳感器[13](視頻監控器、服務器監控器、RFID讀取器、NFC設備、GPS設備、遙感設備、閱讀終端監控器)。此外,馬曉亭[13]提出共享第三方服務商數據。

3.1.2 采集類型

主要分用戶、項目、推薦過程3類,不同于用戶數據,大數據環境下項目數據采集類型較成型且多按傳統項目類型采集(少數新項目先采集再分類以提升動態性);大數據環境下推薦過程數據采集分用戶間、項目間、用戶與項目間交互3類(類似1.3.1中采集類型),旨在提升基于大數據推薦精度。此外,王俞翔[10]提出分用戶原創(主動)、系統運營(自動)、設備感知(被動)3類;段文彬[32]按數據來源分人工輸入、社交媒體(含網頁)、交易生成、移動通信、設備傳感5類。

3.1.3 采集內容

涉及用戶、項目、推薦過程數據,后兩者采集完善傳統推薦過程所需數據并側重基于數據集群隱性采集推薦全程數據以補全、豐富、深度采集用戶相關數據。針對項目數據,葉志強[41]基于數字機頂盒采集媒體資源描述信息(分常規、自定義兩類,前者涉及類型、名稱、國家地區、年份、導演、主演等,后者涉及清晰度、上傳時間、評價)、使用信息(點播時間、點播量、單價),基于遙控器采集媒體資源操作信息(播放、暫停、切換、錄制);馬曉亭[13]采集閱讀終端設備參數、閱讀行為歷史數據、閱讀社交數據。針對推薦過程數據,姚凱等[39]基于變量表采集推薦過程中用戶點擊流數據(涉及用戶類型、是否點擊、點擊對象、點擊速度、點擊量)、外部用戶訪問數據(涉及用戶名稱及類型、用戶影響力、與內部用戶關聯度、訪問頻率、訪問時長、最近訪問時間)。

3.1.4 采集方式

多用特定工具,混合在線、離線采集方式從分布式接口全面、動態、高效采集大數據環境下推薦所需數據:鄒小波[1]用Kafka的Consumer模塊實時采集Producer模塊動態生成的項目評分并存入Broker模塊以實現分布式實時數據發布與訂閱;尤海浪等[17]基于Flume分布式實時采集項目數據;鄧玉林[36]用Nutch采集項目數據;姚凱等[39]基于Cookie采集內外部網站數據并匯總項目信息;段文彬[32]通過搜索引擎采集檢索數據,通過平臺采集自有數據,通過調研、共享、購買采集項目數據;胡一[34]、韓莉[38]提出用用戶選擇、行為追蹤[38]、推薦情境自適應3種模式動態采集用戶Web使用日志。

3.2 數據挖掘

作為大數據環境下主流的信息載體,Web數據海量、分布、異構特性凸顯,常基于分布式數據庫、云計算環境[8]、語義技術(如基于潛在主題、分類的隱語義模型[20],本體[33],根據大數據推薦場景、性能等需求智能選擇Web數據挖掘技術,尤其是聚類技術(降維處理以高效挖掘并提升結果可靠性、價值)挖掘Web內容(多為文本、多媒體特征)[33-34,38]、Web結構(多為網頁內部結構、鏈接結構)、Web使用(多為Web日志及其隱藏訪問信息)信息以提升推薦效率、性能。

3.2.1 聚類算法分類優化

胡蓉[21]按實現原理分劃分聚類(K-Means算法[24]、層次聚類(CURE算法[24]、模糊聚類、概率聚類(DBSCAN算法)[24]、密度聚類、網格聚類、模型聚類[3,21],按聚類對象分基于用戶興趣相似度用戶聚類法(采集并預處理用戶日志以提取其興趣集并向量化,基于余弦距離公式計算用戶興趣相似度并用K-Means算法并行化聚類)、基于項目特征相似度項目聚類法(用波特詞干器提取項目特征以標簽化項目,基于Jaccard相似系數計算項目標簽相似度并加權整合成項目特征相似度進而用凝聚型層次聚類法聚類);金偉晟[19]提出層次聚類法分凝聚法(圈定無連接網絡節點邊界以聚類)、分裂法(打破有連接網絡節點間邊界以聚類)。

3.2.2 聚類算法效果改進

針對用戶聚類效果改進,鄒小波[1]基于MLlib中機器學習算法進行二叉樹聚類以降低用戶聚類難度;屠海龍[23]用集成聚類代替單用戶聚類以更好適應大數據特點、提升推薦效率;楊國龍[29]提出基于K-Means改進標簽分段算法RR-SEG:混合標簽粗細粒度聚類標簽成簇并計算各簇均值以量化用戶數據邊界、高效分配計算資源進而提升數據挖掘效率。針對項目聚類效果改進,江澄[3]改進適用小規模項目聚類的PAM算法形成CLARA算法以自適應項目聚類規模;曹萍[4]用大數據平臺實現基于K-Means、Canopy算法的項目并行化聚類;鄧玉林[36]提取檢索詞主題、時空等行為屬性以分片并行化聚類項目;王俞翔[10]基于項目差異度聚類項目;金偉晟[19]、沈杰[30]基于社團發現聚類項目。此外,針對用戶、項目聚類,吳淑凡[2]基于分類器分類用戶項目評價以提升聚類效果;董小妹[33]融合SOM(自組織映射神經網絡)與K-Means算法提升聚類智能性。

3.3 數據表示

數據表示通過特定方法形式化數據以便計算機高效識別、處理。

3.3.1 表示類型

江澄[3]將QoS服務數據分為數值型、非數值型(涉及布爾型、文本型);楊國龍[29]按引流數據類型分為用戶/項目特征數據、項目關聯數據、推薦過程數據(基于用戶/項目及項目關聯數據分析潛在相關數據);段文彬[32]按分析類型分實時分析數據、批量分析數據,按處理方法分預測分析數據、特征識別數據、文本分析數據、位置分析數據、社會網絡分析數據,按結構化程度分結構化、半結構化、非結構化數據。此外,鄧玉林[36]提出分標稱型數據(候選值為兩個且固定)和二元型數據(候選值為兩個但多元化)。

3.3.2 表示方法

主要涉及數據格式轉化、分解重構、聚集融合處理并常用(特征賦權)矩陣法[33,43]規范表示大數據環境下用戶、項目及推薦過程數據:段文彬[32]分析數據屬性、取值等特征以發現屬性映射、驗證規則及其工作流以便規范化原始數據,進而通過單變量處理(涉及開方、取對數、歸一化、徑向基核、協變量添加等方法)、雙變量融合(涉及變量間和差及乘除、閾值選取、笛卡爾積、白化處理等方法)、多變量結合(涉及主成分分析、聚類分析、稀疏編碼、隨機森林等方法)提取項目特征并向量化表示;王俞翔[10]歸一化用戶評分并基于用戶-評分矩陣法表示;劉海鷗等[22]融合情境后基于用戶-項目評分矩陣法多維表示數據;此外,曲朝陽等[15]多粒度分解項目知識、構建知識樹以關聯并推理知識進而樹形表示知識,支持語義層知識組織、推理及可視化;鄧玉林[36]混合時間窗、圖聚類表示熱點標簽,用TF-IDF法向量化表示用戶檢索詞及評分文本(向量按詞表排序,缺值用零補齊),用最小-最大值或Z-score(標準分數)標準化表示用戶評分,用日期格式表示數字型信息,用自身格式表示URL類、無意義String類數據。

3.4 數據存儲

主要基于關系型(MySQL)、非關系型數據庫[7,30,35,37](Redis、HBase[1]、MongoDB、Neo4j)分別存儲元數據及相應大數據資源[3]并基于文件管理系統(HDFS)分布式管理:針對關系數據庫,楊清智[7]、沈杰[30]、陳澤[35]、房璐璐[37]基于MySQL(或Derby[37]緩存[35]在線Web服務(APP[7]信息、Hive元數據(表名、屬性、數據路徑)、用戶相關數據(用戶興趣模型、推薦結果、項目評分)[37]。針對非關系型數據庫,楊清智[7]基于機型、操作系統版本、芯片型號、內存容量、興趣標簽維度設計存儲用戶靜態基本信息的HBase標簽表,基于用戶自身、APP類別、性別、興趣、地域維度劃分標簽表存儲用戶動態興趣信息。針對文件管理系統,鄒小波[1]用HDFS按Parquet格式封裝存儲數據集以構建離線數據倉庫;李翠平等[5]基于中心節點管理分布式文件系統以關聯集群節點并精準定位文件;姚凱等[39]基于HDFS存儲數據并結合Hive提取數據;此外,王俞翔[10]基于MySQL的數據表、集群分別直接存儲數據、臨時存儲文件,累積后批量存入HDFS;段文彬[32]基于SAN技術分布式存儲(用專用網絡連接數據存儲器及服務器構建存儲區域網并實現分布式數據網絡)、基于遠程數據鏡像異地備份、基于Push技術協調服務器工作(通過平臺主動向服務器推送協作指令)。

3.5 數據更新

3.5.1 更新方法

涉及空值數據添加(新用戶注冊信息、推薦結果[10]、用戶發布內容、新項目信息[6]、時效數據查新(評分[3]、用戶日志[7]、用戶行為、歷史數據[16]、用戶位置、活動信息[18]、項目信息、供需信息[33]、狀態數據[36]、學習進度)、動態數據調整(算法數據[5,35]、交互數據[13,36]、信任評估[19]、相異度矩陣[28]、分類目錄、社區標簽、用戶及項目特征向量[30]、本體定義[33]、規則及配置信息[37]、學習步長)、錯誤數據替換(預測及推薦結果[10]。

3.5.2 更新方式

鄒小波[1]提出基于Kafka分布式發布訂閱實時數據交由Spark Streaming的Dstream流計算并實時更新;孟祥武等[18]提出計算新增對象及其關聯邊以增量[28]微調社會化推薦結果并基于自適應法定期消除局部計算誤差;嚴克文[28]提出基于Hadoop分布式處理既定規則、新標記變量分別確定更新策略、增量更新模型并更新數據。

4 結束語

綜上,本文從用戶興趣建模、推薦機制、信息資源管理3方面闡述了國內基于大數據的信息推薦核心內容研究進展:基于大數據的用戶興趣建模主要研究用戶興趣模型表示(多研究表示方法,常遵循表示原則結合大數據特點確定)、模型初始化(多研究數據采集(多按用戶數據類型全面系統隱式采集)、數據處理(先在線離線混合式動態預處理,再量化興趣度并結合基于大數據的隱性興趣預測進行優化))和模型進化(基于用戶反饋、算法改進動態學習、更新用戶興趣模型)以提升用戶興趣模型精準性;基于大數據的信息推薦機制主要研究推薦算法改進及并行化改造、推薦機制組合、推薦結果優化以緩解傳統信息推薦的針對性、冷啟動、動態性、多樣性等問題:算法改進及并行化改造涉及基于內容推薦(針對大數據環境改進內容提取算法以提升推薦效率)、協同過濾推薦(依托大數據聚類、壓縮提升數據稠密度,通過特征預測、補全及規則抽取提升相似度計算精準度、推薦性能)、情境化推薦(通過線上線下情境大數據整合及挖掘、推薦算法改進提升情境推薦精準性、動態性)、社會化推薦(多基于社交網絡、社會化媒體挖掘用戶社群、信任網絡以提升基于群體特征、面向用戶的信息推薦效率和基于信任網絡協同過濾推薦效率),機制組合主要研究混合推薦以基于推薦機制及階段動態整合各推薦機制優勢,結果優化主要基于QoS指標并用典型值法、(效用)均值法推薦項目組合以優化推薦結果;信息資源管理包括數據采集(基于Kafka、Flume等工具采集線上(社交媒體、日志服務器、數據庫等)、線下(終端、傳感器等)大數據并共享第三方服務商數據)、數據挖掘(整合云計算及語義等技術、改進聚類算法以高效發現數據間潛在關系)、數據表示(常用矩陣法)、數據存儲(基于關系、非關系數據庫分別存儲元數據及相應大數據資源并基于文件管理系統分布式管理)、數據更新(基于分布式數據采集、處理、分發,用空值添加、即時查新、動態調整、錯誤替換等方法周期性增量更新大數據),最終實現數據全面采集、高效挖掘、規范表示、混合分布式存儲及增量更新。

下一步,筆者將設計基于大數據的信息推薦方案,供相關研究與實踐參考。

參考文獻

[1]鄒小波.大數據平臺下推薦系統的研究與實現[D].泉州:華僑大學,2018.

[2]吳淑凡.大數據環境下的移動社交網絡推薦算法[J].安陽師范學院學報,2017,(2):61-64.

[3]江澄.大數據環境下基于QoS歷史記錄的服務組合推薦方法研究[D].南京:南京大學,2014.

[4]曹萍.基于大數據的協同過濾推薦算法研究[D].南京:南京農業大學,2014.

[5]李翠平,藍夢微,鄒本友,等.大數據與推薦系統[J].大數據,2015,1(3):23-35.

[6]侯崇岳.大數據在高校圖書館文獻推薦中的應用[J].寧波教育學院學報,2017,19(6):80-83.

[7]楊清智.基于大數據技術的手機應用推薦系統的設計與實現[D].哈爾濱:哈爾濱工業大學,2017.

[8]周蘇亭.面向云計算的大數據知識服務情景化推薦解析[J].滁州職業技術學院學報,2016,15(3):54-56.

[9]丁繼紅,劉華中.大數據環境下基于多維關聯分析的學習資源精準推薦[J].電化教育研究,2018,39(2):53-59,66.

[10]王俞翔.面向大數據集的推薦系統研究[D].秦皇島:燕山大學,2014.

[11]劉海鷗.面向大數據知識服務推薦的移動SNS信任模型[J].圖書館論壇,2014,34(10):68-75.

[12]婁建樓,鄒偉,王玲,等.社交網絡大數據下貪婪式實時網站推薦算法[J].計算機應用研究,2015,32(5):1361-1364.

[13]馬曉亭.基于情景大數據的圖書館個性化服務推薦系統研究[J].現代情報,2016,36(4):90-94.

[14]陳玉.大數據背景下電商用戶需求挖掘的個性化推薦方法研究[J].信息與電腦:理論版,2016(17):88-89.

[15]曲朝陽,周寧,曲楠,等.基于知識關聯度的電力大數據協同過濾推薦算法[J].東北師大學報:自然科學版,2018,50(1):74-78.

[16]陳玉兆.大數據下的個性化推薦研究與實現[D].西安:西安電子科技大學,2014.

[17]尤海浪,錢鋒,黃祥為,等.基于大數據挖掘構建游戲平臺個性化推薦系統的研究與實踐[J].電信科學,2014,30(10):27-32.

[18]孟祥武,紀威宇,張玉潔.大數據環境下的推薦系統[J].北京郵電大學學報,2015,38(2):1-15.

[19]金偉晟.面向大數據的可信服務推薦方法研究[D].南京:南京郵電大學,2016.

[20]劉云.基于大數據的廣告推薦方法研究及應用[D].北京:華北電力大學,2017.

[21]胡蓉.大數據環境下服務推薦系統及其關鍵方法研究[D].南京:南京大學,2014.

[22]劉海鷗,陳晶,孫晶晶,等.圖書館大數據知識服務情境化推薦系統研究[J].圖書館理論與實踐,2018,(8):98-103.

[23]屠海龍.基于大數據的協同過濾推薦算法研究[D].杭州:浙江工業大學,2018.

[24]李星.個性化推薦系統優化及其大數據處理研究[D].哈爾濱:哈爾濱工程大學,2014.

[25]謝瑤瑤.大數據模擬環境下的分布式協同過濾推薦系統的研究[D].武漢:武漢理工大學,2014.

[26]孫雨生,張晨,任潔,等.國內電子商務個性化推薦研究進展:核心技術[J].現代情報,2017,37(4):151-157.

[27]黃義文.大數據環境下圖書館學術資源個性化推薦服務研究[J].圖書館學刊,2016,38(7):78-80.

[28]嚴克文.大數據環境下電子商務個性化推薦算法應用研究[D].合肥:合肥工業大學,2016.

[29]楊國龍.企業間大數據推薦引流系統研究與設計[D].長沙:湖南大學,2016.

[30]沈杰.大數據環境下基于協同過濾的推薦系統研究與實現[D].杭州:浙江工業大學,2016.

[31]姚靜天.基于項目搭配度的大數據推薦算法研究[D].南京:南京理工大學,2017.

[32]段文彬.大數據聯盟數據資源推薦系統研究[D].哈爾濱:哈爾濱理工大學,2018.

[33]董小妹.大數據環境下基于本體的協同過濾推薦算法改進研究[D].南京:南京工業大學,2013.

[34]胡一.基于大數據的電子商務個性化信息推薦服務模式研究[D].長春:吉林大學,2015.

[35]陳澤.個性化推薦算法研究及“大數據”下的系統開發[D].重慶:重慶郵電大學,2013.

[36]鄧玉林.基于Hadoop大數據框架的個性化推薦系統研究與實現[D].成都:電子科技大學,2016.

[37]房璐璐.基于大數據分析的推薦系統研究[D].北京:北京郵電大學,2015.

[38]韓莉.大數據時代的個性化推薦技術分析[J].晉中學院學報,2016,33(3):74-77.

[39]姚凱,涂平,陳宇新,等.基于多源大數據的個性化推薦系統效果研究[J].管理科學,2018,31(5):3-15.

[40]李佳.面向大數據的協同過濾推薦算法研究[D].南充:西華師范大學,2016.

[41]葉志強.基于有線電視互動點播業務的大數據分析推薦系統探析[J].廣播電視信息,2016,(2):56-59.

[42]張健.基于大數據技術的有線電視推薦系統研究[J].中國有線電視,2016,(S1):362-365.

[43]陳永康,章美仁.基于大數據的在線就業課程推薦系統[J].電子商務,2017,(4):72-73.

(責任編輯:郭沫含)

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 伊人成人在线视频| 精品欧美一区二区三区在线| 国产精品香蕉在线观看不卡| 国产精品夜夜嗨视频免费视频| Jizz国产色系免费| 黄色一级视频欧美| 国产精品久久久久久久久久久久| 日韩在线影院| 成人国产一区二区三区| 久久精品嫩草研究院| 伊人中文网| 久久精品aⅴ无码中文字幕| 亚洲伊人天堂| 国产精品黑色丝袜的老师| 日韩精品亚洲人旧成在线| 高清色本在线www| 四虎永久在线视频| 69av免费视频| 自拍亚洲欧美精品| 无码专区国产精品一区| 国产无吗一区二区三区在线欢| 色婷婷电影网| 四虎永久在线精品国产免费| 国产18页| 超碰aⅴ人人做人人爽欧美 | 日韩黄色精品| 小13箩利洗澡无码视频免费网站| 中文字幕在线观| 亚洲精品中文字幕无乱码| 国产精品久久久久无码网站| 国产一区二区人大臿蕉香蕉| 日本午夜三级| 一区二区三区四区精品视频| 99久久国产综合精品2020| 玩两个丰满老熟女久久网| 亚洲一区无码在线| 精品国产污污免费网站| 九九热精品视频在线| 一级成人欧美一区在线观看| 亚洲天堂日韩在线| 99久久无色码中文字幕| 热re99久久精品国99热| 综合五月天网| 九九热免费在线视频| 久久久无码人妻精品无码| 香蕉伊思人视频| 欧美伦理一区| 国产日本欧美亚洲精品视| 毛片免费在线视频| 97se亚洲综合在线天天 | 久久国产精品嫖妓| 欧美激情二区三区| 精品剧情v国产在线观看| 亚洲天堂福利视频| 久久国产av麻豆| 一级成人a毛片免费播放| 在线国产91| 国产无人区一区二区三区| 国产福利免费视频| 蜜臀AV在线播放| 国产精品3p视频| 国产精品女人呻吟在线观看| 国产在线精彩视频二区| 美女黄网十八禁免费看| 中文字幕色站| 国产美女免费网站| 99久久国产自偷自偷免费一区| 91综合色区亚洲熟妇p| 亚洲欧美精品日韩欧美| 亚洲全网成人资源在线观看| 亚洲成a人片在线观看88| 国产麻豆91网在线看| 亚洲经典在线中文字幕| 高清码无在线看| 黄色一及毛片| www亚洲天堂| 久久久精品久久久久三级| 日韩精品亚洲精品第一页| 色国产视频| 国产精品久线在线观看| 亚洲精品天堂自在久久77| 中文字幕永久在线看|