999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

時空大數據推薦系統設計與實現*

2023-09-17 12:25:50楊娜趙廣杰張多才聞鵬
科技與創新 2023年17期
關鍵詞:特征用戶產品

楊娜,趙廣杰,張多才,聞鵬

(西安航天天繪數據技術有限公司,陜西 西安 710061)

時空數據是具有時間和空間等屬性的數據統稱,時空數據無所不在,從空天地專用傳感器到物聯網中各類傳感器,會產生前所未有的時空大數據。以空間衛星為例說明遙感大數據,目前全球在軌衛星總共約3 300 顆,涵蓋陸地資源、氣象海洋軍民商衛星,可產生多源遙感衛星大數據。多源遙感衛星數據、地理測繪數據、全球高清影像數據、海量傳感器數據等組成空天地時空大數據。同時呈現過量的數據信息,用戶無法從中獲取所需要的部分,信息使用效率反而降低。傳統的搜索引擎往往是根據用戶輸入的數據字符串對信息進行檢索,難以滿足用戶的個性化需求,而推薦系統是解決信息過載最有效的方式。

學術界對推薦系統進行了大量研究,本文概述了針對大數據、用戶畫像、數據內容、地理空間位置推薦系統的相關研究。基于大數據的推薦系統已經成為了移動互聯網的研究熱點,文獻[1-2]分別基于大數據計算框架設計了用戶畫像平臺、基于用戶畫像的推薦系統;文獻[3-4]通過采集用戶信息建立用戶個人畫像,使用推薦算法向用戶推薦課程資源或閱讀資源,提高了推廣成功率;文獻[5]提出基于用戶興趣的個性化推薦系統設計方案,分析用戶訪問的新聞數據,提取新聞的特征詞,建立用戶興趣模型,實現了新聞個性化推薦;文獻[6]設計和實現的推薦系統,利用系統頁面訪問次數與頁面停留時間,產生向用戶推薦的頻繁項集;文獻[7]提出了基于數據挖掘的上下文感知個性化旅游推薦系統,利用用戶照片地理位置上下文,提取用戶歷史旅游地點,對用戶感興趣的旅游地點進行推薦;文獻[8]設計了基于情景預測的實時營銷系統,關注店面地理位置和考慮用戶消費周期,提高了推薦算法精度;文獻[9]通過視頻主題和用戶畫像自動地生成興趣播單,向用戶推薦電影,幫助用戶發現感興趣的視頻,提高平臺流量。以上文獻分別利用大數據平臺、推薦內容的地理位置及內容信息、用戶行為習慣等設計了推薦系統,目前未檢索到針對時空大數據的推薦系統。

本文針對時空大數據共享場景,采用大數據計算框架和自然語言處理等技術,設計了時空大數據推薦系統,并且考慮了產品數據的位置、時間信息,對用戶行為進行了分析。

1 相關技術

1.1 Apache Spark 計算框架

Apache Spark 是一個開源的用于分布式計算的通用框架,為批處理、微批處理和交互式處理提供高性能的服務。Spark 被優化在內存中運行,能夠更快地處理數據。Spark 涵蓋各種工作負載,包括批處理應用程序、迭代算法、流式處理和交互式查詢。

Spark Core 是Spark 框架的基礎通用執行引擎,所有其他組件都是基于此引擎實現,它在外部存儲系統中提供內存計算和數據集引用服務。

Spark Streaming 是Spark 核心API(Application Program Interface,應用程序接口)的一個擴展,用于流式數據處理。它利用Spark Core 的快速調度功能來執行流式分析,對實時流式數據的處理具有可擴展性、高吞吐量、可容錯性等特點。能夠接收實時的輸入數據流,然后將這些數據切分為批數據,提供給Spark引擎進行處理,Spark 引擎對數據進行處理生成運算結果。數據可以從許多來源(如Kafka,它是由Apache軟件基金會開發的一個開源流處理平臺)獲取,并且可以使用復雜的算法進行處理,這些算法用map、reduce、join 和window 等高級函數表示。

Spark SQL 將SQL(Structured Query Language,結構化查詢語言)查詢與Spark 程序結合,為結構化數據處理提供支持,將結構化數據作為Spark 中的RDD(Resilient Distributed Datasets,分布式數據集)進行查詢。它提供Python、Scala 和Java API,能夠運行SQL 查詢及復雜的分析算法。它提供多種方式與Spark SQL 進行交互,包括SQL、Dataset AP 等。

1.2 自然語言模型

本文使用的自然語言模型有詞袋模型、詞向量模型。詞袋模型將所有詞語裝進一個袋子里,不考慮其詞法和語序的問題,即每個詞語都是獨立的,完全丟失語序關系,只要在上下文之內即可。word2vec 是基于神經網絡的語言模型,這種詞向量模型能夠將自然語言中的詞轉化為詞向量,語義相似的詞會有相似的向量表示。

word2vec 利用語料庫訓練出的word2vec 模型,可用來映射每個詞到一個向量,可用來表示詞對詞之間的關系。根據詞語相似度構建模型,對語法分析、文本分析等有很大的提升。利用語料庫,對word2vec 詞向量模型進行訓練,將完成的訓練模型文件保存,輸出詞向量模型文件。HanLP(Han Language Processing)是由一系列模型與算法組成的Java 工具包,設計詞袋模型、word2vec 詞向量模型等。

2 系統設計

2.1 系統架構設計

通過采集分析用戶行為數據,引接時空產品數據,設計時空大數據推薦模型,實現個性化推薦、熱門推薦、產品相似推薦等應用。系統包括數據采集層、數據處理層、模型層和應用層,其總體架構設計如圖1 所示。

圖1 時空大數據推薦總體設計

2.1.1 數據采集層

完成用戶行為數據、用戶屬性數據和外部數據源數據等各類數據的采集,是推薦系統模型分析的數據來源。其中用戶行為數據包括搜索日志數據、瀏覽記錄數據,外部數據源采集包括資源目錄數據、產品數據、POI(Point Of Interest,興趣點)數據。

其中,POI數據是地理信息系統中的一個術語,是一切可以抽象為空間點的現實世界的實體,每個POI包含名稱、類別、坐標和分類4 方面信息,例如名稱為“可可西里鹽湖地區”就是一個POI。

2.1.2 數據處理層

對采集的數據進行分析處理,構建用戶畫像,提取數據產品特征,形成用戶畫像庫和產品特征庫。

2.1.3 模型層

分析用戶行為數據和產品數據,結合用戶畫像庫和產品特征庫,構建基于用戶畫像的個性化推薦模型、最熱推薦模型、產品相似推薦模型,為應用層提供算法支撐。

2.1.4 應用層

基于模型層提供的算法,實現首頁個性化推薦、首頁最熱推薦、產品詳情頁相似推薦。

2.2 推薦系統流程

推薦系統由數據采集到推薦服務的實現流程如圖2 所示。

圖2 推薦系統流程

主要實現步驟如下:①用戶行為數據采集。通過埋點的方式,獲取用戶搜索產品、瀏覽產品詳情等行為數據,將采集數據存儲到消息中間件中。②產品數據采集。利用ETL(Extract Transform Load,數據倉庫技術)工具,連接外部數據源,采集外部數據源產品數據,將采集數據存儲到推薦系統產品庫中,實現產品數據采集。③用戶畫像構建。從消息中間件讀取用戶行為數據,并解析存儲,同時生成用戶標簽,包括用戶角色標簽、用戶興趣標簽,構建用戶畫像庫。④產品特征提取。產品特征提取包括產品標簽提取和數據產品關聯。其中,產品標簽提取包括圖像的目標標簽、專題產品標簽、分類標簽;數據產品關聯包括產品數據與POI數據的關聯。⑤推薦服務引擎。基于用戶畫像的個性化推薦、最熱推薦、產品相似推薦組成推薦服務引擎。其中,基于用戶畫像的個性化推薦是通過計算用戶興趣標簽與產品相似性,生成產品推薦列表;最熱推薦是基于Spark SQL 技術,對產品瀏覽數據進行統計分析,獲取當前最熱門的產品數據;產品相似推薦是根據產品特征相似度,向用戶返回瀏覽產品的推薦列表,實現產品相似推薦。⑥推薦應用。將推薦結果通過Web 服務方式展示給用戶,用戶在系統頁面查看推薦結果,從而實現首頁推薦和詳情頁推薦。

3 系統功能設計與實現

3.1 數據采集層

數據采集層主要實現用戶行為數據采集、用戶屬性數據和外部數據源數據采集。

3.1.1 用戶行為數據采集

用戶行為數據主要包括搜索記錄數據和瀏覽記錄數據,通過埋點的方式實現用戶行為數據采集,實現過程如下。

用戶在瀏覽器頁面輸入關鍵詞搜索數據或點擊數據詳情觸發埋點服務調用,將行為記錄數據發送到消息中間件,數據采集服務從消息中間件提取用戶行為數據,將行為數據存儲到緩存數據庫中,實現行為數據采集。采用異步方式實現對用戶行為信息的采集,提高服務并發量。用戶行為數據格式如表1 所示。

表1 用戶行為數據格式

3.1.2 用戶屬性信息采集

用戶屬性信息主要包括用戶所屬部門、角色等信息,其中用戶角色分為圖像產品人員、專題產品人員等。通過用戶登入注冊服務,將用戶屬性信息輸入到消息中間件中,推薦系統從中間件中提取用戶屬性信息,采集用戶屬性信息。

3.1.3 外部數據源采集

外部數據源數據主要包括資源目錄數據、產品數據、POI數據,其中產品數據包括圖像產品數據、專題產品數據等。采用ETL 采集工具,配置數據采集任務,定時采集數據,將外部數據源產品信息采集到推薦系統數據庫中。采集任務配置的主要步驟包括增加數據源,選擇源端、目的端數據庫表,配置字段映射,提交采集任務配置和采集調度策略配置。定時調度執行采集任務,實現對外部數據源數據的采集。

3.2 數據處理層

3.2.1 用戶畫像構建

用戶畫像是根據用戶社會屬性、用戶行為等信息抽象出的一個標簽化的用戶模型。構建用戶畫像的核心工作即是給用戶貼“標簽”,用標簽來描述用戶的行為和特征,而標簽是通過對用戶信息分析而得來的高度簡練的特征標識,是一種簡潔的用于描述用戶信息的方法。用戶畫像構建步驟如下。

用戶畫像標簽體系構建:通過分析時空大數據用戶靜態、動態數據,建立數據分類體系,設計標簽形式。標簽形式分為用戶靜態標簽和用戶動態標簽。其中,用戶靜態標簽根據用戶的角色信息得到;用戶動態標簽是對用戶行為進行分析挖掘得到的,包括興趣點標簽、興趣事件標簽、興趣目錄標簽。用戶畫像標簽體系如圖3 所示。

圖3 用戶畫像標簽體系

用戶行為分析及動態標簽生成:結合構建的用戶標簽體系,從用戶行為數據中提取關鍵詞,獲取用戶感興趣的興趣點、興趣事件、興趣目錄。采用NLP(Nature Language Processing,自然語言處理)等技術對采集的用戶行為數據進行分析,生成用戶動態標簽,構建用戶畫像。

具體實現步驟為:基于采集的用戶搜索記錄數據,利用NLP 技術提取興趣點、興趣事件、興趣目錄,并按搜索時間倒序存儲到redis 緩存庫中;利用用戶產品瀏覽記錄數據,查詢獲取產品元數據信息,將用戶瀏覽記錄、產品元數據轉換為用戶、興趣點、事件、興趣目錄關鍵詞格式,按時間倒序存儲到redis 緩存庫中,形成用戶畫像庫。

3.2.2 數據產品特征提取

數據產品特征主要包括產品類型、關聯興趣點、關聯事件特征、所屬資源目錄。針對圖像產品、專題產品等不同數據類型,分別研制產品POI數據關聯模塊和專題產品提取模塊,實現不同數據的產品特征提取,將數據特征存儲到產品特征庫中。數據產品特征組成如圖4 所示。

圖4 數據產品特征組成圖

產品POI數據關聯:針對圖像產品數據,采用ETL將圖像產品元數據與POI數據關聯,關聯的POI名稱作為圖像產品的特征。

具體實現步驟為:針對采集的圖像產品元數據,提取圖像產品經緯度坐標,計算圖像經緯度坐標與興趣點坐標距離,當距離小于閾值,該興趣點與圖像產品是關聯,將關聯的興趣點ID 與名稱存儲到圖像產品元數據庫中,實現圖像產品與POI數據關聯。

專題產品提取:針對專題產品數據,利用NLP 技術智能提取專題產品特征信息,提取興趣點-興趣事件-時間關鍵信息,并存儲到專題產品數據庫中;引接純文本專題數據,提取文本數據中的摘要信息并存儲到產品庫中。

3.3 模型層

模型層包括基于用戶畫像的個性化推薦模型、最熱推薦模型和產品相似分析模型3 種推薦模型。其中,基于用戶畫像的個性化推薦模型為系統首頁“猜你喜歡”提供推薦服務接口,最熱推薦模型為系統首頁“最熱推薦”提供推薦服務接口,產品特征相似度分析模型向數據產品詳情頁提供推薦服務接口。

3.4 應用層

通過應用層展示時空數據共享推薦系統推薦的數據,包括首頁個性化推薦、首頁最熱推薦和產品詳情頁相似推薦3 種推薦應用。

3.4.1 首頁個性化推薦

通過基于用戶畫像的個性化推薦模型,實現個性化推薦Web 服務接口,該服務返回topn個與用戶標簽相似度最高的數據產品,將個性化推薦數據展示到系統首頁“猜你喜歡”推薦列表下。

3.4.2 首頁最熱推薦

通過最熱推薦模型,對用戶行為數據進行統計分析,實現最熱推薦服務。用戶訪問系統首頁,發起最熱推薦請求,返回推薦請求數據,將最熱推薦數據展示到系統首頁“最熱推薦”列表下。

3.4.3 產品詳情頁相似推薦

用戶通過系統查詢檢索功能,獲取數據產品列表,點擊感興趣的產品,進入產品詳情頁,詳情頁面右側部分,展示與產品相似的數據產品列表。

通過word2vec 語義查詢,構造產品相似推薦模型,實現產品相似推薦服務,該服務接口返回與瀏覽產品最相似的topn個產品列表,向用戶展示推薦的相似產品列表。

4 推薦服務引擎

在基于用戶畫像個性化推薦模型、最熱推薦模型和產品相似分析模型基礎上,設計推薦服務引擎,為應用層提供推薦接口。

4.1 基于用戶畫像的個性化推薦分析

若數據產品特征與用戶標簽相同或者相似,那么它們就是有內在相關性的。所以可以利用已提取的數據產品特征,分析數據產品與用戶標簽的相似程度,進而得出與用戶相似度高的數據產品列表。

基于數據處理層生成的用戶畫像庫和數據產品特征庫,構建基于用戶畫像的個性化推薦模型,對用戶產品喜好程度進行預測,向用戶推薦感興趣的數據。

根據發起推薦請求用戶ID,獲取該用戶的標簽,計算用戶標簽與數據產品特征的相似度,并對用戶的相似產品進行倒序排列,獲取最相似的topn個產品。與用戶最相似的topn個數據產品計算API如下:

式中:x、y為用戶標簽內容和最相似產品個數變量。

基于用戶畫像個性化推薦的實現過程如圖5所示。

圖5 基于用戶畫像個性化推薦的實現過程

實現步驟如下:用戶u 訪問系統首頁,發起個性化推薦請求;系統接收到推薦請求,根據用戶的ID 從用戶畫像庫查找到用戶u 的畫像標簽;根據數據產品特征庫,進行數據產品與用戶畫像的相似度計算;將計算得出的產品相似度倒序排列,向用戶返回topn個相似度最高的產品列表。

4.2 最熱推薦分析

對采集的用戶行為數據進行分析,統計數據產品訪問次數,構建最熱推薦分析模型。實現過程如下:利用Spark SQL 框架,研制最熱推薦分析模塊,從消息中間件中讀取用戶行為數據,基于統計模型進行數據產品訪問次數統計,將分析結果存儲到Redis 緩存數據庫中。用戶發起最熱推薦請求,系統從緩存中獲取訪問次數最高的n個數據產品,通過應用服務向用戶展示推薦列表。

4.3 產品相似分析

用戶已經瀏覽過或正在瀏覽當前產品,因此剔除候選集中當前瀏覽的產品。獲取候選集產品列表,根據word2vec 詞向量模型,將產品特征轉為詞向量,得到產品特征詞向量列表。可以用一個詞或多個詞的查詢語句來得到產品特征庫中與查詢產品特征語義上最相似的topn個產品(產品ID 及其相似度),實現過程如下。

4.3.1 構造產品文檔向量模型

首先需要加載一個預先訓練好的word2vec 詞向量模型(通過開源網站下載獲取模型文件),然后加載待查詢的產品列表,將產品特征轉化為特征向量。

產品特征向量是基于詞向量,將一個產品特征列表轉換成向量的模型(詞袋模型)。每個產品由多個特征標簽組成,分別將產品特征標簽轉化為詞向量,詞向量相加組成產品特征向量,計算公式如下:

式中:y為產品的特征向量;xi為產品特征標簽向量變量。

將產品列表中的每個產品特征轉化為產品特征向量,組成產品特征向量集合,計算公式如下:

式中:map(y)為計算得出的產品特征向量集合;yj為產品特征向量變量。

4.3.2 語義查詢

可以用一個產品特征詞或多個特征詞的查詢語句來得到產品特征向量集合中與查詢特征語義上最相似的topn個產品(ID 及其相似度)。語義查詢步驟如下。

根據產品特征進行onehot 編碼并轉換為詞袋向量,根據word2vec 詞向量模型,將待推薦產品特征轉為特征向量,然后通過cosine 相似度公式,計算產品詞向量列表與待推薦產品詞向量的相似度。相似度計算公式如下:

式中:T(x,y)為產品x與產品y的相似度;xi和yi分別為產品x與產品y的特征值變量。

計算該產品特征與產品列表的相似度,倒序排列,獲取相似度最高的n個產品,向用戶返回產品推薦列表。

5 結束語

本文分析了用戶的行為數據,根據用戶的興趣特點和瀏覽行為,結合產品特征信息,設計了基于用戶畫像的推薦模型、最熱推薦模型和產品相似推薦模型,基于推薦模型實現推薦應用向用戶推薦感興趣的產品信息。隨著產品種類擴展和數據量增加,下一步采用離線任務、實時任務相結合的方式設計推薦系統,離線任務計算生成推薦候選集,實時任務從候選集中過濾排序推薦列表。進一步根據系統長時間運行數據,計算推薦算法的準確率和召回率,提高算法精度和系統體驗,從而更好地服務于時空大數據共享服務平臺。

猜你喜歡
特征用戶產品
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
2015產品LOOKBOOK直擊
Coco薇(2015年1期)2015-08-13 02:23:50
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
新產品
玩具(2009年10期)2009-11-04 02:33:14
主站蜘蛛池模板: 国产成人无码播放| 久久精品人妻中文系列| 乱色熟女综合一区二区| 激情爆乳一区二区| 亚洲日本韩在线观看| h视频在线播放| 亚洲欧美日韩中文字幕在线| 国产福利一区在线| 97无码免费人妻超级碰碰碰| 热久久这里是精品6免费观看| 伊人成人在线视频| 国产好痛疼轻点好爽的视频| 欧美在线中文字幕| 性69交片免费看| 永久成人无码激情视频免费| 亚洲电影天堂在线国语对白| 91久久国产热精品免费| 欧美日韩国产系列在线观看| 亚洲色无码专线精品观看| 欧美一区二区福利视频| 欧美一道本| 中文字幕乱码二三区免费| 国产又粗又爽视频| 国产成人一区| 国产又粗又爽视频| 99久久精品视香蕉蕉| 国产91在线|中文| 国内毛片视频| 欧美人在线一区二区三区| 欧美一级夜夜爽www| 国内精品久久九九国产精品| 久久永久视频| 人妻91无码色偷偷色噜噜噜| 露脸国产精品自产在线播| 亚洲Va中文字幕久久一区| 精品国产一区91在线| 午夜电影在线观看国产1区| 亚洲一区二区视频在线观看| 国产噜噜噜视频在线观看| 毛片大全免费观看| 精品国产三级在线观看| 91小视频在线播放| 久久鸭综合久久国产| 亚洲精品不卡午夜精品| 亚洲国产欧美国产综合久久 | 色妞www精品视频一级下载| 亚洲三级色| 亚洲永久视频| 国产毛片不卡| 91精选国产大片| 中日韩一区二区三区中文免费视频| 欧美日韩91| 人妻丰满熟妇αv无码| 九九视频免费在线观看| 亚洲日韩图片专区第1页| 成人91在线| 亚洲美女一级毛片| 狠狠做深爱婷婷久久一区| 夜精品a一区二区三区| 亚洲欧美另类专区| 色网站免费在线观看| 亚洲欧美另类中文字幕| 天天综合网亚洲网站| 99人体免费视频| 精品国产自在现线看久久| 国产一区二区在线视频观看| 日韩无码一二三区| 日韩国产综合精选| 成人无码区免费视频网站蜜臀| 美女潮喷出白浆在线观看视频| 欧美精品v欧洲精品| 欧美国产精品不卡在线观看 | 红杏AV在线无码| 亚洲黄色激情网站| 9啪在线视频| 无码专区国产精品一区| 日本欧美一二三区色视频| 精品国产免费观看| 欧美国产三级| 97视频免费在线观看| 狠狠ⅴ日韩v欧美v天堂| jizz在线免费播放|