999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘技術的電子商務網站個性化推薦分析

2021-12-17 09:08:54張昊
電子制作 2021年22期
關鍵詞:頁面特征文本

張昊

(湖北第二師范學院計算機學院,湖北武漢,430205)

Web文本挖掘主要是為了能夠在Web頁面內成功提取關鍵知識信息,個性化推薦就如同“信息找人”這一方式,想要提高個性化推薦的精準率,就要保證信息有效性這一重要基礎,所以文本挖掘作為如今個性化推薦中的熱門研究話題[1]。Web文本挖掘技術作為多樣化的個性化推薦中分支,包括了建立特征表示,提取重要文檔,進行聚類分析以及計算相似性。以往利用空間向量模型表示文本,最終的推薦結果準確度不高,并且關鍵文本的判斷推理能力不強,無法有效優化個性化推薦集[2]。不僅如此用戶在訪問電商網站存在自身興趣愛好改變的可能性,因此需要一種精準性更高的文本挖掘技術,來對用戶的變化及時跟蹤且及時響應。本文就此提出基于文本挖掘技術的電子商務網站個性化推薦技術,提高電商網站的推薦精準性。

1 基于Web文本挖掘推薦模型

自信息運動論在學術界提出后,就上升了“信息”概念至“全信息理論”,一定程度上代表獲取信息資源,完成開發且加以利用的全過程[3]。在Web訪問的過程中也作為產生信息的運動過程,用戶在每一次訪問過程中都會在Web服務器中留下信息,也就是挖掘對象與傳統推薦模型相結合,加入Web文本挖掘、BM25F模型內,在電商網站平臺構建個性化推薦模型(見圖1)。

圖1 基于Web挖掘的個性化推薦模型

根據上文建立此模型分為上、下兩部分,上面主要為了對Web服務器數據結構進行分析,完成服務器日志預處理,成功提取事物集并運用模型計算文本表示與權重,通過聚類分析得到Web文本文檔集。下面主要經Web數據預處理,對用戶會話進行分析,對不同會話內不同Web頁面中關鍵特征詞條的權重。之后運用該模型中夾角余弦完成會話和Web文本文檔集的相似性結果,計算得出個性化推薦集[4]。

2 文本詞條獲取

■2.1 挖掘服務器日志

挖掘文本數據作為提取訪客的頁面訪問日志,提取相關頁面的核心關鍵詞,用于對用戶網頁訪問行為興趣的跟蹤依據。

首先分析電商網站的頁面結構,通常包括了菜單索引、商品詳情、導航欄、服務說明等模塊,其中關聯個性化推薦的功能即商品信息展示[5]。由于如今提取關鍵詞條技術僅僅能夠獲取文本內容,包括了商品詳情,且為了可以更快捷的在平臺網站中成功檢索此商品,多數內容都要利用爬蟲技術優化。

再者提取用戶的交易事務,其中包含了過濾數據、識別用戶和會話的步驟,數據過濾主要是為了對無關、錯誤數據進行清洗,通過清洗這些數據有助于減少后續形成個性化推薦的聚類分析負荷。用戶識別文本就是利用cookie技術跟蹤訪客,有著極高的技術可行性,但是不足之處就是存在關閉瀏覽器cookie的可能性。假若發生此種情況運用SessionID技術,會在訪客訪問中產生動態化唯一標識,可是無法記錄用戶的重復性訪問行為。會話識別主要用于區分用戶的單一訪問,用戶登錄電商網站后會自動獲取單一會話,對會話行動進行跟蹤假若30分鐘以上并無任何活動就會自動斷開。

■2.2 提取特征詞條

文本挖掘的首要核心任務即在訪問頁面中提取文本特征詞條,如訪客在網站中產生的一系列頁面訪問A1,A2,A3,...,An,對n個網絡頁面內獲取每頁核心詞條,能夠實時掌握用戶的不同行為偏好及具體變化情況。需要運用分詞技術來獲取特征詞條,但是難處就在于最大化消除歧義,在中文語法內斷句不同歧義就會有所不同[6]。為了對這一問題妥善解決,如今CRFs算法作為常規中文分詞用法,基于條件隨機域算法CRF基礎上演變形成。此算法居于線性序列,在給定A參數 (λ1,λ2,λ3,...λn)的線性鏈CRFs對應序列X=x1,...xr中Y=y1,...,yr狀態的條件概率公式如下:

公式(1)內XZ作為歸一化因子,能夠將全部狀態序列概率與均作為二值的特征函數,相應的權重為[7]。

此模型算法能夠較好的解決如今中文分詞內可能遇到的相關問,那么解決此問題也為后續特征詞條的提取打下良好基礎。因為發生此詞條的對應所在位不同,那么重要度也就有較大差別,所以需要對應重要度權重位進行劃分。本文劃分了網站一個頁面包括標題、內容、meta描述標簽以上3個域,權重分別對應0.5,0.3,0.2。所獲取每個頁面內的排名前六詞條,用于表示當前頁面,詞條量過少則代表整體頁面,如果過多就必然加大后續的聚類分析負荷。

■2.3 特征詞條聚類分析

在提取對應特征詞條后,轉變完整交易事務為特征層詞條為表示的詞條組,多個交易事務會形成相關矩陣,對于單一頁面特征詞用T={t1,t2,t3...tn}表示,完整交易事務用Page={p1,p2,p3,...pm}表示,那么表示單一頁面的特征詞條權重公式如下[8]:

聚類分析算法主要是為了對于特征詞條之間相似基礎上,完成目標數據分類,最終成功凝聚接近相似數據。本文選用層次聚類分析尋找相似點高的用戶群,以聚類分析結果為依據,可以相互推薦相似興趣點的用戶購買行為。對于最后的推薦排序問題,可以對比用戶在電商平臺的購買結果,以及購物車、收藏夾內的清單情況,假若存在重復可以進行清洗。之后依據用戶的相似群內商品相似度作為排序依據,為了確保用戶最終滿意可以選擇推薦數量直至恰當。

■2.4 匹配文檔形成個性化推薦

使用Web文本挖掘技術跟蹤網站服務器日志,對跟蹤結果完成預處理,形成處理后的用戶會話U={u1,u2,u3,...um},ui表示類似上節pci,具體的計算公式如下:

計算ui中,wu表示在web頁面內pi所處目前用戶會話U內的相應權重情況,通過計算頁面中全部特征詞條總權重,和頁面集的全部特征詞累計權重和的比值。

針對聚類分析中所在頁面的交易事務權重表示公式如下:

對用戶會話U、文本文檔pc之間相似性結果進行計算,本文使用夾角余弦公式:

根據以上計算過程可以產生最終的推薦結果,所得每個頁面推薦值主要包括兩部分,分別是相似值和權重值。

3 實驗分析

本文為了對比提出基于web文本挖掘技術的個性化推薦模型應用實效,選用某模型Java變成和Apache Tomcat6.0服務器,以及MySQL數據庫,所開發的電商網站為實驗平臺,建立個性化推薦模型。將本文提出此模型對比傳統TF*IDF方法,根據最終的個性化推薦結果精準率、召回率,證實本文提出此個性化推薦模型的應用效果。召回率作為推薦結果內包含相關文檔所占整個集合的相關文檔比例,精準率作為在個性化推薦結果文檔的占比。

運用TF*IDF計算因為Web文本特征為特征詞集合,分析特征詞個數逐漸增加精準率和召回率比較,實驗由3個特征次數逐漸增加18個對比精準率與召回率(見圖2、圖3)。

圖2 精準率

圖3 召回率

經對比分析兩種模型精準率、召回率逐漸衰減,根據精準率相較本文建立個性化推薦模型下降率逐漸平緩,最終計算結果發現本文該模型較傳統TF*IDF模型的計算結果明顯優,精準率呈平緩下降趨勢,可以很好的解決傳統算法中個性化信息推薦滯后這一問題。在召回率方面隨著詞條量的逐漸增加,最終計算結果都呈明顯下降趨勢,但是本文提出該模型的結果始終更高。但是要注意的一點就是需要嚴格控制特征詞條的數量選擇,假若詞語過多也會一定程度上降低最終結果的有效性。

4 結語

總而言之,本文提出基于Web文本挖掘技術的電商網站個性化推薦模型,在實驗中發現通過挖掘服務器日志、提取特征詞條,并對特征詞條進行聚類分析,最后匹配文檔形成個性化推薦結果以上過程。在實驗中與TF*IDF相較本文提出的個性化推薦模型,能夠有效解決傳統算法中個性化信息推薦滯后的問題。但是本模型也存在一定不足之處,由于文中劃分電商網頁的3個“域”,所以對模型的計算復雜度進一步加劇,也要增強和解決服務器的日志過濾,都作為后續要解決的重要問題。

猜你喜歡
頁面特征文本
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 在线中文字幕日韩| 69免费在线视频| 亚洲天天更新| 欧美中文字幕在线二区| 永久免费AⅤ无码网站在线观看| 婷婷色在线视频| 久久久久久午夜精品| 国产又色又刺激高潮免费看| 成年人视频一区二区| 2022精品国偷自产免费观看| 99久久精品国产自免费| 欧美日韩精品在线播放| 国产精品分类视频分类一区| 五月婷婷伊人网| 亚洲成年人网| 欧美a级在线| 国产极品美女在线| 亚洲中文字幕av无码区| 国产亚洲第一页| 伊人久久青草青青综合| 久久永久视频| 无码AV高清毛片中国一级毛片| 久久免费看片| 婷婷伊人五月| 免费人成在线观看视频色| 热99re99首页精品亚洲五月天| 成年女人18毛片毛片免费| 欧美国产日本高清不卡| 日韩大乳视频中文字幕| 就去吻亚洲精品国产欧美| 99久久国产综合精品2020| 精品99在线观看| 无遮挡一级毛片呦女视频| 日韩国产黄色网站| 日韩国产综合精选| 成人无码区免费视频网站蜜臀| 午夜欧美理论2019理论| 亚洲第一成年网| 欧美亚洲国产一区| 成人韩免费网站| 免费全部高H视频无码无遮掩| 婷婷久久综合九色综合88| 91在线播放免费不卡无毒| 亚洲精品国产综合99久久夜夜嗨| 天天综合网色| 日韩毛片免费| 欧美国产视频| 国产第一页屁屁影院| 亚洲中文字幕23页在线| 久久亚洲天堂| 欧美三级自拍| 伊人查蕉在线观看国产精品| 国产一区亚洲一区| 国产精品爆乳99久久| 国产在线精彩视频论坛| 欧美日韩专区| 99在线视频精品| 欧美一区二区人人喊爽| 国产成人亚洲精品色欲AV | 美女潮喷出白浆在线观看视频| 国产中文在线亚洲精品官网| 伊人久久久久久久| 国产乱人伦AV在线A| 成年人福利视频| 精品一区二区久久久久网站| 人妻少妇久久久久久97人妻| 久久无码av三级| 国产成人高清精品免费软件| 久久久久国产精品熟女影院| 996免费视频国产在线播放| 天天干天天色综合网| 亚洲美女AV免费一区| 久久精品娱乐亚洲领先| 成人在线综合| a级毛片免费看| 欧美激情二区三区| 91成人在线免费视频| 日韩高清欧美| 自慰高潮喷白浆在线观看| 99热最新网址| 国产视频自拍一区| 中文成人在线视频|