999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智能推薦算法在規(guī)國房系統(tǒng)中的應(yīng)用

2018-09-29 02:59:04盛逍遙吳友邦
天津科技 2018年9期
關(guān)鍵詞:引擎內(nèi)容用戶

盛逍遙,吳友邦,王 翔,李 麗

(天津市濱海新區(qū)規(guī)劃和國土資源地理信息中心 天津300450)

0 引 言

規(guī)國房系統(tǒng)一般部署在內(nèi)網(wǎng)以保障數(shù)據(jù)安全,導(dǎo)致用戶獲取行業(yè)外部資訊困難。大數(shù)據(jù)時代使得引擎搜索結(jié)果龐大而復(fù)雜,規(guī)國房專屬資訊產(chǎn)品較少、針對性弱,造成用戶查找資料耗時長、效率低。如何面向用戶實現(xiàn)個性化資訊推薦是規(guī)國房系統(tǒng)資訊版塊需要解決的關(guān)鍵問題之一。本文采用 Python語言的 Scrapy框架爬蟲爬取了規(guī)國房行業(yè)網(wǎng)站相關(guān)模塊數(shù)據(jù),聚合了規(guī)國房行業(yè)信息。由于爬取的數(shù)據(jù)量很大,為解決推薦模型計算開銷,提高計算和加載速度,采用熱度值倒排的方式取出百條數(shù)據(jù)作為內(nèi)容庫,熱度值計算考慮時間因素和總點擊量;再根據(jù)TF-IDF算法提取每篇文章的關(guān)鍵詞,并對百條數(shù)據(jù)按照點擊、點贊、收藏、評論、搜索等用戶行為進行權(quán)重賦值,計算結(jié)果按大小排序;最后根據(jù)權(quán)重計算結(jié)果得出的興趣關(guān)鍵詞與提取的文章關(guān)鍵詞進行余弦相似度計算,最終實現(xiàn)針對不同用戶的個性化資訊推薦。

1 網(wǎng)絡(luò)爬蟲技術(shù)

網(wǎng)絡(luò)爬蟲[1]是一種按照一定的規(guī)則,自動從網(wǎng)頁上獲取內(nèi)容的程序。它們被廣泛用于互聯(lián)網(wǎng)搜索引擎或其他類似網(wǎng)站,以獲取或更新這些網(wǎng)站的內(nèi)容和檢索方式[2]。本文采用網(wǎng)絡(luò)爬蟲技術(shù)自動采集能夠訪問到的規(guī)國房行業(yè)網(wǎng)站頁面內(nèi)容,實現(xiàn)規(guī)國房相關(guān)資訊信息的聚合,目的是解決內(nèi)網(wǎng)用戶獲取外部資訊困難和篩查耗時問題,同時根據(jù)用戶需要分檢整理網(wǎng)站頁面,提高用戶信息檢索效率。

1.1 網(wǎng)絡(luò)爬蟲基本工作原理

網(wǎng)絡(luò)爬蟲是一個自動獲取網(wǎng)頁內(nèi)容的程序,一般分為數(shù)據(jù)采集、處理、存儲三個部分。如圖1所示,首先從 web中選取一個或多個與規(guī)國房行業(yè)相關(guān)的種子 URL作為待爬取 URL隊列,下載頁面獲取HTML源碼,通過數(shù)據(jù)解析模塊,采用正則表達式匹配以獲取網(wǎng)頁中感興趣內(nèi)容,再從 HTML源碼中提取 URL地址、正文內(nèi)容和圖片,正文內(nèi)容和圖片分別存入圖形庫和頁面庫,URL放入已爬取 URL隊列,調(diào)度模塊通過分析將未爬取的 URL按照一定順序放入待爬取 URL隊列,如此循環(huán)直到滿足停止條件,完成整個頁面爬取。然后,對爬取的數(shù)據(jù)進行清洗、整理,建立索引,存入數(shù)據(jù)庫[3]。

圖1 爬蟲基本工作原理Fig.1 Basic working principle of spider

1.2 Python語言Scrapy框架實現(xiàn)爬取的過程

Python語言簡單易學(xué),擁有現(xiàn)成的爬蟲框架Scrapy,強大的網(wǎng)絡(luò)支持庫和文本處理庫,能夠快速實現(xiàn)特定功能的網(wǎng)絡(luò)爬蟲[2],所以本文采用 Scrapy框架。Scrapy由引擎、調(diào)度、下載器、spider 4種組件及組件之間相互調(diào)度的中間件組成[3]。其流程如下:待處理的URL通過引擎以Request形式處理,spider爬取待處理的 URL,引擎向調(diào)度器請求下一個爬取的URL,并通過調(diào)度中間件將待爬取的URL發(fā)送給Scrapy,通過引擎調(diào)度將此URL轉(zhuǎn)發(fā)給下載器,下載器自動產(chǎn)生一個 Response并通過中間件發(fā)送給引擎,引擎再將 Response發(fā)送給 spider進行下一步處理,spider處理Response并返回爬取到的條目及新的Request給引擎,引擎將 spider返回的內(nèi)容(items)發(fā)送給傳播管道,并將spider獲取的Request通過中間件傳給調(diào)度,如此循環(huán)直到?jīng)]有新的 URL產(chǎn)生,退出 Scrapy引擎,完成相關(guān)頁面的爬取工作[3]。Scrapy框架的整體運行流程如圖2所示。

圖2 Scrapy框架整體運行流程Fig.2 Overall running process of the scrapy framework

2 算法

2.1 TF-IDF提取關(guān)鍵詞

本文采用 TF-IDF算法實現(xiàn)文章關(guān)鍵詞提取,TF-IDF等于詞頻(TF)與逆文檔頻率(IDF)的乘積。詞頻(term frequency,TF)表示某個詞語在某標題或文章中出現(xiàn)的次數(shù);逆向文件頻率(inverse document frequency,IDF)是某一詞語普遍重要性度量,由總文章數(shù)除以包含該詞語的文章數(shù),再將其結(jié)果取對數(shù)得到[4]。TF越大說明該詞語在該標題或文章中出現(xiàn)的次數(shù)越多,IDF越大說明該詞語越重要[5],將 TF-IDF計算結(jié)果按大小排序,即得到關(guān)鍵詞排序。

2.2 余弦相似度

余弦相似度(cosine similarity)通過兩個向量之間夾角的余弦值大小來衡量文章的相似性。余弦相似度計算如式(1)所示。

我們通過TF-IDF算法計算的關(guān)鍵詞得到兩篇文章的詞頻向量,分別用A和B表示。我們認為兩篇文章用詞越相似則內(nèi)容也越相近,據(jù)此從熱度值倒排的百級數(shù)據(jù)內(nèi)容庫中進行兩篇文章的詞頻向量夾角余弦值計算,或者把根據(jù)用戶行為進行權(quán)重計算得出的興趣關(guān)鍵詞與提取的文章關(guān)鍵詞作為兩個詞頻向量進行夾角余弦值計算,其夾角越小則余弦值越接近1,說明兩個向量距離越小,文章相似度越大[5]。

2.3 實現(xiàn)過程

本文的推薦模型用形式化方式表達就是擬合用戶對內(nèi)容滿意度的函數(shù),這個函數(shù)包括兩個維度的變量,分別為內(nèi)容特征和用戶特征。其中用戶特征包括用戶固有屬性和各種興趣標簽,固有屬性包括性別、年齡、職業(yè)、職位等,興趣標簽通過點擊、點贊、評論、搜索、收藏等用戶行為獲取[6]。本文推薦模型采用基本實時訓(xùn)練,當客戶端接收到用戶操作行為后,傳給服務(wù)器端實時記錄,然后根據(jù)算法重新計算優(yōu)化用戶模型,當用戶重新刷新后會根據(jù)新的用戶行為數(shù)據(jù)生成的用戶模型進行文章推薦。因為抓取的網(wǎng)站內(nèi)容量非常大,為提高計算和加載速度,本文考慮采用熱度值計算,從抓取的巨大內(nèi)容庫中篩選出百級別內(nèi)容庫,熱度值計算考慮時間因素和總點擊量,當用戶沒有點擊行為時只考慮時間因素解決冷啟動問題,計算公式見式(2)。

其中score表示計算得到的熱度值,basic表示基本分(本文的基本分賦值為0),click表示用戶總點擊量,day_diff表示時間差,即文章發(fā)表時間和當下時間的差值。

內(nèi)容特征的提取采用TF-IDF算法提取每篇文章的關(guān)鍵詞,然后將熱度值倒排后的百條數(shù)據(jù)按照點擊、點贊、收藏、評論、搜索等用戶行為進行權(quán)重賦值,具體記錄指標及權(quán)重值見表1,再根據(jù)權(quán)重計算結(jié)果得出的興趣關(guān)鍵詞與提取的文章關(guān)鍵詞進行余弦相似度計算,實現(xiàn)用戶個性化資訊推薦。

表1 用戶行為記錄指標及權(quán)重值Tab.1 Record index and weight value of user behaviors

3 資訊推薦平臺

本文開發(fā)了規(guī)國房系統(tǒng)的資訊推薦平臺,用戶通過系統(tǒng)注冊登錄平臺進入推薦首頁,如圖3所示。

圖3 推薦首頁Fig.3 Page of recommendation

首頁導(dǎo)航欄包括推薦、法規(guī)、樓市、解讀、規(guī)劃、國土、微文 7個分類,推薦模塊根據(jù)用戶行為數(shù)據(jù)采用了推薦算法進行相似內(nèi)容的推薦,其他主題采用動態(tài)分類方式,在爬蟲階段通過算法實現(xiàn)內(nèi)容自動分類,主題模塊的文章是按時間順利排序,用戶主動搜索的形式實現(xiàn)查找的需要,沒有考慮推薦算法。假設(shè)用戶對規(guī)劃行業(yè)的國家法規(guī)感興趣,系統(tǒng)會根據(jù)興趣模型推薦規(guī)劃行業(yè)其他政策法規(guī),用戶可以根據(jù)需要點擊瀏覽,閱讀時還可以對文章進行點贊、收藏、評論等操作[6],同時系統(tǒng)也會記錄用戶行為作為用戶刷新后個性化推薦的數(shù)據(jù)依據(jù)。若用戶有明確的瀏覽需求,可以在搜索框中輸入關(guān)鍵字進行檢索,文章會按照關(guān)鍵字符合程度依次排序。當用戶第一次登錄資訊平臺時,系統(tǒng)會根據(jù)熱度值進行冷啟動,在積累了一定的用戶行為后,就可以根據(jù)用戶數(shù)據(jù)依照相應(yīng)的規(guī)則和推薦算法進行智能推薦。

本平臺的優(yōu)勢不僅在于聚合了多網(wǎng)站數(shù)據(jù),減少了用戶資料查找工作量,提高了信息獲取的速度和準確度,而且打破了傳統(tǒng)規(guī)國房系統(tǒng)或者網(wǎng)站平臺的封閉模式,通過爬蟲爬取不同網(wǎng)站來源的內(nèi)容豐富了規(guī)國房資訊內(nèi)容,解決了平臺新聞更新頻率慢以及內(nèi)網(wǎng)用戶資訊獲取困難的問題。同時,融合互聯(lián)網(wǎng)思維,通過獲取用戶行為數(shù)據(jù),基于用戶興趣模型和智能推薦算法進行個性化資訊推薦,可減少互聯(lián)網(wǎng)時代信息繁雜篩查耗時的問題。另外,此平臺提供了 API接口,通過接口調(diào)用的方式可以移植到其他系統(tǒng),應(yīng)用靈活便利。

4 展 望

平臺雖然解決了規(guī)國房行業(yè)內(nèi)網(wǎng)用戶的信息獲取問題,結(jié)合用戶興趣模型和推薦算法實現(xiàn)不同用戶的個性化資訊推薦。但目前在算法中只考慮了評估內(nèi)容特征和用戶特征是否匹配的相關(guān)性問題以及根據(jù)熱度特征解決的冷啟動問題,沒有考慮用戶協(xié)同特征和內(nèi)容協(xié)同特征。即只針對個體用戶歷史行為的內(nèi)容匹配推薦,沒有相似用戶群體的協(xié)同過濾推薦和基于相似內(nèi)容的協(xié)同過濾推薦。下一步,將通過使用K-means聚類算法,擬合出最優(yōu)分類結(jié)果,實現(xiàn)相似內(nèi)容的聚類,當用戶點擊一類資訊信息后會推薦相似的文章內(nèi)容。通過用戶歷史行為分析不同用戶間相似性,建立“用戶-興趣資訊”空間向量模型,利用余弦相似度計算當前用戶與其他目標用戶之間的相似度,排列出與當前用戶類似相關(guān)的 n名目標用戶,按程度高低進行排序,篩選出前 N名作為最類似用戶集合 S,通過遍歷 S中所有用戶的資訊閱讀情況,統(tǒng)計出閱覽次數(shù)最多但當前用戶沒有閱讀過的資訊,然后對這些資訊進行高低排序,尋找合適的資訊集合推薦給當前用戶[7]。

猜你喜歡
引擎內(nèi)容用戶
內(nèi)容回顧溫故知新
藍谷: “涉藍”新引擎
商周刊(2017年22期)2017-11-09 05:08:31
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
主要內(nèi)容
臺聲(2016年2期)2016-09-16 01:06:53
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
無形的引擎
河南電力(2015年5期)2015-06-08 06:01:46
基于Cocos2d引擎的PuzzleGame開發(fā)
如何獲取一億海外用戶
One?。牛睿纾椋睿濉。蹋澹妫糁皇O乱粋€引擎
主站蜘蛛池模板: 久久动漫精品| 日韩国产精品无码一区二区三区| 91久久国产综合精品| 国内精品伊人久久久久7777人| 美女裸体18禁网站| 无码中文AⅤ在线观看| 国产午夜一级毛片| 欧美一区二区人人喊爽| 日韩午夜福利在线观看| 国产国产人免费视频成18| 久久中文字幕av不卡一区二区| 26uuu国产精品视频| 中国国产A一级毛片| 成年人久久黄色网站| 波多野结衣一区二区三区四区视频 | 91亚洲国产视频| 日韩国产无码一区| 色欲色欲久久综合网| 欧美成人免费一区在线播放| 四虎影视永久在线精品| 亚洲精品无码不卡在线播放| 欧美日韩福利| 无码人妻免费| 99精品福利视频| 三区在线视频| 亚洲天堂视频在线播放| 国产一二三区在线| 91成人在线免费视频| 婷婷伊人久久| 亚洲视频二| 日韩A级毛片一区二区三区| a级毛片免费网站| 久久久久久尹人网香蕉 | 一级爱做片免费观看久久| 亚洲床戏一区| 久久久噜噜噜久久中文字幕色伊伊 | 国产精品夜夜嗨视频免费视频| 国产区91| 成人福利在线看| 米奇精品一区二区三区| 欧洲日本亚洲中文字幕| 99久久无色码中文字幕| 热re99久久精品国99热| 91外围女在线观看| 国产一区二区三区夜色| 伊人欧美在线| 色天天综合| 国产人成网线在线播放va| 亚洲国产综合精品一区| 亚洲欧美在线看片AI| 久夜色精品国产噜噜| 国产视频大全| 伊人狠狠丁香婷婷综合色| 亚洲国产成人在线| 日韩 欧美 国产 精品 综合| 五月天综合网亚洲综合天堂网| 久久免费视频6| 99视频有精品视频免费观看| 亚洲看片网| 激情无码视频在线看| 亚洲中文久久精品无玛| 伊大人香蕉久久网欧美| 久久国产精品夜色| 亚洲第一在线播放| 不卡无码h在线观看| 久久人体视频| 五月天丁香婷婷综合久久| 无码专区在线观看| 中文字幕亚洲第一| 精品综合久久久久久97超人该| 国产极品粉嫩小泬免费看| 欧美全免费aaaaaa特黄在线| 色偷偷男人的天堂亚洲av| 日本国产精品一区久久久| 中文字幕在线日韩91| 99热这里只有成人精品国产| 国产精品大白天新婚身材| 夜夜操天天摸| 无码专区国产精品第一页| 国产成人亚洲综合a∨婷婷| 97在线碰| 成年片色大黄全免费网站久久|