陳學(xué)輝 陳少鎮(zhèn) 王培彬 藍(lán)汝琪 熊梓韜

摘要:它的設(shè)計(jì)基于內(nèi)容推薦系統(tǒng),聯(lián)合內(nèi)容的推薦算法技術(shù)解析用戶大批的行為數(shù)據(jù),在個(gè)性化推薦系統(tǒng)中將新的資訊、有意思領(lǐng)域的資訊推薦給用戶并通過頁面進(jìn)行個(gè)性化展示,以及把用戶關(guān)注領(lǐng)域的最新進(jìn)展資訊、有價(jià)值的信息或者可能喜歡的資訊推薦給用戶。按照設(shè)計(jì)思路實(shí)現(xiàn)的實(shí)例它能在文章數(shù)量充足的數(shù)據(jù)庫當(dāng)中根據(jù)用戶自定義的標(biāo)簽或者閱讀過的文章推薦類似的資訊給用戶,并展示在系統(tǒng)的推薦頁面。達(dá)到了提高信息傳播的價(jià)值、準(zhǔn)確率和降低信息傳播的偶然性的效果。
關(guān)鍵詞:個(gè)性化推薦系統(tǒng);行為數(shù)據(jù);余弦相似度;興趣偏好點(diǎn);標(biāo)簽
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)09-0014-03
Abstract: Its design is based on the content recommendation system, combined with the content recommendation algorithm technology to analyze a large number of user behavior data, in the personalized recommendation system to recommend new information, interesting areas of information about the user and personalized display through the page, and the user The latest progress information, valuable information or information you may like in the area of interest is recommended to the user. According to the design idea, it can recommend similar information about users in the database with sufficient number of articles based on user-defined tags or read articles, and display them in the system recommendation page. It has achieved the effect of improving the value, accuracy and reducing the contingency of information dissemination.
Key words: personalized recommendation system; behavioral data; cosine similarity; interest preference point; label
1 概述
隨著移動(dòng)互聯(lián)網(wǎng)的蓬勃發(fā)展,用戶對(duì)信息的需求在大規(guī)模的信息量中得到滿足,但由于信息量的大幅增長,用戶未能在自身偏好點(diǎn)或者真正需要的信息中得到滿足,從而降低了信息傳播的價(jià)值和傳播效率。就目前來說基于內(nèi)容的推薦是最符合解決這類似問題的方式,它根據(jù)用戶的標(biāo)記、收藏、需求、興趣、瀏覽記錄等行為數(shù)據(jù),作為用戶偏好點(diǎn)的根據(jù),并聯(lián)合算法進(jìn)行個(gè)性化計(jì)算分析,得出用戶的行為偏好點(diǎn),將符合用戶偏好點(diǎn)的信息形成個(gè)性化推薦系統(tǒng)推薦信息給用戶。個(gè)性化推薦系統(tǒng)區(qū)別于傳統(tǒng)信息推薦系統(tǒng)。傳統(tǒng)的做法是基于用戶對(duì)信息有明確的需求查詢,例如各種搜索引擎,根據(jù)目的搜索快速的獲得信息,這是它的優(yōu)點(diǎn)也是它的缺點(diǎn),它要求用戶必須提供明確的需求信息,因此不能滿足用戶對(duì)信息多樣性的需求。前者根據(jù)后者的不足,對(duì)推薦系統(tǒng)進(jìn)行了個(gè)性化推薦的設(shè)計(jì),改進(jìn)了傳統(tǒng)信息推薦系統(tǒng)對(duì)目的搜索獲得需求的依賴。
2 基于內(nèi)容推薦算法的推薦系統(tǒng)
2.1 主要解決的兩個(gè)問題
2.1.1個(gè)性化資訊推薦系統(tǒng)如何獲取用戶喜歡資訊類型
就目前來說,最主流的做法主要分為以下3種:
1)機(jī)器學(xué)習(xí)模型。由于數(shù)據(jù)存在變動(dòng)性,它需要持續(xù)的調(diào)整和調(diào)優(yōu)模型參數(shù)和超參數(shù)的學(xué)習(xí)更新過程,將過程循環(huán)迭代獲得最有效的評(píng)估模型。再通過驗(yàn)證和離線評(píng)估,參考評(píng)估指標(biāo)在一個(gè)或多個(gè)評(píng)估模型中獲得較為符合的模型。
2)產(chǎn)品數(shù)據(jù)。實(shí)質(zhì)上機(jī)器學(xué)習(xí)模型的檢測都需要產(chǎn)品數(shù)據(jù)的參與。它可以通過分析一系列的數(shù)據(jù),而不是僅限于單一的分類模型。持續(xù)變更的用戶歷史數(shù)據(jù),提取歷史行為記錄里能代表資訊內(nèi)容的關(guān)鍵詞(標(biāo)題的關(guān)鍵詞更為明確),比如“經(jīng)濟(jì)”“裁員”“演唱會(huì)”等,并統(tǒng)計(jì)關(guān)鍵詞出現(xiàn)的次數(shù)計(jì)算關(guān)鍵詞的權(quán)重或者統(tǒng)計(jì)資訊所屬的領(lǐng)域在哪方面,比如“政治”“娛樂”“體育”等,獲取用戶瀏覽最多的領(lǐng)域。
3)用戶調(diào)查。內(nèi)容的分布變動(dòng)性和眼球效應(yīng)(產(chǎn)品數(shù)據(jù)顯性而被動(dòng)的局限性)會(huì)對(duì)內(nèi)容的推薦質(zhì)量產(chǎn)生長久的影響。它可以把評(píng)定需要的指標(biāo)納入KPI考核中,但要明確的是不能單憑單一的KPI來評(píng)定最終的資訊內(nèi)容質(zhì)量。
2.1.2資訊內(nèi)容相似度計(jì)算
結(jié)合以上關(guān)于產(chǎn)品數(shù)據(jù)的解析不難想到,可以提取兩個(gè)資訊內(nèi)容的關(guān)鍵詞,對(duì)比它們的關(guān)鍵詞是否相同來評(píng)定兩個(gè)資訊存在的相似性。但是考慮到不同資訊內(nèi)容它表達(dá)的語態(tài)、語法等還有一篇資訊可以有好幾個(gè)關(guān)鍵詞,很難做到文章中所有的關(guān)鍵詞都匹配準(zhǔn)確。所以在內(nèi)容相似度計(jì)算的設(shè)計(jì)中需要基于兩篇資訊的關(guān)鍵詞進(jìn)行匹配度的合理量化。
3 資訊推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
設(shè)計(jì)的系統(tǒng)需要在用戶自定義的標(biāo)簽和歷史閱讀資訊中收集數(shù)據(jù),通過分析用戶的行為數(shù)據(jù)和資訊的文本內(nèi)容,提取出能代表用戶和文章的關(guān)鍵詞,如圖1:
它把用戶自定義的標(biāo)簽和資訊內(nèi)容出現(xiàn)的關(guān)鍵詞作為屬性,再把用戶的行為數(shù)據(jù)和資訊內(nèi)容分解成向量的形似,如圖2:
這樣它就把文本數(shù)據(jù)轉(zhuǎn)變?yōu)橄蛄浚缓罄糜嘞蚁嗨贫扔?jì)算向量的距離(如下公式),得出用戶偏好點(diǎn)和資訊的相似度。
相對(duì)應(yīng)公式轉(zhuǎn)換為如下代碼實(shí)現(xiàn)余弦相似度計(jì)算方法(D表示資訊詞集、w[i][j]表示第i篇資訊中的第j個(gè)詞):
這種計(jì)算過程雖說簡單,從圖1和圖2的關(guān)鍵詞來看,如果資訊里同時(shí)有體育、足球、中超關(guān)鍵詞,顯然直接匹配關(guān)鍵詞“中超”比匹配關(guān)鍵詞“體育”和“足球”準(zhǔn)確,這就很有必要獲得關(guān)鍵詞的權(quán)重了,它可以通過如下公式計(jì)算資訊中每個(gè)關(guān)鍵詞所占據(jù)的權(quán)重,精確相似度。
sim(user,text) = 資訊內(nèi)容相似度(user, text) * 權(quán)重
不過,它還需要考慮到以上關(guān)鍵詞匹配方法的局限性。以足球球迷用戶為例,如果用戶的偏好點(diǎn)是足球,而資訊內(nèi)容的關(guān)鍵詞是中超聯(lián)賽、英超聯(lián)賽和西甲聯(lián)賽等,關(guān)鍵詞間顯然無法得到關(guān)聯(lián)。所以需要在原來關(guān)鍵詞匹配的基礎(chǔ)上,結(jié)合聚類(關(guān)鍵詞聚類)與用戶進(jìn)行相似度計(jì)算。
先把資訊的關(guān)鍵詞聚類到一個(gè)主題中,例如中超聯(lián)賽、英超連死啊和西甲聯(lián)賽等聚類到“足球”的主題中,還有各類籃球聯(lián)賽等也同樣聚類到“籃球”的主題中,再把各主題的內(nèi)容與用戶的關(guān)鍵詞進(jìn)行相似度計(jì)算。這種方法的實(shí)現(xiàn)如圖5中的代碼設(shè)計(jì)(z[i][j]表示第i篇資訊中第j個(gè)詞屬于的話題):
基于以上方法簡單的實(shí)驗(yàn),它設(shè)定“我的標(biāo)簽”中包含“足球”關(guān)鍵詞,獲取用戶在 “新聞中心”的行為數(shù)據(jù)作為數(shù)據(jù)集,再基于以上余弦相似度計(jì)算方法獲得推薦資訊,并把資訊標(biāo)題展現(xiàn)在“猜你喜歡”頁面。
進(jìn)入實(shí)驗(yàn)測試系統(tǒng)后,在“我的標(biāo)簽”頁面設(shè)置用戶的各種偏好點(diǎn),然后返回“新聞中心”瀏覽由資訊庫提供的各類資訊。在這過程中,自動(dòng)收集用戶在系統(tǒng)的各種歷史行為數(shù)據(jù),進(jìn)行上述設(shè)計(jì)實(shí)驗(yàn)的過程。
當(dāng)用戶進(jìn)入“猜你喜歡”頁面時(shí),能夠獲得系統(tǒng)個(gè)性化推薦的資訊,點(diǎn)擊標(biāo)題方可進(jìn)入閱讀資訊,測試只顯示少量資訊。實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)用戶在“新聞中心”的資訊閱讀量越多時(shí),系統(tǒng)推薦的資訊內(nèi)容更準(zhǔn)確。
4 結(jié)論
基于內(nèi)容推薦算法的個(gè)性化推薦系統(tǒng)可以把資訊庫最新的資訊個(gè)性化推薦給用戶,而且新資訊被推薦的概率與舊資訊同等。它只需要依據(jù)每個(gè)用戶本身的關(guān)鍵詞獲得推薦資訊,而不需要用戶明確的需求和其他用戶的關(guān)聯(lián),所以它解決了傳統(tǒng)推薦系統(tǒng)對(duì)目的搜索的依賴和推薦系統(tǒng)的冷啟動(dòng)問題。它可以運(yùn)用到各種新聞、讀書、在線商城等網(wǎng)站和軟件,還可以運(yùn)用到跟資訊推薦有關(guān)的平臺(tái)建設(shè)當(dāng)中。但是,對(duì)于文本分詞獲得詞流,再從詞流中抽取關(guān)鍵詞還是很難的,它很難精確的檢測到描述資訊的特征,再者就是過于執(zhí)著根據(jù)關(guān)鍵詞推薦,從而失去了資訊推薦內(nèi)容的多樣性,還需要在實(shí)際的開發(fā)當(dāng)中對(duì)它繼續(xù)改進(jìn)。
參考文獻(xiàn):
[1] 項(xiàng)亮.推薦系統(tǒng)實(shí)戰(zhàn)[M].北京:人民郵電出版社, 2012:11-97.
[2] 張培穎.基于Web內(nèi)容和日志挖掘的個(gè)性化網(wǎng)頁推薦系統(tǒng)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2008(9).
[3] 吾佳芬.基于內(nèi)容的互聯(lián)網(wǎng)推薦算法[J].科教導(dǎo)刊,2016(12).
[4] 王博.新聞內(nèi)容推薦算法研究[J].信息與電腦,2016(6).
[5] 喜晶.個(gè)性化推薦技術(shù)的分析和比較[J].電腦編程技巧與維護(hù),2016(22).
[6] 王嶸冰,安維凱,馮勇,等.基于標(biāo)簽和PageRank的重要微博用戶推薦算法[J].計(jì)算機(jī)科學(xué),2018(2).
[7] 劉輝,郭夢夢,潘偉強(qiáng).個(gè)性化推薦系統(tǒng)綜述[J].常州大學(xué)學(xué)報(bào):自然科學(xué)版,2017(3).
[8] 邱爽,葛萬成,汪亮友, 等.個(gè)性化推薦中基于用戶協(xié)同過濾算法的優(yōu)化[J].信息技術(shù),2016(3).
[9] 許媛萍.基于內(nèi)容的推薦與協(xié)同過濾融合的新聞推薦分析與探究[J].新聞研究導(dǎo)刊,2018(13).
【通聯(lián)編輯:謝媛媛】