999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

個性化課程推薦中LFM自動聚類算法研究

2014-07-24 15:31:09楊立力
微型電腦應用 2014年11期
關(guān)鍵詞:用戶課程

楊立力

個性化課程推薦中LFM自動聚類算法研究

楊立力

為給學生推薦不同興趣粒度的課程,提出隱含語義模型(Latent Factor Model,以下簡稱LFM),并將其應用于網(wǎng)絡(luò)環(huán)境中學生對于課程學習點擊的隱性反饋數(shù)據(jù)集,對學生的興趣主題、行為習慣和課程類別自動聚類,然后進行Top-N推薦。實驗表明,該方法是有效的,且具有較高的準確度。

LFM隱含語義模型;個性化;推薦系統(tǒng)

0 引言

隨著計算機技術(shù)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)中的信息“超載”現(xiàn)象越來越嚴重,面對信息的“海洋”,用戶所用的信息只是滄海一粟。為了找到適合自己的信息用戶需要耗費大量的時間與精力。在網(wǎng)絡(luò)教育中也存在此問題,學習者無法快速找到需要的學習資源,面對海量信息,無法進行篩選。大量相似的信息使學習者在查找有效資源的過程中,產(chǎn)生“迷航”和迷茫不知所措的問題。因此在網(wǎng)絡(luò)教育中需要運用個性化推薦技術(shù)來更好地輔助學習者的自主學習。

當前實現(xiàn)個性化推薦應用最廣泛的是基于用戶或者基于項目的協(xié)同過濾方法。然而在傳統(tǒng)的基于協(xié)同過濾方法中,主要通過尋找相似用戶或項目進行推薦,無法照顧到項目的不同粒度。比如,對于一個用戶,他們可能有不同的興趣,就以網(wǎng)絡(luò)課程目錄為例,用戶 A會關(guān)注數(shù)學、歷史、計算機方面的課程,用戶B喜歡機器學習、編程語言、離散數(shù)學方面的課程,用戶 C喜歡大師 Sigmund Freud,Jean Piaget等人的課程,這樣在推薦的時候需要面向用戶推薦其個人感興趣的類別課程。推薦前提是要對所有item(目錄)進行分類。由于分類雖然有統(tǒng)一標準,但其類型依然會受主觀因素影響,如對于B,他喜歡的3個類別都可以算作是計算機方面的課程,也就是說B的分類粒度要比A小。而對于離散數(shù)學,他既可以類屬于數(shù)學,也可類屬于計算機,也就是說有些 item不能簡單的將其劃歸到確定的單一類別,即對于課程前期分類時應進行多維類別劃分。

目前,主要的推薦方法有基于內(nèi)容推薦、協(xié)同過濾推薦、基于關(guān)聯(lián)規(guī)則推薦、基于效用推薦、基于知識推薦和組合推薦。此處介紹個性化課程推薦平臺中LFM自動聚類算法,它能夠基于用戶的行為對item進行自動聚類,也就是把item劃分到不同類別/主題,這些主題/類別可以理解為用戶的興趣。

1 基于LFM自動聚類算法的推薦方法

基于聚類分析推薦是利用聚類分析技術(shù)按相似性原則將用戶劃分到不同簇中,然后再根據(jù)同一簇中的用戶評價信息對目標用戶進行協(xié)同推薦。采用LFM算法根據(jù)用戶的行為產(chǎn)生隱性的反饋,自動聚類出各個用戶的興趣類與條目隱類。由于聚類過程可以離線進行,因此聚類過程不影響推薦系統(tǒng)的響應速度。

本方法可以解決如下幾個問題:(1)如何給對象分類。(2)如何確定用戶感興趣對象的類型,以及感興趣的程度。(3)對于一個給定的類別,選擇哪些屬于這個類的對象推薦給用戶,以及如何確定這些對象在一個類別中的權(quán)重。

1.1 數(shù)據(jù)收集與預處理

對象(各個推薦系統(tǒng)中具體指代不同)入庫的時候,系統(tǒng)會自動為該對象分配一個惟一的對象號(也稱對象的ID或者標識)。當用戶登錄后,系統(tǒng)會自動把用戶與對象的交互情況記錄下來,系統(tǒng)記錄的是該用戶的用戶號、與其交互對象號以及此次交互的方式。交互行為如下表1所示:

表1 用戶行為分析

在信息獲取階段,各種交互方式分別用不同的數(shù)字來表示,其中數(shù)字0表示用戶點擊了該對象,數(shù)字1表示瀏覽了該對象,數(shù)字3表示用戶評論了該對象,數(shù)字4表示用戶收藏了該對象,數(shù)字5表示發(fā)布了該對象,同時不同的交互方式也代表了用戶對該對象的不同喜好程度,按照點擊、瀏覽、評論、收藏、發(fā)布的順序,用戶對該對象的喜好程度逐漸增強。

用戶對瀏覽對象的評價可以是顯式的也可以是隱式的。顯式的評價通常是用戶以數(shù)值形式對項目進行評分,如果數(shù)值很高,表示用戶非常喜歡該對象,反之表示用戶不喜歡該對象。這種方式需要專門的進行問卷調(diào)查。如果用戶希望獲得推薦系統(tǒng)的幫助,首先需要向系統(tǒng)提交他對一些對象的評價信息。隱式的評價是從數(shù)據(jù)資源中派生出來的,分析用戶在各個網(wǎng)頁的瀏覽時間、分析網(wǎng)站的日志文件、或分析用戶的定制記錄,通過分析這些隱式偏好信息,可以最終將這些信息映射為顯式評價信息。無論是顯式評價信息還是隱式評價信息,最終都可以映射為一張評價記錄表,表2是這種表格的一個簡化的示例如表2所示:

表2 用戶對對象的評價信息表

表2中的數(shù)值代表用戶給對象的評分數(shù)值,數(shù)值越高,表示客戶越喜歡該對象。從表2中,會發(fā)現(xiàn)用戶E與用戶A的學習偏好基本是一致的,因此,可以判斷出用戶E也會喜歡對象5。

采集樣本時遵循以下原則:(1)對于每個用戶,要保證正負樣本的平衡。(2)對于每個用戶采樣負樣本時,選取那些很熱門,而用戶卻沒有行為的對象。根據(jù)用戶行為不同,標記行為的權(quán)重為w,則給對象i的興趣度標記為Rui=w;對于展示給用戶u的對象i,當用戶沒有發(fā)生過行為,就定義(u,i)為負樣本,Rui=0。

負樣本采樣算法:

def RandomSelectNegativeSample(self, items):

ret = dict()

for i in items.keys():

ret[i] = 1

n = 0

for i in range(0, len(items) * 3)

item = items_pool[random.randint(0, len(items_pool) -1)]

if item in ret:

continue

ret[item] = 0

n + = 1

if n > len(items):

break

return ret ifn>len(items):

break

returnret

在上面的偽代碼中,items_pool維護了候選對象的列表,在這個列表中,對象i出現(xiàn)的次數(shù)和對象i的流行度成正比。items是一個 dict,它維護了用戶已經(jīng)有過行為的對象的集合。

1.2 用戶興趣和對象隱類自動聚類

在可見的用戶對象中歸結(jié)出3個類別,不等于該用戶就只喜歡這3類,對其他類別的對象就一點興趣也沒有。也就是說,需要了解用戶對于所有類別的興趣度。對于一個給定的類來說,需要確定這個類中每個對象屬于該類別的權(quán)重。權(quán)重有助于確定推薦哪些對象給用戶。對于一個給定的用戶行為數(shù)據(jù)集(數(shù)據(jù)集包含的是所有的user,所有的item,以及每個user有過行為的item列表),使用LFM對其建模后,可以得到如圖1所示的模型:(假設(shè)數(shù)據(jù)集中有3個user,4個item,LFM建模的分類數(shù)為4)

圖 1 LFM隱類模型

R矩陣是user-item矩陣,矩陣值Rij表示的是user i對item j的興趣度,這正是要求的值。對于一個user來說,當計算出他對所有 item的興趣度后,就可以進行排序并作出推薦。LFM算法從數(shù)據(jù)集中抽取出若干主題,作為user和item之間連接的橋梁,將R矩陣表示為P矩陣和Q矩陣相乘。其中P矩陣是user-class矩陣,矩陣值Pij表示的是user i對class j的興趣度;Q矩陣式class-item矩陣,矩陣值Qij表示的是item j在class i中的權(quán)重,權(quán)重越高越能作為該類的代表。所以LFM根據(jù)如下公式來計算用戶u對對象i的興趣度:

接下去的問題就是如何計算矩陣p和矩陣q中參數(shù)值。本方法采用最優(yōu)化損失函數(shù)來求參數(shù)。經(jīng)過采樣之后原有的數(shù)據(jù)集得到擴充,得到一個新的user-item集K={U,I)},其中如果(U,I)是正樣本,則RUI=1,否則RUI=0。因此,興趣的取值范圍為[0,1]。損失函數(shù)如下所示:

迭代計算不斷優(yōu)化參數(shù)(迭代次數(shù)事先人為設(shè)置),直到參數(shù)收斂。

其中,α是學習速率,α越大,迭代下降的越快。α和λ一樣,也需要根據(jù)實際的應用場景反復實驗得到。

綜上所述,執(zhí)行LFM需要,根據(jù)數(shù)據(jù)集初始化P和Q矩陣。

確定4個參數(shù):分類數(shù)F,迭代次數(shù)N,學習速率α,正則化參數(shù)λ。

LFM的偽代碼如下:

def LFM(user_items, F, N, alpha, lambda):

#初始化P,Q矩陣

[P, Q] = InitModel(user_items, F)

#開始迭代

For step in range(0, N):

#從數(shù)據(jù)集中依次取出user以及該user喜歡的iterms集

for user, items in user_item.iterms():

#隨機抽樣,為user抽取與items數(shù)量相當?shù)呢摌颖荆⒄摌颖竞喜ⅲ?于優(yōu)化計算

samples = RandSelectNegativeSamples(items)

#依次獲取item和user對該item的興趣度

for item, rui in samples.items():

#根據(jù)當前參數(shù)計算誤差

eui = eui - Predict(user, item)

#優(yōu)化參數(shù)

for f in range(0, F):

P[user][f] += alpha * (eui * Q[f][item] - lambda * P[user][f])

Q[f][item] += alpha * (eui * P[user][f] - lambda * Q[f][item])

#每次迭代完后,都要降低學習速率。一開始的時候由于離最優(yōu)值相差甚遠,因此快速下降;

#當優(yōu)化到一定程度后,就需要放慢學習速率,慢慢的接近最優(yōu)值。

alpha *= 0.9

通過以上算法訓練,得到表示用戶興趣課程偏好向量P以及課程隱類向量Q。

1.3 計算生成推薦結(jié)果

對于收集的顯性評價,找到和目標用戶有類似評價的用戶集合即興趣相似的用戶,找到這個集合中的用戶喜歡的,且目標用戶沒查詢到的對象,推薦生成初始推薦列表推薦給目標用戶。給定用戶u和用戶v,令N(u)表示用戶u曾經(jīng)有過正反饋的對象集合。那么,可以通過余弦相似度公式計算u和v的興趣相似度:

然后提取用戶的行為日志記錄進行樣本采集計算得到用戶的興趣偏好向量P與對象隱類向量Q,通過公式(1)計算出精確的推薦結(jié)果并與初始列表進行合并刪除列表中已經(jīng)存在的對象,按照對象的類別進行分組并在每組中按照權(quán)值的大小進行排序,然后選擇Top-N寫入最終推薦列表并推送到前臺UI界面。

2 實驗

為驗證算法的有效性,選用 CourseLens數(shù)據(jù)集,使用LFM計算出用興趣向量p和課程向量q,然后對于每個隱類找出權(quán)重最大的課程。如表3所示:

表3 CourseLens數(shù)據(jù)集中根據(jù)LFM計算出的不同隱類中權(quán)重最高的課程

表中展示了4個隱類中排名最高(qik最大)的一些課程。結(jié)果表明,每一類的課程都是合理的,都代表了一類用戶喜歡的課程。從而說明LFM確實可以實現(xiàn)通過用戶行為將課程聚類的功能。

其次,通過實驗對比了 LFM、UserCF(基于用戶的協(xié)同過濾算法)、ItemCF(基于物品的協(xié)同過濾算法)在TopN推薦中的性能。UserCF中的K表示K個相似的用戶,ItemCF中的K表示K個相似的物品。因此離線實驗測量了不同K值下UserCF算法、ItemCF的性能指標如表3所示。ItemCF在LFM中,重要的參數(shù)有4個:

(1)隱特征的個數(shù)F;

(2)學習速率alpha;

(3)正則化參數(shù)lambda;

(4)負樣本/正樣本比例ratio。

通過實驗發(fā)現(xiàn),ratio參數(shù)對LFM的性能影響最大。因此,固定F=100、alpha=0.02、

lambda=0.01,然后研究負樣本/正樣本比例ratio對推薦結(jié)果性能的影響。

隨著負樣本數(shù)目的增加,LFM 的準確率和召回率有明顯提高。不過當ratio>10以后,準確率和召回率基本就比較穩(wěn)定了。同時,隨著負樣本數(shù)目的增加,覆蓋率不斷降低,而推薦結(jié)果的流行度不斷增加,說明 ratio參數(shù)控制了推薦算法發(fā)掘長尾的能力。將LFM的結(jié)果ItemCF和UserCF算法的性能相比,可以發(fā)現(xiàn)LFM在所有指標上都優(yōu)于UserCF和ItemCF。但是當數(shù)據(jù)集非常稀疏時,LFM的性能會明顯下降。

3 總結(jié)

個性化課程推薦中LFM自動聚類算法是從用戶興趣粒度多樣性的角度來進行相應推薦的,而且是自動的,即用戶獲得的推薦是系統(tǒng)從用戶隱性反饋數(shù)據(jù)中獲得的,不需要用戶努力地找到適合自己興趣的推薦信息。雖然該算法解決了推薦過程中粒度差異性問題,以及提高了推薦的準確性等參數(shù)。但仍存在稀疏問題(Sparsity)和可擴展問題(Scalability),相信這些問題在將來實際應用過程中可以逐步的完善解決。

[1] 王春紅,張敏.隱含語義索引模型的分析與研究[J].計算機應用,2007.

[2] 郭敏,董健全,宋智.基于 P2P的隱含語義索引模型的研究[J].計算機工程與設(shè)計,2005.

[3] 馬宏偉,張光衛(wèi),李娜.協(xié)同過濾推薦算法綜述[J].小型微型計算機系統(tǒng),2009.

[4] 張玉英,孟海東.數(shù)據(jù)挖掘技術(shù)中聚類算法的改進研究[J].包頭鋼鐵學院學報,2005.

[5] Brin S, Page L. The anatomy of a large-scale hypertextual Web search engine[J]. Computer networks and ISDN systems,2011, 30(1): 107-117.

[6] Resnick P, Varian H R. Recommender systems[J]. Communications of the ACM, 2010, 40(3): 56-58.

[7] Heymann P, Garcia-Molina H. Collaborative creation of communal hierarchical taxonom ies in social tagging systems[J]. 2006.

[8] Lamere P. Social tagging and music information retrieval[J]. Journal of New Music Research, 2008, 37(2): 101-114.

[9] TrantJ,Wyman B. Investigating social tagging and folksonomy in art museums w ith steve. museum[C]//Collaborative Web Tagging Workshop at WWW 2012, Edinburgh, Scotland. 2006.

Research on Based LFM Automatic Clustering Algorithm of Personalized Course Recommendation

Yang Lili
(Nanjing Institute of Industry Technology, Nanjing 210046, China)

To recommend courses in different particle sizes of interest for students, Latent Factor Model (Hereinafter refers as LFM) is proposed in this paper, which is applied to the implicit feedback data set in the network environment that students click on the course. It automatically clusters the interest and behaviors of students and the course category and recommending Top-N items. Experiments show that the method is effective and has high accuracy.

LFM; Personalized; Recommendation System

TP311

A

2014.06.25)

江蘇省高等教育教改研究(2013JSJG356);院級教研課題(GJ13-11)

楊立力(1978-),女,黑龍江省佳木斯市人,南京工業(yè)職業(yè)技術(shù)學院,講師,碩士研究生,CCF會員,研究方向:現(xiàn)代教育技術(shù),南京,210046

1007-757X(2014)11-0028-04

猜你喜歡
用戶課程
《無機化學》課程教學改革
云南化工(2021年6期)2021-12-21 07:31:42
數(shù)字圖像處理課程混合式教學改革與探索
軟件設(shè)計與開發(fā)實踐課程探索與實踐
計算機教育(2020年5期)2020-07-24 08:53:38
為什么要學習HAA課程?
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
100萬用戶
如何獲取一億海外用戶
主站蜘蛛池模板: 婷婷色丁香综合激情| 国产在线一区二区视频| 欧美黑人欧美精品刺激| 激情亚洲天堂| 久久精品这里只有精99品| 欧美色视频在线| 成人无码区免费视频网站蜜臀| 日韩人妻无码制服丝袜视频| 久久精品中文字幕免费| 亚洲国产精品无码久久一线| 精品超清无码视频在线观看| 又黄又湿又爽的视频| 亚洲精品你懂的| 精品少妇人妻av无码久久| 一区二区无码在线视频| 午夜福利网址| 国产h视频在线观看视频| 女人18毛片一级毛片在线 | 狠狠躁天天躁夜夜躁婷婷| 亚州AV秘 一区二区三区| 四虎永久免费网站| 日韩第九页| 在线日本国产成人免费的| 国产在线精彩视频二区| 欧洲极品无码一区二区三区| 中文字幕在线一区二区在线| 欧美成人综合在线| 2021国产精品自产拍在线| 国产视频欧美| www.国产福利| 国产亚洲欧美在线中文bt天堂 | 狂欢视频在线观看不卡| 97久久人人超碰国产精品| 国产一国产一有一级毛片视频| 911亚洲精品| 久久人人97超碰人人澡爱香蕉| 国产精品男人的天堂| 国产精品丝袜视频| 日韩黄色大片免费看| 美女免费黄网站| 3344在线观看无码| 亚洲视频三级| 国产人人乐人人爱| 国产视频一区二区在线观看| 精品国产香蕉伊思人在线| 国产精品午夜福利麻豆| 国产剧情一区二区| 亚洲精品国产成人7777| 欧美激情成人网| 久久网欧美| 亚洲精品制服丝袜二区| 中文无码精品A∨在线观看不卡| 亚洲国产清纯| 亚洲av无码牛牛影视在线二区| 亚洲免费毛片| 午夜少妇精品视频小电影| 呦女亚洲一区精品| 67194亚洲无码| 午夜天堂视频| 亚洲—日韩aV在线| 国产香蕉在线| 国产九九精品视频| 国产aⅴ无码专区亚洲av综合网| 欧美激情视频二区| 无码中文字幕乱码免费2| a色毛片免费视频| 久久精品亚洲热综合一区二区| 视频一区亚洲| 91视频99| 强乱中文字幕在线播放不卡| 欧洲欧美人成免费全部视频 | 丝袜亚洲综合| 四虎在线高清无码| 国产人成午夜免费看| 五月天香蕉视频国产亚| 97国产精品视频人人做人人爱| 中文字幕在线视频免费| 久久国产拍爱| 亚洲色图欧美| 极品尤物av美乳在线观看| 在线欧美日韩| 99久久精品免费看国产免费软件 |