999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

KDD2010比賽中基于Mahout協(xié)同過濾算法的應(yīng)用研究

2017-07-18 11:50:59黃鶴
電子測試 2017年7期
關(guān)鍵詞:用戶學(xué)生

黃鶴

(四川職業(yè)技術(shù)學(xué)院,四川成都,629000)

KDD2010比賽中基于Mahout協(xié)同過濾算法的應(yīng)用研究

黃鶴

(四川職業(yè)技術(shù)學(xué)院,四川成都,629000)

由于在線教育的迅猛發(fā)展,個性化教育應(yīng)運而生,怎樣在網(wǎng)絡(luò)教育當(dāng)中存儲的海量用戶數(shù)據(jù)提取反映用戶學(xué)習(xí)能力水平與有助于提高用戶學(xué)習(xí)水平的有價值信息特別關(guān)鍵,為此商業(yè)推薦領(lǐng)域廣泛應(yīng)用協(xié)同過濾推薦算法,以便將個性化推薦提供給用戶使用者。本文通過在KDD2010比賽當(dāng)中過濾技術(shù)作用發(fā)揮,有效結(jié)合教育數(shù)據(jù)挖掘,借助Apache Mahout的Taste組件各種方法,仿真建模教育數(shù)據(jù),根據(jù)實施的實驗反饋取得良好預(yù)測效果。

KDD2010比賽;Mahout;協(xié)同過濾算法;協(xié)同過濾推薦算法

1 算法評估

為確保推薦算法有效性,應(yīng)該通過對比模式進(jìn)行驗證,使用者評分這是一種直觀的方法。當(dāng)尚未擁有使用者評分條件,處理應(yīng)該建立一套合理評分指標(biāo)。為此,協(xié)同過濾算法的一個重要環(huán)節(jié)據(jù)說選取哪種標(biāo)準(zhǔn)評價。要想具備更為準(zhǔn)確推薦結(jié)果,形成良性循環(huán),必須有效契合用戶需求和推薦結(jié)果,用戶具備特別高滿意度,那么就可以將推薦系統(tǒng)介紹給相似用戶。本文借助計算均方根誤差值實施處理,所指的就是預(yù)測值和現(xiàn)實評分差異,以便確立算法有效程度。首先就是獲得某一項目評分值,使得確定最終推薦有效性,當(dāng)計算均方根誤差值越小,那么體現(xiàn)相對可靠的推薦算法,反之,就是算法結(jié)果不好。預(yù)先設(shè)定I為問題步驟集合,S是學(xué)生集合,I是某個問題步驟,s是某個學(xué)生,相應(yīng)的計算公式為:

以上計算均方根誤差值的公式當(dāng)中,借助計算機(jī)測試集中的未知項來進(jìn)行評判預(yù)測效果優(yōu)劣性,然而均方根誤差值屬于計算數(shù)值分布在0到1范圍數(shù)據(jù)誤差分析,那么選擇計算該數(shù)值完全和本實驗數(shù)據(jù)集符合。

2 基于Apache Mahout算法實驗

通過Apache Mahout仿真算法實驗完成之前必須建立數(shù)據(jù)模型,確立實體信息與相互關(guān)系,有助于數(shù)據(jù)庫設(shè)計與系統(tǒng)數(shù)據(jù)模型建立。

圖1 學(xué)生與作答題目類模型圖

本文選取的主要有表示學(xué)生類的Student類、表示問題步驟的ProblemStep類、表示某一學(xué)生作答某一問題步驟結(jié)果的StucentProference類,根據(jù)以上思路,那么具體的實現(xiàn)步驟如下。

第一步為建立數(shù)據(jù)庫存儲,通過把之前類別數(shù)據(jù)在相應(yīng)數(shù)據(jù)庫當(dāng)中存儲,而還要你管管讀寫文件等相關(guān)數(shù)據(jù)操作實驗數(shù)據(jù),那么在MySQL數(shù)據(jù)庫當(dāng)中存儲轉(zhuǎn)變之后的特定格式數(shù)據(jù)。Mahout引擎只接受自定義DataModel類型輸入的數(shù)據(jù),不能接受別的類型數(shù)據(jù)。

第二步做好存儲推薦算法數(shù)據(jù)。本系統(tǒng)在JDBCDataModel數(shù)據(jù)類型讀取選取的是數(shù)據(jù)庫,這一數(shù)據(jù)類型有效的將DataModel類型繼承,可以將相關(guān)數(shù)據(jù)在所有形式數(shù)據(jù)源當(dāng)中讀取,而且在這一過程當(dāng)中,還存在相應(yīng)的內(nèi)存讀取類型等別的類型操作方法。此外實驗還應(yīng)該擴(kuò)展MySQLJDBCDataModel,從而可以讓題目推薦算法當(dāng)中的DataModel的實現(xiàn)。

第三步是實現(xiàn)推薦模型。在這里主要是選取基于用戶、項目、SVD模型的協(xié)同過濾推薦算法的Mahout實現(xiàn)的介紹。

3 計算方法

余弦相似性和調(diào)整后余弦相似性則是現(xiàn)階段比較高使用率的兩種相似度求解模式通過兩種近似度導(dǎo)致的均方根誤差值計算與對比,在預(yù)測效果上更為準(zhǔn)確的是修正余弦相似性,那么基于用戶協(xié)調(diào)過濾選取修正余弦相似性推薦。基于item協(xié)同過濾方法進(jìn)行均方根誤差值計算要低于基于用戶協(xié)同過濾,體現(xiàn)出更好推薦效果的是基于item協(xié)同過濾方法。究其原因,主要是基于用戶協(xié)同過濾面臨數(shù)據(jù)稀疏性,基于item協(xié)同過濾往往直接比較的是項目之間相似性,將用戶之間比較跳過去。為此應(yīng)該對數(shù)據(jù)稀疏性問題進(jìn)行考慮。

從本文的觀點來看,稀疏性就是根據(jù)ITS系統(tǒng)當(dāng)中存在的二十一萬多個不同問題,全部學(xué)生存在作答記錄并不現(xiàn)實,那么就會導(dǎo)致很多空缺值。默認(rèn)余弦相似性計算就是把沒有作答題目作答結(jié)果預(yù)先設(shè)置成0,或者是別的學(xué)生作答評價這一題數(shù)值。當(dāng)設(shè)定的是0,別的用戶作答是1,在用戶相似度計算的過程當(dāng)中,可能明顯降低兩人相似程度;另外的兩名學(xué)生對于某一道題目尚未作答,那么把作答結(jié)果設(shè)置成平均值或者零,那么兩人擁有一致結(jié)果,極大的增加兩人相似度,現(xiàn)實兩個學(xué)生可能有不同作答結(jié)果,那么只是把作答結(jié)果設(shè)置成1并不可取。

計算相關(guān)近似性方法不同于余弦相似性,第一步就是將兩個用戶作答過步驟形成一個集合,基于此求出用戶相似度,一些相似性進(jìn)行相似度求解借助皮爾森相關(guān)系數(shù),比較余弦相似性借助0值處理,有何更為合理結(jié)果。另外,調(diào)整之后余弦相似性和相關(guān)相似性保持一致,這種方法相應(yīng)規(guī)范評價標(biāo)準(zhǔn)。本文尚未談到評價尺度,然而借助修正余弦相似性可以將誤差范圍縮小,將學(xué)生作答題目平均分實施平衡評價尺度,這存在著更好效果。本文則是通過修正余弦相似性比較相似度。

雖然調(diào)整后余弦相似性能夠?qū)⑿枨笠欢M足,然而受到處理期局限,那么使用者在比較低稀疏度的時候有比較多的機(jī)會回答同一問題,實際處理環(huán)節(jié)用戶間特別少作答相同問題。基于小規(guī)模項目集合角度進(jìn)行分析,當(dāng)存在十分明顯評分相似度,那么不能確定用戶間特別相似。這也就顯示出這種方法也有問題,如果要想結(jié)果有效性增強(qiáng),必須實施相應(yīng)措施,使得用戶-項目評分矩陣內(nèi)容增加,永輝可以作答同一問題,這也就將推薦意義提升。

4 實驗描述

4.1 設(shè)定參數(shù)

進(jìn)行學(xué)生-問題步驟答題矩陣的設(shè)定,在這一矩陣當(dāng)中,m顯示的是學(xué)生數(shù)量,n顯示的是問題步驟數(shù),Ri×j顯示的是學(xué)生i作答步驟j的結(jié)果,如果學(xué)生在作答的項沒有作答就通過空值顯示。

4.2 項目相似性計算

通過調(diào)整后余弦相似性處理求解項目i,j相似度,具體公式為:

根據(jù)以上公式,Uij顯示的是題目i與題目j所有答案學(xué)生集合,學(xué)生i作答問題對于集合確定為Ui,學(xué)生j作答問題對于集合確定為Uj。

4.3 稀疏矩陣填充

預(yù)測未作答題目公式為:

在以上公式當(dāng)中,sim(i,j)所顯示的為學(xué)生i和最近鄰居j相似度,Pu,j取得的評分值往學(xué)生-題目作答矩陣當(dāng)中回填。

4.4 計算學(xué)生用戶之間相似性

兩個學(xué)生相似度計算公式為:

在以上公式當(dāng)中,Iuv顯示的是學(xué)生u與v共同作答的題目集合,Iu顯示的是學(xué)生u作答題目步驟集合,Iv顯示的是學(xué)生v作答的題目步驟集合,Rui顯示的是學(xué)生u對于題目步驟i作答結(jié)果,Rvi顯示的是學(xué)生v對于題目步驟i作答結(jié)果。

4.5 生成最近鄰居集

根據(jù)對全部用戶集合的有效結(jié)合,得到與目標(biāo)學(xué)生u相似度明顯的K個學(xué)生,確定u最近鄰居集合,另外學(xué)生Uk按照相似明顯性實施排列。

4.6 產(chǎn)生推薦結(jié)果

借助加權(quán)平均策略,產(chǎn)生學(xué)生u預(yù)測作答題目步驟i結(jié)果:

這一公式求得的就是預(yù)測回答結(jié)果值,別的負(fù)號和之前定義一致。獲得最近鄰居內(nèi)相同問題差異化回答結(jié)果,從而讓加權(quán)平均值確定下來,推薦集則是非集合當(dāng)中的前面的第N項數(shù)值。

4.7 計算均方根誤差值對比觀察

通過比較填充之后計算預(yù)測結(jié)果和實際結(jié)果,那么就能夠獲得計算的均方根誤差值,隨后做好填充之后模型效果觀察,具體的實驗結(jié)果能夠通過表1進(jìn)行顯示。

表1 均方根誤差值比較列表

按照上表反饋的結(jié)果來看,填充學(xué)生-題目作答矩陣,計算獲得的均方根誤差值比較小,體現(xiàn)出比較填充之前,矩陣填充之后推薦結(jié)果更好。究其原因,這主要是用戶回答同一問題矩陣規(guī)模迅速增加,這樣的模式可以節(jié)省獲取最近鄰居用戶時間,那么存在更為合理的推薦結(jié)果。此次實驗獲得的結(jié)果要比比賽當(dāng)中得到第三名的0.3328的結(jié)果還要好,這就顯示出協(xié)同過濾算法可以在挖掘教育數(shù)據(jù)集當(dāng)中契合,擁有的效果更好。

5 實驗結(jié)果

根據(jù)之前開展的實驗結(jié)果來看,憑借著以上協(xié)同過濾推薦算法仿真實驗反饋,通過推薦算法的改進(jìn),最終呈現(xiàn)出更加準(zhǔn)確的預(yù)測結(jié)果,在進(jìn)行相似度計算模式的分析,了解到實施調(diào)整之后余弦相似性計算方法結(jié)論更加精確,回填稀疏矩陣推薦再次進(jìn)行推薦算法運用,比較之前的推薦算法,之前效果更加準(zhǔn)確。

[1]孟卓. 基于Mahout協(xié)同過濾算法在KDD2010比賽中的探索研究[D].昆明理工大學(xué),2016.

[2]于嘉. 基于MAHOUT的幾種推薦算法的組合實現(xiàn)與評測[D].華中師范大學(xué),2015.

[3]李清. 基于MovieLens數(shù)據(jù)集的協(xié)同過濾推薦系統(tǒng)研究[D].西安電子科技大學(xué),2014.

[4]常江. 基于Apache Mahout的推薦算法的研究與實現(xiàn)[D].電子科技大學(xué),2013.

[5]李龍飛. 基于Hadoop+Mahout的智能終端云應(yīng)用推薦引擎的研究與實現(xiàn)[D].電子科技大學(xué),2013.

Application Research of Mahout based collaborative filtering algorithm in KDD2010 game

Huang He
(Sichuan Vocational and Technical College,Chengdu Sichuan,629000)

with the rapid development of online education, individualized education came into being, how massive user data stored in the network education extracted user learning ability and help to improve the level of user learning valuable information is particularly critical, therefore the commercial recommended widely applied to the field of collaborative filtering algorithm, so as to provide users with personalized recommendation for users. This paper through the filtering technology role in the KDD2010 game play, the effective combination of education with the method of data mining, Apache Mahout various Taste components, modeling and Simulation of education data, according to the implementation of the feedback experiment achieved good prediction effect.

KDD2010 game; Mahout; collaborative filtering algorithm; collaborative filtering recommendation algorithm

猜你喜歡
用戶學(xué)生
快把我哥帶走
《李學(xué)生》定檔8月28日
電影(2018年9期)2018-11-14 06:57:21
趕不走的學(xué)生
學(xué)生寫話
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
學(xué)生寫的話
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
100萬用戶
主站蜘蛛池模板: 波多野结衣久久高清免费| 国产av色站网站| 日韩欧美中文字幕在线精品| 国产成人精品高清在线| 最新无码专区超级碰碰碰| 久久久噜噜噜| 伊人久综合| 久草网视频在线| 亚洲综合香蕉| 国产视频资源在线观看| 亚洲欧美日韩另类在线一| 在线观看免费黄色网址| 国产视频大全| 日韩经典精品无码一区二区| 国产精品美女在线| 久久不卡国产精品无码| 97久久免费视频| 中国成人在线视频| 老司机精品一区在线视频| 国产理论一区| 亚洲国产日韩视频观看| 国产精品区视频中文字幕| 亚洲综合狠狠| 2021国产精品自产拍在线| 免费人成在线观看视频色| 91久久大香线蕉| 18禁高潮出水呻吟娇喘蜜芽| 香蕉精品在线| 91人人妻人人做人人爽男同| 国产精品久久久久婷婷五月| 午夜在线不卡| 美女无遮挡被啪啪到高潮免费| 婷婷综合色| 欧美国产综合视频| 亚洲swag精品自拍一区| 欧美成人精品在线| 亚洲一区无码在线| 在线综合亚洲欧美网站| 日韩视频福利| 高清无码手机在线观看| 国产精品手机在线播放| 亚洲精品无码高潮喷水A| 色妞www精品视频一级下载| 婷婷开心中文字幕| 呦女亚洲一区精品| 激情影院内射美女| 亚洲一区免费看| 国产乱子伦精品视频| 日韩第九页| 国产无遮挡猛进猛出免费软件| 毛片免费试看| 制服无码网站| 老司机精品一区在线视频| 亚洲最新网址| 99精品欧美一区| 91欧美在线| 国产高清无码麻豆精品| 在线观看无码a∨| 国产91麻豆视频| 亚洲第一黄片大全| 欧美激情综合一区二区| 久久毛片网| 久久综合伊人 六十路| aaa国产一级毛片| 2019年国产精品自拍不卡| 操美女免费网站| 99热这里只有精品免费| 久久久成年黄色视频| 亚洲天堂视频在线免费观看| 免费毛片网站在线观看| 欧美不卡视频在线观看| 人妻精品久久无码区| 青青草原国产免费av观看| 久久精品丝袜高跟鞋| 久久频这里精品99香蕉久网址| 无码AV日韩一二三区| 久久精品娱乐亚洲领先| 欧美午夜精品| 国产微拍一区二区三区四区| 亚洲天堂网2014| 亚洲精品无码久久久久苍井空| 国产成人艳妇AA视频在线|