999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于社區劃分的現代文學作品個性化推薦算法

2021-12-23 12:49:42衛欣玲
微型電腦應用 2021年12期
關鍵詞:特征文本信息

衛欣玲

(陜西交通職業技術學院 汽車工程學院,陜西 西安 710018)

0 引言

隨著各種閱讀軟件的推出,現代文學作品走向了網絡化時代,面對海量文學作品,讀者在選擇上耗費了大量的時間與精力[1]。在這一背景下,文學作品的推薦功能已經成為了閱讀軟件所必備的功能,一方面它可以高效地引導讀者找到自己滿意的文學作品,另一方面它可以增加讀者的黏性,避免讀者在內容選擇上出現倦怠心理[2]。目前常見的推薦方式是在讀者登錄文學網站或App時進行喜好篩選與引導,網站可以根據讀者的搜索、瀏覽記錄進行數據分析和個性化內容的推薦服務[3]。讀者的個性化推薦服務最初起源于Doubleclick公司,這個公司對讀者定制推送個性化廣告,亞馬遜公司將這一系統與電商網站結合起來,通過對網站消費者的歷史數據挖掘,進行網站商品的推送,并取得了良好的效果[4]。但目前的推薦系統尚且處在發展階段,在產品種類和讀者數據的日漸增長下,文學網站推薦系統的潛在問題開始顯現,一是在新用戶和新產品推薦時,存在冷啟動問題;二是用戶和產品的互動信息少,導致可分析數據稀疏;三是數據量急劇增加導致數據分析時間加長,推薦算法的實時性和準確性無法同時保證[5]。基于此,此次從現代文學作品入手,在對讀者進行社區劃分的基礎上,結合多種智能算法,進行個性化推薦算法研究,希望在保證算法效率的同時,可以最大程度地提升文學作品推薦算法的準確性。

1 讀者評論文本分析算法

1.1 加權信息增益算法

信息增益表示分類信息中含有特征項時的信息量與不含特征項時的信息量之差,特征項t的重要程度可以由信息增益的大小反映,在信息分類的過程中,需要對特征項的信息增益由大到小進行排序,并刪除排序靠后的特征項,剩下的就是重要性高的特征項。然而在傳統的信息增益算法中,沒有考慮到特征項在類別中的分布,因此會出現對特征項誤刪和漏刪的情況。這次研究提出在文本信息分類中采用加權信息增益算法(Degree Welghted Information Gain, DWIG),對特征項的類別內分布狀況和類別間分布狀況進行考慮,并以權重對特征項進行衡量,以此彌補傳統信息增益算法的不足之處。

對于數量較多的類別文本,若特征項在這一類別的所有文本中均勻分布,則認為這個特征項在這一類文本的分類上有更大的貢獻。因此,在這里以類內分散度表示特征項在類別內部的分布狀況,其數學表達式如式(1)。

(1)

其中,Ci表示文本類別;t表示特征項;N表示文本數量。

對于類別較多的文本信息,若特征項在某一類文本信息中大量出現,而在其他類別文本中出現較少,則說明這一特征項在文本分類上的貢獻較大。這里以類間集中度表示特征項在類間的分布情況,其數學表達式如式(2)。

(2)

針對傳統信息增益算法的缺陷,在這里以類內分散度和類間集中度對特征項t的位置權重進行改進,改進后的位置權重如式(3)。

(3)

結合改進后特征項t的位置權重,在信息增益算法的改進上采用最大值的衡量方法,改進算法的數學表達式如式(4)。

CD(Cj,t)(H(C)-H(C|ti))

(4)

式中,Cj表示文本類別;H表示信息熵,即信息的期望值。

1.2 基于位置分布權重的特征選擇算法

在文本信息的分類中,首先需要對原始數據進行分析并選擇特征項,輸出特征子集,然而擁有相同的特征項并不代表是同一個的信息數據。因此采用基于位置分布權重的TF-IDF算法(Term Frequency-Inverse Document Frequency-Distribution Weight, TF-IDF-DW)對文本信息數據進行區分。TF-IDF融合特征權重算法涉及到2個部分,其一是詞頻,即特征詞在信息中的出現次數;其二是逆文檔頻率,即文本集中的特征項部署情況。特征詞匯在文本信息中的詞頻越高,說明它的權重越大,詞頻以式(5)表示。

WeightTF(t)=TF(d,t)

(5)

對于文本信息而言,如果特征項t在大量的文本中出現,那么說明它的比重小,反之則比重大,逆文檔頻率的函數表達式如式(6)。

(6)

式中,n表示含有特征項t的文本信息數量;N表示文本信息總數量。在對文本信息進行詞頻和逆文檔頻率的處理后,可以減少無關詞匯的比重,增加重要特征項的比重,提高特征項分類準確性,如式(7)。

(7)

雖然TF-IDF算法可以提高特征項對文本信息的區分效率,然而對于出現頻率較少且分散均勻的詞匯而言,這種算法的計算比重偏大,分類準確性減小。因此,在傳統的TF-IDF算法基礎上,這里提出以類間分散度對特征項逆文檔頻率進行平衡,將特征項在不同類別信息中的分散狀態考慮到算法分析中。改進后的算法融進了權重值,其函數表達如式(8)。

(8)

2 個性化推薦算法

2.1 基于社區劃分的推薦算法

傳統的推薦算法以協同過濾推薦算法為主,目前廣泛應用于各大電商網絡系統中[6]。協同過濾推薦算法有2種類型,一種從推薦目標的角度出發,參考近鄰的喜好,進行推薦商品的分析評分;另一種是從推薦商品的角度出發,參考推薦目標喜好,以特定算法對相似商品進行搜集和分析評分。在推薦算法中,近鄰優良通過相似度的精確性來決定,相似度的精確性直接影響了最終結果的準確性和可信度。目前應用廣泛的相似度計算方法有余弦相似度、斯皮爾曼相關系數、Pearson相關系數、谷本系數等[7]。

文學網站的讀者都有各自的閱讀偏好和習慣,但他們在一定程度上存在相似性,這使得閱讀偏好和習慣相似度高的讀者會形成一個社區。這里將采用BIRCH算法對讀者進行社區識別,該算法的基本思想在于同屬于一個社區的不同讀者,對于同一類型的作品評價具有高度相似性。然而在實際分析中,讀者社區的原始數據存在一些問題,如興趣愛好數據稀疏、興趣數據重疊、社區間數據量差異過大等。這種情況下,特征項的選擇精確度和數據分析準確性會受到影響。

奇異值分解(SVD)是一種數據信息提取方法,從數學角度而言,奇異值分解可以通過矩陣實現。將數據集以一個大的矩陣的形式表示出來,并對這個矩陣進行不同形式的拆解,如多個矩陣相乘的形式,這就是奇異矩陣分解法。這種矩陣的特點在于,對角元素數值由大到小,而非對角元素的其他元素大多設置為0,這些對角元素就是奇異值。在科學研究中,需要確定R個重要特征進行利用,此外的其他奇異值默認為0。一般而言,對奇異值求取平均和,直到所有的和到達總值的90%,就可以確定R的值。在這次的研究中,將采用奇異值分解的方法對讀者原始數據進行處理,并得到Um×d數據集、d×d、n×d,其中d?n,d?m,3個數據的關系如式(9)。

(9)

式中,d表示讀者數據維度,m表示讀者數量,n表示文學作品數量,S和V均為單位正交矩陣,表示線性映射。Um×d表示對原始數據進行奇異值分解后得到的數據集。基于這一數據集所表示的讀者數據特征,對讀者進行社區劃分,最終的社區劃分效果如圖1所示。可以看出在SVD的處理下,每個社區的讀者分布均衡。

圖1 SVD處理后的社區劃分效果

2.2 基于讀者評分準則的推薦算法

為了提高文學網站推薦算法的精確度,這里主要考慮2個方面,一是推薦對象與產品的相似性計算;二是對于推薦產品的預測評分,其中預測評分需要考慮到近鄰對象的影響。讀者評分本身是帶主觀意識的一種評價,與個人評價準則、評價時的主觀情緒都有關聯,因此讀者評分與個人喜好不具有絕對的關聯性。此次研究引入讀者評分準則,并計算出準則因子,結合相似度和預測評分進行推薦算法的改進,如式(10)。

(10)

式中,U={u1,u2,…,um}表示讀者;I={i1,i2,…in}表示文學作品;Rm×n表示讀者-文學作品的評分數據集;ru,i表示讀者u對作品i的評分值。

這里通過肯定性評分和否定性評分兩種評分方式來衡量讀者對作品的看法,以此考慮到不同讀者在同一文學作品評分準則上的差異度。其中肯定性和否定性評分以中位數區分,例如,評分為1-10分,則肯定性評分>5分,否定性評分≤5分,如式(11)。

(11)

相似度的計算方法有很多種,這里采用歐幾里得公式,函數表達式如式(12)。

(12)

結合此次研究的內容,以rmin對相似度計算進行改進,改進計算式如式(13)。

(13)

式中,wp表示不同讀者評分準則的影響權重;Iuv表示不同讀者所共同評價的作品,rmin表示評分值的值差。

在對讀者進行社區劃分后,將同一社區的讀者對于文學作品的評分分為2類,即肯定性評分和否定性評分,并以此判斷讀者所處的社區對于文學作品的評分態度傾向。在此基礎上,加入相似讀者的文檔等級評分,并以α1、α2分別表示原始評分和文本評分的比重,如式(14)。

(14)

3 改進推薦算法性能分析

本次從2個方面對現代文學作品的個性化推薦服務進行了研究,一方面是作品的讀者評論文本分析,另一方面是對讀者進行社區劃分的個性化推薦。實驗原始數據來源于豆瓣網站中的現代文學作品數據庫,其中包括了4 000名讀者對8 000本現代文學作品的評分數據,以及20 000條評論文本,將數據以8∶2的方式分為訓練集和測試集。評論文本分析算法的性能將從召回率、準確率和F值3個方面進行衡量,同時通過傳統算法(IG+TF-IDF)和改進后的算法(DWIG+TF-IDF-DW)之間的比較來確定兩種算法之間的優劣。傳統算法和改進算法的準確率統計結果如圖2所示。

圖2 讀者文本評論分析算法的準確率

觀察圖中可以看出,改進后的算法準確率明顯高于傳統算法。在特征子集維度1 000維時,改進算法的準確率為87.5%,傳統算法的準確率為83.7%%;當特征子集維度達到2 500維時,兩種算法的準確率趨于穩定,最終改進算法的準確率穩定在89.5%左右,而傳統算法的準確率穩定在84.8%左右。讀者文本評論分析算法的召回率結果,如圖3所示。

圖3 讀者文本評論分析算法的召回率

在特征子集維度1 000維時,改進算法的召回率為87.3%,傳統算法的召回率為83.6%;當特征子集維度達到2 000維時,2種算法的召回率趨于穩定,最終改進算法的召回率穩定在89.1%左右,優于傳統算法的84.9%,讀者文本評論分析算法的F值計算結果如圖4所示。

圖4 讀者文本評論分析算法的F值

從圖中可以看出,隨著特征子集維度的增加,改進算法的F值從88.2%增加到89.3%,傳統算法的F值從83.8%增加到84.7%。在特征子集維度達到2 000維時,兩種算法的F值趨于穩定。整體來看,改進算法表現明顯優于傳統算法。基于上述讀者評論文本的分析結果,這里以實驗數據集對基于社區劃分的推薦算法預測性能進行評價,并以絕對誤差均值MAE反映預測結果的準確度。傳統協同過濾算法、基于社區劃分的推薦算法、社區劃分和用戶評分準則相結合的推薦算法等3種算法的絕對誤差均值比較結果如圖5所示。

圖5 3種推薦算法的絕對誤差均值MAE

從圖5可以看出,近鄰個數對推薦算法的性能有著明顯影響,但隨著近鄰個數的增加,這種影響逐漸減弱,算法的預測準確度趨于穩定。另一方面,在近鄰個數達到50個以上時,3種推薦算法的預測精度趨于穩定。其中,協同過濾推薦算法的MAE值為1.8,基于社區劃分的推薦算法的MAE值為1.5,社區劃分結合用戶評分準則的推薦算法的MAE值為1.0。根據MAE值來看,社區劃分結合用戶評分準則的推薦算法預測準確度更高。在社區劃分+用戶評分準則的推薦算法的基礎上,加入讀者評論文本分析算法,2種推薦算法的絕對誤差均值的統計結果如圖6所示。

從圖6的結果可以看出,在近鄰個數達到40個以上時,2種推薦算法的預測性能趨于穩定。同時結合用戶評分準則的推薦算法的MAE值為0.5,說明讀者評論文本分析算法明顯改善了特征項的權重分配合理性,改進后的算法準確度有了明顯的提升。

圖6 兩種推薦算法的絕對誤差均值MAE

4 總結

隨著數據挖掘技術的進步,為了保證網站用戶黏性,提升用戶的閱讀體驗感,智能推薦算法隨之產生。為了提高文學作品推薦算法的準確性,此次研究對讀者評論文本分析算法進行了兩方面的優化,一是基于類內和類間分布特征進行加權信息增益(DWIG),二是對特征項進行了位置分布權重優化(TF-IDF-DW)。此外,在基于社區劃分的推薦算法研究中,引入了讀者評分準則因子和文本等級評分優化。實驗以豆瓣網站的文學作品原始數據作為實驗數據集,對改進算法進行性能評價。研究結果顯示,改進算法預測結果的準確率達到了89.5%,召回率為89.1%,F值為89.3%,改進算法的性能明顯優于傳統算法的性能。另外,傳統協同過濾推薦算法的MAE值為1.8,結合用戶評分準則、文本等級評分和評論文本分析的算法優化,最終的改進算法MAE值達到0.5,預測結果和實際結果的誤差顯著減小。因此,此次研究所提出的基于社區劃分的推薦算法,對智能推薦系統的推薦精確度有著極大地提升,希望這次的研究結果能為智能推薦系統的應用升級提供參考。這次研究存在一些不足之處,如沒有對評分準則因子深入研究,今后將對算法進行進一步的改進。

猜你喜歡
特征文本信息
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲无码91视频| 国产欧美成人不卡视频| 99久久精品免费看国产电影| 久热这里只有精品6| 国产黄网站在线观看| 91精品网站| 亚洲高清免费在线观看| 在线免费观看AV| 一级做a爰片久久毛片毛片| 伊人久久精品无码麻豆精品| 欧美日韩综合网| 久久精品人妻中文系列| 亚洲成a∧人片在线观看无码| 精品国产毛片| 91探花在线观看国产最新| 国产日本一线在线观看免费| 国产福利小视频高清在线观看| 色亚洲成人| 免费国产黄线在线观看| 久久综合伊人 六十路| 亚洲AⅤ综合在线欧美一区| 波多野结衣第一页| 国产第四页| 色视频国产| 国产永久免费视频m3u8| 精品乱码久久久久久久| a国产精品| 亚洲精品国产综合99久久夜夜嗨| 国产精品亚洲综合久久小说| 青青草原国产精品啪啪视频| 国产在线观看高清不卡| 在线精品自拍| 波多野结衣无码AV在线| 亚洲欧洲日产国码无码av喷潮| 日本欧美在线观看| 色网在线视频| 国产精品欧美在线观看| 国产一区二区三区日韩精品| 狠狠色丁香婷婷综合| 99在线免费播放| 日本影院一区| 欧美性猛交一区二区三区| 丰满人妻久久中文字幕| 国产性生交xxxxx免费| 波多野结衣一区二区三区AV| 福利片91| 免费无码又爽又黄又刺激网站| 亚洲an第二区国产精品| 日本人妻一区二区三区不卡影院| 欧美a在线看| 国产成人精品在线| 亚洲AV无码乱码在线观看代蜜桃 | 国产精品网址你懂的| 伊人天堂网| 黄色在线不卡| 久草视频中文| 国产人妖视频一区在线观看| 国产精品美女在线| 亚洲精品无码AⅤ片青青在线观看| 久热中文字幕在线| 99er这里只有精品| 欧美五月婷婷| 午夜精品一区二区蜜桃| 九色视频一区| 国产丝袜91| 国产精品女同一区三区五区| 免费中文字幕一级毛片| 99视频精品全国免费品| 麻豆精品在线| 在线观看视频99| 婷婷亚洲综合五月天在线| 欧美日韩午夜视频在线观看| 午夜小视频在线| 亚洲天堂视频在线免费观看| 天堂岛国av无码免费无禁网站| 欧美性久久久久| 欧美一区国产| 亚洲第一中文字幕| 激情无码字幕综合| 久久免费视频6| 四虎免费视频网站| 国产欧美日韩另类|