999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于觀點動力學的電影在線評分預測

2016-09-24 01:31:27由明陽黃飛虎四川大學計算機學院成都610065
現代計算機 2016年5期
關鍵詞:用戶模型

由明陽,黃飛虎(四川大學計算機學院,成都 610065)

基于觀點動力學的電影在線評分預測

由明陽,黃飛虎
(四川大學計算機學院,成都610065)

0 引言

隨著國內外電影在線點評系統的快速發展,電影在線評論已成為電影消費者重要的信息來源。通過挖掘評分數據,可以分析用戶的興趣愛好、購買意圖以及影響用戶購買行為的因素[1]。這些研究內容對商家來說是十分有意義和價值的。

目前觀點動力學的研究主要采用基于多主體建模和仿真方法,研究社會經濟系統中個體之間的決策以及在外界公共信息作用下,人群中個體對某些特定事件或事物所持不同觀點的形成和演化等現象。依據觀點的描述方式,現有的觀點動力學模型主要有兩類:離散型和連續型。離散型模型主要包括Galam模型[2]、Sznajd模型[3]、Voter模型[4]和MajoritoryRule模型[5]。連續型模型主要包括基于有界信任假設的DW模型[6]和HK模型[7]等。在實際應用方面,主要集中于政治和營銷領域,利用觀點動力學研究用戶評論行為的并不多。張涵提出了在線點評模式下的輿論動力學模型,并將其應用于淘寶環境中,與真實數據對比發現該模型取得了較好的效果[8]。蘇炯明等建立了在線評分影響力模型[9],對在線評分人數進行預測,使用豆瓣網站的影片在線評分數據進行實驗,分析評分觀點變化對在線評分人數的影響,結果表明該模型可以有效的預測在線評分人數,同時發現群體中的評分觀點對個體的最終觀點有明顯影響,而個體的初始觀點對其最終觀點的影響較小。

本文從觀點動力學角度對個體評分行為建模,建立電影評分影響力模型,對電影評分情況進行預測,并采用豆瓣網站上的電影在線評分數據進行實驗驗證。

1 電影在線評分過程

個體的評分過程分為兩個階段:觀影前和觀影后。觀看電影之前,用戶會搜集電影的相關信息,這里指瀏覽以前用戶的評論,瀏覽之后用戶會對該電影產生一個初始印象。觀影之后,用戶對電影有了體驗感受,這個體驗感受的好壞主要是由電影質量決定的。初始印象,電影質量和用戶實際評分之間會存在一定的差距,這個差距的大小由用戶的評分習慣決定。例如,用戶習慣打高分,則在實際體驗感受比初始印象差的情況下,用戶也會給出稍微更好的評分;若實際體驗感受比初始印象更好,用戶則會給出更高的評分;如果用戶習慣打低分,則用戶對電影的評分會出現相反的情況。圖1展示了用戶對電影的評分過程。

圖1 用戶電影在線評分過程

1.1初始印象

消費者對電影的初始印象主要是通過瀏覽其他用戶的評分記錄產生的。由于電影屬于體驗型商品,只有在觀看后才能有體驗感受。所以,消費者會為了更充分地了解電影而瀏覽較多的用戶評分。對消費者的初始印象進行描述,需要了解用戶對電影的評分分布。為此,我們采用真實的電影在線評分數據,利用參數估計與假設檢驗方法,實證電影評分分布。

(1)電影評分分布實證

評分數據來源于三個著名的電影評分網站,分別是IMDB電影評分網,豆瓣電影網和MovieLens。其中MovieLens評分數據為公開數據集,IMDB電影評分網和豆瓣電影網評分數據為爬蟲爬取。來自IMDB電影評分網的數據包含了4033部電影,電影類型有14種,包括戰爭、動作、科幻、愛情、喜劇和動畫等。來自豆瓣電影網的數據包含4018部電影,類型為12種。IMDB網站評分數據為10分制,豆瓣電影網和MovieLens評分數據為5分制。豆瓣網和IMDB網站的每部電影評論條數較多,本文選取了評論條數在2W以上的電影。而MovieLens網站每部電影的評論條數相對較少,因此選取了評論條數不少于1000的電影。最終,選取了IMDB電影評分網中的2023部電影評分數據,豆瓣電影網中的1058部電影評分數據和MovieLens中的393部電影評分數據。為了統一評分分制,將IMDB網站評分數據映射為5分制,具體方式為10分制中1和2的映射為5分制中的1,以此類推。

已有的研究中,有學者提出電影評分分布有正態分布、冪律分布和alpha穩定分布。因此,我們分別對預處理過的電影評分數據進行了上述分布的參數估計和假設檢驗。利用MATLAB中的fminsearch函數對正態分布和冪律分布進行參數估計,利用fconsearch函數對alpha分布進行參數估計。上述三個分布的假設檢驗均用kstest函數進行顯著水平為0.05的KS檢驗。表1展示了對三個電影評分數據集的三種分布的KS檢驗結果。

表1 電影評分分布KS檢驗結果

從表1的KS檢驗結果可以看出,正態分布在三個數據集中的效果是最好的。特別地,對于豆瓣電影網的評分數據,用正態分布可以描述88.75%的電影評分數據。因此,本文采用正態分布描述電影評分分布。

(2)用戶對電影的初始印象

由上節的電影評分分布實證可知,可以用正態分布描述電影評分。即對于每部電影,將所有關于該部電影的評分數據當作樣本點,組成的樣本空間滿足正態分布。則有,

將f(x)定義為用戶的初始印象概率函數,μ為均值,δ為方差。通過參數估計可以得到μ和δ的估計值,進而量化用戶對該電影的初始印象。參數估計選取的數據為用戶瀏覽過的該電影的評分記錄。

(3)電影質量

一般說來,電影質量的評價涉及到諸多因素,例如電影劇本、演員演技、拍攝技術和后期制作等,很難處理和量化。但實際電影評價的好壞,卻是由觀看電影后的消費者做出的。從電影在線評分的過程可知,大部分人在看電影前會先瀏覽其他用戶的影評。因此,本文通

1.2評分習慣

人類動力學的研究表明,人類行為具有很強的規律性。現實生活中,每個人都有自己的習慣和特點。因此,我們認為用戶在電影評分上也是具有一定規律的,即用戶評分習慣。通過挖掘每個用戶的評分數據,便可以得出該用戶的評分特點。為此,我們采用獲取的電影評分數據,實證用戶評分分布。

(1)用戶評分分布實證

采用的數據集有三個:分別是MovieLens中2000個用戶在2005年的評分數據,MovieLens中6040個用戶在2000年對3900部電影的評分數據和BookCrossing數據集。BookCrossing數據集包含了278858個用戶的評分數據。

表2 用戶評分分布KS檢驗結果

采用和1.1(1)小節相同的參數估計和KS檢驗方法。表2展示了對三個數據的三種分布的KS檢驗結果。從結果來看,正態分布取得了最高的匹配率和很好的效果。

(2)用戶評分習慣

上節實證了用戶評分分布,結果表明正態分布可以很好地匹配用戶的評分。因此我們采用正態分布的概率密度函數刻畫用戶評分習慣,如公式(2)所示。

其中p(x)為用戶評分習慣概率函數,μ為均值,δ為方差。由實證數據計算得出,μ≈3.56,σ≈1.39。

2 電影評分影響力模型

從前面對電影評分過程的描述可知,用戶的評分是在用戶電影的初始印象和電影質量的基礎上,按照個人評分習慣給出的。在社會心理學中有兩種效應:馬太效應和木桶原理。這兩種效應在評分系統中也有體現。有研究表明,人們在做出評價時很容易受到他人評價的影響,形成跟風,這也是馬太效應產生的原因。然而,如果用戶看到的評論中包含有差評,根據木桶原理,用戶給出的評價也會受到這些差評的影響。有學者研究發現,用戶在瀏覽評論時,會更愿意參考差評的評論。在實際的評論記錄中,好評和差評幾乎總是共存的。到底是參考好評和差評,對用戶來說是一個矛盾的選擇。因此,在評分建模時需要考慮矛盾性評價存在的現象。文章[10]提出了一個社交網絡影響力模型解決了這個問題。該模型提出了輿論熵的概念,表述為:

其中,v+為社交網絡中正觀點的均值,v-為社交網絡中負觀點的均值。對應5分制的評分標準,v+等于評論分值為4和5的數目之和,v-等于評論分值為1和2的數目之和。

由1.3(2)的描述可知,用戶評分習慣可以用正態分布刻畫。所以,我們也采用這個結論,認為個體給出的評分是一個正態分布的樣本點。評分影響力模型的概率密度函數如下:

結合社交網絡影響力模型,μ和δ的計算方式如下:

其中u∧為初始印象均值,σ為初始印象方差,著為影響力因子,其計算方式如下:

f(X)為用戶評分習慣的概率密度函數,Q為電影質量,f(Q)表示用戶在觀看電影后對電影的感受。e為輿論熵,c為評分制,這里取c=5;影響力因子著,用于描述用戶在觀影前后,其他用戶評價與電影質量對用戶產生的影響,該影響會促使用戶產生新的印象,進而給出評價分數。影響力因子著的取值大小反映了觀影前后初始印象與電影質量的差異性程度。著取值情況如圖2所示。

圖2 影響力因子取值情況

3 電影評分預測算法

按照前面描述的電影評分過程,用戶首先產生對電影的初始印象。在此階段,進行正態分布參數估計,得出均值和方差的估計值u∧和σ∧

。同時根據評分數據計算出輿論熵e,用來描述評分中的矛盾性評價對用戶產生的影響。2節的電影評分影響力模型是在用戶在觀看電影后對其產生的新的印象。這個印象由初始印象、電影質量和用戶評論三個因素共同作用的。根據公式(6)計算新的均值和方差,從而產生新的評分模型h(x)。評分模型也是一個分布,因此本文從概率角度給出最終評分的算法描述如下:

4 實驗與結果

我們選取了從豆瓣電影網爬取的4044部電影的用戶評分數據。由于豆瓣網頁的設置,我們只能獲取評論的前200條記錄,因此實驗對每部電影只模擬200次評分。圖3給出了本文模型與蘇炯明論文中提出的電影評分預測模型(對比模型一)和張涵提出的在線點評模式下的觀點影響力模型 (對比模型二)的預測結果。由于實驗數據中存在沒有通過KS檢驗的電影,因此本文又對這類電影分別做了基于正態分布和冪律分布的預測,如圖4所示。實驗結果表明對于通過KS檢驗的電影,利用本模型的預測結果在三組模型中是最好的,在瀏覽數m=70時可以達到68%的預測準確率。而對于沒有通過KS檢驗的電影應用冪律分布預測的結果較好。

圖3 模型預測準確率(通過KS檢驗電影)

圖4 模型預測結果(未通過KS檢驗電影)

5 結語

本文提出了一個新的基于觀點動力學的適用于電影在線評分的影響力模型。分布從初始印象、用戶評分習慣和電影質量三個方面進行數學描述,然后給出了影響力因子的計算方法,最后給出了評分影響力模型中均值和方差的計算方式,得出了評分的預測算法。通過真實的電影評分數據驗證,本模型的預測準確率可以達到68%。相比于其他電影評分模型,本文的模型具有更好的效果。

[1]李亞琴.用戶在線消費評論研究的國際進展與分布格局--基于Web of Science論文的計量分析[J],2013.

[2]GalamS.Application of Statistical Physics to Politics.Physica A:Statistical Mechanics and Its Applications,1999,274(1);132-139.

[3]Sznajd-Weron K,Sznajd J.Opinion Evolution in Closed Community[J].International Journal of Modern Physics C,2000,11(6):2000.

[4]Holley R,Liggett T.Ergodic Theorems for Weakly Interacting Infinite Systems and the Voter Model[J].Annals of Probability,1975,3 (4):643-663.

[5]Howe D A,Percival D B.Wavelet Variance,Allan Variance,Leakage[J].IEEE Transactions on Instrumentation and Measurement, 1996,44(2):94-97.

[6]Deffuant G,Neau D,Amblard F,et al.Mixing Beliefs Among Interacting Agents[J].Advances in Complex Systems,2011.

[7]Hegselmann R,Krause U.Opinion Dynamics and Bounded Confidence Models,Analysisand Simulation[J].Journal of Artificial Societies and Social Simulation,2002,5(3):1-8.

[8]張涵.基于輿論動力學的在線點評觀點演化及影響研究[D].北京郵電大學,2013.

[9]蘇炯銘,劉寶宏,李琦等.基于觀點動力學的在線評分人數預測[J].計算機工程,2014.

[10]黃飛虎,彭艦,寧黎苗.基于信息熵的社交網絡觀點演化模型[J].物理學報,2014.

Movie Rating Score;Opinion Dynamics;Model Prediction;Normal Distribution

Online Rating Score Prediction for Movie Based on Opinion Dynamics

YOU Ming-yang,HUANG Fei-hu

(College of Computer Science,Sichuan University,Chengdu 610065)

1007-1423(2016)05-0007-05

10.3969/j.issn.1007-1423.2016.05.002

由明陽(1992-),男,河南開封人,碩士,研究方向為大數據分析和觀點動力學

2015-12-31

2016-01-12

隨著國內外電影在線點評系統的快速發展,電影在線評分已成為電影消費者的重要信息來源。在評分過程中,個體的觀點受到電影質量,自身評分習慣和其他用戶評分的共同影響。據此過程從觀點動力學角度對個體評分行為建模,建立電影評分影響力模型,對電影評分情況進行預測。使用豆瓣網站的影片在線評分數據進行實驗,相比其他模型,取得了更好的效果。

電影評分;觀點動力學;模型預測;正態分布

黃飛虎(1990-),男,四川遂寧人,博士,研究方向為社會計算和觀點動力學

With the rapid development of domestic and foreign online movie comment system,the comments have become an important source of information for the consumers.During the comment process,the individual's opinion is influenced by the movie quality,their own comment habits and other users'rating scores.According to this process,makes the model of individual's comment behavior by the viewpoint of opinion dynamics and builds an influenced model for the rating score of movie.Uses the data from douban website,the proposed model achieves better results compared to other models.

猜你喜歡
用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 综合色在线| 成人国产精品网站在线看| 国产成人高清精品免费| 色婷婷啪啪| 91青青视频| 黄色污网站在线观看| 亚洲日韩高清在线亚洲专区| 亚洲狠狠婷婷综合久久久久| 天堂岛国av无码免费无禁网站| 97超碰精品成人国产| 秋霞午夜国产精品成人片| 人妻中文久热无码丝袜| 精品超清无码视频在线观看| 欧美啪啪视频免码| 五月天福利视频| 色AV色 综合网站| 999精品色在线观看| 91在线一9|永久视频在线| 3D动漫精品啪啪一区二区下载| 日韩av无码精品专区| 72种姿势欧美久久久大黄蕉| 青青青视频蜜桃一区二区| 一级毛片无毒不卡直接观看| 日韩无码白| 一区二区影院| www.99在线观看| 97超爽成人免费视频在线播放| 精品久久人人爽人人玩人人妻| 久久综合婷婷| 国产一二三区视频| 91精品在线视频观看| 97在线免费| 九色视频最新网址 | 99re精彩视频| 狠狠操夜夜爽| 特级精品毛片免费观看| a级毛片在线免费| 亚洲国产高清精品线久久| 久久天天躁狠狠躁夜夜躁| 国产成人综合久久精品下载| 国产精品久久久久久久伊一| 99热6这里只有精品| 國產尤物AV尤物在線觀看| 国产成人盗摄精品| 色妞永久免费视频| 国产精品亚洲精品爽爽| 国产精品任我爽爆在线播放6080| 成人欧美在线观看| 午夜一区二区三区| 无码aⅴ精品一区二区三区| 在线观看欧美国产| 精品国产免费观看| 伊人无码视屏| 99久久性生片| 女人天堂av免费| 久久成人免费| 国产成人精品高清不卡在线| 欧美一区日韩一区中文字幕页| 亚洲AⅤ无码日韩AV无码网站| 熟妇丰满人妻| 亚洲黄色高清| 亚洲国产精品国自产拍A| 色综合久久久久8天国| 精品国产黑色丝袜高跟鞋| 一级爱做片免费观看久久| 精品丝袜美腿国产一区| 国产超碰在线观看| 国产女人18毛片水真多1| 国产导航在线| 国产一区免费在线观看| 久久久久亚洲AV成人人电影软件 | 波多野结衣第一页| 欧美在线中文字幕| 亚洲无线视频| 色丁丁毛片在线观看| 亚洲日本中文字幕天堂网| 亚洲高清中文字幕| 亚洲国产成人精品青青草原| 中文字幕在线欧美| 亚洲成人福利网站| 91最新精品视频发布页| 久久综合成人|