999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合特征的電影評(píng)分預(yù)測(cè)系統(tǒng)

2020-12-25 06:08:00黃東晉耿曉云丁友東
關(guān)鍵詞:特征文本實(shí)驗(yàn)

黃東晉,耿曉云,李 娜,丁友東

(上海大學(xué),上海 200072)

0 引 言

現(xiàn)如今,觀影已經(jīng)逐漸成為人們?nèi)粘I钪胁豢苫蛉钡囊环N娛樂(lè)消遣方式,作為觀眾,希望每一次觀影體驗(yàn)都是物超所值的,而電影評(píng)分很大程度上決定人們是否選擇這部電影;對(duì)于投資商來(lái)說(shuō),準(zhǔn)確地預(yù)測(cè)出評(píng)分可以有效減少利益損失。時(shí)至今日,國(guó)內(nèi)外在電影方面的預(yù)測(cè)系統(tǒng)多數(shù)集中在票房的預(yù)測(cè),電影評(píng)分預(yù)測(cè)系統(tǒng)很少且大多忽略電影文本信息對(duì)于評(píng)分的影響,往往只采用了一些常用的特征信息或者電影評(píng)論信息,并且特征工程處理方式不夠完善,機(jī)器學(xué)習(xí)算法較單一,最終導(dǎo)致誤差普遍較高。

2012年,Andrei等人[1]基于社交媒體數(shù)據(jù),確定電影的定性和定量活動(dòng)指標(biāo),通過(guò)提取兩組表面和文本特征進(jìn)行電影評(píng)分的預(yù)測(cè),但評(píng)價(jià)電影的用戶的人口統(tǒng)計(jì)數(shù)據(jù)可能與分享評(píng)論的人不同且數(shù)據(jù)處理過(guò)于復(fù)雜。2014年,Rajitha等人[2]提出一種基于視頻中觀眾觀影時(shí)的表情和肢體動(dòng)作的電影評(píng)分預(yù)測(cè)系統(tǒng),但由于該實(shí)驗(yàn)對(duì)于觀眾的要求較高,自我報(bào)告實(shí)現(xiàn)比較困難。2017年,Mustafa等人[3]提出一種基于混合屬性使用和集成學(xué)習(xí)的電影用戶評(píng)分預(yù)測(cè)系統(tǒng),能夠較好地預(yù)測(cè)評(píng)分。同年劉明昌基于豆瓣電影數(shù)據(jù)構(gòu)建了混合評(píng)分預(yù)測(cè)系統(tǒng),有效提高了預(yù)測(cè)準(zhǔn)確性。2018年,黃幸穎等人[4]提出了一種克服了協(xié)同過(guò)濾算法中稀疏性影響的基于自編碼網(wǎng)絡(luò)的電影評(píng)分預(yù)測(cè)系統(tǒng),但同時(shí)它帶來(lái)的非凸函數(shù)的優(yōu)化問(wèn)題使得實(shí)驗(yàn)結(jié)果并不穩(wěn)定。

針對(duì)這些問(wèn)題,該文結(jié)合自然語(yǔ)言處理技術(shù),提出一種基于混合特征的電影評(píng)分預(yù)測(cè)系統(tǒng),巧妙綜合了文本特征[5]和常用的電影特征的優(yōu)勢(shì),實(shí)驗(yàn)結(jié)果表明,混合特征能夠顯著降低預(yù)測(cè)誤差,使得該系統(tǒng)能夠較為準(zhǔn)確地預(yù)測(cè)電影評(píng)分。

1 系統(tǒng)框架

該文提出的基于混合特征的電影評(píng)分預(yù)測(cè)系統(tǒng)主要由文本矢量化、文本評(píng)分預(yù)測(cè)模型以及基于混合特征的評(píng)分預(yù)測(cè)模型這三部分組成。

具體流程如圖1所示。

圖1 系統(tǒng)框架

(1)UI輸入導(dǎo)演、三位主演、上映時(shí)間、電影類(lèi)型等電影特征信息和電影簡(jiǎn)介文本信息傳入后端,文本信息經(jīng)過(guò)預(yù)處理后由維基百科語(yǔ)料庫(kù)預(yù)訓(xùn)練好的Bert模型進(jìn)行矢量化,從而得到文本矢量特征;

(2)利用SVM算法對(duì)該矢量特征進(jìn)行訓(xùn)練建模,預(yù)測(cè)文本評(píng)分;

(3)將文本評(píng)分作為一維新特征加入到預(yù)處理好的電影特征信息中,通過(guò)Random Forest算法預(yù)測(cè)最終的電影評(píng)分并返回到UI界面。

2 系統(tǒng)關(guān)鍵技術(shù)

2.1 文本矢量化

在自然語(yǔ)言處理中首先要考慮的就是詞在計(jì)算機(jī)中的表示方法,對(duì)于文本信息,詞嵌入要做的就是把單詞嵌入到低維空間中用向量來(lái)表示,因此近義詞的詞向量距離理應(yīng)較近。由于任意一個(gè)詞都可以用它的相鄰詞來(lái)表示,所以一般情況下,可以通過(guò)統(tǒng)計(jì)學(xué)方法或者基于不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型來(lái)生成詞向量。

One-hot編碼使用參數(shù)0和1表示,詞向量的維度等于詞的總數(shù)量且僅一位有效,通常用來(lái)處理離散型數(shù)值特征,但是當(dāng)特征較多時(shí),矩陣會(huì)過(guò)于稀疏。而詞袋模型則認(rèn)為大量獨(dú)立無(wú)序詞匯的集合形成文本,其在文本里出現(xiàn)的次數(shù)作為這個(gè)詞的向量,但仍然存在矩陣稀疏性,另外該方法丟失了上下文信息。2013年谷歌推出一種引起業(yè)界轟動(dòng)的分為Skip-gram和CBOW兩種模型的詞向量工具-Word2vec[6],其中前者是由中心詞預(yù)測(cè)上下文,后者是由上下文預(yù)測(cè)中心詞,通過(guò)層次softmax和負(fù)采樣技術(shù)大幅度改進(jìn)了詞向量模型的性能。由于該模型引入了上下文,使得詞向量帶有語(yǔ)義信息,所以近義詞的詞向量具有相似性,但是該模型只考慮到了局部信息,而忽視了全局統(tǒng)計(jì)信息。為了解決這個(gè)問(wèn)題,斯坦福NLP實(shí)驗(yàn)組于2014年推出全局詞向量表達(dá)工具Glove[7],該工具的本質(zhì)是將全局矩陣分解和局部文本框捕捉兩大技術(shù)進(jìn)行結(jié)合,提高了很多NLP基礎(chǔ)任務(wù)的準(zhǔn)確率。然而它們都忽略了一個(gè)問(wèn)題,即一詞多義性,2018年華盛頓大學(xué)提出的使用雙向長(zhǎng)短期記憶模型(bi-directional long short-term memory,Bi-LSTM)[8]的基于語(yǔ)言模型的詞向量(embedding from language models,ELMO)工具[9]就是針對(duì)這一問(wèn)題進(jìn)行了優(yōu)化,但LSTM序列模型有兩大缺陷,一是無(wú)法雙向考慮上下文信息,二是并行計(jì)算能力差。所以2018年Google推出了采用Transformer編碼器的Bert[10]詞向量模型,通過(guò)與自注意力機(jī)制相結(jié)合,真正實(shí)現(xiàn)了雙向編碼。

文中的電影文本信息首先要經(jīng)過(guò)預(yù)處理,包括過(guò)濾特殊字符、去停用詞等工作,然后使用預(yù)訓(xùn)練好的Bert詞向量模型對(duì)文本進(jìn)行向量化。

2.1.1 Bert詞向量模型

真正實(shí)現(xiàn)雙向編碼的Bert模型能夠有效聯(lián)系上下文,顯著提高泛化能力。Bert模型將Transformer編碼器和注意力機(jī)制結(jié)合起來(lái),比RNN的效率更高,同時(shí)對(duì)于長(zhǎng)文本的效果更好[10]。

其中Transformer模型是由1個(gè)編碼器組和1個(gè)解碼器組構(gòu)成,而它們又分別由6個(gè)編碼器和6個(gè)解碼器組成。如圖2所示,每個(gè)編碼器包括一個(gè)前饋神經(jīng)網(wǎng)絡(luò)和一個(gè)幫助編碼器在編碼單詞的過(guò)程中理解輸入序列中的其他單詞的自注意力機(jī)制,而每個(gè)解碼器在編碼器的基礎(chǔ)上增加了一層用來(lái)幫助當(dāng)前節(jié)點(diǎn)獲取當(dāng)前需要關(guān)注的重點(diǎn)內(nèi)容的編碼-解碼注意力層。

圖2 編碼-解碼器

Transformer模型的具體流程是:首先將通過(guò)Embedding處理后的輸入數(shù)據(jù)送到編碼器中,然后相繼由自注意力機(jī)制和Feed Forward進(jìn)行處理,輸出到下一個(gè)編碼器,最后將解碼器的輸出通過(guò)一個(gè)全連接層和一個(gè)softmax進(jìn)行映射,選取最大概率的詞。

2.1.2 文本矢量化

Bert的使用分為預(yù)訓(xùn)練和微調(diào),其中預(yù)訓(xùn)練包括MLM和NSP[10],前者是指隨機(jī)選取15%的詞,其中80%的概率采用mask標(biāo)記,10%的概率采用隨機(jī)詞替代,剩下10%的概率不做替換,然后利用上下文來(lái)預(yù)測(cè)這些詞。后者是指判斷輸入Bert的兩個(gè)文本的連續(xù)性,相當(dāng)于二分類(lèi)任務(wù)。

Bert詞向量模型以字為最小單位,不需要對(duì)文本進(jìn)行分詞,輸入由三個(gè)嵌入特征構(gòu)成。Bert模型在預(yù)處理好的維基百科語(yǔ)料上進(jìn)行預(yù)訓(xùn)練,獲得Bert詞向量模型,然后對(duì)預(yù)處理過(guò)的電影文本信息進(jìn)行矢量化,輸出768維文本向量。

2.2 回歸算法

當(dāng)前的回歸預(yù)測(cè)模型主要是機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法的應(yīng)用,常用的有線性回歸、決策樹(shù)回歸、SVM、Random Forest、xgboost、LSTM、CNN等。

2011年Dong Nguyen等人[11]提出基于線性回歸算法的文本作者年齡預(yù)測(cè)模型,實(shí)驗(yàn)表明話語(yǔ)模式與個(gè)人識(shí)別之間的相關(guān)性高達(dá)0.74,平均絕對(duì)誤差在4.1至6.8之間。2015年蔡慧蘋(píng)等人[12]提出基于Word embedding和CNN的情感分類(lèi)模型,其準(zhǔn)確率比傳統(tǒng)ML高了約5個(gè)百分點(diǎn)。2017年Ashok等人[13]提出一種利用支持向量回歸算法在線模式開(kāi)發(fā)基于機(jī)器視覺(jué)的鐵礦石等級(jí)預(yù)測(cè)模型,實(shí)驗(yàn)表明測(cè)試樣品的觀察值和預(yù)測(cè)值之間的相關(guān)系數(shù)為0.824 4,該模型對(duì)于鐵礦石等級(jí)的預(yù)測(cè)性能較好。同年胡西祥針對(duì)微博評(píng)論構(gòu)建基于DL的情感分類(lèi)模型,其準(zhǔn)確率為84.5%。隨后Torlay等人[14]提出基于xgboost算法的癲癇患者分析及分類(lèi),AUC指標(biāo)為96%。同時(shí)王斌構(gòu)建了基于LSTM的交通流量預(yù)測(cè)系統(tǒng),實(shí)驗(yàn)表明平均精度為95%。對(duì)比實(shí)驗(yàn)表明,SVM和Random Forest在該電影數(shù)據(jù)集上的表現(xiàn)最優(yōu),所以下面就這兩種算法做一些簡(jiǎn)要的介紹。

2.2.1 Random Forest

Random Forest[15]是一種由多個(gè)弱分類(lèi)器對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練并預(yù)測(cè)的集成算法,一個(gè)樣本數(shù)據(jù)有多個(gè)分類(lèi)輸出結(jié)果,而最終的類(lèi)別由投票機(jī)制確定。

該算法流程如圖3所示。對(duì)于每個(gè)分類(lèi)器,首先采用有放回機(jī)制在所有的數(shù)據(jù)樣本中隨機(jī)選取部分樣本,然后從這些樣本的特征中再隨機(jī)選取部分特征,并挑選出最好的特征。同時(shí)每棵決策樹(shù)都無(wú)剪枝的盡可能的生長(zhǎng)直至輸出一個(gè)分類(lèi)結(jié)果,通過(guò)多數(shù)為勝的投票機(jī)制確定最終輸出類(lèi)別。

Random Forest是一種實(shí)用性很強(qiáng)的算法,在目前所有的算法中具有較好的準(zhǔn)確率,而且在大數(shù)據(jù)集和高維特征上都有很好的表現(xiàn)。

圖3 Random Forest結(jié)構(gòu)

2.2.2 SVM

SVM[16]是一種適用于處理分類(lèi)和回歸問(wèn)題的基于統(tǒng)計(jì)學(xué)的有監(jiān)督的二分類(lèi)器,主要問(wèn)題是如何在特征空間中使數(shù)據(jù)點(diǎn)與超平面的距離最大化。該算法在訓(xùn)練過(guò)程中首先利用拉格朗日乘子法[17]與對(duì)偶學(xué)習(xí)法來(lái)處理最優(yōu)化問(wèn)題,然后由序列最小優(yōu)化(sequential minimal optimization,SMO)來(lái)求解。

其中線性可分SVM適用于嚴(yán)格線性可分的數(shù)據(jù)集,假設(shè)超平面為:

y=wTx+b

(1)

則數(shù)據(jù)點(diǎn)(xi,yi)與超平面的距離為:

(2)

其幾何距離為:

(3)

(4)

=p*

(5)

則其對(duì)偶問(wèn)題為:

=Q*

(6)

且Q*≤P*,根據(jù)Slater條件可知存在xi使得Q*=P*,對(duì)w和b求偏導(dǎo)后通過(guò)SMO算法來(lái)求解。

線性SVM適用線性不可分?jǐn)?shù)據(jù)集,增加了松弛變量,其超平面和決策函數(shù)與前面的相同。而非線性SVM引入了核函數(shù),通過(guò)非線性映射使該數(shù)據(jù)線性可分,然后按照線性SVM的方法求解。

3 實(shí)驗(yàn)與結(jié)果分析

本次實(shí)驗(yàn)的硬件配置是基于macOS High Sierra系統(tǒng),CPU型號(hào)為3.5GHz 6-Core Intel Xeon E5,內(nèi)存為16G;軟件配置:編程工具為Pycharm2018.3.2,基于Python3.7編程語(yǔ)言和Tensorflow1.13.1框架,此外還使用了gensim庫(kù)、jieba分詞庫(kù)、pandas庫(kù)和scikit_learn庫(kù)等。

如圖4所示,系統(tǒng)UI包括輸入和輸出兩部分,其中輸入是指用戶輸入電影名、電影特征信息以及電影簡(jiǎn)介文本信息,輸出是指前端輸入的信息傳輸?shù)胶蠖耍蠖诉M(jìn)行處理后,將預(yù)測(cè)出的評(píng)分返回到UI界面。

該文設(shè)計(jì)了兩組實(shí)驗(yàn),分別是文本評(píng)分預(yù)測(cè)模型實(shí)驗(yàn)和基于混合特征的評(píng)分預(yù)測(cè)模型實(shí)驗(yàn),實(shí)驗(yàn)性能指標(biāo)采用均方根誤差RMSE。

圖4 系統(tǒng)UI界面

3.1 文本評(píng)分預(yù)測(cè)模型實(shí)驗(yàn)

第一組實(shí)驗(yàn)是文本評(píng)分預(yù)測(cè)模型實(shí)驗(yàn),使用的數(shù)據(jù)是豆瓣爬取的12 491條電影的文本信息,即電影簡(jiǎn)介,其中以0.8和0.2的比例切分訓(xùn)練測(cè)試樣本。

該實(shí)驗(yàn)首先使用預(yù)訓(xùn)練好的Bert和Word2vec模型分別矢量化輸入數(shù)據(jù)得到文本矢量特征,然后基于SVM算法建模,調(diào)參后使用最佳參數(shù)訓(xùn)練測(cè)試。同時(shí)為了驗(yàn)證該模型性能的優(yōu)劣性,使用了另外十種算法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5所示,橫坐標(biāo)為十一種算法,縱坐標(biāo)為RMSE值。

圖5 Bert和Word2vec效果對(duì)比

實(shí)驗(yàn)結(jié)果表明,在該數(shù)據(jù)集上Bert詞向量效果要優(yōu)于Word2vec,且SVM算法的表現(xiàn)最好,RMSE為1.43。為了更加直觀地觀察模型性能,在測(cè)試集中隨機(jī)選取50條數(shù)據(jù),評(píng)分預(yù)測(cè)值與實(shí)際值的比較結(jié)果如圖6所示,容易看出基本走勢(shì)大致相同,但整體誤差較大,說(shuō)明僅僅依靠文本特征無(wú)法很好地預(yù)測(cè)評(píng)分。

圖6 基于SVM算法的評(píng)分預(yù)測(cè)值與真值的結(jié)果對(duì)比

3.2 基于混合特征的評(píng)分預(yù)測(cè)模型實(shí)驗(yàn)

第二組實(shí)驗(yàn)是基于混合特征的評(píng)分預(yù)測(cè)模型實(shí)驗(yàn),基于上一組實(shí)驗(yàn)中的2 500條測(cè)試樣本,依據(jù)是否含有文本特征這一條件設(shè)計(jì)一組對(duì)比實(shí)驗(yàn)。樣本中的主要信息包括電影ID、名稱(chēng)、上映年份、類(lèi)型、導(dǎo)演、演員和豆瓣評(píng)分等,同樣以0.8和0.2的比例切分訓(xùn)練測(cè)試樣本。

該實(shí)驗(yàn)首先根據(jù)是否包含電影文本信息將數(shù)據(jù)集分為兩組,在將數(shù)據(jù)標(biāo)準(zhǔn)化后,分別基于Random Forest算法構(gòu)建模型,通過(guò)網(wǎng)格搜索調(diào)參獲得最佳模型參數(shù),然后隨機(jī)劃分?jǐn)?shù)據(jù)集進(jìn)行100次訓(xùn)練預(yù)測(cè)實(shí)驗(yàn),計(jì)算RMSE的平均值,同時(shí)為了驗(yàn)證模型性能的優(yōu)劣性,分別使用了另外十種算法進(jìn)行對(duì)比實(shí)驗(yàn),兩組實(shí)驗(yàn)結(jié)果對(duì)比如表1所示。

實(shí)驗(yàn)結(jié)果表明,電影特征信息和文本信息的特征混合能夠顯著提升模型性能,且在該數(shù)據(jù)集上表現(xiàn)最優(yōu)的算法為Random Forest,其RMSE為0.564 3,在測(cè)試集中隨機(jī)選取50條數(shù)據(jù),評(píng)分預(yù)測(cè)值與實(shí)際值的比較結(jié)果如圖7所示。最后為了評(píng)估該系統(tǒng)的用戶體驗(yàn)度,邀請(qǐng)了30位同學(xué)來(lái)體驗(yàn),為該系統(tǒng)打分,采用10分制,問(wèn)卷統(tǒng)計(jì)結(jié)果如表2所示,可以看出該系統(tǒng)操作性、流暢性以及實(shí)用性很好,但是UI設(shè)計(jì)和耗時(shí)性有待改進(jìn)。

表1 對(duì)比結(jié)果

表2 問(wèn)卷統(tǒng)計(jì)結(jié)果

圖7 基于Random Forest算法的評(píng)分預(yù)測(cè)值與實(shí)際值的結(jié)果對(duì)比

4 結(jié)束語(yǔ)

利用自然語(yǔ)言處理技術(shù)與機(jī)器學(xué)習(xí)算法的優(yōu)勢(shì),提出了基于混合特征的電影評(píng)分預(yù)測(cè)系統(tǒng),通過(guò)對(duì)比實(shí)驗(yàn)可看出Bert具有更好的詞向量效果且混合特征可顯著提升模型性能,另外實(shí)驗(yàn)結(jié)果表明機(jī)器學(xué)習(xí)算法中SVM和Random Forest算法在該電影數(shù)據(jù)集上的表現(xiàn)最好,系統(tǒng)預(yù)測(cè)準(zhǔn)確率較高。當(dāng)然該系統(tǒng)還存在不足之處,比如實(shí)時(shí)性不高且UI設(shè)計(jì)不夠完美,后期可以針對(duì)Bert模型進(jìn)行改進(jìn),加快文本的向量化過(guò)程,另外在UI設(shè)計(jì)方面,可以在得到評(píng)分預(yù)測(cè)結(jié)果的同時(shí)背景中加入對(duì)應(yīng)電影海報(bào)的展示,使得系統(tǒng)界面更加智能美觀。

猜你喜歡
特征文本實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
如何表達(dá)“特征”
在808DA上文本顯示的改善
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 人妻夜夜爽天天爽| 91精品啪在线观看国产60岁| 91综合色区亚洲熟妇p| 国产国语一级毛片| 97精品伊人久久大香线蕉| 91亚洲免费| 玖玖免费视频在线观看| 好紧好深好大乳无码中文字幕| 99热精品久久| 亚洲第一成网站| 色欲综合久久中文字幕网| 手机在线国产精品| 日韩国产无码一区| 中文字幕va| 成人国产小视频| 国产精品99在线观看| 免费观看国产小粉嫩喷水| 亚洲视频免费在线| 日韩国产 在线| 国产精品视频a| 黑色丝袜高跟国产在线91| yjizz视频最新网站在线| 久久亚洲国产最新网站| 国产精品第一区在线观看| 久久精品这里只有国产中文精品| 免费高清a毛片| 国产毛片基地| 国产乱子伦手机在线| 精品无码人妻一区二区| 欧美激情网址| 亚洲男人的天堂久久香蕉| 中文字幕首页系列人妻| 久久精品中文无码资源站| 国产色图在线观看| 国产无码制服丝袜| 无码国内精品人妻少妇蜜桃视频| 精品伊人久久久久7777人| 午夜在线不卡| 亚洲成人手机在线| 91成人在线观看视频| 精品综合久久久久久97| 69av在线| 亚洲人成色77777在线观看| 日韩精品一区二区深田咏美| 日韩精品少妇无码受不了| 一级毛片免费的| 亚洲日本一本dvd高清| 久久人搡人人玩人妻精品一| 国产高清不卡| 欧美97欧美综合色伦图| 国产亚洲男人的天堂在线观看| 午夜免费小视频| AV天堂资源福利在线观看| 无码AV日韩一二三区| 97在线视频免费观看| 在线视频一区二区三区不卡| 亚洲天堂在线视频| 青青草一区| 青草视频久久| 亚洲黄色片免费看| 亚洲无码视频一区二区三区| 免费人成在线观看视频色| 一区二区三区国产| 嫩草在线视频| 99久久国产自偷自偷免费一区| 91麻豆久久久| 91福利免费| 少妇露出福利视频| 婷婷六月激情综合一区| 久久精品一卡日本电影 | 1769国产精品视频免费观看| 免费一级无码在线网站| 国内精品自在欧美一区| 美女被操黄色视频网站| 亚洲首页在线观看| 久久一本精品久久久ー99| 色悠久久久久久久综合网伊人| 久久人人爽人人爽人人片aV东京热 | 福利在线不卡| 2019国产在线| 一本二本三本不卡无码| 波多野结衣无码视频在线观看|