武永嬌 黃寧
為了解決電影評分體系的打分機制存在諸多不足,提出基于Python網絡爬蟲技術的電影口碑研究方法。以2部電影為例,利用該技術將電影網站上的用戶評論提取下來,并對其進行自然語言處理情感分析,通過實驗分析得出的情感分數可以表示用戶對于電影的態度,作為一種評判電影口碑的重要依據。
1.引言
電影口碑對于電影營銷的重要性不言而喻,目前國內對于電影口碑的研究很少,除了比較具有代表性的豆瓣電影評分,其他相關機構的數據都很難有參考價值,而豆瓣電影評分體系的打分機制本身也存在諸多不足,因此,提出一種更權威的電影口碑研究方法成為亟待解決的問題。
觀眾對于一部電影的評論能夠真實反映對于該部電影的態度。詳細的文字描述可以表達出觀眾的主觀態度,運用大數據Python技術,以豆瓣平臺億萬觀眾所發表的文字為研究對象。實現對電影評論的文本挖掘和情感分析,理論與實際操作相結合進行研究,解決電影營銷中遇到的問題,進而對營銷人員如何有效應用大數據提供啟示,使其可以用于營銷決策。
2.信息提取
2.1 Python技術與信息提取
網絡爬蟲是一種通過既定規則,可自動地抓取網頁信息的計算機程序。通過Python技術,可以方便、快捷和高效地對電影評論實現網絡數據爬取和網頁解析,部分代碼如圖1所示。其中Requests庫,可以對豆瓣網頁爬取,獲取網絡頁面,Beautiful Soup庫,可以有效地解析HTML頁面的內容,并且提取相關的信息。
2.2情感分析
情感分析又稱意見挖掘,簡而言之,是對帶有情感色彩的主觀性文本進行分析、處理、推理和歸納的過程,采取基于深度學習的情感分析方法,實現步驟如下:
文本預處理包括以下3部分。①分詞:在語言學中,詞作為最小的獨立情感單元具有豐富的情感內涵。②詞性標注:詞性是指根據詞的特點用來劃分詞類的根據。包括名詞、動詞、助詞、形容詞、副詞和連詞等。③去停用詞和特殊字符:停用詞是指在自然語言處理中可以過濾掉的一些沒有實際意義的功能詞,這些詞在文本中出現的頻率較高,但對文本的情感分析卻沒有實際的影響,如代詞“這”、“那”,助詞“的”、“了”,介詞“在”,語氣助詞“呢”、“啊”等。有研究表明去除這些無實義的高頻停用詞能夠減少數據的噪音,降低特征向量的空間維度并提高情感分類的準確率。
3.觀眾對電影的態度分析
3.1電影《戰狼2》口碑分析
利用網絡爬蟲將豆瓣網上電影《戰狼2》的500條熱門短評抓取下來,對這些評論文本數據進行情感分析。每條評論文本數據進入情感分析處理后會得到一個0 ~1的概率值,其中1表示該文本的情感是積極的;0表示文本的情感是極度消極的,圖2為《戰狼2》短評的情感分析散點圖。
根據分析結果,《戰狼2》的態度評分為0.79,如圖3所示。
由此可見,根據評論文本得出,觀眾對于電影《戰狼2》的態度是相當積極的,這與《戰狼2》在票房上所獲得的成功、豆瓣網上的高分是一致的。
3.2電影《捉妖記2》口碑分析
與上一節相同,采取相同的方法對電影《捉妖記2》的口碑進行分析。《捉妖記2》并沒有取得前作《捉妖記》那樣的成功,被視為是一部失敗的續集,其在豆瓣網上參與評分人數132 973人,評分為5.0分。
同樣,抓取《捉妖記2》的500條熱門短評進行情感分析,得到散點圖如圖4所示。
《捉妖記2》的情感分為0.57,如圖5所示。
3.3分析結果
由以上2節的分析可知,根據豆瓣網站上的電影評論,觀眾對于《戰狼2》的情感分為0.79,對于《捉妖記2》的情感分為0.57。這表明,觀眾對于《戰狼2》與《捉妖記2》這兩部電影,偏愛《戰狼2》的程度明顯高于《捉妖記2》。這個研究結果與實際票房和身邊觀眾的實際感受等都是一致的,說明這種基于Python技術電影口碑的研究是有效的。
4.結束語
這種基于Python大數據的分析方法可以彌補現有電影口碑研究方法的不足,對于電影口碑,電影的立項、制作、發行和上映等環節都可以做出針對性的部署,從而提高效率,獲得更高的收益。
本案例旨在說明大數據技術在電影營銷中的應用,將這種方法推廣,不局限于比較兩部電影的口碑優劣,而對整個電影市場中觀眾的態度做研究,可以得到一些對于電影營銷極具意義的參考意見。所采用的網絡爬蟲在抓取網頁上的評論時采用單線程的方式,效率較低,從長遠來看其爬蟲效率需要優化,有進一步提高的空間。