華南理工大學
隨著人們生活水平的提高,電影作為一種娛樂方式被越來越多的人喜愛。國產電影產量也保持增長趨勢,僅2018年一年中國就有將近千計的電影上映[1];同時隨著互聯網產業的快速發展,網絡購票平臺成為人們購票和觀影決策的重要途徑,但是,通過互聯網購票也同樣存在著一些弊端:1.以淘票票為代表的互聯網購票平臺的評分系統為綜合評分,而綜合評分是不同年齡段不同喜好的龐大用戶群體給予的評分,對于小眾喜好的用戶群體或是不同年齡細分的用戶群體難以作為準確的決策標準。2.用戶需要通過瀏覽大量的評論文本數據來甄別自己的興趣點與這部電影的匹配程度,從而決策是否值得觀影,而這一點是很難通過綜合評分來判斷的,用戶在此過程中浪費了大量的精力和時間,導致信息獲取效率低下。3.評論數據中經常摻雜著大量無效評論,包括無效內容以及用戶興趣點之外的評論,對用戶篩選有效評論造成了很大的干擾和障礙。如何讓用戶在較短的時間內完成購票決策,從繁多的影視節目中找到適合自己的電影,關乎著購票平臺APP的競爭力乃至生死存亡。本研究從這幾點弊端出發,進行文獻綜述,分析得出未來研究的發展方向。
對于網絡影評的研究現狀如下,Yang Liu[2]等開發了一套預測評論有用性的模型和算法,為發現特定產品最有用的評論提供依據。認為一篇有用的評論主要從三方面展示:評論者的專業知識、評論的寫作風格和評論的及時性。同時,在分析這些因素的基礎上,提出了一個非線性回歸預測模型,并通過對IMDB電影評論數據集的實證研究表明了該方法的有效性。基于文本挖掘理論和信息質量的評估,Ghose A,Ipeirotis PG提出了兩種產品評論排名機制。消費者導向的排名機制:根據評論的預期效用進行排名;以及制造商導向的排名機制:根據評論對銷售的預期效果進行排名。楊銘等認為對于在線商品評論的效用研究應該將消費者的購買決策過程進行重點研究,同時為研究結果可以為營銷策略提供決策支持。Jindal,N.和Bing Liu通過對亞馬遜網站580萬條評論和214萬條評論的分析,發現評論垃圾郵件傳播非常廣泛的事實并提出了幾種過濾垃圾商品評論的方法:集中在用戶識別,基于評論內容的語義分析和基于評分行為的聚類分類。
綜上,現在對于網絡評論的研究主要是通過算法實現對于垃圾信息的過濾篩選以及有效信息的甄別,然后將有價值的信息推薦給用戶,這種方式節省了用戶瀏覽垃圾信息的時間,可以讓用戶在最開始瀏覽時看到更有價值的信息,但是這種方式依賴于算法的性能,只從文本數據的角度進行過濾篩選,基于普世的角度對于評論信息進行價值排序,對于用戶來說,普世的價值不一定適用于自己,用戶還是需要進行大量的瀏覽文本信息才能衡量商品對于自己來說的價值,仍然會給用戶帶來信息過載的困擾。每個用戶的評價標準是不同的,若能建立用戶模型,對大群體用戶進行細分歸納,獲取用戶大量的數據信息來對用戶進行建模分析。
在自然語言處理領域,學界多圍繞情感分析展開研究,情感分析是指對文本數據中存在的情感傾向的分析,屬于一個跨學科的研究領域。情感闡發成果可分為三類:積極情感、消極情感和中性情感。機器學習法和字典法是情感分析法的兩大組成部分。易順明以Twitter的評論內容為例,提出了一種用情感特征向量代替詞頻特征向量的情感分類方法。語料庫中的每一個詞都通過情感詞典用情感值來標記,然后將這些情感值作為特征數據輸入模型,采用監督學習模型訓練和預測結果。楊超等介紹了《知網詞典》和《新臺幣詞典》,采用相似法和頻率計算法計算情感詞的情感傾向,并把詞放置在文中通過上下文分析的方式提高分析結果的準確性。
由此我們可以發現,用戶所產生的網絡評論信息,是對客觀現象的主觀表述,針對用戶產生的不同類型網絡評論文本數據,有著不同的算法以及目標。當前的研究主要是通過提取用戶產生的文本數據中的特征詞來感知用戶情感的,如能將用戶對于電影評價的情感傾向特征詞進行總結歸納,整理出一套針對電影評價的情感關鍵詞詞典將會對用戶評價數據的情感傾向判斷起到巨大的幫助,這也將成為后續研究的方向之一。
綜合以上分析,后續研究可以就構建個性化網絡購票平臺評分推薦系統并通過數據信息的可視化及界面交互的設計來解決用戶獲取影評反饋數據過程中遇到的障礙。對于一個推薦系統來說,如何通過用戶產生的數據建立細分用戶群體的用戶畫像,并能夠預測或者識別這個細分用戶群體感興趣的物品將是后續研究的重點;而對于文本信息的可視化處理以及APP界面交互設計來說,將冗余信息進行合理過濾,清晰易讀的呈現出來并給予用戶流暢的操作體驗從而達到短時間內快速決策的目標是今后研究的方向所在。