摘要:針對當前電影評論中存在過多的水軍評論而導致電影評論失真的問題,分別討論了當前三種主流水軍挖掘方法在網絡電影評論中運用的可行性,之后通過對部分水軍賬號進行分析,從而總結出電影評論網絡水軍的一些共性特點。
關鍵詞:電影評論,網絡水軍,數據挖掘
1.引言
網絡水軍一般是以盈利為目的,通過對網絡輿論的控制和引導,為企業提供品牌炒作、產品營銷、口碑維護、危機公關等服務。隨著近幾年電影市場的火爆,網絡水軍開始大量滲透進各大電影論壇中,其評論欺騙人們相信一部電影值得看或者將一部影片的貶得一文不值,這會誤導人們決定看什么電影,嚴重影響著許多電影的口碑走向,無形中對一些電影的收益產生重大影響,并危害國家的文化產業發展。
2.網絡水軍挖掘的常見方法
目前,按照研究方法的不同,網絡水軍挖掘研究可以分為基于用戶產生內容特征、基于環境特征的識別方法和基于用戶相關特征。
2.1 基于用戶產生內容特征
該方法根據具體的評論內容來對疑似水軍進行識別,早期的電影評論水軍往往發表許多內容高度相似的影評,來達到其最大化網絡影響且最大程度減少工作量的目的,因此具有顯著可識別的特征,此時,結合機器學習中的自然語言處理、文本分類、情感分類等技術,比較容易分辨出水軍的影評。但是,隨著當今網絡環境的復雜化及水軍行業的專業化,其影評更加接近于正常用戶,單單根據電影評論的內容,很難對兩者進行區分,因此當前的電影評論水軍挖掘通過該方法并不能取得很好的效果。
2.2 基于環境特征的識別方法
網絡水軍的異常行為使其在網絡環境層級表現出不同于正常用戶的特點,研究者們通?;贗P的黑名單信息、TCP腳印信息、路由信息以及機器人網站命令追蹤信息等聯系起來對水軍的網絡級別特征經行分析,以實現對水軍的追蹤。另外,也有學者利用網絡服務提供商的水軍記錄行為,從ISP角度提出流量級別的特征,實現對網絡水軍行為的建模。此外,基于水軍在制造垃圾評論時的網絡負載突然加大這一特點,近幾年通過網絡流量的角度去挖掘水軍特征也為這方面的研究提供了一條新思路??偟膩碚f,基于環境特征的識別方法其研究需要相應的實驗數據集,而獲取相應的數據集存在相當大的難度,因此該方法在電影評論領域的運用并沒有得到大規模推廣。
2.3 基于用戶相關特征
基于用戶相關特征的方法又可以細分為基于用戶行為特征和基于用戶關系特征兩種方法。前者的經典方法為通過人工標記首先建立訓練集,然后通過對已經識別的網絡水軍進行分析并定義其特征,利用weka中的三種特征選擇算法評價各個網絡水軍行為特征的分辨力,采用傳統監督分類方法,判斷未知用戶是否為網絡水軍。之后的方法大多圍繞該方法進行改進,以提高水軍識別的準確率。
后者是目前廣泛采用的用戶關系特征的識別研究,該方法基于社會網絡、圖模型理論的研究,通過網絡水軍不同于正常用戶的社交圈子的特點,來將兩者進行區分。由于電影評論領域的水軍往往會呈現高度的聚集性以及與普通用戶關系稀疏性的明顯特點。因此,網絡電影評論中的水軍更適合于通過用戶特征來進行挖掘。
3.電影評論中的水軍特點
通過收集微博電影評論平臺水軍賬戶信息及其外圍用戶信息進行分析,可以總結出疑似水軍用戶具有一些共同的特征。
首先,社交網絡中,正常用戶往往通過各種交互行為逐漸形成一個以用戶為中心的社交圈子,而水軍用戶賬號不具有正常的社會關系,其形成的社會網絡結構特殊。水軍用戶往往會關注大量用戶,但并不關心這些用戶真實的社會網絡關系,其關注好友之間幾乎沒有連結,也就是說,其賬戶雙邊的朋友關系比例很低。
其次,水軍的微博用戶等級低于合法用戶。水軍經常會不斷注冊新用戶賬號,但卻不會去刻意經營這些賬號,因此這些賬號本身不會有太多戶主的日常生活記錄,其個人主頁點擊率也會十分低。
另外,水軍的賬戶往往會在短時間內同時發布大量的評論,對于電影的評分,出于雇傭者的要求,其給分極端(極高或極低)。
最后,水軍賬戶的轉發率低于合法用戶。其發布的評論往往更加主觀,即提出自己的意見來影響別人,而不是去傳播別人的意見。
4 結語
網絡的快速發展極大地便利了我們生活的同時,也使我們面臨著網絡水軍的騷擾。當前中國各大電影論壇為人們交流電影和交流彼此的經驗提供了極好的平臺,而電影評論水軍的介入擾亂了正常的秩序,妨礙了用戶的利益。水軍研究作為數據挖掘領域近幾年的熱點,今后將會得到國內外更廣泛的研究。因此,結合網絡電影評論水軍的特點,綜合其內容、行為、關系和環境等特征,努力提高網絡水軍識別的準確率,對于維護網絡環境,恢復網絡秩序,促進中國電影市場與文化產業蓬勃發展,具有十分重要的意義。
參考文獻:
[1]Chen G, Cai W, Huang J, et al. Uncovering and Characterizing Internet Water Army in Online Forums[C]// IEEE International Conference on Data Science in Cyberspace. IEEE, 2016:169-178.
[2] 莫倩, 楊珂. 網絡水軍識別研究*[J]. 軟件學報, 2014(7):1505-1526.
[3]程曉濤, 劉彩霞, 劉樹新. 基于關系圖特征的微博水軍發現方法[J]. 自動化學報, 2015, 41(9):1533-1541.
[4]Zeng K, Wang X, Zhang Q, et al. Behavior Modeling of Internet Water Army in Online Forums[J]. Ifac Proceedings Volumes, 2014, 47(3):9858-9863.
作者簡介:胡曉康(1992—),男,山西臨汾人,山西財經大學2015(管理科學與工程)學術碩士研究生,研究方向:信息與知識管理.endprint