陳燕方 譚立輝
(華中師范大學信息管理學院,華中師范大學湖北省電子商務研究中心,湖北 武漢430079)
隨著互聯網和電子商務的迅速發展,在線商品評論開始產生,消費者可以在網上自由發布對已購買商品的評論信息。隨著這些在線商品評論信息商業和公眾價值的不斷提升,同時由于存在法律的缺失以及網絡監管措施的不到位和評論的非結構化等因素,促使虛假評論開始出現在人們的視野。在線商品虛假評論即指那些會誤導消費者做出錯誤購買決策的評論,他們常常通過“喬裝掩飾”成正面有用的評論,從而誘使消費者購買過分吹捧的劣質商品,或是阻止消費者購買蓄意詆毀的正常商品,以達到自己的非法目的。虛假評論使潛在消費者無法做出正確的選擇,讓商家處于惡性競爭的環境中,造成在線商品交易平臺的評論信息魚龍混雜。由此可見,在線商品虛假評論信息的治理策略研究具有非常的必要性和緊迫性。
目前國內外對于在線商品虛假評論治理研究中,多停留在從文本處理角度出發的虛假評論識別研究中,然而虛假評論作為一個具有極強主觀性的非結構化數據文本,無論是其識別還是治理過程都需要對其整個形成過程中的行為主體、路徑節點有一個系統的研究,才能更全面地挖掘虛假評論文本的特點以進一步提升識別模型的準確率和計算效率,同時也使得法律監管體制有更加明確和清晰的方針政策。因而,本文作為“在線商品虛假評論識別及其治理研究”課題研究成果之一,繼《在線商品虛假評論形成路徑研究》之后系統地闡述了在線商品虛假評論信息治理策略[1],針對當前研究中存在的不足之處,從治理目標的重組、治理對象的明確以及治理途徑的豐富和完善3 個方面完整地指出了在線商品虛假評論信息的治理策略。
在線商品虛假評論不僅會誤導消費者做出錯誤的購買決策,引起在線商家之間的不正當競爭,更在極大程度上降低了在線商品評論的可信度,給電子商務評論體系帶來了前所未有的挑戰。不少學者試圖從法律角度解決虛假評論、信用泛濫等問題[2],但一味依賴法律保障并不能取得良好的預防效果,一方面這些對策建議很難立法實施;另一方面法律只能事后制裁卻很難及時預防。
由于虛假評論檢測技術已逐漸成為國內外研究熱點,學者們通常將虛假評論識別視為一個二分類問題,通過選取一定的測度指標和測度技術來鑒別虛假評論。但當前研究往往局限于某一商品類型(如酒店類[3]、圖書類[4]),缺乏檢測通用性。同時,二分類的檢測方式難免過于武斷,評論信息主觀性強,虛假評論者作弊手段高,評論信息難辨真偽,任何檢測技術都很難達到100%的準確率。
因此筆者認為,要達到發現虛假、嚴懲虛假的目的,必須以完善的信用體系制度、健全的法律制度作為外在輔助,以高效的檢測模型作為內在動力才能更有效地治理虛假評論。法制監管需要明確在線商品虛假評論形成過程中的各個行為主體,才能有的放矢地對其加以管制。檢測模型要采用合適的測度指標,具備一定的普適性,并將原有的二分類識別方法進行改進,以達到以評論可信度進行排序的識別方法,而不是僅僅給出“真”或是“假”的判斷。
在以往對虛假評論二分類的研究中,往往將檢測定義為虛假的評論信息直接過濾刪除,但在本文提出的以評論可信度進行排序的檢測模型設想中,則要求按照某一規定閾值,將可信度較高的評論展現給用戶、而可信度較低的評論則存儲起來,等到下一條評論進入時,再將所有評論全部調用計算。這樣就盡可能地降低由于檢測誤差而導致判斷失真的可能性。如:某一商家請大量親朋好友真實購買,并做出十分逼真的好評,而真實的消費者交易后給出的差評很可能會被誤判為虛假,而接下來大量的消費者均給出差評時,此時便可很快得出前面的好評都是虛假的。
虛假評論者分為正常評論者、一般虛假評論者以及職業虛假評論者。正常評論者指那些由于個人“過度完美”或“過度寬容”的評論風格,或者當時處于極端的情感狀態,而產生的由過強主觀性導致的不真實評論信息。此類評論者只能通過可信度排序盡量將其評論排后,并通過規范化評論內容來盡量減小由個人主觀情感帶來的偏差。一般虛假評論者很可能是受到商家的利益誘使或騷擾。一方面,交易平臺需要進一步細化交易信用規則,倘若商家銷售中以及旺旺聊天中頻繁出現“好評返利”等字樣,均將其信用度適當降低;另一方面,消費者需加強維權意識,當遇到不正當騷擾時,應積極向平臺客服申訴。而職業虛假評論者,大多是與職業虛假評論中介相依相存的。雖然有些平臺規定將被發現的職業虛假評論炒作者處以封號等嚴懲[5],但在百度等網站仍隨處可見虛假評論中介的廣告宣傳。因此只有法律的明文禁止與嚴懲才能有效地杜絕職業虛假評論中介和職業虛假評論者的存在。2013 年7 月23日全國首例惡意差評師案在杭州宣判,被告楊某為首的12名“惡意差評師”團伙被以敲詐勒索罪判刑[6],同樣,對于刷信用平臺的不正當商業競爭也亟待法律的制約。
在線商家的虛假炒作一直是電子商務在線交易平臺的頑疾,虛假方式分為正面炒作和負面炒作。正面炒作使得電子商務交易信用積累不再依靠真實的交易途徑,而是對電商長期有序競爭環境的破壞,已經嚴重侵犯了電商的公平競爭權,長此以往,必將導致劣幣驅逐良幣效應,最終致使市場失靈。而負面炒作,在主觀上帶有詆毀同行的意圖,已構成反不正當競爭法中詆毀商譽的行為,是一種惡性的商業競爭行為,應承擔相應的賠償責任。面對虛假炒作商家,某平臺曾多次重拳出擊,打擊方式包括:下架商品、降低商家的信用等級、查封店鋪等。但僅少量網站的微薄之力,很難改善整個電商的競爭環境。需根據虛假炒作的特點有針對性地建立法律規范,完善在線交易信用體系。使商家的虛假炒作得到嚴懲。
在線商品虛假評論形成路徑的基本要素包括:在線銷售商家、虛假評論中介、消費者以及在線商品交易平臺四個部分。要達到監管和控制基本要素的目的,一方面,需要有效地利用法律力量嚴懲虛假炒作商家以及虛假評論中介,以儆效尤。必須通過宣傳教育,使消費者加強維權意識。平臺需對真實客觀的評價和積極舉報揭發者給予一定的獎勵。另一方面,對于在線商品交易平臺,雖然開放型平臺并沒有參與銷售,但平臺的利益仍與交易量有著直接的關系,而自營型平臺會直接參與銷售盈利。因此,惟有第三方信用監管平臺才能以一個更公正的身份,通過認證中心(CA)向商家發放數字證書,并定期對其進行信任認證和評級,為消費者提供一個更加真實可信的電商購物平臺。
在線商品虛假評論信息的誘導因素主要在于交易主體具有不可見性以及評論內容的主觀性。此外,現有信用評價體制在評價的權威性、細化度等方面的缺失也培育了虛假評論信息滋生的溫床。
一條完整的評論包含消費者ID,消費者信譽、評論時間、商品打分、有用性投票、評論內容等。其中,評論內容為自由文本(非結構化數據),極易滋生虛假的類似“滿意”、“寶貝不錯”等空泛的評論或其他無關評論。因而,可采用半結構化評論文本來提高制造虛假評論的時間成本和人力成本,將在一定程度上減弱虛假評論的形成。例如:根據服裝類商品屬性,設置是否合身,是否存在色差等選項,并通過獎勵來促進消費者盡量完善半結構化評論內容,提升評論內容的可信度。同時,可在現有信用體系的基礎上,建立第三方信用評價機制,針對虛假評論產生的因素,增加虛假評論的發布代價,使得消費者、商家、在線商品交易平臺都自動規避風險,遵守信用規則。
根據目前在線商品評論信息的收集顯示,由于非結構化文本對評論者沒有太多的束縛,所以大多數的正常消費者做出的評論很多都是類似于“很好”、 “還不錯”、 “還行”等之類的空泛性評論,這對潛在消費者在購物決策上并沒有太大的幫助。正是由于正常消費者沒有做出中肯的評論才讓虛假評論者有機可乘,促使這些虛假評論員通過詳細的敘述商品的信息,以及商品的體驗,來誘使或者阻止消費者做出購買決策。
綜上,一方面建議商家可以通過獎勵的方式來鼓勵消費者發表包含商品信息以及體驗商品之后的心得等方面的真實有用的評論,然后通過潛在消費者自愿為評論者發表的評論進行投票選擇“有用”或“無用”,最后以票數作為依據,通過贈積分、送紅包、增加會員特權等方式定期為票數高的評論者給予獎勵;另一方面建議電商網站平臺建設者構造更具有結構化的評論體系,以減少評論者的“惰性行為”或主觀性的影響。
虛假評論識別技術是協助法律監管和第三方信用評定機制的一個有效工具。當前的虛假評論檢測技術一般是建立在文本分類的思想上進行處理,其完整識別及驗證過程如下:首先通過網絡爬蟲,獲取一定規模的數據集,并構建適量的樣本訓練集,然后從不同角度通過實驗或觀察分析提取虛假評論的相關特征,并根據這些特征建立適當的機器學習模型(如logistic 回歸、SVM、貝葉斯等),最后用余下數據作為測試集測試模型的準確率和召回率。
但在以上識別過程中,主要存在以下兩個難題:
3.4.1 樣本訓練集獲取難
樣本訓練集的獲取將直接影響模型驗證的準確率和召喚率。在以往的研究過程中,大多數研究者通過采用人工標注方法進行處理,但誤差往往較大。Liu 等[7]則通過采用杰卡德相似度比較評論內容,檢測出重復評論,并將重復的評論作為正向的訓練集建立logistic 回歸模型來識別虛假評論,無疑遺漏了許多非重復的虛假評論。Ott 等[8]請Mechanical Turk 充當虛假評論者對20 家酒店做出虛假評論作為訓練樣本集。由于虛假仿真度難以保證,更無法模擬出真實的網絡購物評價環境,但這仍為樣本數據集的獲取提供了新思路。
3.4.2 虛假評論信息模式鑒別難
當前研究分兩個方面:
(1)基于評論內容的信息模式研究。包括文本相似度檢測[7],基于產品特征概念層重復的檢測[9],以及基于情感分析的檢測模型[10]等。
(2)基于評論者行為的識別,包括評論者的打分行為偏差[11]、評論者反常行為模式的評論模型[12]等。
以上研究以文本挖掘為基礎,多采用自然語言處理技術。然而,在線商品評論信息屬于一個特殊的短文本信息,評論內容有其獨特的特點。比如,其情感詞匯語料就不同于自然語言文本,類似“好評”、“寶貝不錯”的字樣都是在線商品評論文本獨特具備的。而消費者的行為研究則更有待于從評論時間、評論停留時間、評論者社交網絡關系等方面進行探索。因此通過優化文本識別技術、加強消費者行為研究來提高鑒別準確率是迫切需要的。
本文分別從重組治理目標、明確治理對象和完善治理途徑三方面,對在線商品虛假評論信息治理策略進行了定性分析,詳細闡述了在線商品虛假評論信息針對不同治理對象的法律監管制度以及今后識別模型的優化方向,從而達到切實可行的發現虛假、嚴懲虛假的目的,以形成一個競爭有序的電商購物環境。而宏觀法律層面的治理策略,包括對虛假評論行為主體的監管與懲處體系等仍有待完善。而對本文提出的優化檢測模型策略將是課題小組下一步的研究重點與難點。
[1] 陳燕方,婁策群. 在線商品虛假評論形成路徑研究[J]. 現代情報,2015,(1):49-53.
[2] 王小燕. 電子商務中的信用炒作行為法律規制研究[D]. 中國社會科學院,2013.
[3] Yoo K H,Gretzel U. Comparison of deceptive and truthful travel reviews [M] ∥Information and communication technologies in tourism 2009. Springer Vienna,2009:37-47.
[4] Hu N,Bose I,Gao Y,Liu L. Manipulation in digital word-of-mouth:A reality check for book reviews [J]. Decision Support Systems,2011,50 (3):627-635.
[5] 淘寶網. 淘寶規則[EB/OL]. http:∥rule. taobao. com/detail-62.htm,2014-03-10.
[6] 新華網. 首例差評師案告破[EB/OL]. http:∥news. sina.com.cn/o/2013-07-04/050927571266.shtml,2014-03-10.
[7] Jindal N,Liu B. Opinion spam and analysis [C] ∥Proceedings of the international conference on Web search and web data mining.ACM,2008:219-230.
[8] Ott M,Choi Y,Cardie C,Hancock J T. Finding deceptive opinion spam by any stretch of the imagination [J]. arXiv preprint arXiv:1107. 4557,2011.
[9] Algur S P,Patil A P,Hiremath P S,Shivashankar S. Conceptual level similarity measure based review spam detection [C] ∥Signal and Image Processing (ICSIP),2010 International Conference on. IEEE,2010:416-423.
[10] 彭慶喜,錢鐵云. 基于量化情感的網店垃圾評論檢測[J].山東大學學報:理學版,2013,(11):7-11.
[11] Lim E P,Nguyen V A,Jindal N,Liu B,Lauw H W. Detecting product review spammers using rating behaviors [C] ∥Proceedings of the 19th ACM international conference on Information and knowledge management. ACM,2010:939-948.
[12] Jindal N,Liu B,Lim E P. Finding unusual review patterns using unexpected rules [C] ∥Proceedings of the 19th ACM international conference on Information and knowledge management.ACM,2010:1549-1552.