姜贏,張婧,朱玲萱,渠暢
(北京師范大學珠海分校管理學院,廣東珠海519087)
網絡謠言文本句式特征分析與監測系統
姜贏,張婧,朱玲萱,渠暢
(北京師范大學珠海分校管理學院,廣東珠海519087)
基于實現網絡謠言自動識別的目的,從地域、時間和傳播形式3個維度分析了收集到的網絡謠言基本情況。網絡謠言以文本傳播形式為主,而且在文本句式上有一定的共通點和相似之處。本文采用了五類網絡謠言文本句式特征分析方法,結合LanguageTool構建了一系列基于XML的網絡謠言句式匹配規則。通過對收集到的網絡謠言實驗測試,得出此方法能夠實現網絡謠言的自動識別和監測,可以減少50%以上的人工識別工作量的結論。
網絡謠言;句式特征;LanguageTool;XML
網絡謠言傳播者善于運用富有煽動性的句式和語氣來擴大傳播面積和影響力。例如“請把它轉達給每一個你珍惜和喜愛的人”、“是中國人就應該轉”等都是網絡謠言經常使用的語句。網絡謠言傳播者往往首先把自己撇清,把信息來源指向不確定的某個地方,常用些“信不信由你”的詞語。另外,在網絡上感嘆號密集、瘋狂煽情、強調語句聚集,以及“是。就頂樓主”之類的的語句也往往是謠言。由此可見,謠言文本句式的特征具有一定規律,而且有跡可循。總結、分析這些與特征與規律,并用于提高網絡謠言的識別率,對實現網絡謠言實時監測和主動預警有重要意義。
在網絡謠言分類方面,近年來國內學者經過調研發現[15-16],網絡謠言主要包括醫療衛生、社會政治、災害安全等類型,以及一些廣受關注熱點問題[2,5,14]。北京師范大學心理學院孫嘉卿[10]通過對新浪微博辟謠信息的統計分析,總結出有6種被反復使用的微博謠言辟謠方式。在網絡謠言的治理方面,武漢大學馬克思主義學院周潤[3]、徐州師范大學安仲森[6],湖南水利水電職業技術學院劉河元[8],不約而同的提出應在政府(法制建設與信息公開)、單位(網絡監管與思想教育)[11]和個人(個人素質提高與自律)等多個部門和層面多管齊下進行標本兼治;上海對外貿易學院姚福生[4]認為謠言治理的基礎在于信息透明,必須進一步推進信息公開,而對謠言治理必須及時,掌握最佳時間,要做“第一定義者”的及時性;武漢工業學院胡頻偉提出,防范和處置網絡謠言首先要認識到建立監測系統在早期預警系統中的作用,包括網絡謠言監測、識別、系統、評價、處置和反饋系統。北京郵電大學公共管理學院王歡等[7]提出網絡謠言的治理框架建包括6個“止于”:信源控制止于智者、內容控制止于公開、過程控制止于及時、社會環境控制止于機制與法制、網絡環境控制止于技術。另外,廣東白云學院[9]對于學生工作網絡輿情信息監控工作進行了實證研究。
綜上所述,網絡謠言傳播原因主要有:1)網絡準入門檻低:一臺連接網絡的設備,就可以輕松申請到一個微博賬號,缺乏監管,微博上出現一類群體“網絡水軍”,他們人數眾多,出于某種商業目的,會對某一言論一邊倒評論,為達到雇主需求而捏造事實。因此,網民很難判斷出某一微博信息是否真實。2)從眾心理導致趨向傳播:人們在接受信息時,會考慮信息是否與自己認知保持一致,當認知一致時,大多會進行傳播。從眾心理使得網民在群體壓力下產生群體自我膨脹的現象,以群體的決策為正確的,經常造成謠言的肆意傳播。當面對外部大量信息的刺激,個體容易隨波逐流,表現出強烈的從眾行為。3)網民約束力較差:由于因特網協議的開放性和管理方式的分散性,互聯網上的信息傳播和交流是很少受政府管制的,在網絡空間中,先進的科技造就了一批迷失的“網絡人”,“網絡人”長期活動在互聯網上,喪失道德判斷能力和責任感。容易被謠言所捕獲,成為謠言傳播的載體。4)“把關人”缺失:“把關人”詞義是“是在向受傳者傳遞信息的過程中,有權控制信息的流量和流向,影響著對信息的理解,決定讓哪些信息通過以及如何通過的人或機構”,這個“把關人”一般由政府,媒體擔任,他們的職責是對信息進行選擇和篩選,并防止個人意志通過媒體傳達給大眾,盡力保持客觀,公證,平衡的準則。新興媒體不斷加入,紛紛創辦各自的網站,但網絡的采編和渠道審核程序不同,缺乏“守門人”的監管機制,這樣會讓一些大型門戶網站會出現虛假信息,并且利用自己的權威和力量,使得小道消息快速傳播開來,為網絡謠言打開一道大路。同時,在微博上,每個人都是信息的傳播者和發布者,“把關人”的角色幾乎消失無存,登陸微博發布信息,不需要經過任何審查和等待,所發布的內容就會出現在網上,并可以被網民所看到。根據我們所調查的數據,幾乎有80%的校園謠言和社會謠言是通過個人發布端發送出來,所以“把關人”的缺失是導致謠言信息傳播迅速的原因之一。
但是目前未見專門針對網絡謠言文本句式特征分析的相關研究報道。在此背景下,本文提出在網絡謠言文本句式特征分析基礎之上,利用基于Languagtool[13]的XML[12]模式匹配識別技術實現網絡謠言的自動識別和監測。
本文研究的網絡謠言數據主要來自3個渠道:1)采用網絡調研和文獻分析等方法,從人人網、騰訊微信、騰訊QQ、新浪微博、百度貼吧以及相關BBS網址等收集到網絡謠言相關公開的373個相關鏈接、340個謠言事件;2)通過分組調研,從微信朋友圈、騰訊QQ等自媒體等途徑收集了345條朋友間轉發的網絡謠言私密信息。3)利用新浪微博虛假消息辟謠官方賬號“微博辟謠”收集了6個月(2015年7月1日至2015年12月15日)該平臺公布的453個社會謠言事件。筆者對這些不同渠道的數據進行了人工篩選、去重、分類和匯總,最終建立了包含345條網絡謠言的案例庫。以下從地域、內容和傳播形式3個維度對這些網絡謠言數據基本情況進行介紹。
網絡謠言具有明顯的地域指向,即發生在某地某市,或者是針對某市某省所散布的謠言。例如,“揚州曲江公園砍人、江都金牛灣發生武力事件多人倒地”、“湛江到廣東9 570頭家禽感染”和“深圳有多人被感染”等等。如表1所示,與地域相關的網絡謠言有289條,其中與中國大陸相關的有272條。

表1 網絡謠言指向地區分類匯總表
網絡謠言內容上依據按一般傳統媒體的新聞分類法分為:政治、經濟、法律、軍事、科技、文教、衛體、社會等等新聞。如表2所示,此處所稱的社會新聞內容很多,包括民生新聞、新聞熱線中讀者、聽眾、觀眾提供的新聞線索等。社會新聞大多數以負面的表達出現,如“特警暴力執法強拆,侵占老百姓田地”、“廉江一產婦在分娩時身亡,家屬聚集婦幼保健院門口燒黃紙討說法!”等等。

表2 網絡謠言內容分類統計表
如表3所示,網絡謠言傳播形式非常集中,接近九成是以文字直接進行傳播。極少數謠言是以視頻、圖片、圖文、文視進行傳播。且這些網絡謠言中,內容也集中在與社會人群息息相關的社會新聞和衛體新聞。

表3 網絡謠言傳播形式分類統計表
筆者在對收集到的309條以文字為傳播形式的網絡謠言的分析過程中,發現網絡謠言在句式上都會有一定的共通點和相似之處,主要存在以下這些較為顯著的句式。
句式:“溫馨提示|緊急通知|宣布|最新消息|注意:|,……否則|以免|請|別|不要”;“今天才得知|現在才發現……竟然|會|可以”;“最近|近日|這段時間……”。例如:“溫馨提示:按照我省交警總隊要求,2016年七月一日起將增加科目五考察(高速公路的安全駕駛),請大家最好在七月一日前考完科目四,否則考試結束時間將無法確定!”,“最新消息,根據中央電視臺發布的消息,由于微信紅包被利用成賭博工具,將會在10月20日正式取消微信紅包,請各位把微信的零錢取現,否則將無法取出。”這類句式是通過一些警示或通知的語句來引起他人的注意從而達到謠言的傳播。
句式:“……請|求|……擴散|轉發|群發|散播”;“……收到馬上發給|轉發”;“……轉發……可以|得到”;“……互相轉告|一定要轉發|中國人就轉發”。例如:“注意了!!!粵CJJ217,黑色轎車,在小學門口搶小學生!!!警方已經初步證實了!!已經在全省范圍內通緝!!不求點贊只求擴散!請看好自己的小孩!看見了轉下,提醒下大家,否則留下就是終身的遺憾了”,“緊急通知,暫時別吃雞肉,鴨肉,因河南省安陽市5570頭家禽已感染。收到馬上發給你關心的人,預防永遠勝過治療。看到,群發擴散!!!”。這類句式一般情況下會結合句式1一起使用,通過呼吁他人轉發從而使謠言大規模擴散。
句式:”……小孩|男孩|女孩|兒童|孩子|學生|老人……被|注意|死|傷|遭……”;“搶|走失|抱|殺|丟|找……小孩|男孩|女孩|兒童|孩子|學生|老人”;“太原四歲小女孩被晉中牌照面包車搶走”;“一條三歲多小女孩在錦繡花園小區附近被拐”;“貴港大將宏名中學有女學生被迷奸。”。這類句式主要是通過人們對這么群體的關注和特殊情感,從而吸引人們的眼球達到傳播謠言的目的。
句式:“……可以|能夠預防|導致|治療|治愈|造成……”;“……通過|使用……可以|能|導致……”;“專家|科學家|實驗|研究指出證明|稱……可|能|導致|造成……”。例如:“權威科學雜志消息:用花生油或橄欖油等植物油炒菜,有導致包括腫瘤在內的各種病癥的可能。所以,推薦使用芝麻油、牛油、椰子油或者豬油取代一般的植物油。”;“地熱供暖有一定輻射危害,使用地暖還會導致小孩白血病、誘發腫瘤、破壞循環系統、嚴重影響兒童智力、危害心血管健康、導致視力低下等6大危害……”。
句式:“余|多|數|上萬”。例如:“福建有一艘偷渡到美國的船沉了,10余名福建人淹死。”;“有100多個新疆人,現已經到了監利縣附近,專來偷小孩搶小孩,監利縣一帶已丟了20多個小孩。”。這一類多數用一下不準確、夸大、大概的數值來吸引人們的注意,形成一種以假亂真的效果。
LanguageTool是一款集合英語、法語、德語、中文等多國語言的新型、開源、可擴展式自然語言監測系統[1]。LanguageTool專注于檢測復雜的字詞形態結構錯誤、用詞錯誤和句法錯誤等自然語言的抽象邏輯錯誤,并最大限度提供最具可能性的匹配結果。筆者利用LanguageTool構建基于XML[12]的網絡謠言句式匹配規則,并對收集到的網絡謠言進行了測試。
筆者將五類網絡謠言文本句式分別設計了五個匹配規則組rulegroup。如圖1所示,請求轉發類謠言包含兩個匹配規則rule。每個rule又由一系列的token逐個進行匹配。每個token可以使用正則表達式(regex=“yes”)和詞性標注(postag)進行條件匹配。其中min的值代表可以重復的此token最少次數,如果等于0則表示可以有這個token也可以沒有。skip的值代表可以跳過的下一個token的個數,如果等于1則表示可以跳過至多1個token。另外,message是針對匹配監測到的謠言文本的警告語言。
筆者使用Languagetool自帶的testrules.bat工具對每個規則進行測試,被測試的實驗數據為收集到的345條網絡謠言。經過測試發現,監測匹配到“通知警示類”的網絡謠言句式的有50條網絡謠言,匹配“請求轉發類”句式的有38條,匹配“針對人群類”句式的有34條,匹配“健康科普類”句式的有58條,匹配“概數類”句式的有10條。總之,345條網絡謠言數據中的190條被監測到了,識別率達超過了50%。而另外一部分網絡謠言文本句式特征并不明顯,未能監測匹配到。如果將此方法和技術用于網絡謠言監測實踐,至少可以減少50%以上的人工識別的工作量。

圖1 請求轉發類謠言XM匹配規則
本文在總結前人網絡謠言理論研究基礎之上,以文本句式特征分析為切入點,研發出基于LanguageTool的網絡謠言自動檢測系統。該方法說明網絡謠言自動檢測是可以實現的,能夠大幅減少人工檢測工作量。該系統還可以根據不同領域的應用需要通過擴展XML匹配規則庫來進一步優化網絡謠言識別和監測的效率和效果。
[1]姜贏,曾杰,林啟紅,等.LanguageTool中文語法校對XML規則定制方法[J].圖書情報工作,2014(5):86-92.
[2]張薇,張雷.大學生網絡謠言問題的探因與對策研究[J].金田,2012(10):322-323.
[3]周潤,張斌,黃巧仙,等.網絡謠言對高校網絡思想政治教育工作的挑戰及對策研究——從重慶交大學生“針刺”謠言事件說起[J].湖北第二師范學院學報,2013,30(1):50-52,68.
[4]姚福生.校園謠言透析與治理[J].思想理論教育(上半月綜合版),2013(2):86-89,94.
[5]孫麗.網絡謠言的類型與特征[J].電子政務,2015(1):18-23.
[6]安仲森.論網絡謠言對高校德育工作的挑戰與應對舉措[J].湖北省社會主義學院學報,2011(5):80-83.
[7]王歡,祝陽.“微博時代”反腐敗類謠言的治理策略研究[J].現代情報,2013,33(7):7-11.
[8]劉河元.網絡謠言對大學生倫理道德的影響及應對策略[J].世紀橋,2012(19):51-52.
[9]李林,李建華,楊寶麗,等.高校微博輿情的監控與引導——以廣東白云學院為例[J].高校輔導員學刊,2012(6):49-52.
[10]孫嘉卿.微博謠言特征及辟謠策略研究——基于新浪微博的質性研[J].中國出版雜志,2012(10):21-24.
[11]張兵.基于微博的大學生思想政治教育探索[J].棗莊學院學報,2011(1):23-25.
[12]孫溫穩.XML文本的標準化[J].電子技術與軟件工程,2016(7):187.
[13]Ying Jiang,Tong Wang,Tao Lin,et al.A rule based chinese spelling and grammar detection system utility[C]// In Proceedings of 2012 International Conference on System Science and Engineering(ICSSE 2012):437-440.
[14]黎慈.大學生傳播網絡謠言的誘因與教育管理對策研究[J].河北公安警察職業學院學報,2013(1):71-74.
[15]楊慶國,陳敬良.公共事件中大學生短信謠言傳播危機意識調查[J].當代青年研究,2012(1):66-71.
[16]劉超.微博謠言防控措施研究[J].網絡安全技術與應用,2012(3):75-77.
Analysis of online rumor text syntactical structure features and the monitoring system
JIANG Ying,ZHANG Jing,ZHU Ling-xuan,QU Chang
(School of Management,Beijing Normal University,Zhuhai519087,China)
In order to realize online rumors automatic identification,it introduces the collected online rumors in the three dimensions of location,time and spreading media.The main spreading media is text based on analysis,with common and similar text syntactical structure features.Five text syntactical structure features are summarized,based on which a series of online rumor text syntactical structure XML rules are constructed.Tests are performed upon the collected online rumors,which shows that it can realize the automatic identifying and monitoring the online rumors,with half of the manual work-load reduced.
online rumors;syntactical structure feature;LanguageTool;XML
TN99
A
1674-6236(2017)23-0007-04
2016-11-27稿件編號:201611217
廣東省自然科學基金項目(2016A030313386);廣東省教育廳省級學校德育創新項目(2015DYZD015)
姜贏(1981—),男,湖北武漢人,博士,副教授。研究方向:網絡輿情監控。