劉妙藝
江蘇省新華報(bào)業(yè)傳媒集團(tuán) 江蘇 南京 210019
隨著人們?cè)谏缃幻襟w平臺(tái)上花費(fèi)的時(shí)間越來(lái)越多,他們更容易從社交媒體上消費(fèi)信息。社交媒體是免費(fèi)的,易于訪問(wèn),并幫助一個(gè)人表達(dá)意見(jiàn),因此,它充當(dāng)了一個(gè)很好的個(gè)人從社交媒體上消費(fèi)信息的來(lái)源。但社交媒體上的新聞質(zhì)量普遍低于傳統(tǒng)新聞機(jī)構(gòu)。這是因?yàn)槿魏稳硕伎梢栽谏缃幻襟w上傳播自己想要的信息,且沒(méi)有監(jiān)管部門(mén)對(duì)信息進(jìn)行控制[1]。
現(xiàn)在存在一些新聞核查網(wǎng)站來(lái)揭露假新聞。這些網(wǎng)站在澄清假新聞方面發(fā)揮了重要作用,但它們需要專(zhuān)家分析,這很耗時(shí)。由于社交媒體的數(shù)量和多樣性,幾乎不可能人工標(biāo)注假新聞和真新聞。同時(shí),社交媒體中的信息傳播速度驚人,因此需要一個(gè)框架來(lái)檢測(cè)假新聞,以方便社區(qū)研究假新聞。
我們統(tǒng)計(jì)了來(lái)自微博的實(shí)時(shí)數(shù)據(jù)來(lái)進(jìn)行實(shí)時(shí)新聞的檢測(cè),我們希望從微博中收集數(shù)據(jù),因?yàn)樗侵袊?guó)最大的社交媒體平臺(tái)。微博擁有超過(guò)5億用戶(hù),約有5000萬(wàn)用戶(hù)是活躍用戶(hù)。
為了描述基于使用微博的實(shí)時(shí)新聞,我們使用了5W(What,Where,When,Who和Why)模型。5W模型提供了實(shí)時(shí)新聞的五個(gè)基本要素,總結(jié)如下:
(1)What。5W模型中最重要的元素是當(dāng)前發(fā)生的事情。例如,如果用戶(hù)在微博中發(fā)布有關(guān)火災(zāi)的消息,除了微博用戶(hù)提供的短文本外,還可以獲得圖像和短視頻等多媒體數(shù)據(jù)。例如,用戶(hù)可以在他看到火災(zāi)時(shí)上傳火災(zāi)的實(shí)時(shí)圖像。
(2)Where。除了檢測(cè)實(shí)時(shí)發(fā)生的事件內(nèi)容外,還需要揭示實(shí)時(shí)新聞發(fā)生的位置信息。通常,人們?cè)诎l(fā)布微博的同時(shí),會(huì)標(biāo)注自己所在的位置,這些位置信息可以用作定位。
(3)When。微博具有非常好的實(shí)時(shí)功能。每條微博消息都有一個(gè)時(shí)間戳,可用于揭示實(shí)時(shí)新聞的發(fā)生時(shí)間。除了發(fā)生時(shí)間,5W模型還想要顯示實(shí)時(shí)新聞的時(shí)間表。例如,在開(kāi)始時(shí)事件可能處于潛在狀態(tài)。有關(guān)它的微博消息數(shù)量可能很少,只有少數(shù)人關(guān)注到它。當(dāng)一些里程碑事件發(fā)生并作為頭條新聞發(fā)布在主要網(wǎng)站上時(shí),事件可能處于爆發(fā)狀態(tài),越來(lái)越多的人在談?wù)撍.?dāng)然,最后隨著事件的發(fā)展,有關(guān)它的微博消息數(shù)量可能會(huì)再次降低[2]。
(4)Who。不同的人在實(shí)時(shí)新聞中扮演不同的角色。人作為社交傳感器可以作為實(shí)時(shí)新聞的見(jiàn)證,因?yàn)樗麄兾挥趯?shí)時(shí)新聞的現(xiàn)場(chǎng)。例如,當(dāng)微博用戶(hù)拍攝發(fā)生的火災(zāi)事件時(shí),他可以被視為火災(zāi)的見(jiàn)證人。除了見(jiàn)證人之外,有些人還是實(shí)時(shí)新聞的參與者。例如,一個(gè)人可能會(huì)成為搶劫事件的嫌疑人。5W模型想要挖掘提供實(shí)時(shí)新聞的見(jiàn)證和參與者。
(5)Why。由于實(shí)時(shí)新聞潛在的巨大影響,收集事發(fā)的原因是很重要的。用戶(hù)上傳的消息可以揭示實(shí)時(shí)新聞的原因。例如,微博用戶(hù)可能會(huì)發(fā)布消息“我看到一輛車(chē)闖紅燈撞到人了”。用戶(hù)作為證人或參與者發(fā)布的信息可用于調(diào)查實(shí)時(shí)新聞的潛在原因。
在獲取了實(shí)時(shí)新聞的5W信息之后,我們會(huì)匯集對(duì)應(yīng)的新聞文本,我們利用新聞內(nèi)容的語(yǔ)言學(xué)特征和社會(huì)語(yǔ)境的特征來(lái)尋找假新聞和真新聞的線索。為了在我們的分類(lèi)中使用新聞內(nèi)容,我們使用自動(dòng)編碼器在低維度的潛在特征空間中學(xué)習(xí)新聞內(nèi)容。
社交參與可能是假新聞檢測(cè)任務(wù)的另一個(gè)主要特征。社交語(yǔ)境提供了關(guān)于用戶(hù)如何與假新聞和真新聞互動(dòng)的寶貴信息。用戶(hù)在社交媒體上的互動(dòng)會(huì)隨著時(shí)間的推移而變化。為了捕捉用戶(hù)與假新聞的時(shí)間互動(dòng),我們使用了遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。像微博這樣的社交約定和他們的回復(fù)在給網(wǎng)絡(luò)之前,由嵌入層以一定的格式嵌入。RNN的輸出被認(rèn)為是分類(lèi)的社會(huì)背景特征,在我們的實(shí)驗(yàn)中使用了長(zhǎng)短期記憶(LSTM),因?yàn)樗鉀Q了長(zhǎng)范圍依賴(lài)性和消失梯度問(wèn)題[3]。
我們使用社交文章融合模型將自動(dòng)編碼器和社交上下文遞歸神經(jīng)網(wǎng)絡(luò)產(chǎn)生的特征結(jié)合起來(lái),將特征學(xué)習(xí)和分類(lèi)任務(wù)一起訓(xùn)練,使學(xué)習(xí)的特征是相對(duì)于檢測(cè)任務(wù)而言的,而不是捕捉普通的語(yǔ)言差異和社會(huì)交往,為了避免過(guò)擬合,我們對(duì)并列特征進(jìn)行正則化優(yōu)化。
在獲取數(shù)據(jù)之后,我們通過(guò)多個(gè)界面來(lái)可視化數(shù)據(jù)。為了識(shí)別真新聞和假新聞在新聞內(nèi)容上的差異,我們使用了文字?jǐn)?shù)據(jù)的詞云表示,可以搜索出一個(gè)時(shí)間段內(nèi)的假新聞,并識(shí)別出相關(guān)數(shù)據(jù)。另外,我們還提供了特征顯著性和模型性能的比較,作為這個(gè)儀表盤(pán)的一部分。
對(duì)于特定的地理定位,我們可以識(shí)別假新聞是如何在某些特定地區(qū)傳播的,因?yàn)槭占降哪承┬侣剝?nèi)容存在著地域性特征。使用基于用戶(hù)的網(wǎng)絡(luò)我們可以將社交網(wǎng)絡(luò)可視化,以確定與假新聞和真實(shí)新聞互動(dòng)的用戶(hù)之間的差異。通過(guò)這些可視化,我們看到了社交網(wǎng)絡(luò)和地理位置等用戶(hù)特征之間的差異。