關(guān) 琳
(1.江蘇警官學(xué)院 公安管理系,江蘇 南京 210031;2.南京大學(xué) 中國智庫研究與評(píng)價(jià)中心,江蘇 南京 210093)
對(duì)“話語”的研究,一直是各相關(guān)學(xué)科共同關(guān)注的熱點(diǎn)領(lǐng)域。隨著計(jì)算機(jī)技術(shù)的發(fā)展,這一領(lǐng)域逐漸成了交叉研究融合的熱點(diǎn)。
人工智能時(shí)代,自然語言處理技術(shù)可以幫助計(jì)算機(jī)提升對(duì)“話語”的理解程度,而大數(shù)據(jù)文本技術(shù)可為研究者提供豐富的語料資源。二者的有機(jī)結(jié)合很好地輔助這項(xiàng)研究的實(shí)施。爬蟲可以方便實(shí)時(shí)獲取固定格式的社交媒體文本內(nèi)容,以支撐“話語”輿情熱點(diǎn)研究。通過爬蟲獲取英語國家Twitter“話語”,并以此為分析對(duì)象開展輿情研究的成果在Web of Science中不勝枚舉。然而,“話語”的產(chǎn)生和表達(dá)與對(duì)象的文化、知識(shí)甚至是成長背景密不可分。其“話語”表達(dá)的思想存在時(shí)空關(guān)聯(lián)性和場景特定性,無法追溯Twitter之外不同時(shí)空?qǐng)鼍皝碓吹摹霸捳Z”是爬蟲工具視角下歐美“話語”研究的短板。
由于各國社會(huì)文化背景的差異,“話語”的表達(dá)方式不盡相同。與歐美國家相比,東亞國家“話語”表達(dá)更為審慎和含蓄,“話語”傳播以正式渠道為主,更容易追溯歷史文本并開展宏觀時(shí)空下的話語研究。當(dāng)下,隨著移動(dòng)互聯(lián)網(wǎng)的普及,社交媒體在“話語”宣傳中占有重要位置,如何將文本分析與爬蟲工具相融合,是東亞“話語”研究的重要議題。
為整合東西方“話語”研究的數(shù)據(jù)資源,解決“話語”研究的共性問題,本文擬提出一種建構(gòu)在數(shù)據(jù)庫基礎(chǔ)上的融合研究框架,探索建立基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫,融合爬蟲工具,拓展“話語”歷史文本與社交媒體文本內(nèi)容的融合研究。
國外收錄“話語”的數(shù)據(jù)庫工具較少,我國在這一方面資源相對(duì)豐富。這些數(shù)據(jù)庫工具的共同點(diǎn)是具備新聞發(fā)布、信息檢索、動(dòng)態(tài)交互、資料分享、手機(jī)閱讀等多重功能。作為我國“話語”面向公眾的傳播平臺(tái),這些數(shù)據(jù)庫的功能十分豐富實(shí)用。但是就“話語”研究而言,由于產(chǎn)品定位,從功能上看上述數(shù)據(jù)庫普遍缺乏基本的文本統(tǒng)計(jì)、計(jì)量、分析手段;從內(nèi)容上看,其收錄的講稿僅僅局限于十八大以來的若干篇重要講話;從信息的組織形式上看,也僅僅支持按照主題或時(shí)間的分類查詢。由于缺少文本語料庫的詞表、索引等關(guān)鍵組件,未來也無法滿足詞頻分析、文本挖掘等研究需要。因此,上述數(shù)據(jù)庫系統(tǒng)的功能與“話語”研究的實(shí)際需求相差甚遠(yuǎn),與本文探索建立的基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫存在著系統(tǒng)功能、數(shù)據(jù)內(nèi)容和數(shù)據(jù)組織形式上的顯著差異。
以重構(gòu)“話語”的數(shù)字語境為目標(biāo),“話語”文本數(shù)據(jù)庫應(yīng)主要包括3個(gè)方面的內(nèi)容:首先“話語”文獻(xiàn)是一類專題文獻(xiàn)要盡可能的擴(kuò)充文本資源;其次從數(shù)據(jù)挖掘提升機(jī)制的角度出發(fā)要設(shè)計(jì)合理的標(biāo)引策略;最后數(shù)據(jù)庫在設(shè)計(jì)過程中要引入時(shí)間、空間和場景向量,便于后續(xù)開展計(jì)量研究。按照以上思路設(shè)計(jì),基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫系統(tǒng)如圖1所示。

圖1 基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫系統(tǒng)
“話語”文本存在形式具有多樣性特點(diǎn),按照“話語”文本收集(處理)—保存—利用的流程需求,基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫包括3個(gè)模塊。
收集(處理)模塊的主要功能為數(shù)據(jù)采集和處理。“話語”廣泛存在于各類專題庫、新聞報(bào)道和網(wǎng)絡(luò)媒體,數(shù)據(jù)采集層需要兼顧各種不同來源的“話語”采集需求。由于中西方“話語”傳播方式和渠道的差異,數(shù)據(jù)庫系統(tǒng)需要兼容爬蟲和應(yīng)用程序編程接口(Application Programming Interface,API)多種采集方式,以便于開展對(duì)包含社交媒體、新聞和專題庫數(shù)據(jù)的采集。對(duì)于收集到的所有網(wǎng)絡(luò)文獻(xiàn)需要將其文本化,即清洗網(wǎng)頁中的鏈接、圖片等冗余內(nèi)容只保留文本,這一步借助成熟的自動(dòng)化工具完成。對(duì)于收集到的紙質(zhì)文獻(xiàn)需要將其標(biāo)準(zhǔn)化,利用光學(xué)字符識(shí)別技術(shù)(Optical Character Recognition,OCR)識(shí)別文字內(nèi)容,將其電子化。
保存模塊的主要功能為數(shù)據(jù)保存和標(biāo)引。由數(shù)據(jù)采集層采集到的文本是經(jīng)過清洗和加工的標(biāo)準(zhǔn)化電子文本,需在數(shù)據(jù)保存層對(duì)其標(biāo)引。首先,建立以分類詞表為核心,其次,針對(duì)不同國籍和語種“話語”標(biāo)引規(guī)范。標(biāo)引工作以人工為主,抽詞標(biāo)引等自動(dòng)化方法為輔。通過數(shù)據(jù)保存層的標(biāo)引模塊,可以將文本打上時(shí)間、空間、主題、場景、來源、類型等信息標(biāo)簽,便于后續(xù)開展研究。
應(yīng)用模塊的主要功能是數(shù)據(jù)展示。利用前期經(jīng)過文本清洗和標(biāo)引的電子文本,可在該模塊中開展基于內(nèi)容分析法和文本計(jì)算法的定量研究,計(jì)量維度包括面向內(nèi)容分析的詞頻統(tǒng)計(jì)、面向交叉主題分析的時(shí)空?qǐng)鼍坝?jì)量等。應(yīng)用模塊的建立可為社會(huì)科學(xué)各相關(guān)領(lǐng)域的“話語”研究提供工具支撐。
新西蘭社會(huì)語言學(xué)家Janet Holmes[1]指出,在任意場景下參與者、話題、場景(社會(huì)情境)和功能這4項(xiàng)要素中至少有一個(gè)會(huì)對(duì)人們選擇語言造成影響。基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫可支持多維度全時(shí)空的“話語”研究,采用該工具可以快速分析出“話語”的核心重點(diǎn)。
以新冠肺炎疫情場景下的“話語”為例,對(duì)待和處理新冠肺炎疫情,世界各國采取了不同的方式,得到了迥然不同的處理結(jié)果。《紐約時(shí)報(bào)》在2020年4月26日發(fā)表了一篇題為“260000 Worlds,F(xiàn)ull of Self-Praise,F(xiàn)rom Trump on the Virus”的文章,該文分析了自2020年3月9日新冠疫情在北美全面爆發(fā)以來的相關(guān)公開語料,并將這些“話語”分為自我夸耀、同情受害者、指責(zé)他人和傳播錯(cuò)誤信息四大類,通過計(jì)量方法指出在總量約為26萬詞的話語中,自我夸耀的話語達(dá)600余次[2]。
以基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫收錄的“話語”為研究對(duì)象[3],自2020年初新冠肺炎疫情暴發(fā)以來,系統(tǒng)通過爬蟲工具收集新華網(wǎng)報(bào)道關(guān)于疫情的“話語”文本共62篇。通過文本清洗、去除無意義高頻詞,開展詞頻分析可以發(fā)現(xiàn),在抗擊新冠疫情期間,“人民”一詞共出現(xiàn)32次。可見在“話語”中反復(fù)提及的“人民”一詞無疑是我國抗擊新冠疫情“話語”的核心重點(diǎn)。通過“話語”對(duì)比研究,各國的抗疫主題略見一斑,并可以較好地解釋當(dāng)下各國疫情處理的現(xiàn)狀差異。
“話語”研究在國家政治、經(jīng)濟(jì)、外交等方面對(duì)政策的解讀有重要的意義。本文探索構(gòu)建的基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫,為我國“話語”研究和宣傳提供了新的視角,可支撐人文社會(huì)科學(xué)各領(lǐng)域的基于時(shí)空?qǐng)鼍暗摹霸捳Z”研究,同時(shí)也促進(jìn)了我國“話語”的宣傳和傳播。