基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫構(gòu)建與應(yīng)用研究

2020-12-07 08:26:14關(guān)琳

無線互聯(lián)科技 2020年18期

關(guān) 琳

(1.江蘇警官學(xué)院公安管理系，江蘇南京 210031；2.南京大學(xué) 中國智庫研究與評(píng)價(jià)中心，江蘇南京 210093)

0 引言

對(duì)“話語”的研究，一直是各相關(guān)學(xué)科共同關(guān)注的熱點(diǎn)領(lǐng)域。隨著計(jì)算機(jī)技術(shù)的發(fā)展，這一領(lǐng)域逐漸成了交叉研究融合的熱點(diǎn)。

人工智能時(shí)代，自然語言處理技術(shù)可以幫助計(jì)算機(jī)提升對(duì)“話語”的理解程度，而大數(shù)據(jù)文本技術(shù)可為研究者提供豐富的語料資源。二者的有機(jī)結(jié)合很好地輔助這項(xiàng)研究的實(shí)施。爬蟲可以方便實(shí)時(shí)獲取固定格式的社交媒體文本內(nèi)容，以支撐“話語”輿情熱點(diǎn)研究。通過爬蟲獲取英語國家Twitter“話語”，并以此為分析對(duì)象開展輿情研究的成果在Web of Science中不勝枚舉。然而，“話語”的產(chǎn)生和表達(dá)與對(duì)象的文化、知識(shí)甚至是成長背景密不可分。其“話語”表達(dá)的思想存在時(shí)空關(guān)聯(lián)性和場景特定性，無法追溯Twitter之外不同時(shí)空?qǐng)鼍皝碓吹摹霸捳Z”是爬蟲工具視角下歐美“話語”研究的短板。

由于各國社會(huì)文化背景的差異，“話語”的表達(dá)方式不盡相同。與歐美國家相比，東亞國家“話語”表達(dá)更為審慎和含蓄，“話語”傳播以正式渠道為主，更容易追溯歷史文本并開展宏觀時(shí)空下的話語研究。當(dāng)下，隨著移動(dòng)互聯(lián)網(wǎng)的普及，社交媒體在“話語”宣傳中占有重要位置，如何將文本分析與爬蟲工具相融合，是東亞“話語”研究的重要議題。

為整合東西方“話語”研究的數(shù)據(jù)資源，解決“話語”研究的共性問題，本文擬提出一種建構(gòu)在數(shù)據(jù)庫基礎(chǔ)上的融合研究框架，探索建立基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫，融合爬蟲工具，拓展“話語”歷史文本與社交媒體文本內(nèi)容的融合研究。

1 基于時(shí)空?qǐng)鼍暗奈谋緮?shù)據(jù)庫工具助力“話語”研究

國外收錄“話語”的數(shù)據(jù)庫工具較少，我國在這一方面資源相對(duì)豐富。這些數(shù)據(jù)庫工具的共同點(diǎn)是具備新聞發(fā)布、信息檢索、動(dòng)態(tài)交互、資料分享、手機(jī)閱讀等多重功能。作為我國“話語”面向公眾的傳播平臺(tái)，這些數(shù)據(jù)庫的功能十分豐富實(shí)用。但是就“話語”研究而言，由于產(chǎn)品定位，從功能上看上述數(shù)據(jù)庫普遍缺乏基本的文本統(tǒng)計(jì)、計(jì)量、分析手段；從內(nèi)容上看，其收錄的講稿僅僅局限于十八大以來的若干篇重要講話；從信息的組織形式上看，也僅僅支持按照主題或時(shí)間的分類查詢。由于缺少文本語料庫的詞表、索引等關(guān)鍵組件，未來也無法滿足詞頻分析、文本挖掘等研究需要。因此，上述數(shù)據(jù)庫系統(tǒng)的功能與“話語”研究的實(shí)際需求相差甚遠(yuǎn)，與本文探索建立的基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫存在著系統(tǒng)功能、數(shù)據(jù)內(nèi)容和數(shù)據(jù)組織形式上的顯著差異。

2 基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫設(shè)計(jì)

以重構(gòu)“話語”的數(shù)字語境為目標(biāo)，“話語”文本數(shù)據(jù)庫應(yīng)主要包括3個(gè)方面的內(nèi)容：首先“話語”文獻(xiàn)是一類專題文獻(xiàn)要盡可能的擴(kuò)充文本資源；其次從數(shù)據(jù)挖掘提升機(jī)制的角度出發(fā)要設(shè)計(jì)合理的標(biāo)引策略；最后數(shù)據(jù)庫在設(shè)計(jì)過程中要引入時(shí)間、空間和場景向量，便于后續(xù)開展計(jì)量研究。按照以上思路設(shè)計(jì)，基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫系統(tǒng)如圖1所示。

圖1 基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫系統(tǒng)

“話語”文本存在形式具有多樣性特點(diǎn)，按照“話語”文本收集(處理)—保存—利用的流程需求，基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫包括3個(gè)模塊。

2.1 收集(處理)模塊

收集(處理)模塊的主要功能為數(shù)據(jù)采集和處理。“話語”廣泛存在于各類專題庫、新聞報(bào)道和網(wǎng)絡(luò)媒體，數(shù)據(jù)采集層需要兼顧各種不同來源的“話語”采集需求。由于中西方“話語”傳播方式和渠道的差異，數(shù)據(jù)庫系統(tǒng)需要兼容爬蟲和應(yīng)用程序編程接口(Application Programming Interface，API)多種采集方式，以便于開展對(duì)包含社交媒體、新聞和專題庫數(shù)據(jù)的采集。對(duì)于收集到的所有網(wǎng)絡(luò)文獻(xiàn)需要將其文本化，即清洗網(wǎng)頁中的鏈接、圖片等冗余內(nèi)容只保留文本，這一步借助成熟的自動(dòng)化工具完成。對(duì)于收集到的紙質(zhì)文獻(xiàn)需要將其標(biāo)準(zhǔn)化，利用光學(xué)字符識(shí)別技術(shù)(Optical Character Recognition，OCR)識(shí)別文字內(nèi)容，將其電子化。

2.2 保存模塊

保存模塊的主要功能為數(shù)據(jù)保存和標(biāo)引。由數(shù)據(jù)采集層采集到的文本是經(jīng)過清洗和加工的標(biāo)準(zhǔn)化電子文本，需在數(shù)據(jù)保存層對(duì)其標(biāo)引。首先，建立以分類詞表為核心，其次，針對(duì)不同國籍和語種“話語”標(biāo)引規(guī)范。標(biāo)引工作以人工為主，抽詞標(biāo)引等自動(dòng)化方法為輔。通過數(shù)據(jù)保存層的標(biāo)引模塊，可以將文本打上時(shí)間、空間、主題、場景、來源、類型等信息標(biāo)簽，便于后續(xù)開展研究。

2.3 應(yīng)用模塊

應(yīng)用模塊的主要功能是數(shù)據(jù)展示。利用前期經(jīng)過文本清洗和標(biāo)引的電子文本，可在該模塊中開展基于內(nèi)容分析法和文本計(jì)算法的定量研究，計(jì)量維度包括面向內(nèi)容分析的詞頻統(tǒng)計(jì)、面向交叉主題分析的時(shí)空?qǐng)鼍坝?jì)量等。應(yīng)用模塊的建立可為社會(huì)科學(xué)各相關(guān)領(lǐng)域的“話語”研究提供工具支撐。

3 基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫的應(yīng)用

新西蘭社會(huì)語言學(xué)家Janet Holmes[1]指出，在任意場景下參與者、話題、場景(社會(huì)情境)和功能這4項(xiàng)要素中至少有一個(gè)會(huì)對(duì)人們選擇語言造成影響。基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫可支持多維度全時(shí)空的“話語”研究，采用該工具可以快速分析出“話語”的核心重點(diǎn)。

以新冠肺炎疫情場景下的“話語”為例，對(duì)待和處理新冠肺炎疫情，世界各國采取了不同的方式，得到了迥然不同的處理結(jié)果。《紐約時(shí)報(bào)》在2020年4月26日發(fā)表了一篇題為“260000 Worlds，F(xiàn)ull of Self-Praise，F(xiàn)rom Trump on the Virus”的文章，該文分析了自2020年3月9日新冠疫情在北美全面爆發(fā)以來的相關(guān)公開語料，并將這些“話語”分為自我夸耀、同情受害者、指責(zé)他人和傳播錯(cuò)誤信息四大類，通過計(jì)量方法指出在總量約為26萬詞的話語中，自我夸耀的話語達(dá)600余次[2]。

以基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫收錄的“話語”為研究對(duì)象[3]，自2020年初新冠肺炎疫情暴發(fā)以來，系統(tǒng)通過爬蟲工具收集新華網(wǎng)報(bào)道關(guān)于疫情的“話語”文本共62篇。通過文本清洗、去除無意義高頻詞，開展詞頻分析可以發(fā)現(xiàn)，在抗擊新冠疫情期間，“人民”一詞共出現(xiàn)32次。可見在“話語”中反復(fù)提及的“人民”一詞無疑是我國抗擊新冠疫情“話語”的核心重點(diǎn)。通過“話語”對(duì)比研究，各國的抗疫主題略見一斑，并可以較好地解釋當(dāng)下各國疫情處理的現(xiàn)狀差異。

4 結(jié)語

“話語”研究在國家政治、經(jīng)濟(jì)、外交等方面對(duì)政策的解讀有重要的意義。本文探索構(gòu)建的基于時(shí)空?qǐng)鼍暗脑捳Z文本數(shù)據(jù)庫，為我國“話語”研究和宣傳提供了新的視角，可支撐人文社會(huì)科學(xué)各領(lǐng)域的基于時(shí)空?qǐng)鼍暗摹霸捳Z”研究，同時(shí)也促進(jìn)了我國“話語”的宣傳和傳播。