關 琳
(1.江蘇警官學院 公安管理系,江蘇 南京 210031;2.南京大學 中國智庫研究與評價中心,江蘇 南京 210093)
世界各國政治領導人在官方和半官方場合的話語(以下簡稱“話語”),對于本國社會經濟發展和國際關系局勢都有著深遠的影響。以美國為例,特朗普總統每一次Twitter發文都會引起國內外媒體轉發轉載和廣泛討論,并對美國內外局勢產生影響,因此有媒體稱這位總統是推特治國。從這一側面也體現了領導人話語的重要性和研究價值。CNKI中收錄的單以Twitter一種信息源研究特朗普總統話語的知識成果就達300余項。這些研究幾乎全部是以爬蟲為收集工具,通過實時采集數據獲取話語文本的。這種研究方式,由于缺乏專題知識庫的支撐,無法整合更多數據來源渠道,因而很難持續開展。
就我國而言,目前收錄領導人話語文獻的權威數據庫有3個。分別是由中央網信辦指導、人民網·中國共產黨新聞網建設的“學習路上——習近平總書記系列重要講話大型網絡數據庫”(2014年建成);由人民出版社開發建設的“中國共產黨思想理論資源數據庫”(2010年建成);以及由中宣部(2018年建成)推出的“學習強國”學習平臺。就學術研究而言,由于產品定位的原因,從功能上看這些產品都缺乏基本的文本統計、計量、分析手段;從信息的組織形式上看也都僅完成了文獻的分類、歸納和保存,因此檢索功能以全文檢索為主,所支持的語義查詢也僅包括事物性狀和表達形式兩類,無法支持基于時空場景語義的內容分析應用需求。受限于此,學界和宣傳部門無法利用該系統開展定量研究和知識場景重塑。因此,這3個數據庫系統與本研究存在著系統功能、數據內容和知識組織形式上的顯著差異。
話語文獻作為思想和政治領域的專題文獻,其知識組織與其他領域的專題文獻有著相似之處。從數據挖掘和高效利用的角度出發,通過構建領域本體和關系數據庫的方式,在文本內容分析過程中加入時間、空間、場景、主題等多個維度,可以大大豐富內容分析的內涵[1]。
同時,此類基于時空場景語義的數據庫和本體將有力支撐數據可視化、關系網絡分析以及文本計算等研究。按照類似思路建設的數據庫有ProQuest,Hein On Line,West law,Lexis Nexis,CNKI政府公報數據庫以及北大法寶等。但就其數據內容而言,多集中在政策和法律領域,沒有收錄話語和其他相關資源;就其數據維度而言也并未突出表達文獻產生的時空場景。
話語的表達方式和側重點與時間、空間和場景密切相關[2]。從帝王起居注到領袖文集、語錄,古今中外以話語為主題的知識組織成果不勝枚舉。隨著數字人文的興起,以篇章、句子甚至是詞語為單元開展針對話語文獻的單一維度研究,已不能滿足大數據背景下用戶的知識需求。采用語義技術對文獻做細粒度加工并添加時空場景維度,從語義層面還原知識產生的時空場景,將為學習和研究話語文獻創造良好條件,也為在該領域內應用數據可視化、內容分析以及文本計算等方法開展定量研究奠定數據基礎[3]。本文以話語文獻為研究對象,探索建立基于時空場景語義的話語文本數據構建框架。
按照文獻資源原始數據集、資源組織、資源描述和資源應用將話語文本時空場景語義資源框架劃分成4個層次,如圖1所示。

圖1 話語文本時空場景語義資源框架
第一層為文獻資源原始數據集。話語文獻原始數據集中,包含不同類型、不同時期、不同來源、不同場景的包含話語的文獻資源。這些文獻較為零散地存儲在網絡、書籍和各種專題庫中,按照不同類型對應傳統的元數據格式組織和檢索。由于各種元數據之間存在規范上的差異,并不能完全兼容,也無法完全對元素語義進行形式化和明確的定義,因此無法利用,因此需要集中收集使其成為一個專題文本數據庫,便于進一步后續整合、開發和利用。
第二層為基于本體的知識組織層。鑒于前述當前主流話語文獻資源庫保存和利用的局限性,本框架擬在文獻資源原始數據集基礎上建立本體,以期實現不同類型和格式間話語文獻資源的語義互通。具體來說以半自動化方式構建本體;設計實用的本體驗證機制保障本體的科學性;將該領域不斷涌現的新話語、新概念完善到本體中保障本體的完備性。根據OWL本體定義對承載話語的存量文獻進行RDF資源標注,并添加時間、空間、主題、事件標簽存儲在關系數據庫中。
第三層為基于關系數據庫映射的數據關聯層。本體的建立使得在語義層面上描述話語文獻資源成為可能。這種描述方式,可以透析話語文獻間的顯性關聯關系。為深層次拓展研究場景,還需要以關聯數據的形式將資源再組織,并保存在關系數據庫中。基于時空場景的關系數據庫設計,既要將時間信息、地點(含地理位置、行政區劃等)信息、場景(含活動主題、類型、與會人員等)信息等進行數據庫融合建模,又要保證本體RDF三元組屬性能夠映射到數據庫中,并關聯到時空場景數據。針對基于時空場景語義的數據庫建模(擬采用MySQL),將OWL本體映射到關系數據庫中,利用關系數據庫技術采用屬性表的方式將具有相同屬性的RDF三元組存儲在一個表中,每個三元組占一行,表后若干列為時間、地點、主題、事件等相關屬性標簽,以此實現基于時空場景的RDF存儲。
第四層為資源應用層。將增量文獻文本化(紙質文獻電子化、網絡文獻文本化,文本預處理包括清洗網頁中的鏈接、圖片等冗余內容,這一部分可借助自動化工具)并與存量文獻集中,實例化保存到關系數據庫中,持續地從增量文獻中提取新概念、屬性和關系完善本體;利用關系數據庫開展針對話語語義的文本計量研究,并以時空場景大數據展現、重塑話語的發展歷程。
本文應用話語文本時空場景語義資源框架對前期研制的“話語思想文本數據庫”進行了優化和升級,并開展基于時空場景語義的多維分析,可以將前期收集到的話語文本進行語義級分析,較之原有系統基于文獻計量的統計分析方法,其分析結果與前期基本吻合。應用該框架后系統分析顆粒度更小,分析維度更豐富,如圖2所示。

圖2 話語文本時空場景語義資源框架應用
除用于項目團隊自有文本數據庫外,該框架還可廣泛用于其他現有文獻數據庫的二次升級,有效擴充后者的語義、時間、空間、場景分析維度,進一步拓展文獻價值。
本文提出的話語文本時空場景語義資源框架,為國內外政治領導人話語數據庫平臺提供了新的改進和建設思路,將有助于后者進一步提升知識組織水平,并推進話語文本的深度挖掘和智能理解,也為我國話語研究提供一個新的基于語義技術的視角,從而促進話語的研究和闡釋。