秦琬 蔣碧晗
(淮北理工學院,安徽 淮北 235000)
改革開放以來,中國各省迅速發展,區域形象的塑造與推廣成為軟實力的主要表現,如何調動各方力量塑造區域形象成為發展的題中要義。 軟實力愈來愈多地被用于吸引投資和人才,優良的區域形象在經濟發展和區域對外交流中日益關鍵。
安徽具備南北特性,由于其特殊的區域位置,安徽在全國發展中起到承前啟后、承東啟西的功效。 此外,隨著社會經濟的迅速發展,智能化和城市化的快速推進,以及中部崛起等有關規劃的適用,安徽經濟慢慢踏入快車道。 但是,因為資源等因素的限定,安徽社會經濟發展面臨一些問題,與東部地區尤其是附近省份的差別持續拉大。 要引進外資,得到發展機會,區域形象建設至關重要。掌握安徽形象的現況,找到安徽形象存在的不足,明確其形象定位,對安徽的發展具有重要的意義。本研究即以此為背景,探討基于?中國日報?的安徽形象語料庫建設,通過對新媒體信息的整理,實現對信息資源的歷時呈現,不僅可以用于話語分析,更是對語言學和傳播學信息資源的重要補充。
本研究將采用文獻法、語料庫方法和人工輔助法。
其一,文獻研究法:通過閱讀大量有關參考文獻,全方位準確地掌握海外語料庫的發展趨勢和中國語料庫的成效,參照諸多學者的研究成果,包含基本思路、研究思路和研究成果,將適合語料庫基本建設的一部分消化吸收,運用到本文章的創作中。
其二,語料庫方法:收集2019~2021 年度?中國日報?有關安徽的新聞文本,通過Python 根據關鍵詞“安徽”搜集網站上相關語料,然后進行語料清洗,從而構建單語語料庫。
其三,人工輔助方法:在語料清洗過程中,需要清洗相應圖片、多余的標點符號等,從而確保語料庫的質量。
與本選題有關的研究主要包括安徽形象研究、語料庫語言學研究及基于語料庫的安徽形象研究,下文分別對這三方面展開概述。
形象就是指“對某事情的意志、觀念和印象”。并不是事物自身,只是對物體的感知或觀點。 這是一種主觀性印象,由傳播學、交往經歷、成長經歷、自然環境等要素建立[1]。 因而,安徽品牌形象可被理解為中國群眾對安徽的印象,是對安徽本質整體實力、外在魅力和未來發展前景的實際感知、整體觀點和綜合考核[2]。
隨著安徽經濟逐步發展,越來越多的學者對安徽形象進行了研究。 錢智和徐俊結合思維科學、行為科學、區域規劃等學科的相關理論,以安徽形象設計為例,提出了區域形象設計概念、基本思想以及操作框架[3];楊杰、吳克明運用“安徽形象評價量表”進行調查,針對安徽形象就人口素養、自然環境及政府治理提出改進措施[4];李彥迪、劉葉青、鄒菲菲等就安徽省外宣文本,在語域理論視角下對安徽形象進行建構[5]。
自20 世紀60 年代初以來,語料庫至今已經歷60 多年的發展,研究語料庫的學者也越來越多。 語料庫的出現,也對語言研究產生了巨大的影響,拓寬了研究的角度與視野,完成了從定性到定性與定量相結合的轉變。 隨著計算機技術的發展,1993年,Mona Baker 提出,可以根據語料庫對大量翻譯文本進行描寫和分析,從而證實了翻譯可作為溝通媒介這一現象[6]。 Sara Laviosa 介紹了不同類型的語料庫在翻譯教學中的應用[7]。
相較而言,國內語料庫語言學起步較晚,從成果來看,語料庫被廣泛應用于教學、翻譯、詞匯、語義、詞典和語法等語言研究領域。 如王克非就雙語語料庫設計構建提出一系列想法[8],張威提出口譯語料庫的開發與建設[9],胡開寶也就語料庫基礎特性、研究領域進行了系統梳理[10]。 但語料庫就話語分析方面的研究仍處于初期階段,還需要進一步補充與探究。
筆者通過中國知網(CNKI)檢索“安徽形象+語料庫”,發現與之相關的研究成果數量不多。 左言娜以安徽省人民政府網站和安徽省旅游局網站文本為語料庫,搭建語料庫,以系統功能應用語言學為理論框架,選用批評性話語分析方式,探討互聯網媒體語句里的安徽旅游國際地位[11]。 同年,左言娜還依據此語料庫對新媒體話語中的安徽外宣形象進行探究。 鐘紫薇利用語料庫檢索軟件等自建小型語料庫,通過收集、整理和分類2016 年China Daily 網站中關于安徽的英語新聞報道,運用語料庫語言學理論對不同類別的新聞報道展開話語分析[12]。 以上研究已將語料庫引入安徽形象研究中,為提升安徽區域形象做出了較大貢獻。
語料庫主要有四種形式:單語種語料庫、平行語料庫、多語種語料庫和可比語料庫。 其中單語種語料庫僅包含一種語言的文本;平行語料庫包含兩個單語種語料庫,一個語料庫是另一個語料庫的翻譯;多語種語料庫包含多種語言的文本,且都是相同文本的翻譯,存在與平行語料庫相同的方式對齊;可比語料庫是一組兩個或兩個以上的單語語料庫,其文本涉及同一主題,但它們不是彼此的翻譯,因此沒有對齊。 就文章研究需要而言,要建設的語料庫為單語種語料庫。 此部分主要探索語料庫設計、語料收集等。
王克非認為語料庫的總體設計是與建庫目的密切相關的,需要考慮如下十點:設計目的、語言規模、語料范圍、代表性與均衡性、雙語比例、共時/歷時性、語言類型、語言質量、取樣策略和標注加工[8]。 據此標準,建設語料庫的參數和特點如表1所示。

表1 語料庫設計參數表
由于文本信息量較大,本次研究使用Python 軟件,基于詞義相關度進行語料收集,首先打開Python,設定關鍵詞為“安徽”,后設置程序運行。爬取基本操作步驟包括:①尋找文本數據量大的網站URL,形成爬蟲的初始URL 隊列;②訪問網頁鏈接,獲得網頁數據;③通過下載器對網頁數據進行下載;④根據頁面的HTML 格式進行解析,編寫Xpath 表達式篩選出需要保留的文本信息;⑤再對文本信息分詞,存為詞匯素材列表,并完成后續的URL 跳轉動作使得爬蟲持續運行。 得到語料如圖1所示。

圖1 語料爬取數據
研究共收集語料2475 篇,合計80 余萬字。 胡開寶提到:語料采集是指將書面語料和口語語料輸入電腦,并以電子文本形式儲存[10]。 在廣泛收集的大量語料素材數據中,部分數據的格式并不符合預期要求,其中存在大量的無效信息,例如夾帶著多種的符號、標記,文字間殘留大量空格等。 這與預期格式存在差異,為了讓計算機可以識別并方便后續的處理,必然要對收集的數據信息進行預處理。所以語料庫構建的首個步驟就是對語料素材信息進行規范化處理。 先使用正則表達式對大部分符號進行刪除操作,少部分情況特殊處理。 經過對符號的處理可以使絕大部分的文本數據符合格式要求。 再對文本內容的格式進行處理,針對一些特殊格式數據例如小說、詩歌,其中存在非文本數據和無意義文本。 非文本數據指不是文本中主要內容,主要起定義格式、裝飾文本作用,例如HTML 標簽、URL 地址、亂碼等;無意義文本指文本數據中常出現但無實際意義的內容,例如作者附加的內容、廣告內容、版權信息和個性簽名的部分內容等。
在進行篩選后,導出四個版本文件,為tmx 格式、Word 格式、Excel 格式以及txt 格式。 這四種格式滿足不同的需求:tmx 格式作為翻譯記憶庫,主要適用于計算機輔助翻譯軟件;Word 格式用于日常查閱,確定表達;Excel 格式便于檢索;txt 格式適用于文本轉換。 自建小型語料庫(圖2)包含2475 篇新聞,其中經濟類578 篇、政治類634 篇、市民生活類704 篇以及社會文化類559 篇,共計1026876 字符,按照經濟、政治、文化等方面進行分類。 后續使用語料檢索軟件AntConc4.1.2w,通過詞頻統計、高頻詞索引行等路徑,并結合批評話語分析、評價理論和議程設置理論,對檢索結果進行定性、定量分析,通過有理、有力、有節地傳遞自身聲音,構建安徽形象話語體系,讓更多人了解安徽、熟悉安徽、親近安徽。

圖2 單語語料庫
筆者基于收集到的網站信息,設計語料庫(設計目的,語料庫規模,語料庫范圍,語言類型和語言質量)、處理文本(分類、清洗、標注語料),建立小型語料庫,旨在幫助分析安徽形象現狀,并提出改進安徽形象的策略和建議。 因此,通過個人建立小型單語語料庫,可以在一定程度上了解和使用語料庫這一新的研究方法,方便研究者在科研領域克服技術難關。