【摘 要】在國家啟動(dòng)“語寶工程”的背景下,雷州話作為粵西地區(qū)重要的方言之一,新媒體時(shí)代建設(shè)雷州話多模態(tài)語料庫具有極大的現(xiàn)實(shí)意義和理論價(jià)值。雷州方言多模態(tài)語料資源庫建設(shè)的探討,主要從建設(shè)目標(biāo)和范圍,語料資源的采集與整理,技術(shù)架構(gòu)設(shè)計(jì),多模態(tài)數(shù)據(jù)處理,標(biāo)準(zhǔn)化與規(guī)范化以及資源庫管理和維護(hù)等方面展開。建設(shè)雷州方言多模態(tài)語料資源庫,有利于保護(hù)和傳承雷州方言,促進(jìn)雷州方言和其他學(xué)科的交叉研究。
【關(guān)鍵詞】新媒體時(shí)代;雷州方言;多模態(tài)語料資源庫
【中圖分類號(hào)】H177.2 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1007—4198(2024)19—217—03
引言
方言在日常生活中的使用頻率逐漸降低,方言文化的傳承面臨著前所未有的挑戰(zhàn)。越來越多的年輕人不再熟悉方言,甚至對(duì)其缺乏深入的了解,這一現(xiàn)狀無疑加劇了方言文化傳承的緊迫性。漢語方言大致可歸為十大類,包括官話、晉語、吳語、閩語、客家話、粵語、湘語、贛語、徽語以及平話土話[2]。雖然雷州話作為閩語系的重要分支,廣泛分布于廣東西南部、廣西東南部,以及海外的東南亞和歐美華人社區(qū)[11],但是雷州方言傳承的形勢(shì)日趨嚴(yán)峻。本文采用的雷州方言概念,即狹義上指“雷州話”或“雷話”[9]。
自2015年起,我國相關(guān)部門啟動(dòng)了中國語言資源保護(hù)工程,在全國范圍內(nèi)全面開展了語言資源的調(diào)查、保存、展示及開發(fā)利用。這一舉措彰顯了國家對(duì)語言多樣性及其所承載的地域文化的深切關(guān)懷,同時(shí),隨著新媒體的蓬勃發(fā)展,也為方言的保護(hù)與傳承帶來了前所未有的機(jī)遇。新媒體,這一概念自1967年由P. Goldmark首次提出以來,指借助數(shù)字技術(shù)、網(wǎng)絡(luò)技術(shù)和移動(dòng)技術(shù)的強(qiáng)大支持,通過多樣化的渠道如電腦、手機(jī)、數(shù)字電視機(jī)等,為大眾用戶提供了前所未有的豐富信息和娛樂服務(wù),這一變革為方言和地域文化的傳播提供了廣闊的平臺(tái)和無限的可能。為了應(yīng)對(duì)方言流失日趨嚴(yán)峻的現(xiàn)狀,建設(shè)方言多模態(tài)語料資源庫顯得尤為重要。在語言學(xué)界,多模態(tài)語料的研究已經(jīng)引起了廣泛關(guān)注。不同學(xué)派對(duì)于多模態(tài)語料的理解和應(yīng)用各有見解。本文基于系統(tǒng)功能語言學(xué)范式,對(duì)方言多模態(tài)語料資源庫的建設(shè)進(jìn)行深入探討。根據(jù)“資源庫”和“語料庫”的概念[5],本文采用了“語料資源庫”的概念,即包含所有未經(jīng)轉(zhuǎn)寫和提取的原始語料集合。該資源庫的目的是全面、真實(shí)地記錄方言文化的各個(gè)方面,通過收集包括圖片、文字、音頻、視頻在內(nèi)的多種形式的方言材料,為方言的保護(hù)與傳承提供有力的支撐。本文旨在梳理雷州方言語料庫的研究現(xiàn)狀,提出建設(shè)雷州方言多模態(tài)語料資源庫的具體思路和內(nèi)容,推動(dòng)方言學(xué)和民俗學(xué)、民族學(xué)等相關(guān)學(xué)科研究的深入發(fā)展。我們期待該資源庫能夠成為連接傳統(tǒng)與現(xiàn)代、現(xiàn)實(shí)與未來的橋梁,讓雷州方言文化在新媒體時(shí)代煥發(fā)出新的生機(jī)與活力。
一、中國方言多模態(tài)語料庫建設(shè)現(xiàn)狀
隨著語言學(xué)研究的深入發(fā)展,語言學(xué)界逐漸傾向于一種“視覺化”的研究范式。這一新趨勢(shì)顯著地將多維度要素如話語、手勢(shì)、目光交流、臉部表情及情感等納入研究范疇,鮮明地彰顯了語言學(xué)“多模態(tài)化”的研究走向,從而為我們理解和分析語言現(xiàn)象提供了更為全面和立體的視角。學(xué)者劉劍[7]在研究中深入分析了國外11種多模態(tài)語料庫,揭示了這些語料庫選材的廣泛性和多樣性,對(duì)建設(shè)雷州方言多模態(tài)語料資源庫有重要的啟示。
中國自2007年起開始引入多模態(tài)語料庫研究,其早期關(guān)注點(diǎn)主要聚焦于中國民族語言文學(xué),旨在為挽救瀕危語言提供有效手段[1]。近年來,隨著多媒體技術(shù)和言語工程研究的飛速進(jìn)步,技術(shù)和方法層面上的突破使得自然話語,特別是多模態(tài)研究變得切實(shí)可行。操鐳等學(xué)者成功構(gòu)建了呂蘇語口語語料庫,該語料庫實(shí)現(xiàn)了標(biāo)注語料的自動(dòng)分詞和關(guān)鍵詞提取功能[3]。王軻及其團(tuán)隊(duì)構(gòu)建了爾蘇語語料庫,該語料庫內(nèi)容豐富,涵蓋了生產(chǎn)生活方式、民間習(xí)俗等多個(gè)方面和體裁[8]。此外,張超在西南官話研究方面也取得了顯著進(jìn)展,他建立的語料庫涵蓋了清末民國西南文人作品對(duì)白語料,西南官話文獻(xiàn)語料,西南官話當(dāng)代口語語料,以及西南官話影視對(duì)白語料。西南官話語料庫的建設(shè),給雷州方言多模態(tài)語料資源庫的建設(shè)樹立了很好的典范。
雖然雷州方言語音研究已有一定基礎(chǔ),且眾多學(xué)者已通過田野調(diào)查積累了豐富的語音語料,但當(dāng)前的研究仍存在兩大局限性。一是,這些寶貴的語音語料大部分并未公開,導(dǎo)致其他學(xué)者在驗(yàn)證前人研究時(shí),不得不重復(fù)進(jìn)行語料采集,這不僅耗時(shí)耗力,而且不利于方言的長期保護(hù)與傳承;二是,目前的雷州方言的語料收集主要集中于語音這一單一模態(tài),忽略了其他模態(tài)語料的收集。雷州語音字典平臺(tái)雖然公開了雷州方言的語音語料,但是目前只提供單字的檢索,詞匯和語句功能尚為開發(fā)。借助“中國語言資源采錄展示平臺(tái)”,雷州話方言點(diǎn)也收錄了相關(guān)的音頻和視頻,然而這些視頻僅僅在被調(diào)查者機(jī)械地用雷州方言朗讀文字材料的情況下錄制的,不能很好的記錄方言在各個(gè)場(chǎng)合語使用的情況,阻礙了方言在語用等其他方面研究的價(jià)值。“中國語言資源采錄展示平臺(tái)”起初包括專家端和大眾端兩個(gè)端口,目前該平臺(tái)關(guān)閉了大眾端口,讓雷州方言多模態(tài)語料在語寶平臺(tái)匯聚的機(jī)會(huì)少了許多。語言的深入研究,會(huì)與社會(huì)發(fā)展的多個(gè)方面緊密相連,單一模態(tài)的語料收集難以全面反映語言使用的真實(shí)語境和使用者的情感狀態(tài),從而限制了雷州方言研究的深度與廣度。
雷州方言語料資源庫的建設(shè),是對(duì)雷州方言語料進(jìn)行全面的多模態(tài)收集與管理,這將為雷州方言的未來研究注入新的活力。傳統(tǒng)的漢語方言學(xué)研究往往局限于語音、詞匯等語言內(nèi)部發(fā)展的探討,對(duì)語言的語用、語篇等方面研究不足,與社會(huì)的變遷、民俗文化等外部因素的聯(lián)系也相對(duì)較少。本文對(duì)雷州方言語料資源庫的建設(shè)提出構(gòu)想,旨在為雷州方言未來的研究提供堅(jiān)實(shí)的保障。
二、雷州方言多模態(tài)語料資源庫建設(shè)的基本思路及內(nèi)容
(一)確定雷州方言的建設(shè)目標(biāo)和范圍
該資源庫搜集的對(duì)象為雷州方言語料,應(yīng)包括雷州市、徐聞縣、遂溪縣等各縣市的雷州方言。但由于人力資源的有限,該資源庫可以先從說雷州方言人口眾多的雷州市和徐聞縣開始搜集。除了常見的實(shí)驗(yàn)語音語料,還應(yīng)該展開田野調(diào)查,搜集生活中的真實(shí)情境的語料。
(二)語料資源的采集與整理
雷州方言多模態(tài)語料資源可以通過田野調(diào)查、調(diào)查問卷、采訪、現(xiàn)有的文獻(xiàn)資料、網(wǎng)絡(luò)視頻等方式獲取語料。語料庫的建設(shè),一般需要對(duì)采集到的語料進(jìn)行整理和分類,建立統(tǒng)一的標(biāo)注系統(tǒng),以便后續(xù)的管理和利用。但是目前學(xué)術(shù)界對(duì)多模態(tài)語料庫建設(shè)過程中的諸多問題仍存在爭(zhēng)議,例如:多數(shù)多模態(tài)語料標(biāo)注工具無法根據(jù)研究者的需求實(shí)現(xiàn)數(shù)據(jù)之間(尤其是不同標(biāo)注層級(jí)之間)的復(fù)雜統(tǒng)計(jì),尚未實(shí)現(xiàn)全方位的、真正的數(shù)據(jù)集成功能及較為強(qiáng)大的檢索功能;多模態(tài)語料庫的標(biāo)注實(shí)踐尚需拓展和深入,廣為接受的標(biāo)注方案較少;多模態(tài)語料庫加工工作量和難度較大,在規(guī)模上往往受到限制,如何提升加工效率、充分發(fā)掘有效數(shù)據(jù)尚需研究。盡管這些問題成為方言多模態(tài)語料庫建設(shè)的重要障礙是事實(shí),但方言的流逝速度也在加快也是事實(shí)。因此,在解決多模態(tài)語料庫建設(shè)的這些關(guān)鍵問題之前,作為學(xué)者可以從較專業(yè)的角度,盡可能多方面地將方言多模態(tài)語料搜集管理好,以供日后開展相關(guān)方面的研究。
(三)技術(shù)架構(gòu)設(shè)計(jì)
選擇合適的數(shù)據(jù)庫系統(tǒng)和存儲(chǔ)方式,確保能夠高效地管理和檢索語料數(shù)據(jù)。借鑒西南官話多模態(tài)語料庫建設(shè)的經(jīng)驗(yàn),可以采用制作網(wǎng)站的方法,建立起雷州方言的語料資源庫。也可將雷州方言語料分類儲(chǔ)存,以便為日后開展方言研究提供便利。
(四)多模態(tài)數(shù)據(jù)處理
針對(duì)不同形式的語料,制定相應(yīng)的處理方法和流程。漢語方言有聲資源庫的建設(shè)有多個(gè)步驟,每個(gè)步驟幾乎要靠人工才能完成,這必須依賴強(qiáng)有力的集體團(tuán)隊(duì),才能完成艱巨的信息加工工作[4]。由于研究人員的有限,多模態(tài)數(shù)據(jù)的處理過程中,應(yīng)該按照由易到難的原則,對(duì)語料進(jìn)行處理。在語料處理的過程中,由于文字語料和音頻語料的處理相對(duì)簡(jiǎn)單,研究人員可以對(duì)文字語料進(jìn)行文本分詞、詞性標(biāo)注等處理;對(duì)音頻語料進(jìn)行語音識(shí)別和轉(zhuǎn)換成文本。而視頻語料處理難度較大,可以逐步對(duì)視頻語料進(jìn)行音頻提取和文本識(shí)別等處理,逐步完善語料的轉(zhuǎn)寫工作。將處理后的數(shù)據(jù)整合到統(tǒng)一的數(shù)據(jù)庫中,建立多模態(tài)數(shù)據(jù)的關(guān)聯(lián)索引。
(五)標(biāo)準(zhǔn)化與規(guī)范化
制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范,確保語料數(shù)據(jù)的質(zhì)量和可用性。建立統(tǒng)一的標(biāo)注體系和詞典,對(duì)語料數(shù)據(jù)進(jìn)行標(biāo)注和注釋,便于后續(xù)的分析和研究。關(guān)于視頻語料轉(zhuǎn)寫和標(biāo)注,黃立鶴[6]提出可以建設(shè)的多模態(tài)語料庫中形成的文件共有 5 類,分別是視頻文件、音頻文件,以及經(jīng)過 Elan 軟件標(biāo)注后生成的標(biāo)注文件,經(jīng)過 Praat 軟件標(biāo)注后生成的標(biāo)注文件,語料轉(zhuǎn)寫文本或與視頻同步的字幕文件等。研究者可以將每個(gè)標(biāo)注的文件按照某種分類對(duì)標(biāo)注后的多模態(tài)語料進(jìn)行分類存儲(chǔ),文件名則按照研究需要、以方便檢索為原則進(jìn)行命名。這樣,就形成了一個(gè)專門用于某個(gè)研究目的小型多模態(tài)語料庫。為今后檢索方便,還可以使用 Excel 表格將標(biāo)注后的小型語料庫的基本信息列出,如包括說話人、場(chǎng)景、語料名稱等,通過超鏈接的方式將 Excel 與語料標(biāo)注文件相連,研究者可以通過點(diǎn)擊 Excel 上的鏈接打開相關(guān)語料標(biāo)注文件。
(六)資源庫管理與維護(hù)
新媒體時(shí)代的信息資源生成迅速,其中也不乏一些保留價(jià)值較高的方言視頻,因此,應(yīng)該建立資源庫管理團(tuán)隊(duì),除了負(fù)責(zé)資源庫的日常管理和維護(hù)工作,也應(yīng)該包括數(shù)據(jù)更新、清理、備份等。定期對(duì)資源庫進(jìn)行評(píng)估和優(yōu)化,根據(jù)需求調(diào)整數(shù)據(jù)結(jié)構(gòu)和功能設(shè)計(jì),提升資源庫的效率和性能。
三、雷州方言語料資源庫的展望
在前人學(xué)者的努力下,雷州方言的研究是碩果累累,但是雷州方言語料庫的建設(shè)方面仍有待學(xué)者們的開發(fā)。在已有的“雷州語音詞典”、“語保工程平臺(tái)”雷州方言收錄的基礎(chǔ)上,應(yīng)逐步增加以各類場(chǎng)景、各種職業(yè)的人群的日常對(duì)話為主的語料采集,應(yīng)建設(shè)表現(xiàn)手段趣味化(如幽默的對(duì)話、小品)、生動(dòng)化、多樣化的方言語料庫[10]。方言多模態(tài)語料資源庫建設(shè)在方言保護(hù)與傳承的過程中顯得尤為重要性。雷州方言多模態(tài)資源庫的建設(shè),可以推動(dòng)雷州方言研究的深入;拓展雷州方言的應(yīng)用領(lǐng)域;推動(dòng)雷州方言的保護(hù)與傳承。我們呼吁方言研究學(xué)者和大眾傳播媒體共同努力,推動(dòng)方言文化的傳承與發(fā)展。大量的多模態(tài)語料資源將為相關(guān)領(lǐng)域的研究提供寶貴的支持,為方言文化的傳承與發(fā)展貢獻(xiàn)一份力量。
參考文獻(xiàn):
[1]T.McEnery,R.Xiao,Y.Tono,et al.《基于語料庫的語言研究:高級(jí)資料讀本》簡(jiǎn)介[J].當(dāng)代語言學(xué),2009(1).
[2]本刊特約評(píng)論員.語言研究所六十年[J].中國語文,2010(4).
[3]操鐳,尹蔚彬,孫沁瑤,等.瀕危語言口語語料庫的研究與構(gòu)建——以呂蘇語為范例[J].計(jì)算機(jī)工程與應(yīng)用,2018(2).
[4]范俊軍.漢語方言自然口語語料庫建設(shè)的幾個(gè)基本問題[J].學(xué)術(shù)研究, 2013(2).
[5]顧曰國.北京地區(qū)現(xiàn)場(chǎng)即席話語語料庫的取樣與代表性問題[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2002.
[6]黃立鶴.語料庫4.0:多模態(tài)語料庫建設(shè)及其應(yīng)用[J].解放軍外國語學(xué)院學(xué)報(bào),2015(3).
[7]劉劍.國外多模態(tài)語料庫建設(shè)及相關(guān)研究述評(píng)[J].外語教學(xué),2017(4).
[8]王軻,王軒,王德和,等.瀕危語言爾蘇語的語料庫建設(shè)及應(yīng)用[J].西昌學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2018(3).
[9]詹伯慧,甘于恩.雷州方言與雷州文化[J].學(xué)術(shù)研究,2002(9).
[10]鄒曉燕,韓琨.語言生態(tài)學(xué)視野下方言語料庫建設(shè)的路徑、實(shí)現(xiàn)與應(yīng)用——以贛方言為例[J].地方文化研究,2018(4).
[11]朱月明.雷州話及其獨(dú)特的地域文化[J].現(xiàn)代語文(學(xué)術(shù)綜合版), 2015(9).
基金項(xiàng)目:本文系2022年度廣東省普通高校青年創(chuàng)新人才類項(xiàng)目“雷州話多模態(tài)語料庫的建設(shè)與研究——以雷州市、徐聞縣兩地為方言采集點(diǎn)”(項(xiàng)目編號(hào):2022WQNCX234)研究成果之一;2021年度湛江幼兒師范專科學(xué)校科學(xué)研究項(xiàng)目“新媒體視角下雷州話語音語料庫的建設(shè)”(項(xiàng)目編號(hào):ZJYZZX202102)研究成果之一。
作者簡(jiǎn)介:李曉君(1992—),女,湛江幼兒師范專科學(xué)校外語系講師,研究方向?yàn)榉窖匝芯俊⒂⒄Z教學(xué)研究。