文 / 石貞貞
符號學視域下多模態語言檔案建設研究
文 / 石貞貞
隨著民族融合趨勢的加強,越來越多民族語言瀕危滅絕,記錄民族語言工作刻不容緩。現有語言檔案建設存在著搜索功能單一、缺少語音和圖像信息、資源不能共享、語言保真度低等問題。基于符號學理論建設多模態語言檔案,建設多模態語言檔案館,包含字、圖、聲三位一體數據庫,可以最大程度保護、傳播、開發和利用瀕危語言。
符號學;多模態;語言檔案
全球化背景下,中國的多元化語言日益趨于統一,眾多小語種瀕危。研究表明:“44種民族語言處于瀕危,9種已經消亡。”[1]但是目前關于保護瀕危語言的實踐活動還不夠深入,僅僅停留在學術層面對相關語言檔案文字材料進行撰寫、翻譯、注釋以及記錄。在這種保護層面上,入手點通常是語音、語法或者詞匯等某一個方面,而在整體研究上存在缺失;語言體系各個部分缺少必要聯系,缺乏相關度和統一性;其研究范式多憑借錄音或者文字,保護效果差強人意。
上海語言資源有聲檔案庫中僅存在上海不同區域使用的幾十個單音字;在中國科學院的多民族語言資料庫中,雖然建立了漢語、蒙語、維語和藏語的平行語料庫和形態庫,但這些資料僅是由781篇文章構成的文本信息。現今國內的語言檔案大多在不同程度上存在著語音原始情景信息的缺失,未曾嘗試用圖像或其它科技手段全方位地展示語言。就技術層而言,音頻和錄像等物理材料不夠理想,導致現存檔案保真度和清晰度還有待提升。
社會符號學認為語言是一種聽覺符號系統,是人類在特定社會背景和歷史實踐中創造出來的富有獨特意義的表達系統。[2]因此,社會符號學認為,對于語言的研究不能局限于詞匯本身,還應當囊括非語言符號的語法,包含書面語、口語、圖表、音樂、圖像和動態影像等在內的所有可以構建語言符號的資源。在符號學視角下,多種模態并非互相割裂,每種模態都屬于符號資源,最終將發展成為有意義、互相連接的網絡。此種意義還具有選擇性,所有模態或者模態之間的互動都可以表達獨特的意義。而這些多種模態的“符號語法”能夠使得人類建立起基于現實的心理圖像,并更好理解周圍發生的以及自身內部經驗。LIM認為,圖像語法包括四級單位,即作品(work)、圖式(figure)、情節(episode)和成員(member)。[3]而這四級單位是以語言符號作為構建的基礎。語言符號成為構建一切社會現實的基礎。
與傳統語言檔案相比,多模態語言檔案更加關注兩個問題:不同模態話語中各成分關系,嘗試建立跨模態關系框架,并對其進行分析;分析不同模態中的符號特征,并對不同模態中的語義進行清晰描述。多模態語言檔案建立并分析跨模態關系,第一步就是要對這種跨模態關系進行詳細統一的量化比較。通常而言,各模態符號特征的分析基礎往往是語義,如過程、情態等。
多模態的語境決定了符號活動語義選擇的多樣性。社會活動在不同語境下產生不同的語義需要,最終體現出截然不同的表達形式。因此建立多模態語言檔案數據庫有助于發現符號的類型規律,并據此改善話語行為:在一定語境下預測、引導并分析尚未出現的文化策略。另外,通過語音、圖像、文字等子數據庫建設,多模態語言檔案館可以完整、全面、立體呈現出該種語言特點,并深入挖掘此種語言背后的文化特征、社會意義。
與傳統數據庫不同,多模態語言檔案館所采集和保護的對象,將突破平面的紙質文檔,試圖針對瀕危語言進行全方面立體全息錄入。[4]語言檔案在歷史發展中經歷了兩次轉型。19世紀末期采用“描述語言學”——直接通過翻譯、聽寫、筆記等方法大量記錄語言。此方法不僅不利于傳播,用戶在查閱時,還存在諸多不便;另外在紙質端,還存在著破損、受潮、遺失等問題,且保存成本高昂,需要投入巨大人力物力。這種文字檔案投入產出比較低,不利于常年實行。隨著科學技術的發展,人類可以使用多媒體等現代化技術對語言進行全面記錄,開始從“描述語言學”演變為“記錄語言學”:將資料集中于PC端——方便用戶在任何時間、地點進行查閱,極大節省人力物力,并且資料不易遺失或損害。但現今對多媒體的利用還只停留在紙質版的數字化,并沒有進一步利用多媒體進行語言資源的開發和保護。
多模態語言檔案數據庫不僅包括最為基礎的紙質文檔數字化,而且包括視頻圖像和語音信息。用戶在利用多模態語言檔案數據庫查閱有關資料時,可以得到聲音、圖像、文字三位一體的全面信息,這將有利于語言的傳播和保護,讓語言分析變得更清晰、直觀,極大減少了誤差。
多模態數據庫的建立是包括錄音、攝像等多個系統與維度的立體構建過程。
1.調查設計材料。這一步驟中最為重要的是語言檔案數據庫的內容選取。它必須選取具有代表性的語言或指定部分,概括出語音格局,在參考已有研究的基礎之上制定出每種語言特定的字表、詞表、句子和語篇。原則上所選的材料應為自然語言。在設計字表時,需要分為聲調、元音和輔音三個部分,盡量用小的語料庫覆蓋全部的語音及聲調,縮小數據庫的冗雜。相較于字表的簡單,詞表優先選用復雜的雙音節詞,方便研究語言的變調;在句子和語篇設計方面有朗讀和表達部分。其中朗讀包括語言敘述的詩歌和民間故事;語篇部分要做好包括韻律、音段在內的搭配,豐富句子多樣性;表達部分主要是“口述”,通過對一些常見話題的情景描述,記錄人與人交談或獨自表達時的語言數據。
2.建立發聲人信息檔案庫。這一步驟中最重要是要保證發聲人標準性。所采集的發聲人樣本應是將研究語言視為母語的當地人、沒有長時間外出接觸其它語言,所共同生活的人也應使用同樣的語言,并且發聲人沒有患有影響聲音的疾病,聽力和發音器官都正常。
3.語言檔案采集。這是最關鍵的一環。傳統模式聲像采集中往往會出現錄音質量不佳,數據失真的情況。為解決這個問題,錄音環境最好選在專業錄音棚,避免外界的干擾。另外,錄音還應該配有攝像頭和呼吸袋。這樣,我們除了聲音之外,還能捕捉發聲人的面部表情和嘴唇發聲的韻律,可以更好地對語言檔案進行采集。
4.語言檔案管理。對于龐雜的語料庫,管理需要經過精心的設計;為了語音文件夾命名的規范化,我們可以進行有規律的編號與排列,以方便保存、分管與處理。
5.語言檔案分析。在分析之前,先要對所采集的數據進行過篩,如噪聲處理、長靜音空白和咳嗽聲等。另外,每次采集數據完畢后,都應該由發聲者或者另一位以研究語言為母語的人對錄音進行檢查,進行查漏補缺,隨后采用南開大學所研發的“桌上語音工作室”進行語音分析、測算和統計作圖。
相較于傳統的數據庫,多模態語言檔案數據庫不再局限于文本子數據庫,還包括語音子數據庫和圖像子數據庫兩個部分。
文本子數據庫為數據庫的基礎,主要目的是存放語言的字眼、詞句、段落等文本信息,并分析其屬性及相互之間的連接。
語音數據庫是數據庫最重要的部分,記錄了語言的語音信息及其語音屬性,涵括字眼、詞句、段落等的發音,以及在連讀情況下有無變調。語音特性比文本特性更為復雜,包括每一種語言獨特的音系特征、語調特征和字音特征。另外,在對語音數據庫分析后,人們可以通過語音進行檢索,迅速地找出該研究語言的變調、韻律等語音特點,可以更好地對研究語言和普通話進行雙向匹配。另外,語音檢索功能在數據庫的實際應用中,可以實現更好的用戶交互與體驗。
圖像子數據庫部分是對語音數據庫和文本數據庫的補充。通過發音人圖像的補充,可以使整個數據庫達到集成化效果。用戶在搜索數據庫中,不僅可以聽到聲音,看到文字,還能觀察發聲人的面部表情、體態等方面的視覺特征。這種三位一體的呈現方式,可以更加原汁原味體現方言內涵及特征,避免創建數據庫過程中語言的失真問題,有效地對語言進行保護、管理、整合與利用。
這三個子數據庫互相獨立又互相影響,構成一個完整的、全新的數據庫。數據庫用戶可以分析、下載各類文件,輸出各類統計結果。
總體而言,符號學視角下多模態語言檔案建設還處于探索階段,現階段多數檔案建設還止步于文字的記錄和描述。胡壯麟教授曾在第十二屆全國功能語言學研討會上指出,“多模態”不僅有“科技含量”,還極具“難度”,實踐者需要“語言之外的涵養”。可見,現階段進行多模態語言檔案的研究還存在著一定的難度。但是,在文化日益融合的今天,多模態語言檔案的建設是語言保護的必然趨勢。多模態語言檔案的研究不僅有助于瀕危語言的進一步保護,而且是對該類符號背后文化、意義、社會等人文核心問題的再次認知。構建多模態語言檔案建設最終將對社會整體的良性發展大有裨益。
[1]徐越.“浙江方言音檔”的構建及預期價值[J].浙江檔案,2012(1).
[2]李宇明.當今人類三大語言話題[J].云南師范大學學報(哲學社會科學版),2008(4).
[3]Spolsky,Bernard.Language Policy[M].Cambridge University Press,2004.
[4]張芳霖,湯曉良,謝雨菲.我國方言檔案式保護的SWOT分析[J].北京檔案,2016(2).
G270.7;H003
A
1005-9652(2017)04-0084-03
(責任編輯:虞志堅)
石貞貞(1982-),女,河南南陽人,南陽師范學院環境科學與旅游學院,研究方向:檔案管理。