●通拉嘎(泉州師范學院圖書館,福建 泉州 362000)
面向地方文化的圖書館特色數據庫建設實踐
——以閩南方言在線詞典的建設為例
●通拉嘎(泉州師范學院圖書館,福建泉州362000)
[關鍵詞]閩南文化;地方文化;特色數據庫;閩南方言在線詞典
[摘要]泉州師院目前有2個國家級閩南文化研究平臺,建設閩南文化特色資源庫是圖書館數字化建設的重點。閩南方言是閩南文化的載體,文章闡述了泉州師院閩南文化特色數據庫—閩南方言電子詞典的建設內容及意義,從數據輸入、后臺管理、顯示界面、服務功能等四個方面詳細介紹了閩南方言電子詞典的結構模塊,并基于數據庫建設實踐,總結地方特色數據庫成功的關鍵是定位清晰、緊扣地方特色,數據知識系統化、服務緊扣用戶需求。
發展特色數據庫,建設服務地方、服務本校科研需求的特色數據資源,是圖書館為讀者提供服務的重要手段,也是與其他高校實現資源共建共享的重要基礎。不過從目前的情形來看,高校的特色數據庫建設尚缺乏規模,特色并不突出,與地域的連接性不強。以福建高校為例,圖書館自建數據庫共有79個,不過立足于地方的特色自建庫僅有廈門大學的“莆仙媽祖地方文化特色庫”、集美大學的“陳嘉庚研究數據庫”、華僑大學的“福建戲曲文獻資料庫”等12個數據庫,并且數據庫特色不足,實用性不強,共享性不高。[1]
泉州是閩南文化的發源地,泉州師院是地方性本科院校,“中國社科院文化研究中心閩南文化研究基地”及“臺盟中央閩南文化交流研究基地”等2個國家級文化研究平臺落戶泉州師院,中國現當代文學等省級重點學科均有以閩南文化與閩南戲曲研究為研究重點的項目,[2]泉州師范學院圖書館立足于深厚的閩南文化基礎,大力建設閩南文化特色數據庫,將閩南文化研究作為圖書館的特色及建設重點。但到目前為止,泉州師院圖書館僅有“地方文獻專題庫”等自建數據庫,數據庫的規模與深度與本地本校的閩南文化研究需求相比明顯滯后。文章闡述了泉州師院圖書館閩南文化特色數據庫—閩南方言電子詞典的建設內容及意義,并以此為例,探討高校圖書館特色數據庫建設過程中存在的一些問題。
閩南方言的數字化建設對閩南文化的研究意義深遠,方言是文化的載體,不僅是一種社會現象,也是一種文化現象,方言與文化相互促進,共同發展。閩南方言是非常古老的一種,主要分布于福建、臺灣及東南亞。近些年,黃典誠的《普通話閩南方言詞典》(1982)、周長楫的《閩南方言大詞典》(2006)、陳修的《臺灣話大辭典》(2000)、村上嘉英的《現代閩南語辭典》(1979)等閩南方言詞典相繼出版,王育德的《臺灣語音的歷史研究》(1987),周長楫的《福建境內閩南方言的分類》(1986)等論述也不斷涌現,有力地推動了閩南方言及文化的繁榮發展。不過閩南方言的數字化建設成果還是較為少見,國家語委大力建設的語言資源有聲數據庫(泉州各庫)收錄了固定的字詞;福建省圖書館建設的閩南文化專題數據庫,其方言數字化成果較為稀缺;臺灣學術界建設了“臺文華文線上辭典”、“臺灣閩南語常用詞辭典”、“臺文語料庫”,不過臺灣與福建閩南方言地區的方言有較為明顯的差異,無法直接移植相關知識。迄今為止,閩南方
言的詞典化建設及數據化加工已有很多成果,不過將閩南方言與詞典、數字化建設結合的成果少之又少,無法滿足廣大方言用戶研究與應用的需求。

2.1理論意義
閩南方言保存著許多古語音、古詞匯和古語法,閩南方言的研究對漢語古音的構成、古籍的訓釋以及漢語史的研究都具有重要的意義。閩南方言數據庫的建立,對弄清閩南方言分布和發展規律,了解閩南方言這一漢族族群的擴展和遷移路線、活動足跡及漢族歷史文化深有裨益。方言是地域文化的載體,閩南方言研究成果有助于推進閩南地方文化及歷史的研究,對繁榮發展地方文化有十分深遠的意義,還將有助于全國的地域性特色資源庫的建設。
2.2實踐意義
語言文字信息化處理是國民經濟和國防信息化建設的重要基礎,與國家的信息安全、民族團結、經濟發展、社會和諧密切相關。在云計算、大數據時代,研究閩南方言,并將其數據化、電子化,對促進方言地區信息化發展具有重要意義,對研究地方歷史、民族關系和中外文化交流,閩南方言的規范保護及健康發展,對傳承閩南文化具有深遠的歷史意義和重要的現實意義。電子詞典的建立是語料庫建設的前期工作,方言詞典的研究對促進閩南方言信息化處理的發展及閩臺自然語言理解與交流有深刻意義。閩南方言是維系海峽兩岸文化交流的最重要紐帶,是兩岸相互認同的標志,此研究對于推動海峽兩岸的認同和共識、促進兩岸經濟文化進步,具有重大的現實意義。
閩南方言是相當古老的語言,在音韻、詞匯、語法上都保留了上古漢語及中古漢語的許多特征。我們以周長輯的《閩南方言大詞典》為參考,以“閩南方言有聲詞典管理系統”為用戶提供檢索、統計、分析等服務。詞典以一詞一符一聲為基本的資源類型,既有文本標注、國際音標標注,又有方言代表區的口語錄音。在線詞典的最終建成形態是集字查詢、詞查詢為一體,可不斷擴充與完善的閩南方言有聲資源集成。閩南方言電子詞典可以做一般使用者的知識查詢工具,又可以供專門的語言研究及詞匯數據庫研究之用。
作為一個在線有聲電子詞典,閩南方言電子詞典的結構主要有以下四部分組成:(1)數據的輸入模塊:遵守電子詞典的“數據加工規范”,錄入詞條信息及有聲資源信息;電子詞典的管理系統,包括后臺管理模塊及顯示界面等內容;(2)后臺管理模塊是建立詞典數據庫管理平臺,對詞典所有微觀信息進行有序存儲;(3)顯示界面是按用戶的使用需求以一定的結構形式顯示詞典信息;(4)檢索與索引服務,負責詞典數據的檢索與提取。
3.1數據輸入
閩南方言的電子化相當復雜,涉及文白異讀、訓讀、不同字形詞形、語流音變等問題,我們以周長輯的《閩南方言大詞典》為參考,讓文白異讀、訓讀擁有可操作性的標準,按確定的數據加工規范統一詞條及錄音數據,使各類數據有統一化格式,便于檢索加工與重復使用。詞條數據包括方言特有詞,普通話與方言對應詞及錄音文件,詞條的錄入注意使用現行規范字,有本字一律用本字,無本字可用同音或近音詞替代,方言訓讀字另表“訓”以示與詞語的聯系與區別,有音無字,即無法用適合的同音或近音詞表示的詞,可以用方框代替。文白異讀需要標注“文”、“白”,白讀在前,文讀在后。統一采用國際音標Ipa Pan New輸入法。[3]
有聲詞典目前以廈門、泉州、漳州三市中心市區,即廈門市思明區、泉州市鯉城區、漳州市薌城區的閩南方言讀音為主體內容。三市所屬縣市特有的語音或特征詞,需標注具體縣市。以北京語言大學的BYLY軟件進行錄音,統一用“wav”格式,錄音文件也是白讀在前,文讀在后。要考慮好隔音、混響、燈光等方面的環境條件,注意噪音控制,盡量不做后期的錄音處理。
3.2后臺管理模塊
采用目前最為成熟、穩定、安全的PHP+MySQL開發框架,結合XML、AJAX等主流技術進行開發實現,使系統具有可擴展性、穩定實用的特點,提供詞條維護、分類管理、權限管理、多路徑檢索、統計分析等多項功能,全面滿足詞典建設的管理需求。特色資源系統采用多層結構,每層的功能相對獨立,每層之間留有標準接口,保證系統的網絡化、可檢索性、可擴展性、靈活性與開放性,同時也方便進行系統接入與管理。
電子詞典的后臺管理有三大功能模塊,從左至右分別為:①模板管理模塊,為保證詞典數據的前后一致性、可檢索性,以固定的數據加工規范確定字詞的模板及索引模板;②系統配置模塊,界面設置是對界面的色彩、顯示功能、功能按鈕等功能進行管理;文字設置是設置文字的簡體和方言字轉換、顏色、大??;流程管理是對數據庫的整體運行流程進行管理;檢索設置及索引設置是針對數據庫的檢索及索引功能設置的管理模塊;有聲功能管理模塊是管理及播放電子詞典的有聲數據的模塊;③權限管理是對詞典使用者和管理者的權限進行統一安排。
3.3電子詞典顯示界面
電子詞典的顯示界面有三大功能區,從左至右分別為:①索引窗口是針對閩南方言的復雜性,設定的索引模塊,按中文拼音字母順序制定了字母索引功能,按方言字的筆畫設定了方言字筆畫索引功能,點擊相關窗口,即出現索引內容;②查詢窗口,用戶在檢索欄輸入檢索詞,選擇所需查詢功能后回車,主顯示窗即顯示詞的釋義信息,這里簡單查詢、高級查詢是針對中文簡體輸入功能,實現單一檢索條件和多種檢索條件的檢索;拼音查詢、方言詞筆畫查詢、國際音標查詢等三種查詢方式主要針對方言詞用戶,提供不同的檢索方式;③顯示窗,顯示詞的所有釋義信息,如詞的詞性、國際音標、釋義等;④“信息統計”與“詞典功能說明”是電子詞典的附加功能,統計單元是對詞典的微觀信息進行統計,并通過顯示單元顯示出來;詞典功能說明是對電子詞典的查詢、索引、顯示、統計等各項功能進行逐一說明,方便用戶更有效地利用好電子詞典。閩南方言電子詞典的顯示界面設計意圖是方便查詢,突出中心,既滿足方言及普通話用戶的需求,又縮減索引及查詢窗的面積,重點突出主顯示窗的詞的微觀信息。[4]
3.4閩南方言電子詞典的服務功能
閩南方言電子詞典提供了檢索、查詢、統計、發音等功能,采集了紙質詞典的各類信息資源,將數據導入到管理系統中,提供開放式數據添加和修改的功能。字查詢實現方言筆畫查詢、拼音查詢、國際音標查詢等功能;詞查詢提供分類索引、方言筆畫查詢、拼音查詢、國際音標查詢等功能。整個檢索界面還提供簡單查詢和高級查詢功能,為方言用戶提供最便利、最直接的信息推送。統計是實現對詞頻、同義詞、有聲資源使用情況進行多角度、多層面的統計。發音功能是閩南方言電子詞典的重要特征之一,閩南方言電子詞典的例詞例句均附發音功能,廈門、泉州、漳州各有一個基本對照音,以備用戶對照基本音,研究閩南各地的語音及其變化。
方言電子詞典的建設是詞典學與計算機科學結合的產物,資料收集、數據處理、數據存儲、詞匯信息的編排等方面都與傳統詞典有較大差別,方言電子詞典的建設要始終把用戶放在第一位,以用戶的實際需求為導向,設計與組織信息。閩南方言數據庫建設是項浩大的工程,我們在建設中有一些感悟與思考,與特色數據資源的建設也有共性。
4.1定位清晰,選題嚴謹,緊扣地域及學校特色
高校圖書館特色數據庫是圖書館數字化建設的重點,不過目前低水平的重復建設、缺乏特色、數據稀少等現象在特色數據資源建設中較為普遍,如何不重蹈前人的覆轍,如何體現獨特性及應用性,是數據庫建設之初應該充分予以考慮的。
特色數據庫建設之初就應選好題,在對國內外相關領域數據庫信息資源分布狀況進行認真分析的基礎上,綜合學校建設需求、所在地域經濟文化發展需求、用戶需求、館藏建設基礎、重點學科發展需求等因素,確定適當的主題范圍,尋找符合學校辦學特色,利于學校重點學科、重點研究領域的,在所處地域有一定學術價值及應用價值的特色數據資源。在數據庫建設之初,還必須了解客戶群的定位,用戶的知識結構和使用需求。我們建立的閩南方言電子詞典有濃郁的閩南地域及歷史人文特色,立足于福建高校圖書館數據建設需求,閩南文化及閩南方言研究者對閩南方言數字化建設的實際需要,是國內外高校中極有特色的數字館藏,這也確保了數據庫的獨特性及應用性。
4.2數據知識要具備系統性
數據是數據庫建設的核心,是數據庫建設中十分重要的環節,要建立高水平的特色數據庫,一定要確保數據信息的準確性、全面性和權威性。在建設特色數據庫時要確定信息的形式,如文字、表格、圖片、音樂及多媒體信息;確定信息源的種類,如圖書、期刊、會議錄、論文集、專利文獻、產品說明、科技報告、網上信息等,確保收集的信息及數據在所建設領域是正確而全面的數據,是所處領域的優秀成果,從而保證數據的權威性。閩南方言電子詞典的建設之初即確定數據來自《閩南方言大詞典》,主編周長輯是閩南方言研究領域的著名專家,《閩南方言大詞典》是閩南方言領域的權威成果,收集了具有代表性的廈漳泉三個地區的閩南方言的詞匯和讀音,釋義及注音精準,展現了閩南方言的整體面貌,這是該詞典的最大亮點,[5]也確保了我們詞匯信息知識的系統性、可檢索性及正確性。
4.3數據庫服務要緊扣用戶需求
一個成功的數據庫,除了以高水平的數據做為基礎,還應該方便用戶獲取和利用;除了提供檢索、下載等基本服務外,還應該提供一些個性化的服務功能,如訂制服務、推送服務、存儲服務等。閩南方言電子詞典的服務職能還只停留在檢索、下載、統計等基本功能,還未達到個性化服務的階段。這也是影響數據庫利用率、用戶認可度的重要因素。
[參考文獻]
[1]盧曉鳳.福建省高校圖書館特色數據庫建設調查分析[J].圖書館學研究,2012(3):59-60.
[2]中國現當代文學省級重點學科.泉州師范學院重點學科與學位建設辦公室[EB/OL].[2014-06-26].http://www.qztc.edu.cn/xkb/zdxk-info1.asp.
[3]周長楫.閩南方言大詞典[M].福州:福建人民出版社,2006:5-7.
[4]章宜華.計算詞典學[M].上海:上海辭書出版社,2013:222.
[5]吳曉芳.閩南方言與《閩南方言大詞典》[J].辭書研究,2012(1):62.
[收稿日期]2014-08-02 [責任編輯]劉丹
[作者簡介]通拉嘎(1976-),女,內蒙古科爾沁右翼中旗人,中央民族大學少數民族語言文學學院博士,泉州師范學院圖書館館員,中國社科院閩南文化研究基地成員,研究方向:計算語言學、方言及情報學。
[基金項目]本文系泉州市社科規劃項目“閩南方言特有詞電子詞典的建設及應用研究”(項目編號:2014D32),泉州師范學院校級課題“閩南方言有線詞典的建設研究”(項目編號:2014sk09)的系列成果之一。
[文章編號]1005-8214(2015)03-0093-03
[文獻標志碼]B
[中圖分類號]G250.74