程妹芳(漳州師范學院 圖書館,福建 漳州 363000)
《閩方言文獻數據庫》是漳州師范學院圖書館自建的特色資源庫,是中國高等教育文獻保障體系(CALIS)三期專題特色數據庫子項目之一。本數據庫以建設具有國內先進資源整合體系和服務平臺為指導思想,利用北京快威公司研發的DIPS數字文獻處理系統為技術支撐,主要以漳州師范學院圖書館特色館藏文獻為資源基礎,以全文數據為重點,同時擴展整合海峽兩岸及東南亞閩方言語言學科的中外文圖書、期刊、方言文學作品、視頻、音頻、課件、網站等各類型資源,建成“輯目索引庫”、“圖書全文庫”、“研究論文庫”、“方言文學庫”、“其他資料庫”等五部分資源子庫。
(1)有利于資源的集中整合與組織。從地域廣度來說,閩方言是我國最早流傳海外,傳播國家最多、流域最廣的方言語種之一,文獻史料遍布福建、臺灣、廣東、海南、浙江等省份和港澳地區、日、美、英、東南亞多個國家和地區。從時間跨度而言,自1403年第一部閩方言文獻《滿剌加國譯語》[1]問世至今已有600多年,文獻積存較多,涉及專著、論文、辭典、教材、教會文獻,[2]以及用閩方言創作的文藝作品等,呈跨國性、散見性、稀有性、多語種等特征。閩方言文獻數據庫的建設跨越地域與時空,將散落各地的與閩方言相關的文獻盡可能的搜集齊全,集中資源,整合信息,將其打造成為閩方言文獻集散地。
(2)有利于資源的保存與描述。閩方言被稱為古漢語的“活化石”,不管是閩東方言還是閩南方言,亦或是莆仙方言,都保存了自唐宋以來大量的古漢語印記,是重要的文化資源,也是珍貴的非物質文化遺產。閩方言文獻數據庫的建設,將全面科學地描寫、展現、揭示閩方言實態,記錄和保存閩方言資料,有效地傳承閩文化,展示閩方言生態文化區語言真實面貌。同時也將較全面、客觀地再現閩方言的傳播區域與傳播途徑,再現閩方言的學術研究發展歷程,凸顯以閩南方言為代表的中華語言文化在臺灣、東南亞等國家和地區的久遠影響。
(3)有利于資源的開發與服務。通過對閩方言相關文獻,以及閩方言語料與方言文藝作品等科學、合理、有序的知識整理與組織,利用現代信息技術和數據庫技術,開發建設成專題數據庫,填補了國內外閩方言專題文獻數據庫建設的空白,提高了文獻資源的有效利用率,促進了福建省語言文獻資源的數字信息化進程和資源共享,大大加強了方言文化生態區的開發與建設,更好地為海西區域經濟文化發展服務。
(4)有利于區域語言規劃研究與決策?!胺窖允且环N區域性語言。”“語言規劃的區域性與語言的區域性有關?!盵3]閩方言的區域性尤為突出,它主要流行于福建省、臺灣省、海南省、廣東潮汕與雷州半島、浙江蒼南等地,通行于日、美、英、東南亞等多個國家和地區的華人華僑。在福建省內則有閩東方言、閩南方言、閩北方言、閩中方言、莆仙方言等五大互不相通的次方言。而本數據庫的建設,則較為全面的掌握閩方言的語言實態,系統地揭示閩方言的發展歷程與傳播流域,為閩方言區域語言規劃研究提供基礎性資料保障與決策依據。
(1)數據庫目標定位準確。通過前期的調研,與專家學者的多次討論論證,確定數據庫的建庫目標,即盡可能多的將散落在各地的與閩方言相關的文獻資源搜集齊全,建設成由目錄索引、文本、圖像、音視頻、課件等文獻類型組成的資源數據庫,使其成為閩方言文獻集散地。以全息數據為重點,整合海峽兩岸及東南亞閩方言語言學科的中外文各類型資源,形成元數據和對象數據。積極參與到CALIS特色數據庫建設中,將本數據庫的信息資源上傳CALIS特色資源元數據倉儲中心,有效地補充了CALIS的信息資源。
(2)數據庫大綱設計明晰。這是特色庫建設首先要確定的重要一環,設計特色庫體系和欄目,需依數據類型、文獻內容、數據量等因素綜合考慮,合理規劃,力求結構清晰,層次分明,分類準確。詳見下表。

表 閩方言文獻數據庫大綱目次
(3)元數據標準和建庫系統與CALIS銜接。毋庸置疑,數據庫的標準規范對各高校圖書館建設特色數據庫是至關重要的。閩方言文獻數據庫根據國家科技部科技基礎性工作專項資金重點項目《我國數字圖書館標準規范建設》的研究成果,[4]結合閩方言文獻自身的特點,制定漳州師范學院圖書館《閩方言文獻數據庫元數據結構與著錄準則》,并嚴格按照這個標準來規范建庫。建庫系統采用通過CALIS認證的北京快威公司研發的DIPS數字文獻處理系統,在本系統的各項功能基礎上擬定建庫技術方案,再按照建庫方案與建庫標準逐步實施建設,在實踐過程中不斷予以修正完善。
(4)數據庫文獻選取范圍廣泛。從資源種類與文獻類型兩方面進行合理界定,盡可能做到文獻內容“?!?、“精”、“全”,表現形式豐富化。資源種類凡與特色庫主題密切相關的內容都盡可能收集。具體而言,從基本的語料字音、詞匯、俗語、民諺到歌謠、童謠、謎語、故事、劇本、曲藝等方言說唱話語資料;從報刊雜志所刊載的各色研究性與非研究性閩方言相關文章到各種研討會中發表的閩方言相關會議論文、項目報告以及學位論文;從教會文獻、辭書、教材、專著到與閩方言發展傳播相關的史料文獻,從紙本文獻掃描數字化到網絡電子文獻,均為閩方言數據庫文獻資源數據選取的對象。文獻類型的載體形式有目錄、文摘、全文、圖像、音頻、視頻、課件、多媒體等多種類型數據信息。
(5)精心采集資源,用心加工建庫。多渠道、多途徑廣泛采集相關資源。首先,充分利用館藏特色資源,將現有館藏資源數字化;其次,向社會和個人征集相關資源;其三,搜索、挖掘、提煉、整合網絡資源;其四,從商業數據庫中遴選數據;其五,派遣骨干館員到福建省內各地、潮汕、海南、臺灣、東南亞等國家地區收集相關資料。
資料收集后,對所有收集而來的數據進行篩選,通過掃描、拍照、錄入、格式轉換、文本全息化等各種技術手段和加工方式,對采集來的各種類型和格式的原始資料進行數據深加工、資源整合、歸類存檔,并按照《閩方言文獻數據庫元數據結構與著錄準則》對數字化文獻進行元數據標引、描述、組織、索引、入庫。利用知識組織的方法,將無序、分散的資源內容建設成含目錄索引、文摘數據、全文數據三級資源庫,對文獻資源進行全面揭示。
(6)Web發布與訪問服務功能不斷提升。利用DIPS軟件系統,建立Web發布平臺。設計簡潔明了的特色庫發布界面,含一級子庫信息、數據更新時間以及各子庫實時訪問點擊量展示等;建立詳細的分類導航樹,形象而直觀地揭示文獻資源完整的體系;設置一般分類導航檢索與高級全文檢索系統,供用戶方便快捷地查找數字資源。數據庫采用目前國內各高校較為通用的IP認證與賬戶認證兩者相結合的訪問方式,校園網內采用IP認證自動登入,校園網外采用注冊賬號(用戶名/密碼)認證登入。數據庫面向終端用戶24小時全天候開放,免費提供數據瀏覽、全文信息檢索、原文獲取、文獻傳遞、網上咨詢等服務。
作為CALIS三期特色數據庫的建設成果,本數據庫項目完成后,全部元數據及文摘級數據均免費提供給CALIS,提供基于WEB方式的公開免費檢索;提供OAI服務,以方便CALIS全國高校專題特色數據庫中心門戶收割全部元數據。CALIS成員館的用戶可通過CALIS中心門戶直接訪問、利用本數據庫。數據庫中不涉及知識產權的內容直接提供全文,涉及知識產權的內容以文獻傳遞服務方式提供全文。
(7)及時更新數據,注重日常維護。閩方言文獻數據庫將數據更新常態化、制度化,除寒暑假外,基本做到月更新,確保數據庫文獻的時效性和新穎性。重視數據庫日常維護,實時做好數據保存,并及時備份。加強對服務器系統的安全管理,有效保障數據的安全性。
(1)閩方言文獻數據庫是一個學科性很強的數據庫,需要有專業學科知識的支持。在數據庫的選題、目標定位、大綱體系設置、資源采集篩選、功能設計等各個環節,均聘請有關專家學者參與論證指導。特別是在數據庫建設之初,科學合理地制定特色數據庫的建設目標、價值取向、整體規劃、工作流程、實施步驟等,是非常重要的。建庫過程中時常與專家學者保持聯系,在專家學者的全程參與、系統把關下完成建庫。力求保證選題的價值性、數據的權威性和可靠性、大綱體系與功能結構的合理性,避免“走彎路”。
(2)統一的建庫標準規范和合理的建庫團隊是建設高質量數據庫的兩大保障。規范統一的元數據著入標準是數據庫實現資源共享的一大前提。閩方言文獻數據庫建設團隊依據國家科技部的科研成果和CALIS中心的元數據標準,建立健全建庫工作所需的各項規范準則與規章制度,如《閩方言文獻數據庫元數據結構與著錄準則》《建庫人員崗位職責》等,確保有章可循,有標準可依。在建庫過程中嚴格執行數據庫建設規范和元數據標引著錄細則,遵循崗位職責,才能確保數據庫的建設質量。在此基礎上,結構合理、素質優良、業務精湛、富有協作精神的建庫隊伍,是建設高質量特色數據庫的重要人才支持與保證。閩方言文獻數據庫的建庫團隊是由研究閩方言的專家學者、會講閩方言的館員、英語專業的館員以及熟悉數據庫技術的館員等骨干力量組成。在工作中群策群力,明確各建庫人員的崗位職責,合理分工,團結協作。
(1)建庫標準規范有待完善,部分元數據取值、格式不夠規范。這個問題的起因一是由于部分海外數據不易獲取,如一些海外古籍本身就缺失必備元素,無法復原;還有一些網絡資源,雖然文獻價值較高,但一些必備元素無法追溯考證,致使文檔資料不完整,部分元數據缺失。二是在數據庫建設中,由于人手不足,請勤工助學的學生參與部分期刊元數據著錄及圖書掃描和加工工作,導致有些數據不夠規范。三是由于本數據庫從最初構思建庫、收集資料到如今的初具規模歷時多年,許多數據在開始收集時并未按照現在的標準規范來標引,又經多人之手,導致小部分數據模糊。
解決該問題的途徑可分兩步走。一是逐條檢查有問題數據,多渠道、多途徑追溯復原,進一步規范完善數據。二是參與CALIS三期特色數據庫建設工作,積極向它們的標準規范靠攏。學習CALIS專題特色庫的建庫標準規范,對本數據庫建設具有重要的指導意義。作為一所普通高校圖書館,我們缺乏特色數據庫建設的理論指導,在平臺搭建、庫結構定義、系統發布等方面缺少建設成功數據庫的實踐經驗。而CALIS專題特色數據庫建設的標準規范與成功建庫經驗正是值得我們學習與借鑒的最好個案。雙管齊下,一手抓標準,一手抓數據質量,無疑將極大的完善、提升本數據庫的知識組織與資源整合水平。
(2)數據庫有效利用率有待提高。由于本特色庫的建庫專題性較強,具有一定的使用針對性,加之缺乏宣傳,師生讀者對數據庫的知曉程度不太高,雖然在海內外閩方言研究界擁有一定的讀者群,廣東、海南、香港、澳門、臺灣、馬來西亞、新加坡、日本等國家和地區都有學者前來訪問,但數據庫的利用價值還遠未得到充分發揮。
解決該問題的方法有二。一是從自身建庫質量入手,進一步挖掘資源、更新數據,提高數據庫的生命活力。二是進一步加強數據庫的宣傳與推廣力度。今后將嘗試采用打電話、發E-Mail、郵寄數據庫大綱等推送服務的形式,將數據庫的內容、特點以及更新信息主動、及時推送給研究閩語的專家、學者。
[1]林連通.《閩方言研究專題文獻輯目索引1403-2003》跋[M]//張嘉星.閩方言研究專題文獻輯目索引1403-2003.北京:社會科學文獻出版社,2004:729.
[2]張嘉星.傳教士與閩南方言辭書[J].文獻,2006(1):183-189.
[3]薄守生,賴慧玲.當代中國語言規劃研究[M].北京:中國社會科學出版社,2009:2.
[4]張曉林,等.我國數字圖書館標準規范[EB/OL].[2012-05-08].http://cdls.nstl.gov.cn.