【摘要】文章分析方言教學(xué)資源的建設(shè)和應(yīng)用現(xiàn)狀,提出建立廣東方言教學(xué)資源元數(shù)據(jù)規(guī)范,探討基于語義網(wǎng)格的廣東方言教學(xué)資源網(wǎng)絡(luò)平臺的新模式,以更好地實現(xiàn)對方言教學(xué)資源數(shù)據(jù)的采集、監(jiān)測和分析,為方言資源的再度開發(fā)和利用提供廣泛的基礎(chǔ)平臺。
【關(guān)鍵詞】方言教學(xué)資源;元數(shù)據(jù);語義網(wǎng)格
【中圖分類號】G40-057 【文獻(xiàn)標(biāo)識碼】B【論文編號】1009—8097(2010)07—0118—04
引言
語言是一種重要的資源,關(guān)系到社會經(jīng)濟(jì)文化的發(fā)展和人類文明的進(jìn)步。人類的知識和經(jīng)驗體系,文化傳統(tǒng)、思維和智力發(fā)展、社會關(guān)系,都必須借助語言的傳播才能得到傳承和發(fā)展。廣東的方言資源,無論從地域分布、社會共享,還是利用價值方面看,在我國語言資源中占有重要地位,具有特殊的價值和作用。這一地區(qū)不僅有粵客閩三大漢語方言和其他眾多土話群,還有屬于苗瑤語族和壯侗語族的多種少數(shù)民族語言。
暨南大學(xué)漢語方言研究中心是國內(nèi)首個專門研究漢語方言的省級重點(diǎn)科研基地,本項目組承擔(dān)基地重大項目“嶺南方言資源監(jiān)測及資源庫建設(shè)”(項目號:07JDTDXM74004),建設(shè)廣東方言教學(xué)資源網(wǎng)格平臺(以下簡稱GDFY-Grid)。項目建設(shè)過程中,我們根據(jù)語言資源的特點(diǎn)和應(yīng)用需求,集聚多種類型的方言資源,采用語義網(wǎng)格的技術(shù)模式實現(xiàn)對廣東方言教學(xué)資源數(shù)據(jù)的采集、監(jiān)測和分析,為方言教學(xué)提供全新的網(wǎng)絡(luò)平臺,為了解語言省情和語言國情提供嶄新的管理手段和準(zhǔn)確的數(shù)據(jù),對國家和省制定語言文化政策和發(fā)展戰(zhàn)略具有較高的現(xiàn)實價值。同時,通過GDFY-Grid的推廣應(yīng)用,可以多途徑采集和集聚方言資源,為語言資源的再度開發(fā)和利用提供廣泛的基礎(chǔ)平臺。
一 相關(guān)研究分析
據(jù)我們調(diào)查,目前學(xué)術(shù)界還沒有一個集語言資源信息監(jiān)測、采集、分析等功能于一體的網(wǎng)絡(luò)教學(xué)平臺,已有的僅是一些具備單一功能的產(chǎn)品,主要可分為四大類:
1 基于語言研究的文本或文字符號的語料匯集與分析軟件
如美國SIL的field work系列軟件,中國社會科學(xué)院民族學(xué)與人類學(xué)研究所孫宏開、江狄開發(fā)的“漢藏同源詞比較系統(tǒng)”等;
2 基于語音分析的軟件
如美國SIL開發(fā)的sound analyzer,荷蘭阿姆斯特丹大學(xué)語音實驗室開發(fā)的praat,以及英國倫敦大學(xué)語言學(xué)系的語音分析軟件等;
3 基于語言研究的語言田野調(diào)查錄音軟件
如云南民族大學(xué)開發(fā)的phonal+,上海師范大學(xué)語言研究所的語言調(diào)查軟件(FWT)等;
4 語料數(shù)據(jù)庫
如中國科學(xué)院聲學(xué)研究所、中國社會科學(xué)院語言研究所聯(lián)合建立的“漢語語音識別資料庫”,中國社會科學(xué)院語言研究所的“現(xiàn)代漢語自然口語語料庫”、“自然對話語料庫”、“現(xiàn)代漢語方言自然口語語料庫”,北京語言大學(xué)的“漢語中介語語音語料庫”,國家語委語言文字應(yīng)用研究所的“北方話語料庫”,復(fù)旦大學(xué)的“吳語聲調(diào)數(shù)據(jù)庫”,廣西大學(xué)的“壯語語料庫”,云南民族大學(xué)的“少數(shù)民族語音數(shù)據(jù)庫”等。
上述軟件系統(tǒng)可以在某些特定領(lǐng)域為使用者提供語言研究和初步語言技術(shù)分析所需要的一些實用功能,但在語言數(shù)據(jù)多樣性、采集便捷性、語料規(guī)范與標(biāo)準(zhǔn)、語音分析的實時性與動態(tài)性等方面,都沒有全方位地顧及。因而,上述軟件系統(tǒng)在語言研究的分布性、擴(kuò)展性、共享性,以及宏觀語言決策應(yīng)用和語言資源多途徑開發(fā)利用特性等方面,都存在不盡如人意的地方。
二 系統(tǒng)設(shè)計和功能實現(xiàn)
在GDFY-Grid設(shè)計中,考慮到方言采集的地域分布性和數(shù)據(jù)異構(gòu)性,我們采用語義網(wǎng)格技術(shù)構(gòu)建系統(tǒng)運(yùn)行框架。
GDFY-Grid實現(xiàn)利用本體進(jìn)行描述方言教學(xué)資源元數(shù)據(jù),建立有效的語言資源分類、采集、摘要、存儲、排重、聚類的標(biāo)準(zhǔn)與規(guī)范,通過中間件整合分布式異構(gòu)數(shù)據(jù)庫資源,按照服務(wù)的形式對現(xiàn)有的方言教學(xué)資源進(jìn)行封裝,對外提供統(tǒng)一的服務(wù)接口,屏蔽底層異構(gòu)數(shù)據(jù)信息,從而構(gòu)造基于Web的面向用戶的透明漢語教育服務(wù)環(huán)境,供各個方言采集節(jié)點(diǎn)實現(xiàn)方言資源收集,在不同地區(qū)的同一系統(tǒng)、系統(tǒng)與系統(tǒng)之間進(jìn)行數(shù)據(jù)集成與數(shù)據(jù)互訪,全面實現(xiàn)對廣東語言資源數(shù)據(jù)的采集、監(jiān)測和分析。
該系統(tǒng)采用開放網(wǎng)格服務(wù)結(jié)構(gòu)(Open Grid Service Architecture, OGSA)[1],基本結(jié)構(gòu)(見圖1)分為用戶服務(wù)門戶、語義網(wǎng)格服務(wù)層、通用網(wǎng)格服務(wù)層、基礎(chǔ)設(shè)施層:

1 基礎(chǔ)設(shè)施層
基礎(chǔ)設(shè)施層提供基本的網(wǎng)絡(luò)支撐環(huán)境以及各種需要被共享的邏輯資源和物理資源,包括承載方言資源的服務(wù)器和網(wǎng)絡(luò)設(shè)備,以文字、圖片、音頻和視頻為載體的各類方言資源等,這些資源在存在形式、管理方式、共享方式、使用途徑以及應(yīng)用方式等方面都體現(xiàn)出形態(tài)異構(gòu)性、資源自主性和地理分布性等特點(diǎn)。
2 通用網(wǎng)格服務(wù)層
通用網(wǎng)格服務(wù)層是整個網(wǎng)格運(yùn)行的基礎(chǔ)和關(guān)鍵部分,包括一組基于面向服務(wù)架構(gòu)(Service-oriented Architecture,SOA)的中間件[2],為共享與協(xié)作等網(wǎng)格特性提供支持。消息中間件、服務(wù)聚合、數(shù)據(jù)中介服務(wù)、網(wǎng)格信息服務(wù)和可靠數(shù)據(jù)傳輸?shù)仁荊DFY-Grid的核心中間件。
3 語義網(wǎng)格服務(wù)層
語義網(wǎng)格服務(wù)層主要提供網(wǎng)格環(huán)境下的協(xié)作支持服務(wù)和資源共享服務(wù)。語義網(wǎng)格服務(wù)層包括方言資源本體服務(wù)、元數(shù)據(jù)服務(wù)、語義查詢分解服務(wù)、網(wǎng)格虛擬數(shù)據(jù)庫服務(wù)、結(jié)果處理與傳輸服務(wù)。
4 用戶服務(wù)門戶
用戶服務(wù)門戶面向廣東方言教學(xué)應(yīng)用領(lǐng)域,主要提供與方言教學(xué)相關(guān)的服務(wù),這些服務(wù)分布在各個網(wǎng)格節(jié)點(diǎn),可以跨組織共享,從功能上可以分為以下幾種:
(1) 用戶管理
根據(jù)系統(tǒng)使用者目的不同,可分為系統(tǒng)管理員、方言發(fā)音人、資源采集人、語言研究者等角色。
(2) 自動生成語料調(diào)查表
針對特定的方言,依據(jù)方言發(fā)音人的語音特征和個人情況,系統(tǒng)動態(tài)生成合適的語料調(diào)查表,根據(jù)方言調(diào)查的特點(diǎn),包含字、詞、句、語篇四種類型。資源采集人也可以在系統(tǒng)表的基礎(chǔ)上制作所需的調(diào)查表。調(diào)查表的命名按照特定的規(guī)則自動關(guān)聯(lián)生成,這樣既保證了數(shù)據(jù)的規(guī)范性,也便于數(shù)據(jù)的集中管理。
(3) 語音和視頻錄制
采集有聲方言資源有兩種方式:一是基于文本提示的有聲語料采集;二是無文本的自由采集[3]。前者主要適用于字、詞、句的采集,后者適用于各種實際場景的即時話語采集,一般圍繞特定的話題進(jìn)行,語料本身構(gòu)成一個意義整體。系統(tǒng)采用即時錄音,數(shù)據(jù)庫中專門有字段指向到所對應(yīng)的聲音文件,解決了后期剪輯聲音文件的麻煩,也為數(shù)據(jù)庫檢索提供了方便。
(4) 數(shù)據(jù)處理和分析
語圖查看與分析功能對于有聲語料的質(zhì)量監(jiān)控有很大的幫助作用。在比較分析國外幾種語音分析軟件后,我們選擇流行較廣的Praat程序,該軟件可提取包括音系、音素、單字調(diào)、詞語調(diào)式和變調(diào)、語調(diào)、形態(tài)、句式等方面的統(tǒng)計,同時還考慮選擇恰當(dāng)?shù)臄?shù)學(xué)建模,提取語言系統(tǒng)的聲學(xué)特征和說話人聲特征,為方言數(shù)據(jù)的后期開發(fā)應(yīng)用提供原始數(shù)據(jù)。
(5) 語料標(biāo)注和資源入庫
在完成語音錄制和處理后,按照廣東方言教學(xué)資源元數(shù)據(jù)規(guī)范表,資源采集人對所采集的語料進(jìn)行各項屬性標(biāo)注并入庫到資源庫中。
以下為用戶服務(wù)門戶截圖:

三 關(guān)鍵技術(shù)的實現(xiàn)
在實際開發(fā)過程中,我們對幾個關(guān)鍵問題做了如下處理:
1 廣東方言教學(xué)資源網(wǎng)格平臺元數(shù)據(jù)規(guī)范的建立
目前,國際上有很多標(biāo)準(zhǔn)化組織致力于基于網(wǎng)絡(luò)的教育資源標(biāo)準(zhǔn)化的研究,并起草了一些相應(yīng)規(guī)范,我們參照開放語言檔案社群(Open Language Archives Community,以下簡稱OLAC),在《都柏林核心集》15個元數(shù)據(jù)的基礎(chǔ)上所制定的語言資源檔案元數(shù)據(jù)集(OLAC Metadata Set),在此基礎(chǔ)上建立廣東方言教學(xué)資源元數(shù)據(jù)規(guī)范表,以下為部分重要字段:

如圖3所示,用戶在用戶服務(wù)門戶提出需求,傳遞給語義網(wǎng)格服務(wù)層,該層根據(jù)查詢需求傳送給語義查詢分解服務(wù)[5]。在語義查詢分解服務(wù)中,利用方言教育服務(wù)本體庫找到能提供所需數(shù)據(jù)的數(shù)據(jù)庫資源,將利用本體描述的查詢需求按照URL分發(fā)給元數(shù)據(jù)服務(wù)。元數(shù)據(jù)服務(wù)接收查詢分解服務(wù)傳送來的以本體概念描述的查詢需求,利用局部存儲的數(shù)據(jù)庫映射表將其轉(zhuǎn)換為局部數(shù)據(jù)庫可以直接執(zhí)行的SQL語句,并且將結(jié)果返回給結(jié)果處理和傳輸服務(wù)。GDFY-Grid中的數(shù)據(jù)庫映射表保存在數(shù)據(jù)庫資源端,其中詳細(xì)記錄了本體中的各個節(jié)點(diǎn)在數(shù)據(jù)庫中是表名還是字段名以及在局部數(shù)據(jù)庫中采用的名稱,這樣,元數(shù)據(jù)服務(wù)就可以方便地進(jìn)行由本體概念到數(shù)據(jù)庫詞匯的轉(zhuǎn)換。結(jié)果處理和傳輸服務(wù)負(fù)責(zé)接收各個數(shù)據(jù)庫傳回的結(jié)果,并且將結(jié)果進(jìn)行整合,將整合后的結(jié)果傳回語義網(wǎng)格服務(wù),該層將處理好的資源進(jìn)行加工處理,以個性化內(nèi)容傳遞和呈現(xiàn)給用戶使用。

3 音標(biāo)符號的錄入和顯示
GDFY-Grid中需處理大量的音標(biāo)符號,對音標(biāo)的輸入和顯示采用兩種方法并用:一是推薦安裝基于UNICODE編碼的“國際音標(biāo)表”而設(shè)計的通用輸人法,二是從Window vista 和windows 7操作系統(tǒng)層面入手,調(diào)用API接口,通過系統(tǒng)的“字符映射表”補(bǔ)充國際音標(biāo)表中未列的符號,這樣做可以不依賴任何外帶宇庫,便于數(shù)據(jù)交換。
五 結(jié)語
本文從方言教學(xué)資源發(fā)展應(yīng)用的現(xiàn)狀出發(fā),指出現(xiàn)有方言軟件系統(tǒng)應(yīng)用中的不足之處并應(yīng)用語義網(wǎng)格技術(shù)架構(gòu)了新型的網(wǎng)絡(luò)資源平臺。希望我們提出的基于語義網(wǎng)格的廣東方言教學(xué)資源網(wǎng)格平臺能夠吸引越來越多的對外漢語教學(xué)資源入庫和學(xué)習(xí)者使用。
參考文獻(xiàn)
[1][2] 都志輝,網(wǎng)格計算——支持全球化資源共享與協(xié)作的關(guān)鍵技術(shù)[M].武漢:華中科技大學(xué)出版社,2005:180-183.
[3] 范俊軍,鄒志超,田野之聲有聲語料采集軟件的研制[A].南方語言學(xué)[C].廣州:暨南大學(xué)出版社,2009:154-155.
[4] 范俊軍,廣東少數(shù)民族瀕危語言有聲語檔建設(shè)初探[A].暨南大學(xué)方言漢語方言研究中心編.廣東漢語方言研究的理論與實踐回憶論文資料集[C].廣州,2010:24-25.
[5] 李慶忠,王棟,關(guān)于語義網(wǎng)格環(huán)境中異構(gòu)數(shù)據(jù)資源整合的研究[J].南京大學(xué)學(xué)報,2006,2.