999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于格局理論的多模態語言檔案數據庫建設研究

2017-04-21 17:38:05彭飛
北京檔案 2017年3期
關鍵詞:模態數據庫文本

彭飛

摘要:本文對現有語言檔案數據庫進行調查,就其存在的缺少原始語音信息、系統搜索功能單一、資源非共享、音質保真度低等問題,提出如何構建格局理論的多模態語言檔案數據庫建設,并對該數據庫中的語音子數據庫、圖像視頻子數據庫和文本子數據庫的基本結構和主要功能進行詳細分析。

關鍵詞:格局理論多模態檔案數據庫

自20世紀90年代以來,蒙古語、哈薩克語、維吾爾語等多種少數民族語言檔案數據庫陸續建設成功。20世紀初,安多藏語、云南各少數民族語言運用新技術,擁有了自己的有聲語言數據庫。2011年,“浙江方言語音檔案建設工程”開始建設,包含了68個方言點,涉及語音、詞匯、語法及說唱、歌謠、戲曲等內容,同時還錄制了部分音視頻材料。通過這種方式,一定程度上改變了口口相傳或文字記載等保留方言的傳統形式,對保存和搶救民族語言資源具有重要意義。從整體上看,目前我國語言檔案數據庫建設尚處于探索階段,面對大數據以及“互聯網+”的挑戰,如何實現對語言檔案的有效管理將成為檔案學研究的熱點。其中,本文所涉語言檔案數據庫指的是以錄音、錄像等多種電子媒體錄制民族語言資源有聲語料,以高保真的質量為目的,收集研究樣本而建立的數據庫,它可以原生態地保留現階段有關語言的語音、詞匯、語法及篇章等面貌。

一、基于格局理論的多模態語言檔案數據庫的提出

以往的語言檔案和數據庫研究,通常都是從詞匯、語音或者語法的某個方面入手,缺少相互之間的聯系,導致材料缺乏整體性和相關性。另外,在研究范式上,大多數語言檔案數據庫僅依靠文字、錄音等,各種信息之間的匹配度和精準度一直受到質疑。具體而言,現有的各種語言檔案庫,如丁邦新等開發的“漢藏同源詞研究系統”,收錄了漢藏語系122種語言和12種漢語方言的1500余條詞匯;中國科學院多民族語言資源數據庫,建立了漢語、藏語、蒙語和維語的平行語料庫和形態庫,目前收錄了781篇文章的文本信息;上海語言資源有聲數據庫僅列舉了上海不同區域的幾十個單音字。這些語言檔案庫均在不同程度上存在缺少語音原始情景信息(如無法直觀用圖像展示兩個音的差異)、系統搜索功能單一(大多僅用于搜索漢語普通話對應的方言詞或民族詞)、資源非共享等缺陷。在技術層面上,檔案聲音的音質也不夠理想,錄像不夠清晰,數據清晰度和保真度較低。

針對上述問題,筆者提出從格局理論的角度出發,建立多模態語言檔案數據庫。其中,格局理論提倡用科學實驗的方法對語言進行研究,用計算機軟件將原本口口相傳的內容轉變成可視圖像,構建出一種語言或方言的格局。即把語音學和音系學聯系在一起,用于聲調、元音、輔音、語調、韻律、聽感等多個方面的研究,能夠從這些維度全方位地保存語音的原始情景信息,提升數據的完整性。多模態研究則是通過多種技術手段采集人們使用語言過程中所呈現的各種類型的多模態數據,發掘蘊含在音頻、視頻、圖像等各種媒介中的各種信號、數據,從而多維度地解讀人們言語交際的意義及其產生機制,有效進行語言檔案的采集和保護。在此基礎上的格局理論下的多模態語言是一種融合了多種符號模態進行交際的話語,除了傳統的文本之外,它還包括口頭語言、圖像、體態語、音調、音樂等形式,具有復合性和動態性的特點,能夠全方位地展現語音的特點。與常見的詞匯、語法等傳統文本語料庫相比,多模態語言檔案數據庫的語料采集、轉寫、切分、標注以及建庫均不相同。它采集的所有語料必須是高保真、非壓縮的語音信號,這樣才能完成后期語音實驗,數據的準確性可以得到保證。也可以采用高速攝像頭、呼吸帶等最新研究儀器,進行跨學科研究,關注發聲態、韻律等特征。最近也有專家嘗試用Terason超聲儀、電磁發音記錄儀(EMA)等采集更多復合信息。綜上,本研究以格局理論為指導,參照國際語言檔案數據庫的標準,采用新型的生理及聲學觀測方法,收集多模態的語言數據,采用最新搜索技術(包含文本和聲音搜索,還有二三次搜索),從而建設了一個動態的、數字信息化的語言檔案數據庫。目標是將數據中包含的性別、年齡、表情等信息綜合處理,提高信息處理的速度和準確度,為信息資源建設服務,實現資源共享。

二、基于格局理論的多模態語言檔案數據庫的構建

多模態語言檔案數據庫的建設并不是簡單地錄音、攝像保存,而是一個系統的、多維度的立體建設過程,從最開始的確定調查材料,經過數據采集、分析,到最后的建成使用,中間有多個過程。如圖1所示。在構建多模態語言檔案數據庫的過程中,本文針對現有語言檔案資源庫存在的系統搜索功能單一、資源非共享等問題,特別強調各個系統及子系統檔案數據庫之間的交互性。這里,筆者主要以畬話為例進行闡述。畬話是浙江畬族群眾普遍使用的一種語言,他們主要分布在麗水、溫州等地。其中,景寧是我國唯一的畬族自治縣,現有畬族人口約1.45萬人。在前期田野調查時我們發現,越來越多的畬族年輕人已經不會說畬話了,可見建立畬話語言檔案數據庫迫在眉睫。

(一)調查材料設計

這是建設語言檔案數據庫的第一步。在這個過程中,需要注意的是語言檔案數據庫是否具有代表性,其體現在分析得出的結果能否概括這種語言的整體或指定部分的特征,進而歸納出語音格局。在參考其他學者音系研究的基礎上,筆者所在課題組制定了錄音的字表、詞表、句表和語篇。原則是盡量選取畬話中使用的自然語言作為調查材料,主要包含使用頻率較高的常用字詞、具有畬話特征的字詞、具有代表性的語音結構的字詞,每一部分都要經過精心設計。最終的語料文本由以下部分構成:9個單元音、20個輔音、6個聲調。

1.在設計字表的時候,分為元音、輔音、聲調三個部分,根據錄音要求分別制定。如針對每個聲調,所用發音字表設計了包括六個聲調在內的單音字6組,其中每組包含同一聲調的單音例字10個。這樣能夠保證用盡量少的語料覆蓋全部的聲調和語音,進而使數據庫的冗余度較小。相較而言,詞表的設計相對復雜,我們主要設計了雙音節詞,研究畬話中的連讀變調現象。6個聲調,構成了36種組合方式,每種組合方式有6個詞語,共得到196個語料。

2.句子和語篇設計包括朗讀部分和表達部分。朗讀部分主要包含經過處理的畬族民間故事、詩歌等。語篇設計盡量做到聲、韻、調搭配的全面性,同時考慮不同的語調、韻律、音段等。為了使語料包括不同的韻律結構單位,設計的句子包括畬話的多種句類、句型、句式。表達部分確定了一些常見話題,主要有個人經歷、家庭情況、情景描述等,構成了鮮活的“口述檔案”。這一部分不指定文本,記錄發音人獨自表達或與他人交談時的數據,因此自然度較高,收集到了一些特殊的語音現象,如情緒、心理變化對語調的影響、口語化的停頓與呼吸模式等。

(二)建立發音人的信息檔案庫

為了保證研究結果的科學性,我們在選擇發音人前,確定了相關標準:一是世代生活在景寧當地的畬族群眾,母語為畬話,沒有長時間外出經歷,家庭成員均為畬族。二是均為右利手,聽力和發音器官均正常。三是發音當日身體健康,無影響錄音和錄像質量的疾病。四是認識語料中的漢字,但無語言學背景知識。經過篩選,筆者所在課題組選取了不同年齡段(20-60歲)的5名男性和5名女性,作為儲備發音人。

(三)語言檔案采集

語料采集是語言檔案庫建設的關鍵。其采集過程包括實驗系統的配置、實驗地點的選取、預實驗的實施及問題處理、實驗后期數據鑒別等。傳統的田野調查多選取在安靜的普通房間內,用錄音筆等方式錄音,對錄音質量的控制并不嚴格,效果也差強人意。為此,為了保證語音樣本的準確性,解決數據失真的問題,筆者所在課題組通過與景寧電視臺合作,使用技術最新的錄音棚進行錄音,聲卡采用Sound device USBPre2,話筒采用頭戴式指向性話筒AKG C520,極大地控制了噪音。此外,我們還采用了高速攝像頭、呼吸帶等作為采集系統,采集發音時面部嘴唇和表情、呼吸韻律節奏等信息。這樣,便于語言檔案的采集、管理和開發,能夠使數據達到高保真、高清晰的多模態效果。

(四)語言檔案管理

為了能夠集成化管理語料,我們設計了一系列的語音文件命名規則。每個文件的名稱由性別(男M、女F)、年齡(老年E、中年M、青年Y)、錄音時間(年、月、日)、類型(字A、詞B、句C、段落D)、發音人編號(001、002……)等組成,如編號“MY20150123A”的文件,想要表達的是發音人是一位男性,青年人年齡段,錄音時間是2015年1月23日,單字音,編號是002。這樣,錄制的每一個文件都有自己的名稱,調取和保存較為方便,有利于信息處理。

(五)語言檔案分析

大規模的錄音采樣完成后,需要對數據進行處理,以提高數據庫質量。每次錄音完畢后,都由畬話母語者檢驗錄音文件是否正確,進行檢查和補錄。在技術上,需要處理噪聲,如過長的靜音段、咳嗽聲等。之后將錄音導入到南開大學研發的電腦語音分析系統“桌上語音工作室”的軟件中,進行測算和統計作圖。以聲調為例,需要得出發音字的基頻圖,調整曲線然后進行統計,將數據加入聲調格局,最后用語音分析軟件畫出聲調格局圖,如圖2所示。其結果主要用于語音識別、語音合成等。

三、多模態語言檔案數據庫的基本結構及主要功能

多模態語言檔案數據庫主要由三個子數據庫組成,即語音子數據庫,圖像、視頻子數據庫以及文本子數據庫。

1.語音子檔案庫用于存放畬話的語音信息及其屬性、鏈接等。語音信息主要指字、詞、句、段落的發音,也包括連讀變調以后的發音。語音特征信息包含了音系特征、字音特征和語調特征等。通過比較,可以較好地看到畬話與其他語言或方言之間的聯系與區別。語音數據庫主要包括字音庫、詞音庫、句音庫和語篇音庫等。

語音子檔案庫主要用來檢索,目前可以提供文本(包括漢字、國際音標、漢語拼音等)的檢索方式。同時,以畬話的語音為檢索條件,可以迅速找出調類、調型、變調、韻律等語音特征,有效實現普通話與畬話之間的雙向匹配。通過控制搜索條件,點擊語音庫里的字、詞、句、段落,便可以聽到不同發音人的原生態發音信息。逐步采用智能化檢索功能,與用戶進行交互。檢索結果可以進行二、三次檢索。

2.圖像、視頻子檔案庫用于存放與語音信息相匹配的圖像、視頻信息。它是一個集成化的系統,用戶點擊語音信息時,旁邊就會出現發音人發音時的臉部、體態圖像與視頻等。而這些基于現代信息技術對方言的原始記錄語言檔案,能夠原汁原味地呈現方言的語言內涵,避免在保存過程中出現失真的情況,最大限度地實現對語言檔案的整理、開發、利用和保護。

3.文本子檔案庫主要用于存放畬話的字、詞、句、段落等文本信息及其屬性、鏈接等。具體包括字庫、詞匯庫、句庫、段落庫等。對各部分的語音材料進行文本轉寫,與語音數據庫同步呈現在屏幕上,實現三個子數據庫數據的平行呈現。

以上三個語言子檔案庫是一個集成化的系統,在各自獨立的基礎上又存在密切聯系,構成新的語言檔案庫格局。除了在線學習以外,三個語言子檔案數據庫也提供下載服務。用戶可以將檢索的結果下載,輸出語言數據的統計結果,也可以下載語音文件等。

*本文為教育部人文社會科學研究青年基金項目“景寧畬話的語音格局研究”(項目編號:14YJC740071)和浙江省社科聯研究課題“景寧畬話的聲調格局研究”(項目編號:2014B154)的階段性成果之一。

參考文獻:

[1]徐越.“浙江方言音檔”的構建及預期價值[J].浙江檔案,2012(1):39-42.

[2]洪拓夷.漢語方言語音數據庫建設構想[J].圖書情報工作,2009,53(5):83-86.

[3]石鋒,冉啟斌,王萍.論語音格局[J].南開語言學刊,2010(1):1-14.

[4]高原,顧明亮等.多用途漢語方言語音數據庫的設計[J].計算機工程與應用,2012,48(5):118-120.

[5]陳子丹,鄭宇,武澤淼.我國少數民族瀕危語言建檔的幾點思考[J].檔案學通訊,2016(4):92-96.

[6]張芳霖,湯曉良,謝雨菲.我國方言檔案式保護的SWOT分析[J].北京檔案,2016(2):27-28.

作者單位:中國計量大學

猜你喜歡
模態數據庫文本
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 久久毛片网| 亚洲日韩精品无码专区| 欧美视频在线播放观看免费福利资源| 无码粉嫩虎白一线天在线观看| 久久精品欧美一区二区| 91精品综合| yy6080理论大片一级久久| 精品久久久久久成人AV| 国产丝袜一区二区三区视频免下载| 专干老肥熟女视频网站| 久久国产精品麻豆系列| 在线观看精品国产入口| 亚洲AV无码久久天堂| 99re这里只有国产中文精品国产精品 | 2020国产精品视频| 一级毛片在线播放| 免费看美女毛片| 一级毛片在线播放| 中国国产一级毛片| 97在线免费| 在线看片免费人成视久网下载| 一级爱做片免费观看久久 | 亚洲一区国色天香| 精品久久国产综合精麻豆 | 亚洲欧洲免费视频| 久久99精品国产麻豆宅宅| 成人在线天堂| 日韩国产一区二区三区无码| 亚洲人成成无码网WWW| 欧美成人a∨视频免费观看| 国产精品播放| 国产丝袜啪啪| 久久黄色小视频| 久久九九热视频| 免费观看三级毛片| 亚洲不卡网| 欧美69视频在线| 午夜少妇精品视频小电影| 欧美综合在线观看| 日韩不卡高清视频| 99久久精品免费看国产电影| 天堂成人av| 亚洲综合激情另类专区| 色噜噜狠狠狠综合曰曰曰| 亚洲女同一区二区| 国产一级精品毛片基地| 青青草国产在线视频| 中国精品久久| 在线国产你懂的| 国产精品3p视频| 九九九国产| 日韩国产另类| 国产精品私拍99pans大尺度| 色综合网址| 精品亚洲麻豆1区2区3区| 亚洲男人的天堂在线| 女人爽到高潮免费视频大全| 亚洲男人天堂久久| 国产拍在线| 久久美女精品| 尤物午夜福利视频| 又黄又爽视频好爽视频| 国产a在视频线精品视频下载| 亚洲系列无码专区偷窥无码| 国产一区二区网站| 操国产美女| 亚洲精品亚洲人成在线| 精品视频91| 久久综合九色综合97网| 久精品色妇丰满人妻| 狠狠色成人综合首页| 呦视频在线一区二区三区| 免费国产不卡午夜福在线观看| 中文天堂在线视频| 国产精品吹潮在线观看中文| 毛片基地视频| 台湾AV国片精品女同性| 2021国产在线视频| 爱做久久久久久| 国产对白刺激真实精品91| 色一情一乱一伦一区二区三区小说| 久久人搡人人玩人妻精品|