999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢語史研究中的數字化研究手段簡介

2007-01-01 00:00:00
現代語文 2007年2期

一、最初的方法

漢語史研究中的數字化研究手段是語言學的計算機輔助研究,即CAR(Compute-Assisted Research)的一部分。①(P56)最初語言學引入的數字化手段集中在語料庫,特別是現代語言語料庫的建設方面,即將以往由紙制材料存儲的語料改為由計算機存儲,從而實現了由自然人的閱讀向機器閱讀的轉變。機器閱讀以其速度、精確度方面的優(yōu)勢為語言研究中的統計、采樣、辭書編纂等提供了方便。數字化最先在漢語史研究中的應用也是從古籍語料庫的建設和利用開始的,其后又引入了關系數據庫等手段,為文獻語料精細分析加工提供了可能。

我們認為,迄今漢語史研究的數字化主要包括語料的數字化(古籍電子語料庫建設)、原有語言知識的數字化(漢語史專家知識庫建設)和新語言知識生成的數字化三個層次。語料的數字化多借助于古籍文獻語料全文檢索系統而實現,原有語言知識的數字化和新語言知識生成的數字化則既借助全文檢索系統,又借助關系數據庫及其編程技術而實現。

(一)古籍文獻語料全文檢索系統

古籍文獻語料全文檢索系統,亦被稱作古籍電子化,是指“利用現代計算機技術,對古籍文獻進行科學系統的整理,主要應解決存儲與檢索問題”,它服務于相關人文社會科學的各個部門。據《國學寶典》的設計制作者尹小林先生的觀點②,古籍全文檢索系統的主要制作程序包括以下十個方面:1.選書;2.數據規(guī)劃;3.錄入;4.補字;5.審校;6.標引;7.軟件編寫;8.數據聯調;9.軟件測試;10.界面設計。

漢語史因其主要的工作就是從古代文獻語料中發(fā)現語言規(guī)律,故而成為古籍文獻語料全文檢索系統的最為主要的用戶之一。古籍文獻語料全文檢索系統的主要優(yōu)點是“長于檢索,能從各種格式、超大容量的文件中迅速、徹底地搜索目標字串,顯示包含目標字串的句子,并能返回全文檢閱原文,也可以馬上輸出,進行編輯”。③ (P61)如考察某詞的發(fā)展,可利用臺灣中央研究院研制的“漢籍全文檢索系統”,輸入一詞,查遍全部《二十五史》四千余萬字,只需一、二秒,并將檢索結果依序窮盡排出,供瀏覽或打印。如將此項工作交由一個學者,只怕皓首窮經,也未必能保證精確不漏。④(P69)一般的古籍數字化工作面向的用戶較為寬泛,對于特定用戶所需要的特殊文獻未必都能照顧到。從事漢語史研究工作的學者需要特定的語料和文獻,這些古代文獻包含大量異體字、古今字、通假字、冷僻字、訛俗字,在制作和顯示方面有著特殊困難,故而其生產缺乏社會認同度,只能由從事語言研究的學者和單位自己承擔。近年來,不少的單位和專家都意識到漢語言文字典籍數據數字化工作的重要,也有了一些初步的成果。

(二)關系數據庫系統

全文檢索系統只是利用數字化資料的最為基礎的應用,它以字符串作為數據,采用的是非組織化的整體存儲方式,數據之間的關系被人為隔開,該方式決定我們只能通過它進行直接的、窮盡性的字符串檢索。然而語言研究中的要求是多種多樣的,絕不滿足于全文檢索系統的檢索字、詞、句。

關系數據庫技術是在全文檢索技術之后又一個深受語言研究者青睞的技術手段,兩者各有所長,互相補充。全文檢索系統主要存儲非線性的、非結構化的數據信息,數據庫系統則主要存儲、管理有組織的、結構化的數據信息,通俗地講,就是類似于表格的數據信息。所謂關系數據庫是指能處理二維表格,能夠進行投影、連接和選擇等關系操作的數據庫。該數據庫既便于人們觀察數據的關系,又具備強大的系統管理功能,能開展一些全文檢索系統不能勝任的工作。

數據庫技術運用于漢語史研究是從漢語史專家知識庫的建設開始的。從事漢語史研究的學者發(fā)現大量的語言學典籍,其文獻結構本身就是結構化的。如《廣韻》《集韻》等韻書,文獻本身即構成語言知識,它們是古代語言學家語言研究成果的一個固化。1986年華中工學院陳漢清、鄧希敏完成的《古今字音對照手冊》計算機處理系統通過了技術鑒定。該系統將《古今字音對照手冊》作為信息源全部存入計算機,建立了古今字音對照的原始資料庫、數據資料庫以及面向專家分析、研究、檢索、驗證系統,大大方便了音韻學研究。⑤[P89-91]此外,關系數據庫技術還可應用于漢語史專書詞匯、方言、以及詩文韻部的整理等研究中。這些技術的運用大都必須與數據庫編程語言或其他編程語言結合起來,通過對數字化語料和原有語言知識進行排比、對照、分析來生成新的語言知識。

二、新的方法——XML標注語言

(一)語言研究需要標注技術

“計算機原本是數值計算的工具,后來雖然也可以處理文檔,但這種處理仍然是二進制數值的計算。現在學者最常用的計算機功能就是全文檢索,檢索結果顯示的是字、詞、句子,但計算機不過是在對字符的編碼進行匹配,對記錄字符串的數值進行運算。計算機并不能懂得文檔的內容——知識。不能處理知識,計算機就不能用來進行學術研究。要使計算機‘理解’文檔內容,可以采用標記(Tag)對文檔內容進行標識?!雹蓿≒9)這種標識應該是能夠由語言研究者自主定義的,可根據需要隨時擴充其標記。雖然關系數據庫技術出現后,可以將文檔的內容分析為字段和記錄的形式加以存儲,也在某種程度上實現了內容的可理解。但是數據庫一方面依賴于特定的軟件管理系統,另一方面它又肢解了原文檔內容的整體性,降低了語言學典籍的可讀性。特別是大量的漢語史文獻,其文檔結構為立體型,如用關系數據庫存儲,將不得不建立多個數據庫表進行關聯,如此程序的編寫和語言知識的提取分析都將不勝其煩。所以漢語史研究引入一種自定義的、面向純文本的、能存儲結構化數據的標注技術就顯得非常重要了。

(二)XML標注語言簡介

XML(Extensible Markup language,可擴展標記語言)正是符合我們要求的一門創(chuàng)建結構化數據的技術。它實際上是一種元語言,即一種使用標簽存儲結構化數據的規(guī)范,該規(guī)范由W3C組織建議使用。XML將加了標簽的數據保存在標準的文本文件中,可以使用任何的文本編輯器,比如Windows操作系統自帶的記事本應用程序,來讀取和編輯XML文件。XML是可擴展的,這意味著在創(chuàng)建XML文檔時,不會局限于一套預先定義的標簽,而可以根據你自己的需要創(chuàng)建所需要的任何標簽,如我們漢語史研究獨有的會意、轉注、初文、或體、亦聲、省聲等均可自行定義。⑥(P9)XML標準還提供了一套與這些細節(jié)相關的規(guī)則,比如如何創(chuàng)建標簽、XML文檔如何結構化。XML文檔存儲的數據雖被加上了標示語義的標簽,但由于XML保持數據存儲與數據顯示相分離的原則,我們借助標簽提取的數據在顯示上將相對獨立。

(三)XML技術在漢語史研究中應用

在漢語史研究中,我們應用XML技術包括了文本生產、數據建模、文本標注、屬性提取、文本轉換以及應用程序接口的編寫等工作。

漢語史的研究材料首先是古代文獻,目前大量的古代文獻已經被錄入電腦,成為可資利用的電子文檔。適于漢語史研究需要的古籍電子文本,至少滿足以下幾個要求:一、純文本格式;二、繁體文本;三、學術質量高。⑥(P9)就目前情況來看,很多的面向漢語史研究的古籍電子文本還只能由從事語言研究的工作者自己來制作。

有了數字化的電子語料,下面就要對語料文本的自身結構展開分析,為預計生成的XML文檔建立數據模型。數據模型提供了XML文檔的邏輯結構的一種表示。它指定文檔可以包含的元素以及這些元素之間的關系,這種關系往往是一種立體的成樹型的結構。DTD(Document Type Definition)和XML Schema是用于指定數據模型的兩種可用技術。比較而言,Schema是一個更強大和靈活的數據建模工具。XML Schema的W3C的推薦標準叫做XSD,它可以更加準確地描述文檔結構。

建立數據模型后我們就可以根據模型對我們的數據進行標注了,標注并加以聲明的文本就是我們需要的XML文檔。大部分情況下,XML都是通過程序來創(chuàng)建的,而Microsoft Word 2003目前也可以創(chuàng)建XML文檔。

創(chuàng)建的漢語史XML文檔,由于各個元素都被加上了相應的標簽,我們就可以按圖索驥,從中提取我們需要的元素和知識。要從原有XML文檔中提取、轉換并顯示出我們需要的元素和信息,我們可以利用XML的樣式表技術。樣式表有兩種:即層疊樣式表(CSS)和可擴展樣式表(XSL)。目前兩種技術可結合使用,即用CSS控制結果在瀏覽器中的顯示,用XSL轉換XML文檔以生成另一結構的XML文檔。⑦

注釋:

①尉遲治平.計算機技術和漢語史研究[J].古漢語研究,2000,(3).

②尹小林.關于《古籍數字化彩聲不斷完善缺錢》的補充說明.國學網.2002-02-26.

③陳海波.關于數據庫在古漢語研究中的應用[J].古漢語研究,2000,(3).

④于亭.計算機與古籍整理研究手段現代化[J].古漢語研究,2000,(3).

⑤張普.漢語信息處理研究[M].第1版.北京:北京語言學院出版社,1992.

⑥尉遲治平.漢語信息處理與計算機輔助漢語史研究[J].語言研究,2004,(3).

⑦Peter G.Aitken.微軟XML技術指南[M].謝君英譯.北京:中國電力出版社,2003.

(甘勇,華中科技大學中文系)

主站蜘蛛池模板: 国产精品黄色片| 永久免费AⅤ无码网站在线观看| 亚洲国产精品无码AV| 亚洲自拍另类| 国产熟睡乱子伦视频网站| 亚洲欧洲天堂色AV| 白浆视频在线观看| AV不卡国产在线观看| 国产日韩精品一区在线不卡| 亚洲男人的天堂在线观看| 99国产在线视频| 91成人在线观看| 亚洲妓女综合网995久久 | 亚洲中文字幕在线观看| 久热精品免费| 免费a级毛片视频| 中文字幕2区| 婷婷丁香色| 日本人真淫视频一区二区三区| 四虎影视国产精品| 中文字幕调教一区二区视频| 中文字幕免费在线视频| 无码日韩人妻精品久久蜜桃| 日本a∨在线观看| 国产黑人在线| 欧洲精品视频在线观看| 欧洲日本亚洲中文字幕| 亚洲第一视频网| 在线播放国产一区| 国产va视频| 久久性妇女精品免费| 久久久久人妻一区精品色奶水 | 欧美不卡视频在线| 激情无码字幕综合| 欧美精品成人一区二区在线观看| 日本久久网站| 福利一区在线| 国产精品亚洲一区二区三区在线观看| 2022精品国偷自产免费观看| 国产波多野结衣中文在线播放| 成人无码一区二区三区视频在线观看| 色老二精品视频在线观看| 激情综合网激情综合| 亚洲综合狠狠| 日韩国产亚洲一区二区在线观看| 久久久久亚洲Av片无码观看| 深夜福利视频一区二区| 午夜丁香婷婷| 精品久久久久久中文字幕女| 精品综合久久久久久97超人| 在线人成精品免费视频| 欧美A级V片在线观看| 啪啪啪亚洲无码| 亚洲免费三区| 四虎国产精品永久一区| 无码一区18禁| 看你懂的巨臀中文字幕一区二区| 亚洲女人在线| 另类欧美日韩| 欧美精品亚洲精品日韩专区| 精品伊人久久久久7777人| 国产丝袜啪啪| 性欧美久久| 国产精品自在在线午夜| 久久人与动人物A级毛片| 久久精品人人做人人爽电影蜜月| 在线观看91精品国产剧情免费| 免费看av在线网站网址| 亚洲日韩Av中文字幕无码| 毛片在线播放网址| 日韩精品专区免费无码aⅴ| 亚洲大尺度在线| 成人欧美在线观看| 成人亚洲天堂| 人妻一区二区三区无码精品一区| 国产主播喷水| 伊人天堂网| 97在线视频免费观看| 久久婷婷国产综合尤物精品| 久久久久国产精品免费免费不卡| 在线免费观看AV| 亚洲香蕉在线|