999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

XML在語料庫建設(shè)中的應(yīng)用:以UAM Corpus Tool為例

2013-11-15 02:39:30王大鵬
電子測試 2013年16期
關(guān)鍵詞:多維度文本功能

王大鵬

(渤海大學(xué)大學(xué)外語教研部,遼寧錦州,121013)

0 引言

語料庫是為一個(gè)或多個(gè)應(yīng)用目標(biāo)而專門收集,有一定結(jié)構(gòu)、代表性、可被計(jì)算機(jī)程序檢索、具有一定規(guī)模的語料的集合。現(xiàn)代語料庫語言學(xué)基于計(jì)算機(jī)平臺,并隨計(jì)算機(jī)技術(shù)的發(fā)展而逐步走向成熟。目前,國內(nèi)絕大多數(shù)語料庫仍然采用TXT存儲,但在其中融入了TEI 文本編碼及CES標(biāo)準(zhǔn)——兩者均基于SGML或XML標(biāo)記語言。采用此標(biāo)注方式的語料庫有:JDEST,CLEC,SWECCL,COLSEC,PACCEL等。但國外權(quán)威的語料庫如BNC第二版是完整意義上的SGML,第三版更新為XML,已不再采用TXT模式存儲。

1 基于TXT的語料庫標(biāo)注體系

TXT存儲模式的優(yōu)勢在于文本占用空間小,檢索速度快;常用于檢索TXT文本的檢索器有WordSmith, Antconc等。基于TXT并融入XML的標(biāo)記模式可以滿足簡單的研究需求,但缺點(diǎn)在于此模式并非完整意義上的XML文檔,不適合復(fù)雜的多層及和多維度標(biāo)注。如:對一個(gè)語料庫同時(shí)進(jìn)行詞性標(biāo)注、語義標(biāo)注和語篇信息標(biāo)注時(shí),TXT存儲模式的語料庫必須建立相應(yīng)的新庫以滿足需求,檢索也必須分別、獨(dú)立進(jìn)行,耗時(shí)耗力。 簡言之,TXT模式的語料庫已不適用于復(fù)雜的語言研究需求,取而代之的是真正意義的XML語料庫。

2 基于XML的多層及標(biāo)注體系

XML(Extensible Markup Language)可擴(kuò)展性標(biāo)記語言繼承了SGML(Standard Generalized Markup Language)的優(yōu)勢并由其簡化而來,由于其描述性強(qiáng),易讀性好,可跨平臺和系統(tǒng)使用等特性,已成為一種通用的數(shù)據(jù)交換格式。XML Schema的優(yōu)勢在于:一、可定義文檔結(jié)構(gòu)和語法標(biāo)準(zhǔn);二、支持更多的數(shù)據(jù)類型定義,允許用戶自定義,具有更好的擴(kuò)展性;三、提供了一套更為完整而易用的機(jī)制去規(guī)范XML文檔中的標(biāo)記使用。文檔樹的應(yīng)用使復(fù)雜的信息標(biāo)記和數(shù)據(jù)索引更為簡化。以上優(yōu)勢適用于復(fù)雜的多層級和多維度語言研究。目前較為流行的基于XML語料庫建庫和檢索的工具有MMAX和UAM Corpus Tool,本文以UAM Corpus Tool為例介紹XML在語料庫建設(shè)及后期檢索、開發(fā)中的應(yīng)用。UAM Corpus Tool的軟件特色是:一、采用Stand-off XML 標(biāo)注模式,標(biāo)注文件和生語料庫分離式存儲,便于多維度、多層及分析同一語料庫;二、多個(gè)文本或多套語料庫可使用同一標(biāo)注體系進(jìn)行標(biāo)注,由于標(biāo)注方案獨(dú)立存儲在XML文件中,便于跨程序共享。 三、提供多層級標(biāo)注、跨層級檢索和跨標(biāo)注子集數(shù)據(jù)對比等功能。

2.1 UAM多層及標(biāo)注體系的制定

實(shí)驗(yàn)語料選自BNC(第三版)中的書面語部分,隨機(jī)抽取其中100篇文章并去除原始標(biāo)注和標(biāo)記,分析這些篇章的語法特征、語域分布和語篇銜接特點(diǎn)。語法特征分析即對實(shí)驗(yàn)語料進(jìn)行句法標(biāo)注,程序自動調(diào)用Stanford Parser對文本進(jìn)行標(biāo)注。語域分布研究語篇的分布類型,如:新聞、小說、學(xué)術(shù)英語和雜志等。語篇分析部分,著重分析語篇的銜接,銜接是語篇特征的重要內(nèi)容,它體現(xiàn)在語篇的表層結(jié)構(gòu),可分為語法銜接和詞匯銜接,語法手段又可分為照應(yīng)、替代和省略和連接;詞匯手段可分為復(fù)現(xiàn)關(guān)系和同現(xiàn)關(guān)系。此標(biāo)注體系包含了三大維度及其下多個(gè)層級的樹狀關(guān)系,基于XML的UAM Corpus Tool尤其適用這種復(fù)合式標(biāo)注。點(diǎn)擊Add Layer添加標(biāo)注維度,點(diǎn)擊Edit詳細(xì)制定標(biāo)注層級(圖1)。在編輯具體的標(biāo)注層級時(shí)候需注意,大括號和方括號表示不同的含義,這與系統(tǒng)功能語言學(xué)定義兩種不同括號的功能有關(guān):大括號為包容關(guān)系,方括號為互斥關(guān)系。多維度、多層及的標(biāo)注體系制定完成后,便可用其標(biāo)注語料庫了。

2.2 UAM語料庫的檢索、統(tǒng)計(jì)和拓展功能

UAM Corpus Tool是一款多功能的語料庫工具,集建庫、檢索和統(tǒng)計(jì)等功能于一身。 本程序支持跨標(biāo)注層級的復(fù)合式檢索,如查詢復(fù)合句中包含was的從句,通過clause + containing immediately “was”的表達(dá)式,可檢索到 They left because[she was tired]之類的句子;檢索使用過去完成時(shí)的從句,可編寫表達(dá)式:past-perfect + anywhere in clause。檢索語篇銜接中的前指照應(yīng)可編寫表達(dá)式:cohesion + containing anywhere anaphoric-reference。數(shù)據(jù)統(tǒng)計(jì)方面,提供語料庫的文本復(fù)合度、詞匯密度、主觀性分析和指稱密度等基本統(tǒng)計(jì)。 提供兩個(gè)標(biāo)注集的對比功能,即兩個(gè)集合在指定層級上所標(biāo)注特征的數(shù)據(jù)對比;差異顯著性可通過T檢驗(yàn)和方差來量化統(tǒng)計(jì),提供多文本數(shù)據(jù)對比功能。 拓展功能方面,提供詞的云圖(word cloud)和詞圖(word plot)功能,使語料庫高頻詞顯示更為直觀化。 自動標(biāo)注部分(Autocode)可根據(jù)特征自動的批量標(biāo)注文本,表達(dá)式Select passive if contains 'be% @participle表示:如果句中包含有be動詞及動詞的過去分詞形式,此句會被標(biāo)注為被動句;Select active if clauses and not passive則將其它的非被動句標(biāo)注為主動句。

2.3 基于XML的在線語料庫構(gòu)建

當(dāng)今語料庫領(lǐng)域,集標(biāo)注、檢索、統(tǒng)計(jì)和兼顧后期在線檢索功能的軟件只有MMAX和UAM,以上兩款程序均基于完整意義上的XML建設(shè)語料庫。采用Stand-off XML建設(shè)的語料庫,其標(biāo)注方案獨(dú)立存貯,可跨程序應(yīng)用于其它系統(tǒng)平臺。因此,基于以上兩款程序建設(shè)的語料庫便于在線檢索的后期開發(fā)。在互聯(lián)網(wǎng)迅猛發(fā)展的今天,語料庫發(fā)展有在線化的趨勢,在線語料庫可以打破時(shí)空和版權(quán)限制供更多人使用,優(yōu)勢不言而喻。 在線語料庫的建設(shè)需要應(yīng)用SQL數(shù)據(jù)庫系統(tǒng),XML可完美應(yīng)用于此平臺。MMAX和UAM CORPUS TOOL從研究特征的選擇、語料的準(zhǔn)備、標(biāo)注的進(jìn)行到后期的數(shù)據(jù)庫索引、在線檢索統(tǒng)計(jì)等都要一體設(shè)計(jì)。世界上較成功的實(shí)例是MARK DAVIES設(shè)計(jì)開發(fā)的系列在線檢索平臺,其基于微軟的商用數(shù)據(jù)庫MSSQL,如COCA(http://corpus.byu.edu/coca/)和 BNC(http://corpus.byu.edu/bnc/);國內(nèi)的北京外國語大學(xué)和上海交通大學(xué)等院校也均設(shè)有大型在線檢索平臺。在線語料庫建設(shè)的模式很多,如:可采用Dreamweaver與PHP & MYSQL相結(jié)合的方式。通過Dreamweaver來完成檢索面板,以及數(shù)據(jù)庫連接與查詢、插入、更新和刪除等部分;MYSQL為免費(fèi)開源數(shù)據(jù)庫,PHP的設(shè)計(jì)目的是用于編寫Web腳本,對MYSQL支持較好,是一種服務(wù)端和跨平臺技術(shù),可完美運(yùn)行在絕大多數(shù)操作系統(tǒng)上。在線語料庫建設(shè)完畢后,用戶只需要訪問該網(wǎng)站,便可對語料庫進(jìn)行基本的查詢和統(tǒng)計(jì);語料庫網(wǎng)站由專人進(jìn)行維護(hù)和更新,用戶不需要學(xué)習(xí)語料庫后臺維護(hù)技術(shù)。在線語料庫技術(shù)使語料庫的統(tǒng)計(jì)和檢索如同使用百度和谷歌一樣便捷。

3 結(jié)語

XML技術(shù)已成為跨平臺、跨應(yīng)用程序的一種通用標(biāo)準(zhǔn),其應(yīng)用于語料庫領(lǐng)域有利于規(guī)范語料庫的標(biāo)注模式、打破應(yīng)用壁壘、減少重復(fù)建設(shè);使語料庫不僅可以應(yīng)用在語言學(xué)領(lǐng)域,還可應(yīng)用在軍事、醫(yī)學(xué)、社會生活等各個(gè)方面。 基于XML的語料庫技術(shù)在“大型在線語料庫建設(shè)、基于云計(jì)算的語料庫藍(lán)圖規(guī)劃和安卓系統(tǒng)下的語料庫終端建設(shè)等方面都具有重大的理論和現(xiàn)實(shí)意義。

[1]馮志偉.序言 語料庫語言學(xué)的進(jìn)展 [Z].2009:d9.

[2]朱暾,樓新遠(yuǎn).基于XML Schema XML索引技術(shù)研究[J].鐵路計(jì)算機(jī)應(yīng)用,2011,20(10):8-10+14.

[3]郭艷艷,吳揚(yáng)揚(yáng).一種基于XML schema的XML索引[J].華僑大學(xué)學(xué)報(bào):自然科學(xué)版,2011,32(1):43-47.

[4]黃國文.語篇分析概要[M].湖南:湖南教育出版社,1988.[5]Halliday,M.A.K.& R.Hason.Cohesion in English[M].London:Longman,1976.

猜你喜歡
多維度文本功能
也談詩的“功能”
中華詩詞(2022年6期)2022-12-31 06:41:24
“多維度評改”方法初探
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
多維度市南
商周刊(2017年7期)2017-08-22 03:36:22
關(guān)于非首都功能疏解的幾點(diǎn)思考
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
中西醫(yī)結(jié)合治療甲狀腺功能亢進(jìn)癥31例
辨證施護(hù)在輕度認(rèn)知功能損害中的應(yīng)用
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产福利观看| 99在线视频精品| 日韩福利视频导航| 小说 亚洲 无码 精品| 欧美在线国产| 真实国产乱子伦高清| 国产成人久久777777| 又爽又黄又无遮挡网站| 97超碰精品成人国产| 久久综合九色综合97网| 人妻中文久热无码丝袜| 国产精品污污在线观看网站| 无码乱人伦一区二区亚洲一| 国产日韩欧美在线视频免费观看 | 日韩欧美国产精品| 又猛又黄又爽无遮挡的视频网站| 久久伊人操| 国产小视频在线高清播放| 国产毛片不卡| 日韩成人在线网站| 国产精品9| 欧美日本中文| 久久国产av麻豆| 波多野结衣视频网站| 91青草视频| 色香蕉网站| 久久精品这里只有国产中文精品| 欧美日韩一区二区三区在线视频| 福利视频99| 国产老女人精品免费视频| 极品国产在线| 亚洲最黄视频| 日韩福利在线观看| 99re免费视频| 久久人人97超碰人人澡爱香蕉| 欧美成人精品在线| 一区二区三区四区精品视频| 国产成人久久777777| 成人国产精品网站在线看| 57pao国产成视频免费播放| 91久久国产热精品免费| 在线中文字幕日韩| 国产精品女主播| 69免费在线视频| 91无码国产视频| 999精品在线视频| 午夜视频www| 无码福利日韩神码福利片| 国产精品视频第一专区| 最新亚洲人成无码网站欣赏网| 97国产一区二区精品久久呦| 日韩成人免费网站| 2021国产精品自产拍在线观看| av大片在线无码免费| 婷婷色中文| 亚洲欧美另类久久久精品播放的| 高清久久精品亚洲日韩Av| 久久成人18免费| 91热爆在线| 亚洲日韩AV无码精品| 亚洲AV成人一区国产精品| 国产亚洲欧美在线人成aaaa| 日本影院一区| 亚洲中文字幕无码爆乳| 久久亚洲综合伊人| 性色生活片在线观看| 亚洲成年人片| 亚洲国产精品日韩av专区| 色综合狠狠操| a色毛片免费视频| 亚洲aⅴ天堂| 波多野结衣在线se| 一本色道久久88亚洲综合| 午夜电影在线观看国产1区| 九九九精品成人免费视频7| 日韩AV无码免费一二三区| 国产人成午夜免费看| 九九久久99精品| 中文字幕在线免费看| 综合色区亚洲熟妇在线| 成人午夜视频免费看欧美| 亚洲天堂高清|