999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向語言分析的語料庫技術(shù)平臺建設(shè)

2019-09-12 10:41:42馬創(chuàng)新梁社會
智能計算機與應(yīng)用 2019年4期

馬創(chuàng)新 梁社會

摘 要:為了提高語言研究者的工作效率,開發(fā)了語料庫技術(shù)平臺 Inspire1。本系統(tǒng)兼具通用性、全面性、一體化和易用性等特點,集成了語料采集、加工、統(tǒng)計、檢索和分析等5個模塊。利用本系統(tǒng),能夠使研究者直觀地觀察到語料庫中蘊含的語言規(guī)律,從語料庫中發(fā)現(xiàn)新的知識。

關(guān)鍵詞:語料庫;語言研究; 軟件

文章編號:2095-2163(2019)04-0100-04 中圖分類號:TP319 文獻標(biāo)志碼:A

0 引 言

在當(dāng)今大數(shù)據(jù)時代,人們可以利用的數(shù)據(jù)量每年都以指數(shù)倍增長,所以在語言學(xué)研究中,原始語料的獲取已經(jīng)不再是難題,而如何利用先進的智能技術(shù)高效地采集語料、加工語料和分析語料,已成為當(dāng)今語料庫語言學(xué)界亟需解決的重要問題。

語料庫建設(shè)和應(yīng)用技術(shù)能夠減輕研究者的工作負(fù)擔(dān),提高語言研究的效率。因此,構(gòu)建一個語料庫技術(shù)平臺,對于語言教學(xué)和研究有著較大的實際意義[1]。語料庫技術(shù)平臺建設(shè)是一項多學(xué)科交叉的復(fù)雜工作,研究者不僅要掌握先進的計算機技術(shù)和知識組織方法,還要具備深厚的語言學(xué)功底。

1 語料庫處理軟件概述

1.1 當(dāng)前常用的語料庫軟件

許家金和賈云龍[2]參照McEnery & Hardie[3]對語料庫軟件的分類方式,提出按照語料庫軟件的運行環(huán)境可以把語料庫工具分為3類,一是運行在DOS環(huán)境下的工具,如:CLOC、XANADU、TACT、MiniConcordancer、MicroConcord等;二是運行在Windows或其它圖形操作系統(tǒng)中的工具,如:Wordsmith Tools、AntConc、MonoConc Pro等;三是基于互聯(lián)網(wǎng)的語料庫網(wǎng)絡(luò)應(yīng)用工具,如:CQPweb、BYU corpora、SketchEngine等。

李亮[4]按照語料庫軟件開發(fā)者的國籍來劃分,當(dāng)前常用的語料庫軟件和其來源國分別是:美國有Conc、Paraconc、Monoconc;英國有MicroConcord、Wordsmith Tools、Longman MiniConcordancer、Free TextBrowser、Concordance;德國有LEXA、TextSTAT;加拿大有Concorder;日本有CorpusWizard;中國香港有Concapp。從語料庫軟件的數(shù)量和品質(zhì)兩方面來看,英國在該領(lǐng)域占據(jù)領(lǐng)先地位,其次是美國和德國。

1.2 普遍存在的問題

分析眾多語料庫處理軟件,筆者發(fā)現(xiàn)國內(nèi)開發(fā)的語料庫軟件數(shù)量少、使用率低[5]。此外,這些語料庫軟件還普遍存在以下幾方面的問題:

(1)用于分析和處理漢語語料的軟件較少。漢語具有與英文不同的特點,比如在計算機字符集中,一個漢字與一個英文字母所占用的存儲單元是不同的。再如漢語還存在分詞連寫的問題,不像英文每個單詞之間都有間隔。

(2)有些語言處理軟件的功能單一,并且只能完成淺層任務(wù)。僅能用于某一項具體的語言處理工作,在實際的語料處理中,需要使用多個軟件才能完成一項任務(wù)。

(3)有些語言處理軟件易用性較差。主要表現(xiàn)在設(shè)計不合理、界面不友好、操作復(fù)雜、沒有做到簡單易用、難以在語言學(xué)領(lǐng)域推廣使用。

為了能夠切實解決語言研究中的困難,提高工作效率,針對當(dāng)前語料處理軟件所存在的問題,筆者提出設(shè)計語料處理軟件的4條原則[6]:

(1)通用性原則。全世界現(xiàn)有語言大約在5 000~7 000種之間,使用人口超過100萬的語言約有140多種,有文字的語言在930種左右。開發(fā)的軟件應(yīng)該具備廣泛的通用性,能夠處理漢語、英語、法語、俄語等使用人口較多的語言文字。

(2)全面性原則。應(yīng)該開發(fā)功能集成化的“分析型深層工具”,所設(shè)計的語言處理軟件不僅能夠發(fā)現(xiàn)表層語言現(xiàn)象,而且能夠挖掘出深層語言規(guī)律。

(3)一體化原則。軟件的各項功能要按照語料處理時的先后順序進行組合,而不是簡單疊加在一起。語料采集、加工、統(tǒng)計、檢索、分析等各項功能及其子功能之間要具有一定的邏輯關(guān)系,形成統(tǒng)一的功能整體。

(4)易用原則。軟件設(shè)計應(yīng)遵循用戶至上原則,采用訪談法和問卷調(diào)查法充分了解語言研究者的需求狀況。在人機接口的設(shè)計方面,做到簡易直觀,讓用戶通過很少的學(xué)習(xí)和訓(xùn)練,就能夠使用軟件[7]。

2 系統(tǒng)模塊與功能設(shè)計

本系統(tǒng)使用的編程語言是C++,編程工具是Microsoft Visual Studio Community 2015,使用了MFC類庫[8]。其主要功能模塊如圖1所示,分為6個子模塊:公用模塊、分析、檢索、統(tǒng)計、加工和采集模塊。公用模塊的功能是選取、顯示和輸出語料文件的,其它5個子模塊都要用到公用模塊來選擇和瀏覽待處理語料文件、以及顯示與輸出處理后的結(jié)果文件。

語料庫技術(shù)平臺Inspire1主要包括5大功能,對此可做闡釋分述如下。

(1) 語料采集功能。包括2項子功能:

①WEB爬蟲。用以獲取指定網(wǎng)頁中的所有鏈接并且保存所有鏈接網(wǎng)頁到本地文件夾中。

②文本清洗。由于網(wǎng)絡(luò)上采集下來的WEB資源中摻雜著大量的雜質(zhì)信息,如字體信息、格式信息、廣告、超鏈接等,需要對網(wǎng)頁內(nèi)容進行數(shù)據(jù)清洗,以去除其中的雜質(zhì)。

(2) 語料加工功能。語料采集過后,需要再做加工,使得語料在形式上保持一致,以便于檢索和統(tǒng)計。這項功能包括4項子功能:

①語料的分割與合并。用以調(diào)整語料文件的大小。

②按照斷句標(biāo)記對文本做斷句處理。斷句標(biāo)記是由使用者定制的,以此來調(diào)整語料中每個片段單位的長短。

③字符編碼的轉(zhuǎn)換功能??墒刮谋疚募淖址幋a在Unicode、Big5、UTF8、GBK等編碼之間實現(xiàn)自由轉(zhuǎn)換。

④人工標(biāo)注輔助系統(tǒng)。在語言研究中,經(jīng)常要對語料進行人工分詞和標(biāo)注,該系統(tǒng)能起到輔助作用。還能根據(jù)預(yù)定規(guī)則對標(biāo)注后的語料進行檢驗,發(fā)現(xiàn)違反規(guī)則的情況就會給予提示[9]。

(3) 統(tǒng)計功能。語言研究中經(jīng)常要統(tǒng)計語料中的字頻、詞頻和詞類頻率,這項功能包括4項子功能:

①字頻統(tǒng)計。統(tǒng)計出語料中出現(xiàn)的字型數(shù)、字型出現(xiàn)的頻次和頻率。能夠統(tǒng)計單字頻率、“鄰近雙字”的同現(xiàn)頻率、“鄰近三字”的同現(xiàn)頻率、以及“鄰近四字”的同現(xiàn)頻率。

②詞頻統(tǒng)計。統(tǒng)計出語料中出現(xiàn)的詞型數(shù),每個詞型出現(xiàn)的頻次和頻率。能夠統(tǒng)計單詞頻率、“鄰近雙詞”的同現(xiàn)頻率、“鄰近三詞”的同現(xiàn)頻率、以及“鄰近四詞”的同現(xiàn)頻率。

③詞類統(tǒng)計。統(tǒng)計出語料中出現(xiàn)的詞類數(shù),每種詞類的出現(xiàn)頻次和頻率。能夠統(tǒng)計單個類別的頻次和頻率、“鄰近雙類”的同現(xiàn)頻率、“鄰近3類”的同現(xiàn)頻率、以及“鄰近四類”的同現(xiàn)頻率。

④風(fēng)格統(tǒng)計。統(tǒng)計出語料中的詞型數(shù)、詞例數(shù)、詞型與詞例之比、平均句長、句長標(biāo)準(zhǔn)差、段落數(shù)、平均段落長、以及段落長標(biāo)準(zhǔn)差。

(4) 檢索功能??煞譃?項子功能,分別提供4種類型的檢索。分析后,可得研究概述如下。

①簡單檢索。用戶輸入一個關(guān)鍵詞,系統(tǒng)能夠從語料庫中查找出所有該詞的用例,并用紅色字體把用例中的關(guān)鍵詞標(biāo)示出來。同時,還能把包含這個關(guān)鍵詞的文本片斷全部抽取出來,存在一個新的文件中。文本片斷可以是以小句為單位,也可以是以整句或段落為單位,用戶能夠自己定義。

②復(fù)雜檢索。用戶可以輸入多個關(guān)鍵詞,系統(tǒng)能夠查找出語料庫中所有這些詞的用例,并用紅色字體把用例中的關(guān)鍵詞標(biāo)示出來。同時,能把包含這些關(guān)鍵詞的文本片斷全部抽取出來,存在一個新的文件中。關(guān)鍵詞之間的出現(xiàn)關(guān)系是“并且”還是“或者”,能夠由用戶來設(shè)定。

③高級檢索。系統(tǒng)能夠按照用戶輸入的正則表達式檢索語料,并且用戶可以自主設(shè)定所抽取的語料片段的形式,編輯斷句標(biāo)記。

④特殊檢索。用于處理分詞之后的文本,用戶輸入一個關(guān)鍵詞,并且指定在關(guān)鍵詞之前的詞語個數(shù)、以及在關(guān)鍵詞之后的詞語個數(shù),系統(tǒng)能夠查找出“前詞+關(guān)鍵詞+后詞”這種形式詞串的所有用例,并用鮮紅和深紅2種顏色字體分別把前后詞和關(guān)鍵詞標(biāo)示出來。系統(tǒng)還能夠統(tǒng)計出這種形式詞串的出現(xiàn)頻率[10]。

(5)分析功能??煞譃?項子功能,分別提供3種類型的分析模式。這里,可給出內(nèi)容表述如下。

①特征詞分析。系統(tǒng)能夠按照預(yù)設(shè)算法提取各個語料文本的特征詞,進而為文本分類,信息抽取提供技術(shù)支持。

②共詞分析。系統(tǒng)能夠?qū)σ唤M詞兩兩統(tǒng)計其在同一篇文獻中出現(xiàn)的頻次,以此為基礎(chǔ)對這些詞進行聚類分析,分析結(jié)果能夠反映出這些詞之間的親疏關(guān)系,有效地展示這些詞之間的關(guān)聯(lián),進而可以分析這些詞所代表主題的結(jié)構(gòu)變化。

③相似度分析。系統(tǒng)能夠通過計算文獻之間在詞型等級方面的相關(guān)系數(shù),來獲取量化的語言風(fēng)格相似度。

3 軟件系統(tǒng)應(yīng)用流程

(1)首先利用“采集模塊”的子模塊“WEB爬蟲”從互聯(lián)網(wǎng)上抓取含有語料文件的網(wǎng)頁集合,再利用“文本清洗”模塊對含有HTML標(biāo)簽和廣告等雜質(zhì)的網(wǎng)頁集合進行數(shù)據(jù)清洗,得到“原始語料”。

(2)利用“加工模塊”的子模塊“合并分割”對文獻資料作合并或分割處理;“文本斷句”模塊作斷句處理;“字符編碼”模塊轉(zhuǎn)換語料文件的字符編碼;“人工標(biāo)注”模塊對語料進行分詞、標(biāo)注詞性、標(biāo)注語義角色等處理;經(jīng)過此階段的處理得到“精加工語料”。

(3)利用“統(tǒng)計模塊”中的“字頻統(tǒng)計”子模塊統(tǒng)計出語料文件的字頻信息;“詞頻統(tǒng)計”模塊統(tǒng)計出語料文件的詞頻信息;“詞類統(tǒng)計”模塊統(tǒng)計出語料文件的詞類信息;經(jīng)過此階段的處理得到“統(tǒng)計報告”。

(4)利用“檢索模塊”的各項檢索功能,根據(jù)研究的需要,對語料文件進行檢索和信息抽取,得到 “檢索報告”。

(5)利用“分析模塊”的各項分析功能,分析特征詞、共詞和文本的相似度,得到“分析報告”。

本系統(tǒng)的應(yīng)用流程如圖2所示。

本系統(tǒng)初始界面的上方是一個標(biāo)簽視圖控件,該控件中還包含多個標(biāo)簽視圖控件和表單視圖控件,下方并排安置2個瀏覽器視圖控件,其中左邊控件主要用于顯示輸入文件的內(nèi)容,右邊控件主要用于顯示處理結(jié)果[11]。以“簡單檢索”界面為例,如圖3所示,界面的上方是提供給用戶交互的界面,左下方控件中顯示的是待處理的文件內(nèi)容,右下方控件中顯示的是以“曰/v”作為關(guān)鍵詞的查找結(jié)果,所有符合查找條件的語句片段都顯示這里。

4 結(jié)束語

為了提升語言分析的效果,使研究者直觀地觀察到語料庫中蘊含的語言規(guī)律,從語料庫中發(fā)現(xiàn)新的知識,設(shè)計并實現(xiàn)了語料庫技術(shù)平臺 Inspire1。本軟件采用面向?qū)ο蟮乃枷刖幊?,各部分功能相互獨立,具有較強的可擴展性,并且是無需安裝的綠色軟件,占用很少的存儲空間,能夠滿足語料庫建設(shè)和應(yīng)用中的大部分技術(shù)需求。

參考文獻

[1]馬創(chuàng)新. 語料庫技術(shù)平臺使用指南(語料處理軟件)[2019-04-09]. http://blog.sina.com.cn/s/blog_740006d40102x448.html.

[2] 許家金,賈云龍. 基于R-gram的語料庫分析軟件PowerConc的設(shè)計與開發(fā)[J]. 外語電化教學(xué),2013(1):57-62.

[3] MCENERY T, HARDIE A. Corpus linguistics:Method, theory and practice[M]. Cambridge:Cambridge University Press, 2012.

[4] 李亮. 英語語料庫檢索工具的設(shè)計理念及其深層化[J]. 外語電化教學(xué),2007(6):16-20.

[5] 王立非,梁茂成. WordSmith方法在外語教學(xué)研究中的應(yīng)用[J]. 外語電化教學(xué),2007(3):3-7,12.

[6] 周曉云.手段與效果的正比論—語言教學(xué)的現(xiàn)代化手段[J]. 電化教育研究,2001(12):34-35.

[7] 馬創(chuàng)新,陳小荷. 文獻中的詞型分區(qū)規(guī)律與高頻特征詞的發(fā)現(xiàn)[J]. 語言文字應(yīng)用,2018(3):124-133.

[8] MALIK D S. C++編程—數(shù)據(jù)結(jié)構(gòu)與程序設(shè)計方法[M]. 晏海華,等譯. 北京:電子工業(yè)出版社,2003.

[9] 馬創(chuàng)新,陳小荷,曲維光,等. 《論語》與其注疏文獻對齊語料庫的構(gòu)建[J]. 現(xiàn)代教育技術(shù),2012,22(7):109-113.

[10]馬創(chuàng)新,陳小荷. 文獻中的詞語分布、詞型等級和風(fēng)格計算[J]. 中文信息學(xué)報. 2017, 31 (4):20-27.

[11]姜秋霞. 信息技術(shù)輔助語言教育的研究范式[J]. 電化教育研究,2010(6):107-108.

主站蜘蛛池模板: 国产精品99r8在线观看| 国产成人AV男人的天堂| AV网站中文| 青青草国产在线视频| 19国产精品麻豆免费观看| 农村乱人伦一区二区| a欧美在线| 国产日本欧美在线观看| 国产自无码视频在线观看| 日本AⅤ精品一区二区三区日| 欧美成人日韩| 97视频免费在线观看| 日韩在线永久免费播放| 伊人成人在线视频| 免费国产一级 片内射老| 色偷偷一区二区三区| 99热这里都是国产精品| 久久精品丝袜| 国产精品自在在线午夜| 精品人妻一区二区三区蜜桃AⅤ| 亚欧成人无码AV在线播放| 2021国产乱人伦在线播放| 中文毛片无遮挡播放免费| 国产成人a在线观看视频| 国产亚洲日韩av在线| 无码有码中文字幕| 成人国产免费| 日本久久久久久免费网络| 国产成人AV男人的天堂| 91在线无码精品秘九色APP | 亚洲欧洲国产成人综合不卡| 免费福利视频网站| 久久综合九色综合97婷婷| 中文精品久久久久国产网址 | 一级爆乳无码av| 无码一区二区三区视频在线播放| 亚洲福利一区二区三区| 国产一区二区免费播放| 天天综合色天天综合网| 亚洲日韩日本中文在线| 国产欧美日韩精品第二区| 黄色成年视频| 日本欧美视频在线观看| 四虎亚洲精品| 免费无码AV片在线观看中文| 三上悠亚精品二区在线观看| 91国语视频| 精品第一国产综合精品Aⅴ| 天堂亚洲网| 国产精品夜夜嗨视频免费视频 | 国产小视频免费| 小说区 亚洲 自拍 另类| 精品91自产拍在线| av一区二区无码在线| 欧美日韩一区二区在线免费观看| 91亚洲精品国产自在现线| 久久久久88色偷偷| 国产男人的天堂| 在线精品亚洲国产| 国产白浆在线观看| 亚洲综合一区国产精品| 国产精品免费入口视频| 成人国产精品2021| 精品视频在线观看你懂的一区| 国产99视频精品免费视频7| 国产一级二级在线观看| 国产成人免费手机在线观看视频| 国产成人精品一区二区不卡| 国产精品爆乳99久久| 91精品啪在线观看国产91| 美女裸体18禁网站| 亚洲欧美不卡| 亚洲婷婷在线视频| 国产人前露出系列视频| 91久久偷偷做嫩草影院电| 激情六月丁香婷婷| 天堂在线亚洲| 日韩精品资源| 国产一级毛片在线| 毛片网站观看| 免费av一区二区三区在线| 黄网站欧美内射|