999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

PowerGrep在語料標注中的應用

2013-07-24 18:45:14王朝暉
赤峰學院學報·自然科學版 2013年22期
關鍵詞:文本

余 軍,王朝暉

(廈門理工學院 外國語學院,福建 廈門 361024)

PowerGrep在語料標注中的應用

余 軍,王朝暉

(廈門理工學院 外國語學院,福建 廈門 361024)

語料庫標注是語料庫構建的一個重要環節,除詞性標注外的各類標注一般都較難實現批量操作或自動化.本文介紹了文本處理軟件PowerGrep的查找、替換等主要功能及其功能賴以實現的正則表達式,并以自建的電子商務翻譯語料庫的標注處理為例,說明如何利用PowerGrep在替換標注賦碼、添加標注以及校對標注等方面實現批量操作.

PowerGrep;正則表達式;語料標注;語料加工

1 引言

除生語料庫之外,語料庫的構建一般都需要對語料進行標注,包括常見的文本頭標注和詞性標注,以及錯誤標注、句法標注、語義標注、語用標注等其他各類標注,還包括語料庫構建者根據研究需要制定的標注類型,如筆者所構建的多模態雙語學習者語料庫中的技巧標注和評價標注[1].對語料庫進行標注可以為語料庫帶來增值(added value)[2].語料標注有人工、半自動化及自動化等三種方式,視乎標注類型而定.詞性標注一般都是使用軟件自動生成,而其他類型的標注一般都較難實現自動化[3].標注的流程包括文本預處理,自動標注或者人工標注,以及標注校對,在這三個步驟中,運用功能強大的文本處理軟件PowerGrep,可極大地提高語料標注的效率,但目前此類探討較少.本文以筆者自建的電子商務翻譯語料庫為例,介紹如何運用PowerGrep對語料進行標注加工和處理,以期廣大語料庫語言學研究者了解這一語料加工利器的使用,加深對語言庫語言學研究工具的發掘利用.

2 PowerGrep與正則表達式

PowerGREP是一款基于正則表達式的文本檢索和處理軟件,可在不同的文件夾內,對不同的文件進行批量的文本搜索、替換,支持txt、htm l、xls、xm l、doc、pdf等多種文件格式,可以完成復雜的文本和二進制替換操作,是應用正則表達式在文本文件中搜索替換的強大工具.正則表達式(Regular Expression)是用來描述或者匹配一系列符合某個句法規則的字符串的單個字符串,起源于科學家對人類神經系統工作原理的早期研究.計算機發展以后,美國數學家Stephen Kleene把它引進到計算機領域[4].正則表達式由普通字符和元字符(metacharacters)組成.普通字符包括大小寫的字母和數字,而元字符則具有特殊的含義,例如“d”(不含引號,后同)可以匹配任意一個數字字符.有關元字符的詳細描述,可參考《PowerGREP與語料庫加工》一文[3].

PowerGrep的主要功能包括查找(search)、查找和替換(search and replace)、數據采集(collect)等.其主界面如圖1所示:

圖1

PowerGrep的操作,一般分為以下幾個步驟∶

(1)在左側的文件瀏覽界面中選擇需要處理的文件.用鼠標左鍵選中單個或者多個文件后,點擊軟件左上角的“√”即可,文件選中后,會在文件名左側出現綠色的“√”;也可以用鼠標選中單個或者多個文件夾,之后點擊軟件左上角的“√√”,即可選中所選文件夾內的全部文件;

(2)在右側的Action type中選擇“Search”(查找)或“Search and replace”(查找并替換)等操作模式;

(3)以查找并替換模式為例,選擇該模式后,在Search框輸入需檢索的字符串,在替換框輸入需替換的字符串,點擊軟件上方的“Replace”,即可實現替換操作.

3 PowerGrep在語料標注中的應用

由于其強大的文本搜索及替換功能,PowerGrep可以高效地實現對標注的各種加工目的,節省大量人力.下面以筆者構建的電子商務翻譯語料庫為例,介紹PowerGrep在批量替換標注賦碼、批量添加標注以及批量校對標注等方面的應用.

3.1 批量替換標注賦碼

筆者構建的電子商務翻譯語料庫,對英文文本和中文文本分別使用CLAWS4和中科院ICTCLAS 2008軟件進行了詞性標注.CLAWS4的賦碼標記是“_”,而ICTCLAS則是“/”.為了便于檢索起見,有必要統一為一種賦碼標記.雖然一般的辦公軟件如記事本、Word等都能通過查找替換操作實現這一目的,但由于不支持批量操作,會耗費大量的人力.用PowerGrep處理起來則極其簡單、快捷,步驟如下:

(1)在使用CLAWS及ICTCLAS進行詞性標注之前,在PowerGrep中選擇全部文本,Action type選擇“Search and replace”,在Search欄輸入“/”,在Replacement欄輸入“##”,點擊“Replace”,將“/”替換為“##”.這一操作的目的是將文本中可能存在的與詞性賦碼標記相同的“/”先替換為其他符號,以免在詞性標注之后被混為詞性賦碼標記而替換掉.

(2)使用CLAWS和ICTCLAS對全部文本進行詞性標注;

(3)在PowerGrep中選擇詞性標注后的全部文本,參照步驟1的方法將“/”批量替換為“_”;

(4)再將“##”批量替換還原為“/”.

3.2 批量添加標注

電子商務翻譯語料庫除詞性標注外,還對部分語料做了錯誤標注,賦碼標記為<>.例如,“Precautions 常見問題處理<Term>”,Precautions在產品說明書中是一個常見術語,意思是“注意事項”,譯為“常見問題處理”是錯誤的,筆者用<Term>這一標注碼對這一術語翻譯錯誤做出標注.國內對語料進行錯誤標注的語料庫不多,其中較為著名的是CLEC,其言語失誤標注碼多達61種,每個標注碼包含3個字符,如fm1指Spelling錯誤[5].標注者需要較為熟悉標注系統,判斷錯誤類型后手工輸入對應的標注碼,設計為3個標注碼可以減輕手工輸入的負擔.但錯誤標注碼即便是3個字符,在數量較大的情況下,手工輸入的工作量仍然非常大,對此筆者深有體會,由此產生了利用PowerGrep批量添加標注的嘗試.操作方式如下:

(1)復制<>符號,在需要輸入標注碼的地方,按ctrl+v,即可將<>粘貼至該處.這一方法比手工依次輸入<>或者在某些文本處理軟件中通過鼠標點擊預制好的字符集都要高效省力;

(2)在<>中輸入標注碼對應的數字及字母,標注者需要較為熟悉這些標注碼及其對應的數字及字母,例如,1代表“Spelling”,2代表“Term”.這樣只需輸入1個字符即可完成標注.

(3)標注全部完成之后,利用PowerGrep將數字或者字母代表的標注碼還原為完整的標注碼.例如,在PowerGrep中選中全部文件,在Search欄輸入“(<)(1)(>)”,在Replacement欄輸入“1Spelling3”,點擊“Replace”,即可完成全部Spelling錯誤的標注碼還原.

“Spelling”和“Term”這種標注碼相比3個字符的標注碼而言,雖然較長,卻更為直觀,在省卻了長串字符輸入的情況下,值得推廣.

3.3 批量校對標注

上述人工輸入的標注可能存在錯誤.例如,有時會遺漏數字或者字母的輸入,導致只有<>賦碼標記,在PowerGrep中搜索“<>”即可查出此類錯誤.另一種可能是輸入了非數字或者非字母的字符,如“#”,可在PowerGrep中搜索“<[^0-9a-zA-Z]>”,即可查出此類問題.

PowerGrep的文本檢索功能非常強大,可通過正則表達式查找各種存在問題的標注,達到批量檢查校對的目的.

4 結語

數十年來語料庫語言學的迅猛發展得益于一大批高質量語料庫的構建,如BNC,ICE和ICLE等,目前語料庫的構建已愈來愈專門化,語料庫構建的技術門檻阻礙了一些有志于語料庫研究的人士加入語料庫構建的行列,而利用各種正則表達式,PowerGrep在語料加工方面可以實現各種批量操作,其在語料庫構建及檢索中有著廣闊的應用前景和發展潛力.對PowerGrep這類功能強大的文本處理軟件的應用探索,有利于更多的語料庫研究者掌握相關技術,共同促進語料庫建設的繁榮發展.

〔1〕余軍.CAT平臺下多模態學習者雙語語料庫構建[J].廈門理工學院學報,2012(03).

〔2〕Leech,G.Introducing corpus annotation [A].In R. Garside,G.Leech&A.M cEnery(eds.)Corpus Annotation:Linguistic Information from Computer Text Corpora[C].London:Longman,1997.

〔3〕嚴華,王立非.PowerGREP與語料庫加工[J].外語電化教學,2010(03).

〔4〕薛學彥,李文中.PowerGREP與語料庫信息檢索[A].衛乃興,李文中,濮建忠.語料庫應用研究[C].上海:上海外語教育出版社,2005.

〔5〕桂詩春.中國學習者英語言語失誤分析[A].楊慧中,桂詩春,楊達復.基于CLEC語料庫的中國學習者英語分析[C].上海:上海外語教育出版社,2005.

H31

A

1673-260X(2013)11-0249-02

福建省社會科學規劃項目資助(2010B153)

猜你喜歡
文本
文本聯讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發還是從文本出發
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 无码 在线 在线| 夜夜高潮夜夜爽国产伦精品| 久久综合成人| 久久先锋资源| 波多野吉衣一区二区三区av| 久久亚洲精少妇毛片午夜无码| 巨熟乳波霸若妻中文观看免费| 久久人妻xunleige无码| 亚洲欧美色中文字幕| 国产精品主播| 伦精品一区二区三区视频| 午夜影院a级片| 无码久看视频| 久久久久久久蜜桃| 亚洲国产日韩欧美在线| 日韩毛片在线播放| 久久99国产精品成人欧美| 国产高潮视频在线观看| 国产91九色在线播放| 狂欢视频在线观看不卡| 沈阳少妇高潮在线| 99偷拍视频精品一区二区| 欧美精品啪啪一区二区三区| 91年精品国产福利线观看久久| 国内熟女少妇一线天| 国产精品七七在线播放| 国产精品成人啪精品视频| 777午夜精品电影免费看| 一级毛片免费的| swag国产精品| 国产无码精品在线播放| 国产精品亚洲va在线观看| 狠狠色狠狠综合久久| 免费人成视频在线观看网站| 亚洲一区毛片| 鲁鲁鲁爽爽爽在线视频观看| 秋霞国产在线| 国产精品无码久久久久久| 日韩高清在线观看不卡一区二区 | 一区二区日韩国产精久久| 人妻21p大胆| 亚洲成a人片| 日本手机在线视频| 国产精品成| 亚洲AV人人澡人人双人| 国产亚洲成AⅤ人片在线观看| 国产视频你懂得| 国产在线一区视频| 亚洲国产成人精品无码区性色| 国产永久在线观看| 亚洲综合在线最大成人| 国产导航在线| 色综合天天娱乐综合网| 日韩黄色在线| 久久久久人妻一区精品| 国产精品亚洲а∨天堂免下载| 国产成人福利在线视老湿机| 欧美成a人片在线观看| 免费看a级毛片| 欧美在线国产| 日本在线亚洲| 2020久久国产综合精品swag| 亚洲成年网站在线观看| 久久五月视频| 婷婷综合缴情亚洲五月伊| 国产精品网址在线观看你懂的| 青青草原国产一区二区| 91九色最新地址| 精品午夜国产福利观看| 国产香蕉在线视频| 一区二区三区成人| 乱人伦视频中文字幕在线| 精品1区2区3区| 波多野吉衣一区二区三区av| 又爽又大又光又色的午夜视频| 亚洲精品无码AⅤ片青青在线观看| 日韩欧美综合在线制服| 国产亚洲精品无码专| 国产一级毛片高清完整视频版| 国产一级视频在线观看网站| 福利姬国产精品一区在线| 日韩精品成人在线|