999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

PowerGrep在語料標注中的應用

2013-07-24 18:45:14王朝暉
赤峰學院學報·自然科學版 2013年22期
關鍵詞:文本

余 軍,王朝暉

(廈門理工學院 外國語學院,福建 廈門 361024)

PowerGrep在語料標注中的應用

余 軍,王朝暉

(廈門理工學院 外國語學院,福建 廈門 361024)

語料庫標注是語料庫構建的一個重要環節,除詞性標注外的各類標注一般都較難實現批量操作或自動化.本文介紹了文本處理軟件PowerGrep的查找、替換等主要功能及其功能賴以實現的正則表達式,并以自建的電子商務翻譯語料庫的標注處理為例,說明如何利用PowerGrep在替換標注賦碼、添加標注以及校對標注等方面實現批量操作.

PowerGrep;正則表達式;語料標注;語料加工

1 引言

除生語料庫之外,語料庫的構建一般都需要對語料進行標注,包括常見的文本頭標注和詞性標注,以及錯誤標注、句法標注、語義標注、語用標注等其他各類標注,還包括語料庫構建者根據研究需要制定的標注類型,如筆者所構建的多模態雙語學習者語料庫中的技巧標注和評價標注[1].對語料庫進行標注可以為語料庫帶來增值(added value)[2].語料標注有人工、半自動化及自動化等三種方式,視乎標注類型而定.詞性標注一般都是使用軟件自動生成,而其他類型的標注一般都較難實現自動化[3].標注的流程包括文本預處理,自動標注或者人工標注,以及標注校對,在這三個步驟中,運用功能強大的文本處理軟件PowerGrep,可極大地提高語料標注的效率,但目前此類探討較少.本文以筆者自建的電子商務翻譯語料庫為例,介紹如何運用PowerGrep對語料進行標注加工和處理,以期廣大語料庫語言學研究者了解這一語料加工利器的使用,加深對語言庫語言學研究工具的發掘利用.

2 PowerGrep與正則表達式

PowerGREP是一款基于正則表達式的文本檢索和處理軟件,可在不同的文件夾內,對不同的文件進行批量的文本搜索、替換,支持txt、htm l、xls、xm l、doc、pdf等多種文件格式,可以完成復雜的文本和二進制替換操作,是應用正則表達式在文本文件中搜索替換的強大工具.正則表達式(Regular Expression)是用來描述或者匹配一系列符合某個句法規則的字符串的單個字符串,起源于科學家對人類神經系統工作原理的早期研究.計算機發展以后,美國數學家Stephen Kleene把它引進到計算機領域[4].正則表達式由普通字符和元字符(metacharacters)組成.普通字符包括大小寫的字母和數字,而元字符則具有特殊的含義,例如“d”(不含引號,后同)可以匹配任意一個數字字符.有關元字符的詳細描述,可參考《PowerGREP與語料庫加工》一文[3].

PowerGrep的主要功能包括查找(search)、查找和替換(search and replace)、數據采集(collect)等.其主界面如圖1所示:

圖1

PowerGrep的操作,一般分為以下幾個步驟∶

(1)在左側的文件瀏覽界面中選擇需要處理的文件.用鼠標左鍵選中單個或者多個文件后,點擊軟件左上角的“√”即可,文件選中后,會在文件名左側出現綠色的“√”;也可以用鼠標選中單個或者多個文件夾,之后點擊軟件左上角的“√√”,即可選中所選文件夾內的全部文件;

(2)在右側的Action type中選擇“Search”(查找)或“Search and replace”(查找并替換)等操作模式;

(3)以查找并替換模式為例,選擇該模式后,在Search框輸入需檢索的字符串,在替換框輸入需替換的字符串,點擊軟件上方的“Replace”,即可實現替換操作.

3 PowerGrep在語料標注中的應用

由于其強大的文本搜索及替換功能,PowerGrep可以高效地實現對標注的各種加工目的,節省大量人力.下面以筆者構建的電子商務翻譯語料庫為例,介紹PowerGrep在批量替換標注賦碼、批量添加標注以及批量校對標注等方面的應用.

3.1 批量替換標注賦碼

筆者構建的電子商務翻譯語料庫,對英文文本和中文文本分別使用CLAWS4和中科院ICTCLAS 2008軟件進行了詞性標注.CLAWS4的賦碼標記是“_”,而ICTCLAS則是“/”.為了便于檢索起見,有必要統一為一種賦碼標記.雖然一般的辦公軟件如記事本、Word等都能通過查找替換操作實現這一目的,但由于不支持批量操作,會耗費大量的人力.用PowerGrep處理起來則極其簡單、快捷,步驟如下:

(1)在使用CLAWS及ICTCLAS進行詞性標注之前,在PowerGrep中選擇全部文本,Action type選擇“Search and replace”,在Search欄輸入“/”,在Replacement欄輸入“##”,點擊“Replace”,將“/”替換為“##”.這一操作的目的是將文本中可能存在的與詞性賦碼標記相同的“/”先替換為其他符號,以免在詞性標注之后被混為詞性賦碼標記而替換掉.

(2)使用CLAWS和ICTCLAS對全部文本進行詞性標注;

(3)在PowerGrep中選擇詞性標注后的全部文本,參照步驟1的方法將“/”批量替換為“_”;

(4)再將“##”批量替換還原為“/”.

3.2 批量添加標注

電子商務翻譯語料庫除詞性標注外,還對部分語料做了錯誤標注,賦碼標記為<>.例如,“Precautions 常見問題處理<Term>”,Precautions在產品說明書中是一個常見術語,意思是“注意事項”,譯為“常見問題處理”是錯誤的,筆者用<Term>這一標注碼對這一術語翻譯錯誤做出標注.國內對語料進行錯誤標注的語料庫不多,其中較為著名的是CLEC,其言語失誤標注碼多達61種,每個標注碼包含3個字符,如fm1指Spelling錯誤[5].標注者需要較為熟悉標注系統,判斷錯誤類型后手工輸入對應的標注碼,設計為3個標注碼可以減輕手工輸入的負擔.但錯誤標注碼即便是3個字符,在數量較大的情況下,手工輸入的工作量仍然非常大,對此筆者深有體會,由此產生了利用PowerGrep批量添加標注的嘗試.操作方式如下:

(1)復制<>符號,在需要輸入標注碼的地方,按ctrl+v,即可將<>粘貼至該處.這一方法比手工依次輸入<>或者在某些文本處理軟件中通過鼠標點擊預制好的字符集都要高效省力;

(2)在<>中輸入標注碼對應的數字及字母,標注者需要較為熟悉這些標注碼及其對應的數字及字母,例如,1代表“Spelling”,2代表“Term”.這樣只需輸入1個字符即可完成標注.

(3)標注全部完成之后,利用PowerGrep將數字或者字母代表的標注碼還原為完整的標注碼.例如,在PowerGrep中選中全部文件,在Search欄輸入“(<)(1)(>)”,在Replacement欄輸入“1Spelling3”,點擊“Replace”,即可完成全部Spelling錯誤的標注碼還原.

“Spelling”和“Term”這種標注碼相比3個字符的標注碼而言,雖然較長,卻更為直觀,在省卻了長串字符輸入的情況下,值得推廣.

3.3 批量校對標注

上述人工輸入的標注可能存在錯誤.例如,有時會遺漏數字或者字母的輸入,導致只有<>賦碼標記,在PowerGrep中搜索“<>”即可查出此類錯誤.另一種可能是輸入了非數字或者非字母的字符,如“#”,可在PowerGrep中搜索“<[^0-9a-zA-Z]>”,即可查出此類問題.

PowerGrep的文本檢索功能非常強大,可通過正則表達式查找各種存在問題的標注,達到批量檢查校對的目的.

4 結語

數十年來語料庫語言學的迅猛發展得益于一大批高質量語料庫的構建,如BNC,ICE和ICLE等,目前語料庫的構建已愈來愈專門化,語料庫構建的技術門檻阻礙了一些有志于語料庫研究的人士加入語料庫構建的行列,而利用各種正則表達式,PowerGrep在語料加工方面可以實現各種批量操作,其在語料庫構建及檢索中有著廣闊的應用前景和發展潛力.對PowerGrep這類功能強大的文本處理軟件的應用探索,有利于更多的語料庫研究者掌握相關技術,共同促進語料庫建設的繁榮發展.

〔1〕余軍.CAT平臺下多模態學習者雙語語料庫構建[J].廈門理工學院學報,2012(03).

〔2〕Leech,G.Introducing corpus annotation [A].In R. Garside,G.Leech&A.M cEnery(eds.)Corpus Annotation:Linguistic Information from Computer Text Corpora[C].London:Longman,1997.

〔3〕嚴華,王立非.PowerGREP與語料庫加工[J].外語電化教學,2010(03).

〔4〕薛學彥,李文中.PowerGREP與語料庫信息檢索[A].衛乃興,李文中,濮建忠.語料庫應用研究[C].上海:上海外語教育出版社,2005.

〔5〕桂詩春.中國學習者英語言語失誤分析[A].楊慧中,桂詩春,楊達復.基于CLEC語料庫的中國學習者英語分析[C].上海:上海外語教育出版社,2005.

H31

A

1673-260X(2013)11-0249-02

福建省社會科學規劃項目資助(2010B153)

猜你喜歡
文本
文本聯讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發還是從文本出發
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 欧美中文字幕在线播放| 亚洲国产中文精品va在线播放 | 日韩毛片免费观看| 久久毛片网| 伊人成人在线| 国产成人亚洲日韩欧美电影| 国产亚洲欧美另类一区二区| 呦视频在线一区二区三区| 欧美亚洲国产精品久久蜜芽| 97se亚洲综合在线天天| 欧美在线黄| 欧美国产综合色视频| 亚洲成人在线免费| 亚洲欧美日韩高清综合678| 激情影院内射美女| 亚洲天堂在线免费| 韩日无码在线不卡| 中国一级特黄视频| 国语少妇高潮| 九九视频免费在线观看| 国产 日韩 欧美 第二页| 国产乱子伦一区二区=| 亚洲日本韩在线观看| 久久精品国产91久久综合麻豆自制| 国产一区二区免费播放| 欧美区一区| 福利小视频在线播放| 极品av一区二区| 亚洲性影院| 婷婷色丁香综合激情| 国产亚洲一区二区三区在线| 日本a∨在线观看| 97se亚洲综合不卡| 伊人激情综合网| 尤物成AV人片在线观看| 久久精品日日躁夜夜躁欧美| a级毛片免费播放| 久久久久久久久久国产精品| 国产精品久久久久久久伊一| 亚洲精品麻豆| 麻豆国产在线不卡一区二区| 伊人天堂网| 片在线无码观看| 女人18毛片一级毛片在线 | 婷婷开心中文字幕| 亚洲无限乱码| 真实国产乱子伦视频| 91久草视频| 欧美a级完整在线观看| 国产手机在线ΑⅤ片无码观看| 一级片一区| 欧美在线三级| 亚洲伦理一区二区| 无码AV高清毛片中国一级毛片| yjizz国产在线视频网| 成人国产精品视频频| 国产免费看久久久| 久久精品国产在热久久2019| 国产在线视频导航| 成人久久18免费网站| 欧美区一区| 国产永久在线视频| 污网站免费在线观看| 日本在线亚洲| 国产在线一区二区视频| 午夜毛片免费观看视频 | 99视频只有精品| 青青草原国产| 国产高潮流白浆视频| 国产精品流白浆在线观看| 毛片免费在线视频| 国产白浆视频| 精品1区2区3区| 日韩a级毛片| 美女视频黄又黄又免费高清| 91青青草视频| 老色鬼欧美精品| 国产色婷婷| 国产网友愉拍精品视频| 国产靠逼视频| 久久96热在精品国产高清| 国产成熟女人性满足视频|