王大鵬
(渤海大學大學外語教研部,遼寧錦州 121013)
語料庫是為一個或多個應用目標而專門收集,有一定結構、代表性、可被計算機程序檢索、具有一定規模的語料的集合[1]。語料庫有多種分類維度:按時間來劃分,可以分為歷時語料庫和共時語料庫;按語料庫語種來劃分,可以分為單語語料庫和多語平行語料庫;按用途來劃分可以分為通用語料庫和專門用途語料庫;按建設結構來劃分,可以分為生語料庫和標注語料庫。生語料庫(Raw Corpus)即沒有經過任何標注加工的語料庫,是語言的原始數據。一些研究者認為,語料庫必須經過標注加工,否者意義不大。筆者持相反態度,生語料庫體現了語言的最基本、原始的使用形態,過多的主觀標注反而有可能破壞語料的客觀性;加之語料庫的標注精度一直以來是一個有待提高的問題,雖然目前詞性標注的最高準確率可以高達97%,但對于一個上億詞次的語料庫來說,3%的錯誤率也是相當驚人、龐大的數據。所以,生語料庫的存在有其重要意義,這與標注語料庫的存在并不矛盾。
語料庫的標注層次有很多,按研究目的,可分為詞性標注、句法標注、語音標注、語義標注等。同時為了更好的掌握語料庫信息,可以為語料庫添加標記信息,即元數據,通過元數據可以更好的了解語料庫的時間、作者信息、文體信息、語域等信息。目前,英語詞性標注是所有標注體系中最為成熟的,以標注BNC 第二版的CLAWS4為例,其正確率高達97%,目前該詞性標注器升級為CLAWS7,成功標注了BNC 第三版。語音標注程序中較為著名的是Praat,是由荷蘭阿姆斯特丹大學語音科學學院的兩位工程師Paul Boersma 和David Weenink 合作開發的,聲學分析能夠為語音研究提供明確的、客觀的數據,同時可以用其標注和建設語音語料庫,但該程序的標注主要靠手動完成。語義標注領域較為著名的程序是英國Lancaster 大學語料庫研究中心Paul Rayson 等人開發的基于網絡的語料分析工具Wmatrix,其內嵌的模塊USAS(UCREL Semantic Annotation System),可自動為文本進行語義域(Semantic Domain/Field)賦碼。USAS的語義域賦碼集(Semantic Tagset)以《朗文多功能分類詞典》為基礎,包括21個語義域[2]。句法標注領域最為著名和成功實例是Stanford 大學自然語言處理實驗室開發的基于概率上下文無關文法的句法標注器Stanford Parser,可用其對語料庫進行句法樹庫標注。綜上所述,對語料庫進行更為細致的標注有利于全方位、多角度的研究語言和揭示語言的本質。
UAM Corpus Tool 是Mick O’Donnell 設計開發的一套基于XML的語料庫標注程序,集建庫、檢索和統計等多功能于一身?;赬ML的標注體系允許用戶按照研究內容自主設定標注集;原始語料庫和標注語料庫分離式存儲;標注方案采用Standoff XML的模式存儲,可跨庫用來標注其它語料庫;對同一語料庫可進行多維度、多重標注;其最大特色是內嵌了Stanford Parser 句法標注程序,可以對語料庫進行全自動的句法樹庫標注。Stanford Parser 可對漢語、英語、德語等多種語言進行句法樹狀結構標注,圖形用戶界面(GUI)便于標注操作和查看檢索。其運行環境是基于JAVA,用戶需要安裝JDK 運行平臺(Java Development Kit),以下是標注實例(圖1)。UAM 內置的句法標注模塊較之獨立的Stanford Parser的優勢在于:標注層級結構已經制定完畢,點擊標注按鈕,程序全自動完成整篇、甚至整個語料庫的句法標注;而獨立的句法標注程序只展示單句的樹狀結構,若要對整個語料庫進行標注,則需要用戶手動設置一系列輸入、輸出環節,進行簡單的編程操作才能完成。因此,UAM 內置的STNFDParse 更適合于普通用戶使用,操作更便捷、效率更高。

圖1 英語句法標注實例
本研究選取自建考研英語語料庫TEGC(Test of English for Graduate Candidates)中的閱讀部分為實驗語料,運用UAM內置的STNFDParse模塊對語篇進行句法標注。語料選取范圍是從1990-2009年近20年的閱讀考題,選取本部分試題的原因在于所有語料均為書面語,語域分布合理且沒有重復篇章。將TEGC語料庫導入UAM,點擊Add Layers,在Coding Object中選擇Automatic Grammar Analysis,軟件會自動添加已經設置好的STNFDParse 句法標注Scheme,點擊Incorporate All Files 自動標注所有文本(圖2)。

圖2 TEGC語料庫句法標注

圖3 未正確標注的句子
標注完成后對文本進行人工校驗,發現其中有多處未能正確標注的句子。X 是未成功標記的部分(圖3),現在對此類未能標注的句子和形符(token)進行統計,在Search 部分,編寫表達式“symbol containing anywhere x”提取未正確標注的形符6567個;提取以“句號結尾”未能標注的句子“x containing anywhere .”共144個,以驚嘆號和問號結尾的共2個,總共146個句子;經過人工校驗,保留133個確未正確標記句子,整體未標注率為11%。
通過對未能成功進行句法標注的133個句子做人工分析,結果發現這些句子的特點如下:1.句子超長且并列或平行結構較多;2.句子超長且無標點分割的復合長句;3.破折結構:經校驗發現,破折號常會引起錯誤標注;4.括號結構:句中帶有多個括號,結構復雜;5.句子超長,有多個形容詞性修飾語或介詞性短語且逗號較多;6.省略無主句經常引起錯誤標注。總體來說,句長、標點符號、非語言性符號、并列結構或省略等語法現象是引起句法標注出錯的高頻區域。由于此STNFDParse 是內嵌在UAM軟件中的模塊,因此,本研究分析展示的只針對本套程序,并不能直接說明斯坦福大學的獨立句法標注器Stanford parser的問題。
UAM Corpus Tool 集合了多種功能和語言學理念于一身,可用其可以進行句法、語域、語義等多維標注;它采用了XML的標注和建庫模式;整合了斯坦福大學的句法標注器;集成了對圖片進行標注的模塊。但同時本套軟件也存在相應問題,如:進程優化不夠合理,導致檢索速度過慢,容易卡死;整合的句法標注器經常出現某些句子無法標注的情況。本文基于實證研究,反應出的問題客觀翔實,希望能有助于作者完善本套程序。相信UAM 在進一步的優化、完善和集思廣益之后,能給語言學研究帶來更多驚喜。
[1]馮志偉.序言語料庫語言學的進展[Z].2009:d9.
[2]孫亞.基于語料庫工具Wmatrix的隱喻研究[J].外語教學2012,(3)