劉日升 黃紅梅
(大連外國語學院圖書館,遼寧 大連 116044)
網絡語料庫是網絡數據庫的一種,但由于其使用目的不同,網絡語料庫有其獨特的特點,表面上看,網絡語料庫存放的是在語言的實際使用中真實出現過的語言材料,但就其本質,網絡語料庫不僅存放原始的語料文本還有經過加工后帶有語言學信息標注的語料文本。
由于網絡語料庫是從傳統語料庫發展而來的,所以最初的網絡語料庫仍然保有傳統語料庫的特性,體現的一個重要特征就是在保有傳統語料庫內容的基礎上開發語料庫檢索工具,并提供網絡在線服務,用戶無需安裝任何軟件,只需要利用網絡就可以對語料庫進行遠程檢索,這種形式的語料庫稱為在線語料庫,為用戶提供了一個Web檢索平臺,使用戶盡快地了解和使用語料庫。因此在線語料庫是為已經建好的傳統語料庫提供在線檢索,這決定了在線語料庫的發展必然受制于傳統語料庫,因而在開放性上不夠完全。隨著網絡的開發和發展,網絡語料庫的發展方向逐漸轉變為以網絡文本為資源基礎、以網絡檢索軟件為技術手段的Web語料庫。Web語料庫區別于在線語料庫的重要特征是Web語料庫可以將整個網絡上能夠公開訪問到的文本資源作為語料資源,自動通過網絡協議將指定URL上定義的信息吸收過來,與本地的語料庫系統連接,實時聯機充實語料庫。[1]Web語料庫與在線語料庫一樣,可以通過在線檢索系統對網絡文本資源進行檢索,并以傳統語料庫檢索格式提供檢索結果。
網絡語料庫與傳統語料庫的最大區別在于網絡語料庫的開放性,網絡語料庫的優勢是綜合了語料庫技術、互聯網技術和計算機技術,將網絡共享、數字化、自動化等特征與語料庫對語料的量化分析研究綜合起來。[2]但從其本質上來說,網絡語料庫共享性特質集中體現在網絡語料庫所依托的網絡平臺,網絡自身就是一個規范的共享平臺,因此賦予了網絡語料庫共享的特性。網絡數據庫在線檢索平臺的開放性賦予了網絡語料庫共享的特性,此外,Web語料庫還由于其語料來源的開放性而呈現出共享的特性。[3]
語料庫研究近年來備受關注,見圖1和圖2,圖1是來自中國知網的學術趨勢圖,圖2是利用從中國知網中檢索到的數據(以題名為檢索途徑;以語料庫為檢索詞)繪出的語料庫研究趨勢圖。從圖1和圖2中可以看出,從2002年到2005年語料庫研究呈直線上升,從2005年至今,語料庫研究仍在呈上升趨勢,但比較穩定,這種研究現象揭示了從2002年到2005年理論界對語料庫還處于認識階段,而到了2005年以后才逐步深入地探討和研究語料庫。隨著語料庫研究的深入,語料庫共享逐漸受到關注,但研究的深度不夠。從知網中以語料庫和共享為關鍵詞統計得出,從2002年至今,對語料庫共享相關問題的研究只有4條,其中主要是以網絡語料庫為背景進行共享研究的,這說明網絡語料庫的共享已經得到關注,但仍然需要向縱深方向發展。

語料庫研究領域的另一大特色是以實踐來驅動理論研究,首先有了語料庫的原始形態,然后語料庫的各項功能和應用才得到了廣泛的理論研究,又由于研究的深入,越來越多的人需要了解和利用語料庫,但由于傳統語料庫受觀念、技術等因素影響,語料庫難以實現共享,因此近年來與語料庫共享的相關問題得到了廣泛的關注,如語料庫的規范研究,許多專業信息處理人員加入語料庫的規范研究中,從技術上為語料庫的共享打下了基礎。此外,網絡語料庫以其優越的開放性為語料庫研究引入了新的切入點,推動了語料庫共享的研究,使語料庫共享的理論研究成為語料庫研究熱點之一。
雖然目前語料庫的理論研究越來越受到關注,可以利用的語料庫也非常廣泛,但由于版權、資金等原因,大多數語料庫仍被少數人掌握,從而推動了語料庫共建共享的合作實踐,同時促進了網絡語料庫共享實踐的發展(見表1),出現多種實踐模式和運行機制。

表1 代表性網絡語料庫[4][5]

The Russian Reference Corpus(BOKR) 免費 http://bokrcorpora.narod.ru/index-en.html The CORIS corpus 免費 http://corpus.cilta.unibo.it:8080/CORISCorpQuery.html The Hellenic National Corpus 免費 http://hnc.ilsp.gr/find.asp The German National Corpus 免費 http://www.dwds.de/cgi-bin/rest/loginstart監測語料庫免費 http://www.harpercollins.co.uk/about-harpercollins/Imprints/collins/Pages/Collins.aspx The global English Monitor Corpus 免費 http://www.bham.ac.uk/The Bank of English共時語料庫the International Corpus of English(ICE) 會員 http://ice-corpora.net/ice/index.htm The CREA corpus of Spanish 免費 http://www.rae.es/rae.htm l Linguistic Variation in Chinese Speech Communities(LIVAC) 免費 http://www.rcl.cityu.edu.hk/歷時語料庫The Helsinki Corpus of English Texts 會員 http://ota.ahds.ac.uk/scripts/download.php?otaid=1477 The Lampeter Corpus of Early Modern English Tracts 會員 http://ota.ahds.ac.uk/headers/2400.xml The Dictionary of Old English Corpus in Electronic Form 付費 https://tir.doe.utoronto.ca/store/index.php?page=corpus Early English Books Online(EEBO) 付費 http://eebo.chadwyck.com/home The Corpus of Early English Correspondence 會員 http://ota.ahds.ac.uk/headers/2510.xml The Innsbruck Computer Archive of Machine-Readable English Texts付費 http://nora.hd.uib.no/icame.html口語語料庫The London-Lund Corpus(LLC) 付費 http://icame.uib.no/The Aix-MARSEC database 免費 http://www.lpl.univ-aix.fr/~EPGA/The Lancaster/IBM Spoken English Corpus 付費 http://icame.uib.no/The Bergen Corpus of London Teenage Language(COLT) 付費 www.hf.uib.no/i/Engelsk/COLT/The Longman Spoken American Corpus 內部 http://www.longman.com/dictionaries/corpus/lccont.htm l The Santa Barbara Corpus of Spoken American English(SBCSAE)會員 http://www.ldc.upenn.edu/The Saarbrücken Corpus of Spoken English 免費 http://www.talkbank.org/The Switchboard Corpus 會員 http://www.ldc.upenn.edu/TheWellington Corpus of Spoken New Zealand English(WSC) 付費 http://icame.uib.no/The Limerick corpus of Irish English(L-CIE) 付費 www.ul.ie/~lcie/homepage.htm學術及專業英語語料庫The Michigan Corpus of Academic Spoken English(MICASE) 免費 http://micase.elicorpora.info/The British Academic Spoken English(BASE)corpus 免費 http://www.reading.ac.uk/AcaDepts/ll/base_corpus/index.htm The Corpus of Professional Spoken American English(CPSAE) 付費 http://www.athel.com/cspa.htm l Corpus of Professional English(CPE) 會員 http://www.perc21.org/menu.htm l解析語料庫Parsed historical corpora 付費 http://www.ling.upenn.edu/hist-corpora/PPCME2-RELEASE-3/The Lancaster Parsed Corpus(LPC) 付費 http://icame.uib.no/The SUSANNE corpus 免費 http://www.grsampson.net/Resources.htm l
2.2.1 項目驅動式運行機制
項目驅動式的運行機制是由國家或組織設立專項研究,提供基金資助,建立網絡語料庫。項目驅動式運行機制是目前網絡語料庫共享的主流形式,在國內外都得到了廣泛的應用,如國外的英國國家語料庫(BNC)、美國國家語料庫(ANC)、柯林斯-伯明翰大學的國際語料庫(Cobuild)、美國當代英語語料庫(COCA);國內的中國英語教育語料庫(CEEC)、中國學習者英語語料庫(CLEC)、中國學習者英語口語語料庫(COLSEC)、中國英語學生口語語料庫(SWECC)等。
我國項目驅動式運行機制下的語料庫共享模式通常是以光盤的形式公開發行,提供有償共享,沒有提供免費的網絡版。而國外項目驅動式運行機制下的網絡語料庫采用的共享模式分為免費使用和會員制共享兩種模式。
免費使用共享模式下的網絡語料庫用戶可以通過網絡在線免費使用和檢索語料庫,使用的權限又分為限制性共享和無限制性共享。限制性共享模式通常采用網絡試用語料庫的形式,提供網絡語料庫的部分語料免費使用,有的語料庫對檢索平臺的功能也采用部分開放的形式。限制性共享模式的典型例證是Cobuild語料庫,這是網絡時代最早出現的大型語料庫,該語料庫的詞容量已達幾億條,但可在網絡直接檢索與試用的語料庫含詞只有4500萬條。其他例證參見表1。無限制性共享通常是國外國家級的語料庫,也有少數個人開發的,參見表1,無限制性共享語料庫免費向公眾開放,可以通過網絡免費下載,其中BNC號稱是目前網絡上直接免費使用的最大的語料庫。COAA是由個人開發的一個網絡免費語料庫,2008年2月才在網絡上正式推出。
會員制共享模式采用聯合式共建共享,在網絡語料庫的建設中所有會員都需要參與,同時參與的會員對語料庫享有免費使用的權力,并且只在會員內部實行共享。典型的例證是ICE語料庫和LDC語言數據聯合會的系列語料庫,訪問網址參見表1。ICE語料庫雖然是由個人主持開發的語料庫,但它匯集全球22個國家和地區的英語語料[4],可以進行跨國界、跨區域、跨文化的英語對比分析,為其共建成員提供了資源共享平臺。而LDC語言數據聯合會隸屬于美國賓夕法尼亞大學,有163個語料庫,實行會員制,采用合作的方式共建語料庫,因而對其成果實行會員共享制。[6]
2.2.2 商業營銷式運行機制
項目驅動式運行機制的許多網絡語料庫提供的是免費共享或要求用戶只需支付網絡服務費就可以在線研究,但商業營銷式運行機制是出于商業目的建立網絡語料庫的,這種共享模式是由專門的機構來負責語料庫的銷售,被稱為語料庫資源分銷商,這些專門的機構有真正商業意義的公司,但很多都是一些學術性機構,在國外這種模式很常見,比較知名的分銷商有 CSLU(Centre for Spoken Language Understanding)、ELRA (The European Language Resources Association)、ELSNET(European Network in Language and Speech)、The ENABLER(European National Activities for Basic Language Resources)、ICAME(International Computer Archive of Modern and Medieval English)、OTA(Oxford Text Archive)、The LDC(Linguistic Data Consortium)等[4]。商業營銷式運行機制下的網絡語料庫通常需要付費共享,網絡語料庫被作為產品出售或出售使用許可權,參見表1。但有的分銷商對非營利性個人學術研究為目的用戶通過在線注冊審核提供免費下載服務,而對出于商業目的而利用的用戶采用付費的有償共享模式,如OTA。
除了作為產品出售或出售使用許可權,商業營銷式運行機制下的網絡語料庫還有一種共享模式——交換。交換的形式一般是單位或個人建立的小型網絡語料庫之間采用的共享模式,擁有私人語料庫的語料研究者為了免費共享他人的語料庫研究成果而采用的一種折中方式。
從表1可以看出,網絡語料庫提供免費共享的主要是國家級綜合語料庫,而用于專業研究的專題語料庫的免費率只有39%,而高校教師用于教學和科研的是專題語料庫,因此網絡語料庫的共享實踐還需向縱深發展,從多處著眼,實現專題網絡語料庫的共享。
專題網絡語料庫大多是個人或語料庫分銷商制作的,搭建的平臺技術及人為的制約沒有采用統一的共享平臺,因而專題網絡語料庫的共享需要搭建一個充分開放的語料庫共享網絡平臺,實現現有專題網絡語料庫的整合管理與檢索利用,同時成為今后網絡語料庫共享平臺的規范。所以,共享的網絡語料庫平臺必須構建在標準化和規范化基礎之上,即語料的組織、整合、關聯、存儲、傳輸及檢索利用需要遵循國際統一的標準和規范。目前,已有許多網絡技術已能夠支持網絡語料庫共享的這一技術要求,如網格技術、P2P技術及Web服務。
網格技術與網絡語料庫共享的切合點是網格技術可以快速地將用戶需要的語料資源從不同的網絡語料庫中找出來并綜合在一起,并且,網格技術可以通過建立知識元結構,網絡利用知識元獨立性和鏈接方式將整個網絡語料庫立體分布在網格節點上,通過不同的結構鏈接方法對語料進行標引,將網絡語料庫中的隱性知識轉化為顯性知識。[7]
P2P技術與網絡語料庫共享模式優化的結合點主要體現在P2P技術具有文件共享、分布式搜索、分布式計算功能。P2P技術已經是一門很成熟的網絡技術,在流媒體、遠程教育系統開發與應用、教育資源開發與管理等網絡應用領域有很強的技術優勢,網絡語料庫可以借鑒這些網絡應用領域的成功案例實現專題網絡語料庫的分布式檢索和語料共享功能。[8]
Web服務技術在共享網絡語料庫的建設中已經得到了成功運用,運用的核心技術是XML“可擴展標記語言”,成為共享網絡語料庫通用的描述語言,解決了不同平臺之間數據結構/模式的差異,使得語料資源統一起來成為通用語言,專題網絡語料庫共享模式的優化仍需推進Web服務,要將所有操作和操作數據進行規范化描述,形成規范文檔的發布,以供共享用戶系統共同遵守。此外,Web服務具有開放性,在與其他Web服務進行交互時,與語言和系統平臺無關,因此通過Web服務實現專題網絡語料庫共享最經濟實用。[9]
專題網絡語料庫共享的制約因素除了網絡平臺,另一個重要因素是語料的版權問題[10],而系統開放式共享模式和運行機制將有效地解決這一制約因素。
系統開放式共享模式和運行機制是將整個系統中的資源作為語料來源,從而建立系統內共享模式。系統開放式共享模式及運行機制的這一開放理念與專題網絡語料庫用戶群的需求相契合。這是由于專題網絡語料庫的用戶主要是高等院校的科研人員,他們利用專題網絡語料庫進行教學和學術研究,而高等院校系統內的圖書館收藏了豐富的信息資源,這些信息資源種類繁多,學科體系完備,以多種載體形式存在(如多媒體、印刷型、數據庫等),為專題網絡語料庫的語料來源提供了有力的保障,并且各國版權法都在不同程度上賦予圖書館對信息資源“合理使用”的權利,因而建立高校系統開放式共享模式是切實可行的。
此外,系統開放式運行機制適用于合作單位具有一定的垂直隸屬關系、有穩定的政策和財力支持、適宜于解決全局的稀缺的高價的靠單個單位無法建設或購買的語料庫保障問題,而我國高等教育系統完全適合系統開放式運行機制的這一要求,能夠保障專題網絡語料庫在系統內統一建設,并能提供人員、資金、設施、技術保障,便于統一組織協調,最大限度地減少專題網絡語料庫的重復建設,大大提高語料庫的利用率。
高校系統在共享工程方面具有豐富的經驗,成功的典范是CALIS(中國高等教育文獻保障體系),而專題網絡語料庫可以借鑒CALIS的成功經驗,建立高等教育系統開放式共享模式,由資源收藏豐富、學科特色突出、技術和人才實力雄厚的單位作為中心單位,負責專題網絡語料庫的總體建設,而其他成員單位承擔共建共享的權利和義務,在免費利用專題網絡語料庫的同時,負責補充完善語料庫中的語料,將本單位有收藏但語料庫中沒有的語料進行上傳,并且上傳單位一定要具備上傳資格,這由系統的主管單位來認定,對上傳語料數據的單位給予一定的獎勵。系統開放式共享模式的特征是通過共享協作網絡,面向異地用戶,提供專題網絡語料庫及其檢索共享,這種模式采用集中的數字化語料系統和統一的利用平臺,實現資源集中、系統集中和管理集中。
系統開放式運行機制采用項目驅動的方式由系統主管單位撥出專項資金,并且專款專用,但系統開放式運行機制的項目驅動式與以往的項目驅動式的區別在于系統開放式運行機制以項目共建的形式由各個中心單位共同建設,在系統內進行分工協作,根據學科設置和研究需要制作各種專題網絡語料庫,但所有的專題網絡語料庫需要在系統規定的統一平臺上建設,以便系統內共享。
系統開放式共享模式及運行機制的核心思想是系統開放和系統內語料共建,以共建促進開放,以開放實現共享,尤其能夠推進創新型、成果型項目的共享。這是因為在初始的語料庫及其檢索系統完善之后就是對各個語料庫及統一的語料庫檢索系統進行深度知識挖掘與整序,會產生一系列創新型和成果型項目,如語料庫工具及文本分析軟件等,為語料庫的研究者提供新的視角和方法,這必將催生新觀點、新思維的語料庫語言學。
[1]俞倩蘭,溫曉行.Web語料庫建設初探[J].計算機工程,2001(5):178,188.
[2]邢富坤.Web語料庫及其特征初探——與傳統語料庫的對比研究[J].外語電化教學,2006(4):62-66.
[3]胡鳳國.基于Web檢索的語料庫資源共享——現狀和展望.第二屆全國學生計算語言學研討會論文集,2004.
[4] Well-known and influential corpora:A survey.http://www.lancs.ac.uk/postgrad/xiaoz/papers/corpus%20survey.htm#_T oc92298862.
[5] The International Corpus of English.http://ice-corpora.net/ice/index.htm.
[6] 俞倩蘭,王國新,鄒永林.基于Web的語料庫建設.常熟高專學報,2000(2):81-85.
[7] 李培峰,朱巧明,錢培德.基于Web的大規模語料庫構建方法.計算機工程,2008(4):41-43.
[8] 王春梅,張銀犬.基于P2P技術的個人數字圖書館資源共享策略.情報雜志,2008(4):125-127.
[9]袁泉.談web服務在數字圖書館信息資源共享中的應用.高校情報論壇,2007(3):30-33.
[10] 許智堅.談語料庫資源共享中的幾個核心問題.中北大學學報:社會科學版,2008(5):55-59