

摘要:我國的英語語料庫建設在進入21世紀后發展迅猛,建成了很多大型的英語語料庫。筆者調查發現,這些語料庫并沒有被廣泛使用,版權保護法律體系的不完善和語料庫公眾共享的困難是主要原因。因此,構建由《著作權法》《反不正當競爭法》及其他特殊的法律保護措施組成的多重法律體系,勢在必行,只有這樣才能更好地為語料庫版權提供保護,并為公眾合法使用語料庫提供法律保障。
關鍵詞:英語語料庫 版權保護 數據庫 知識產權
語料庫巨大的應用空間和潛力使得語料庫語言學的研究方法是當代語言學的主流范式之一,它被廣泛應用于語言研究和教材及詞典編寫等應用領域。從20世紀末到現在的這十幾年中,我國建設了為數眾多的大型英語語料庫、一批小型自建語料庫以及大量在線電子語料庫和通過各種網絡傳播的網絡語料庫。這些語料庫是否很好地服務了我國的英語研究和英語教學活動的開展,語料庫的版權保護和公眾的共享使用是否達到了平衡等問題值得深入研究,本文從我國英語語料庫版權保護這一法學研究視角來探討這一問題。
一、我國英語語料庫的現狀
肯尼迪在《語料庫語言學入門》一書中把語料庫定義為“書面文本或轉寫成書面文本的口語材料的集合,用作語言分析和描寫的基礎”。[1]楊惠中教授主編的《語料庫語言學導論》中把語料庫定義為“按照一定的語言學規則,運用隨機抽樣方法,收集自然出現的連續的語言運用文本或話語片斷而建成的具有一定容量的大型電子文庫”。[2]從這兩個定義可以看出,語料庫從本質上而言是一種用于語言研究的特別的電子數據庫。最早的語料庫可追溯到18世紀,是西方為編撰詞典而采用手工方式收集的反映真實語言使用的文本,收集方式費時低效,發展緩慢,不成規模。直到20世紀50年代后期,在計算機技術的推動下,語料庫才逐漸發展起來。
20世紀80年代,語言學研究范式的轉變及微型計算機技術的飛速發展使得語料庫的建設出現了空前繁榮的局面。在國外,多個大型語料庫建設成功,如LOB、BCET、赫爾辛基歷史英語語料庫、BNC、BoE等大型語料庫的建立和不斷擴容;在國內,1986年我國第一個科技英語計算機語料庫JDEST建成。隨著1999年大學英語學習者語料庫的建成,中國有了第一個收集本國人英語學習材料的語料庫CLEC。該庫不斷擴容,收集了不同層次的中國英語學習者語料并由桂詩春和楊惠中于2003年編著出版,書名為《中國學習者英語語料庫》。此后,中國出現了其他類型的學習者英語語料庫,如收集英語專業學生作文和口試轉寫語料的中國學生英語口筆語語料庫SWECCL1.0版和SWECCL2.0版;2008年建成的收錄英語專業寫作和翻譯文本的英語專業語料庫CEM,以及收錄英語專業學生口筆譯翻譯文本的中國大學生英漢漢英口筆譯語料庫PACCEL。這些語料庫具體信息可見下表1。
此外,還有一些新建的語料庫如公共英語等級考試口語語料庫SECOPETS、中國英語學習者縱深口語語料庫LSECCL和大學英語教材語料庫COLEN等較大型英語語料庫。這些語料庫被廣泛應用于英語教學和研究領域,在外語教學、教材編寫、詞典編撰等領域發揮了重要作用。
二、我國語料庫版權保護的現狀
1. 版權保護和公眾使用的矛盾。為探討英語語料庫在研究中的應用,筆者分析了2001~2010年10年期間21篇發表于《外語教學與研究》、18篇于《外語界》和19篇于《現代外語》的運用英語語料庫來進行相關研究的文章后發現,基于表1中這些大規模語料庫的研究相對較少,這些大型語料庫的價值未能得到充分發揮。詳見表2。
從表2可見,表1中列出的另外三類語料庫CEM、PACCEL和SWECCL 2.0并沒有被用于研究。基于另外三個語料庫的研究型文章共有33篇,占文章總數的57%,語料庫的使用頻次依次為CLEC、SWECCL 1.0和COLSEC。被分析的58篇文章中有17%的文章基于自建的語料庫,可見根據教學和研究所需自建語料庫有一定的應用價值。剩下26%多為介紹型文章。筆者認為,大型語料庫的應用并不廣泛的主要原因,是沒有妥善地解決好版權保護和公眾使用最大化兩者之間的矛盾。因為“數據庫自身的特性決定了對數據庫的保護總是伴隨著利益的沖突。對于數據庫權利人而言,其希望數據庫得到盡量周全的保護,而對于數據庫使用者而言,則要求盡可能賦予數據庫較少的權利保護,以避免信息壟斷現象的發生。這兩種要求針鋒相對,在不同時期往往處于此消彼長的狀態”。[3]為使語料庫能夠更好地用于研究領域,就須平衡好版權保護和公眾使用兩者之間的關系。
2. 版權保護和語料庫的“原創性”。為保障語料庫的健康快速發展,妥善解決版權保護問題至關重要。在我國,《著作權法》是保護版權的主要法律形式,然而在我國2001年修正的最新《著作權法》中并沒有對語料庫或者數據庫給出明確的定義,也沒有把它們納入受保護的產品之列。參照日本和歐盟的法律定義:數據庫是“一種利用電子手段組織、存儲和檢索的作品或資料集合,以及數據庫操作所必需的電子資料,如它的詞表、索引和供獲取與顯示信息用的系統”[4]。很顯然,語料庫符合這一定義,它是一種為滿足語言研究的目的按照一定的原則收集語言材料,便于計算機存儲和檢索分析的特別的數據庫。對于數據庫的知識產權保護,《與貿易有關的知識產權協議》第10條第2款規定:“數據或其他材料的匯編,無論采用機器可讀形式還是其他形式,只要其內容的選擇或安排構成智力創作,即應予以保護。這類不延及數據或材料本身的保護,不得損害數據或材料本身已有的版權。”《世界知識產權組織版權條約》第5條也有類似規定,它被認為是具有數據庫保護宣言性質的條款。[5]“原創性”原則強調選材和綜合編排方面的創造性,認為只有在信息的選材和編排上有特色的數據庫才具有原創性。[6]可見,數據庫或語料庫是否屬于“智力創作”,其匯編是否具有“原創性”是數據庫獲得知識產權保護的基本要求。
我國《著作權法》中和數據庫或者語料庫保護有關的條目有第12條:“改編、翻譯、注釋、整理已有作品而產生的作品,其著作權由改編、翻譯、注釋、整理人享有,但行使著作權時不得侵犯原作品的著作權。”第14條:“匯編若干作品、作品的片段或者不構成作品的數據或者其他材料,對其內容的選擇或者編排體現獨創性的作品,為匯編作品,其著作權由匯編人享有,但行使著作權時,不得侵犯原作品的著作權。”可以認為,這兩項條款將由版權材料、非版權材料或數據匯編而成的數據庫納入版權保護范圍。條款中并沒有像國際上相關法律那樣,把數據庫作為匯編作品的“智力創作”特性和“原創性”作為版權保護的要件之一。而事實上數據庫的開發人員往往只會使用幾種技術建構數據庫,而不愿費時費力去使用創新性的編排方式,因此很多數據庫逐漸喪失了在編排方面的獨創性。
對于英語語料庫的建設更是如此,目前我國大型英語語料庫包含兩種:由文本文件構成的生語料庫和在語料文本中加入標注信息的符碼語料庫。符碼主要有四類:詞性符碼標注(如SWECCL)、語言錯誤標注(如CLEC和CEM)、雙語對齊(如PACCEL)和口語信息標注(如COLSEC)。其中,詞性符碼標注在國際上最為常見,借助詞性符碼商業軟件CLAWs和北京外國語大學開發的綠色軟件TreeTagger或Stanford POS Tagger1.1.2都能做到詞性自動標注,準確率可達97%以上,另外三類標注方式各語料庫間也基本保持一致。另外,這些語料庫的分析工具隨書附上,包括需商業購買的軟件(如CEM語料庫中的WordSmith軟件)、免費綠色分析軟件(如SWECCL中的AntConc)和少許在通用軟件的基礎上自行開發的軟件(如SWECCL中的Colligator和PatCount)。在一定程度上,這些語料庫并不具備很高的“智力創作”特性和“獨創性”。因此對于語料庫的版權保護,一方面要利用著作權法的相關條款,另一方面也需制訂具體界定語料庫建設中“智力創作”特性和“獨創性”的衡量標準,作為版權保護的要件。
三、版權的其他保護模式
由于語料庫是一種特許類型的數據庫,避免不了數據庫自身的一些矛盾和沖突,主要表現是版權保護和公眾使用的矛盾及版權保護的“獨創性”要求的界定,所以僅依靠《著作權法》來保護語料庫的知識產權,存在制度上的先天缺陷。需借助多重保護體系才能更好地對語料庫妥適保護。
1. 《反不正當競爭法》的保護模式。從文章第一部分可知,我國很多大型的英語語料庫的建設最終都將成果編輯成書籍的形式公開出版和發行,隨書附上電子光盤,內含電子語料庫和分析軟件。這便使得語料庫這一編輯作品進入市場競爭之中,從而為調整和規范市場競爭行為的《反不正當競爭法》用于語料庫的版權保護提供了應用基礎。
我國《反不正當競爭法》中并沒有界定針對語料庫或其他類型的數據庫的具體不正當競爭行為類型,因此只能通過該法第二章“不正當競爭行為”中第10條所界定的“對商業秘密的侵犯”來對語料庫或其他類型的數據庫加以保護。該法界定的三種侵犯類型包括:1. 以盜竊、利誘、脅迫或者其他不正當手段獲取權利人的商業秘密;2. 披露、使用或者允許他人使用以前項手段獲取的權利人的商業秘密;3. 違反約定或者違反權利人有關保守商業秘密的要求,披露、使用或者允許他人使用其所掌握的商業秘密。
該法界定的“商業秘密”是指不為公眾所知悉、能為權利人帶來經濟利益、具有實用性并經權利人采取保密措施的技術信息和經營信息。由于語料庫的主要功能之一便是用于語言研究,研究的成果很多時候是學術性的期刊論文,這點是《著作權法》所允許的對于知識產品的正常使用。《著作權法》第22條第6款規定:“為學校課堂教學或者科學研究,翻譯或者少量復制已經發表的作品,供教學或者科研人員使用,但不得出版發行。”但除研究性的學術論文外,研究成果還可能具有很大的商業價值,如基于語料庫編寫的教材和詞典等等。如果是沒有獲得語料庫的權利人或者建庫者授權的出版機構的授權就把基于該語料庫研究的成果用于商業出版,顯然不僅違背了上述《著作權法》,也侵犯了《反不正當競爭法》中界定的商業秘密。此外,《反不正當競爭法》第三章“監督檢查”和第四章“法律責任”中的很多條款,同樣適用于對于語料庫或其他數據庫保護的監督和界定語料庫使用的法律責任。因此可以說,“版權法與競爭法分別從不同角度為數據庫提供了不同程度的保護,競爭法保護方式較諸版權法來說更為方便,且范圍更廣”。[7]
2. 特許保護模式。如上文所述,我國的《著作權法》和《反不正當競爭法》中并沒有界定語料庫或者數據庫的內涵,也沒有將其列入被保護的產品之列,對于語料庫的版權保護只能依據其中的某些關聯的條款,這種情況給語料庫及數據庫的知識產權保護帶來了一定障礙。林立等認為數據庫涉及的知識產權所有人是大量的,這一特點決定了關于數據庫的知識產權的立法有一定的難度,因為不經過原出版者和原作者的同意將他們的知識產品匯集在一起,制作成數據庫,顯然是違反著作權法的基本精神的;而要取得他們的同意并支付報酬,數據庫制作商難以辦到。因此須注意以下三個方面才能規范立法:堅持版權保護的基本原則、正視收錄作品所有人是大量的,無法逐一獲得授權的現實、充分考慮我國現行法律不完善的事實。[8]
鑒于對這些問題的考慮,學界建議參考歐盟數據庫保護指令、世界產權組織數據庫條約的建議和美國數據庫保護提案中提出的對數據庫的特殊保護原則來保護我國語料庫或數據庫建設者的合法權益,主要從“實質性投入”和數據庫“內容保護”兩方面對數據庫進行強保護,并賦予其“摘錄權”和“再利用權”。參照這些規定,我國英語語料庫的“實質性投入保護”要求被保護的語料庫的庫容、語料的選擇、語料樣本的代表性、語料標注和加工的深度等,須體現實際的人力、智力、物力和財力的投入。只有這樣才具備實質投資的性質,才能賦予其超出版權保護“獨創性”要件之外的特殊保護;國外相關法案中的“內容保護”是出于對電子數據庫容易拷貝復制以及一些數據庫軟件的廣泛普及的角度考慮,從數據庫的內容上去保護數據庫,這一原則對于保護我國的英語語料庫同樣適用。我國很多大型的英語語料庫的預料采集、標注方法或者分析軟件大多類似,基本提供電子版的形式,易于拷貝復制,因此從語料庫的內容及特別的標注體系或者研究視角這些內容品質方面對語料庫加以保護能夠很好地保護語料庫的本質性內容;國外法案規定數據庫的“摘錄權”和“再利用權”可供合法者私人使用、非商業使用或者公益使用,但“重復性和系統性地摘錄、再利用數據庫內容非實質部分,可能與數據庫的正常利用相沖突,或者不合理地損害數據庫制作者的合法利益的情形,會被禁止”。[9]這點同樣適用于我國語料庫的特殊保護。
借鑒國外法律法規勾勒的數據庫特殊保護模式,了解國際上知識產權發展的趨勢,對于當前我國英語語料庫及其他數據庫的保護和立法具有重要意義。參照這些法律法規,采用《著作權法》等知識產權法律體系和特殊保護相結合的模式能夠更好地保護我國英語語料庫和其他類型數據庫的知識產權。
結 語
21世紀計算機和語料庫技術的發展使得語料庫的方法成為語言研究的主流。中國著名的計算語言學家馮志偉教授在為Hunston的《應用語言學中的語料庫》一書撰寫導讀時就作了生動的比喻來彰顯語料庫方法的重要性。“語言學家利用語料庫來研究語言學,正如天文學家利用望遠鏡來研究天文學,生物學家利用顯微鏡來研究生物學一樣,能夠使他們如虎添翼,其意義是非常重大的。”[10]而在我國,英語語料庫的版權保護制度的不完善和共享困難制約了其在語言研究中的廣泛應用,因此利用現行的《著作權法》中的相關條款對語料庫的版權實施保護勢在必行;與此同時,考慮到語料庫自身的特性及版權保護要件的制約性,借用《反不正當競爭法》和參照歐盟及美國對于數據庫的“特殊保護”措施來制定適合中國實際情況的語料庫特殊保護法律法規,形成多重的法律體系來保護語料庫的知識產權顯得尤為適用和迫切。
此外,和我國語料庫保護有關的以下問題也值得討論和應對。其一,我國英語語料庫中的語料大多是學生在英語考試或者平時的作文及口語考試的會話轉寫語料,這些語料的本身是否屬于受著作權法保護的產品?在采集語料時是否應該征得學生的同意、簽訂合同明確權利義務關系、向學生支付一定的報酬?雖然語料庫主要是為研究語言服務的,屬于公益事業,但它在編寫教材或者詞典等方面具有潛在的商業價值,因此語料本身的版權似乎應該受到保護;其二,基于語料庫衍生的產品的版權應作為獨立的產品尋求版權法的保護,還是應作為語料庫的附屬品來尋求知識產權保護,值得研究和論證,因為作為獨立的產品可能更便于操作,如對于教材或者詞典的版權保護各國都有成熟的規范,但作為獨立產品其商業價值勢必影響語料庫建設者本身的權利;其三,從文章第一部分可見,我國現有的英語語料庫存在重復建設和利用率低下的情況,既然認定“獨創性”是語料庫獲得版權保護的前提,那么在審批語料庫建設項目申請時應把“獨創性”作為項目立項的依據之一。最后,應建立國家級層面的語料庫共享體系,這樣既克服了語料庫共享的潛在版權侵犯的風險,也避免了重復建設、對語料的挖掘不夠深入的弊端,為語料庫更好地服務語言研究和英語教學提供切實的保障。
參考文獻:
[1] Kennedy, G. An Introduction to Corpus Linguistics [M]. London: Longman.2000.
[2] 楊惠中.語料庫語言學導論[M].上海: 上海外語教育出版社,2002.
[3] [5] [7] 于海防,姜灃格.數據庫的法律保護體系分析[J].當代法學, 2007(2):84-90.
[4] 項艷.數據庫的知識產權保護問題[J].情報理論與實踐,1997(6):349-351.
[6] 丁衛.關于數據庫產品的版權保護問題[J].北京大學學報,1993(4):100-110.
[8] 林生.中國數據庫產業知識產權的立法勢在必行[J].圖書情報工作,2002(12):39-41.
[9] 沈麗紅.談談數據庫的法律保護[J].圖書館工作與研究,2003(6):52-53.
[10] 馮志偉.導讀[M]//Hunston, S.應用語言學中的語料庫.北京:世界圖書出版公司,2006.
(作者單位:淮南師范學院政法系)