吳麗華
(信陽職業技術學院 應用外國語學院,河南 信陽 464000 )
語料庫的數據存儲、加工和管理功能以及其對語言研究的促進作用已在相關領域形成共識。Halliday[1]指出,“語料庫將語料收集、分析等與相關研究理論闡述直觀、有機地結合在一起,這使人們對語言的理解發生了深刻的質的變化”。隨著信息技術的快速發展,大型數據庫和語料庫日趨普及和成熟,語料庫已更多地運用到語言研究、教學及翻譯等領域。在大數據時代和互聯網+背景下,建設一個優質的教學型語料庫不僅可為醫學英語教學提供語料素材和數據分析,引導學生的學習興趣和提升他們的自主學習能力,還可為翻譯學、語言學等領域的研究提供較好的科研平臺和可持續性利用資源。
專門用途(ESP)語料庫是特定領域語言的反映,可廣泛應用于語言培訓、詞典編纂、機輔翻譯、課程教學等領域。Sinclair[2]曾指出,大型語料庫的建設已趨緩,建設規模較小且專業針對性更強的ESP語料庫將是語料庫建設的發展趨勢。國際上有代表性的ESP語料庫,主要有Hyland 創建的多學科學術期刊論文語料庫、歐洲議會平行語料庫(European Parliament Proceedings Parallel Corpus)等。由楊惠中和黃人杰于1983年主持建成的上海交大科技英語語料庫JDEST是國內建設的第一個學術英語語料庫。后來比較有影響力的是中國石油大學廣州分院的祝啟波所創建的石油英語語料庫(GPEC)。近十年以來,國內一些學科領域也相繼建設了專門用途英語語料庫,例如常熟理工學院漢英政治平行語料庫查詢系統 (Query System for Parallel Corpus of Political Texts, CSLG)、解放軍外語學院建立的軍事英語語料庫(Corpus of Military Texts)和新聞政論語體俄語語料庫、北京第二外國語學院開發研制的全國公示語翻譯語料庫(它主要由其公示語翻譯研究中心研制并負責維護)。
但迄今為止,國內有關醫學英語語料庫的建設及應用研究寥寥可數,能在線檢索的語料庫只有南方醫科大學外國語學院研制的“醫學英漢雙語平行語料庫”,該語料庫主要為廣大醫務工作者和科研人員提供英語醫學論文寫作和翻譯參考服務。通過國家圖書館檢索到的相關文獻較少,主要涉及醫學英語語料庫理論設想和意義研究等,如廣東醫學院張文青(2008)提出醫學英語寫作語料庫的構想,聞永毅(2003)和薛學彥(2004)提出建立中醫英語語料庫的設想,羅永勝(2012)和倪傳斌(2005)分別探討的是醫學英語語料庫和中醫英語語料庫的建庫原則。由此可見,醫學英語教學型語料庫建設嚴重滯后,在大數據時代和多元教學形勢下,建設醫學英語語料庫是醫學英語教學工作的必然趨勢。
“語料庫的建設之所以有這么迅猛的發展,正是歸因于其對于語言教學研究、翻譯研究、翻譯教學、翻譯技術開發(如機輔翻譯工具)、雙語詞典編纂等方面的顯著成就,它在翻譯學、教育學、語言學和自然語言處理等研究領域具有巨大的潛在應用價值”[3]。建立一個結構科學、設計合理的醫學英語教學型語料庫,可填補本領域教學型語料庫建設的空白,在醫學英語教學研究領域為教學、科研工作者提供一個跨學科的學術視野。醫學英語語料庫的設計和研制將涵蓋醫學、翻譯學、計算語言學、語料庫語言學、機器翻譯、詞典編輯學等多種學科領域,它不僅可以推動這些學科之間的交叉發展,而且對醫學英語學科建設具有示范引領作用。
醫學英語教學型語料庫可為醫學英語教學提供具有前瞻性的數據驅動型教學方法,即“利用語料庫生成索引(concordances)來幫助語言學習者發掘目標語型式(pattern)中的規律,并根據詞頻統計、排序等檢索結果為教學設計者提供豐富的學習活動和研制題庫等”[4]。在大數據環境下,將計算機網絡技術普及到各個不同的領域是大勢所趨,一個好的語料庫是一個可以反復利用的資源,它能夠滿足多種研究目的和教學實踐。設計一個科學的教學型語料庫,可為醫學英語教學工作提供可行的輔助手段,實現教學內容、教學技術現代化,教學效果測評科學化,為同一層次高等學校提供可借鑒的基于語料庫的醫學英語教學模式。縱觀目前的雙語語料庫建設,專門應用于教學的語料庫還相對缺乏,醫學英語語料庫的研制也可為其他領域的專門用途語料庫建設提供良好的范式和可持續性利用的資源。
3.1.1 專業性原則 教學型語料庫是一種專門語料庫,它不同于通用語料庫,基于醫學英語術語多、語體正式的特點,在選擇語料時應注重術語的專業性表達和翻譯,還應考慮所選語料的專業特點和難易程度。此外,所采集的語料是否具有語料樣本的代表性。鑒于語料庫的建成主要應用于醫學英語課堂教學過程的實際,主要是幫助教師和學生以所用教材為基礎更直觀有效地掌握醫學英語專業術語、理解基本句型結構和鞏固語法點,因此可選擇目前醫學英語教學中一些主流的、權威的系列教材作為其主要的語料來源。
鑒于醫學英語語言嚴謹、客觀、專業性強的特點,對于雙語語料的對齊、標注和檢索問題要納入標準,同時應考慮后期研究中的文本風格、語言對比、語言習慣、句法模式、詞性標注、標點符號的使用特征等問題??傊?,要重點建設專業性比較強、實用性較高的醫學英語教學型語料庫。
3.1.2 動態性原則 隨著醫學領域的國際交流與合作日益頻繁,醫療信息的動態性、時效性日益顯露,一些醫學新概念、新詞匯層出不窮,這使得醫學英語語料庫的建設必須注重時效性,做到與時俱進。對語料的更新、擴充、修訂以及后續新語料的標注就顯得尤為重要。醫學英語教學型語料庫的規模不一定要大,由于本領域中并無可共享的實際的專門用途語料庫,在規劃和創建教學型語料庫過程中應首先考慮其可持續性,即提高其長期使用價值。語料庫建成后,應隨著教材的變化而不斷擴充和變化,并進行定期管理和維護。
研制語料庫首先要明確建庫的目的,語料庫的使用者及覆蓋范圍決定著語料庫語料的選取。例如,語料庫語言學領域的專家——廣東外語外貿大學桂詩春教授和上海交通大學的楊惠中教授,在他們主持建設中國學習者英語語料庫(CLEC)時,就首先確立了該庫的建庫目的[5]:一是通過語料庫統計工具分析中國英語學習者在寫作中的常規錯誤和典型錯誤,為中國外語教學特別是英語寫作教學提供直觀的數據反饋和較為客觀的研究;二是將英語語言方面的學習者語料庫與國外的一些英語本族語的語料庫進行對比研究,給予宏觀的數據反饋。通常來講,語料庫的規模設計,只要條件允許,應該是越大越好,但教學型語料庫因自身各種條件和適用對象及學科的限制,通常難以達到較大規模。而且,就語料庫的特點而言,從未來發展趨勢來看,建立固定規模的語料庫并不會成為語料庫發展的客觀趨勢,因為語言本身就是動態發展的,每隔一段時期有新的語言現象出現,也有時興的語言結構或現象被淘汰,語料庫的語料也應當是動態的,是可以不斷變化或增容的。醫學領域的專業知識,如藥品研究、臨床試驗、治療方法、醫療器械、耗材等,其前沿性強,更新頻率高,醫學英語教學型語料庫主要在實際的課堂教學中應用,因此規模不宜過大,否則會影響教學效果和誤導學生的學習方向。本語料庫初期庫容暫定為20萬詞,對于常規的醫學英語課堂教學,該庫完全能夠提供充分的語料檢索資源。
語料庫的庫容或規模主要反映量的問題,而語料的來源及采集則是反映語料庫質的問題。對于語料來源,最重要的是保證語料的真實性。首先,要保證所選的語料是該領域中實際使用的文本,所選的語料不是建庫人杜撰的;其次,所選取的語料要符合建庫預期設定的條件。例如要建立的是教學型語料庫,其中一個功能就是分析學生實際的醫學英語知識的掌握能力,選取學生作業作為其中一部分語料時,就要甄別這些作業里有沒有學生自己抄襲或使用機器翻譯的現象。
醫學英語語料的采集首先應選自高校中主流的醫學英語教材、權威的出版物或官方網站文本,如我國衛生部或美國食品藥品管理局的中英文網站。其次,如上面提及的,學生的作業也是語料庫的重要來源。學生是語言教學的重要對象,因此,收集學生的作業等文本作為大量的原始語料,能更客觀、更快捷地了解自己的學生對于語言運用的習慣、特征和掌握程度。這樣就可以制定更為詳盡的教學計劃,也可以為教學研究帶來更切實的實例和數據統計。
3.3.1 語料錄入 錄入語料時,在語料的抽樣范圍以及語料的體裁覆蓋方面,建庫者要盡可能多地保持平衡性,竭盡全力追求語料的代表性,“要讓有限的文本語料盡可能多地反映無限的真實語言現象的特征”[6]。醫學英語語料庫的語料來源形式大體上可以分四種:紙質版(選擇性較少)、電子版(Text文本)、網頁(HTML文本)以及一些醫學權威機構的字幕文件(subtitle file)。與傳統的語料錄入工作相比較,充足的網絡資源和計算機軟件使得語料庫語料的獲取變得方便快捷,例如光盤資料、在線語料資源、互聯網資源等,建庫者也可選擇制作電子文本或利用現有的電子文本。目前語料庫所需電子文本制作的主要方式為光電掃描輸入(OCR技術)、人工鍵盤輸入及手寫筆輸入。
3.3.2 語料校對 由于醫學類語料的特殊性,在語料錄入完畢后應及時進行機輔自動校對和人工校對,嚴防專業性錯誤。校對人員對專業術語或概念性表述,應認真核對、嚴格把關,謹防出現對病人治療或健康會造成潛在危害的致命性錯誤。為提高效率,語料庫的校對環節建議人工校對和自動校對并重。自動校對建議使用黑馬自動校對軟件,可精確校對專業性術語、縮寫、中英文拼寫、標點、數字、重句、異形詞等各種類型的錯誤。
3.3.3 語料的加工與存儲 語料的加工就是對原始語料即生語料進行標注,利用語料庫相關功能及詞性標注軟件等將各種表示語言特征的賦碼標注在對應的語言成分上,如單詞的語義、詞性、時態、搭配等。由于教學型語料庫主要應用于教學過程和教學研究,詞性標注是重點,這有利于詞匯、術語、語法和句型的講授。語料庫的對齊方式為句級對齊,對語料實行分詞和自動詞性標注,也可根據實際需要對語料進行術語及句型自動標注。
在本語料庫中,英語文本的詞性標注(POS Tagging)將采用Lancaster University Claws工具進行,應用的是C7標記符集。使用中科院的漢語詞法分析系統(ICTCLAS)對中文語料進行分詞及詞性標注,由于漢語詞性標注軟件存在一定的錯誤率,為保證標注的準確性,研究人員將進行人工糾錯。在存貯方面,“將元信息與文本分別獨立保存,就是使元信息脫離該文本本身,對文本內語言信息的快速檢索就會更快捷”[7]。
醫學英語語料庫的在線檢索平臺應既有單機平臺的功能,也具備機器翻譯輔助功能??山Y合語料庫檢索軟件ANTCONC、Wordsmith Tools、Paraconc 或Multiconcord以及翻譯記憶交換文件(tmx)生成和解析系統。常見索引工具的基本功能包括關鍵詞索引與排序、詞頻統計、詞表生成、主題詞提取和搭配詞統計,語篇方面有語篇統計、詞叢統計、詞語型式統計以及詞圖統計等[8]。
醫學術語是醫學英語教學及教材編纂中的關鍵和難點,在語料庫的研制階段,應將術語庫的自動生成作為主要技術目標之一[9]。這一點可借鑒機器輔助翻譯軟件Trados或在線輔助翻譯系統MemoQ的術語庫創建和生成步驟,將對齊后的雙語文本導入數據庫,可自動生成外交平行語料庫的術語庫,在術語庫中進行檢索時,可以針對英漢兩種語言的術語進行檢索。
語料庫一旦建成后,應該對其進行日常的管理與維護甚至升級。日常管理包括確保友好的用戶界面、保證數據的準確性及權威性,并保證檢索速度等。維護的主要內容包括語料的平衡比例、語料的更新、語料庫測試等。
常見的教學型語料庫在語言課堂教學中主要應用于詞匯教學、閱讀分析教學、語法教學和文體學教學,其涉及到的教學法包括以詞匯為中心的教學法、數據驅動型教學法和任務驅動型教學法等。掌握醫學英語的關鍵就是醫學詞匯和術語,語料庫則為詞匯教學打開一條切實有效的通道[10]:首先,針對醫學英語眾多的專業術語,語料庫可提供準確高效的詞頻信息。高頻詞在前后語境中聚焦顯現,學生可獲得對所學術語的較高關注度,而教師講解時也可重點針對。其次,語料庫可提供任一單詞或術語的前后語境信息,獲取大量語言事實,彌補教師憑個人知識和主觀講解的不足,可營造真實、專業的語言環境,短時間內讓學習者獲取所學詞匯的所有語境信息。此外,基于語料庫設計的各種練習和高頻詞術語表可以幫助學生提升自主學習能力及相互合作的意識。
語料庫的發展和應用越來越普遍,通過運用語料庫進行的一些教材對比研究表明,許多的外語教材甚至是主流教材有明顯不足之處,尤其針對教學對象來說,教材編寫中的編撰人的主觀性逐漸受到質疑。國外已有學者利用語料庫對某些領域的外語教材進行了對比性研究,通過語料庫反饋的數據來檢驗這些教材的內容是否符合真實的或實際的語言面貌。他們的研究表明,不運用實證方法編寫的教材會對語言學習者起誤導作用,例如教材編寫中運用語料庫就能使實際語言環境中最常用的語言結構相比于不常用的語言(句子)結構得到更多的重視。語料庫在醫學英語教材編寫中可有如下應用[11]:一是對于教材的編纂,語料庫是其所需文本的重要語料來源。語料庫可對真實語料進行系統分析,在很大程度上,可降低日常外語教學的盲目性,這對教材編撰者來說尤其重要。二是通過系統量化分析可確定教材的難易程度,包括統計某些詞在一個語篇中的分布情況及出現頻率,就可以客觀判斷該語篇的體裁和難度,使編撰者對于取舍有了量化標準。三是通過檢索軟件的詞頻統計功能,確定所編章節的重要詞匯,合理安排每個章節的教學內容。根據語料庫中的詞頻順序確定高頻詞語及其相關搭配詞,這有助于確定外語教學的重心、宏觀方向和先后順序。
借助醫學英語語料庫進行醫學英語翻譯研究及提高醫學英語教學效果和教材編寫質量,成為醫學英語教學改革所要研究的課題之一,但目前在這方面的研究和實際的投入、建設等還相對空白,而諸如美國、日本等國在教學領域已開始探索多模態語料庫建設,即除了創建傳統的文字數據庫外,還要創建有聲數據庫、圖像數據庫,由此可見,探索和構建優質的語料庫任重而道遠。此外,語料庫資源共享困難重重。就語料庫的動態性和專業性而言,一個語料庫的價值與其被使用的范圍和程度應當成正比關系??v觀國內,能夠提供在線索引的語料庫非常有限,不排除有很多已被研究者建成的小型或專門用途語料庫,但絕大多數或在小范圍的語料庫研究者中使用,或研究完畢后束之高閣[12]。語料庫所具備的動態特征決定了它的不足之處只有在大范圍的使用中才會被發現,進而得以改進和提升。針對醫學英語語料庫建設,不管是教學型還是語言研究型,都離不開各個部門、各個專業之間的溝通和合作,以避免人力浪費和重復建設。學科之間的通力合作不僅能拓寬研究思路、提高研究質量,也可推進大數據時代下各高校學科建設和多元化教學與研究。