姜雨孜+聶文信

【摘要】筆者以醫學英語學習者為主要服務設計對象,以醫學內科界的權威書籍Cecil Textbook of Medicine為語料庫,以自主開發的詞頻統計軟件獲取的單詞詞頻為依據,參考了GSL&AWL詞匯表,構建了兩個醫學英語詞匯表,分別是General Word List of Internal Medicine和Internal Medicine Terminology List,旨在提高醫學英語學習者單詞記憶有效性,也為醫學英語的教材編寫、教學大綱的確定以及在此基礎上衍生的醫學英語學習者語料庫的完善和計算機輔助教學的展開提供一定的學術參考。
【關鍵詞】醫學英語Cecil Textbook of Medicine語料庫語言學詞頻GSL&AWL
基金項目:西安思源學院2016年橫向課題“基于Cecil Textbook of Medicine的醫學英語詞表構建”。
引言
隨著20世紀80年代開始大規模計算機語料庫的陸續創建和數據驅動的語言學研究方法的普及,研究者們得以通過定量的方法對詞匯進行更客觀準確的統計。將詞匯按照使用頻次來劃分,成為語料庫方法下詞匯研究的重要成果,對于外語教學也具有重要的指導意義[1]。醫學英語具有詞匯量大、結構復雜、專業性強、難以記憶等特點,而通過詞頻統計篩選出高頻醫學詞匯,可以從一定程度上解決醫學英語詞匯習得中的這一瓶頸問題。
理論回顧
1.Cecil Textbook of Medicine
Cecil Textbook of Medicine由J. Claude Bennett, M.D.和Fred Plum, M.D.編纂,是集合各方面專家共同執筆的、世界上最具權威的醫學內科學寶典。基于以下3方面原因該書被選為本文語料庫:
第一,經典著作,確保語料庫的可信性。Cecil Textbook of Medicine自1927年出版以來,再版22次,獲得醫學界專家一致的好評,擁有數萬擁躉。它清晰的寫作和權威的疾病論述使得成千上萬的讀者自動地視其為首選參考書。
第二,完整涵蓋內科學,確保語料庫的完整性。全書共包括2,132,382個字,共計28個單元、448章。每章都詳細闡述了一種或一類疾病從發病機理到臨床及愈后的各環節,強調病理個生理機制。因此,通過學習該書,讀者可以系統、深刻地認識整個內科學[2]。
第三,電子版本確保語料庫的可操作性。第22版的《西塞爾內科學》隨書贈送光盤,有利于詞頻統計軟件進行詞頻分析統計。
2.詞頻和詞頻統計軟件
詞頻影響著語言從輸入到輸出的轉化,影響著語言加工的熟練程度和流利性。隨著計算機技術、語料庫以及語料庫語言學的發展,對詞頻作用的研究也成為語言學及語言教學的一個研究熱點。而跟詞頻密切相關的就是語料庫和語料庫語言學。詞頻統計的發展伴隨著語料庫的發展,許多語料庫也提供相應的詞頻統計表;反之,詞頻統計也為語料庫的建立提供了重要、有價值的信息和線索。
詞頻統計是詞匯分級和篩選的重要依據,在教學大綱設計、教材編寫、語言測試、語言習得等方面都有廣泛的應用。根據詞頻統計的結果,分析、整理得出的詞匯表是非常有價值的。根據詞頻,哪些單詞是重點,學習者一目了然,從而學習和積累針對個體差異的積極詞匯和認知詞匯。而醫學英語作為專門用途英語ESP(English for Special Purpose),更是需要詞頻來指導學習者進行語言習得。隨著計算機的迅猛發展,越來越多的詞頻統計軟件被開發和應用。此次,作者專門根據課題的需要開發設計了一個詞頻統計軟件。
3.GSL&AWL詞匯表
高頻詞匯涵蓋口語及各類書面語中的大部分常用詞匯,最具代表性的是由West(1953)提出的一般用途英語詞匯表GSL(General Service List),其中包含英語中最為常用的2000個詞組,覆蓋了英語口語中大約90%~95%的詞匯和書面語中80%~85%的用詞,可滿足日常一般用途英語的使用需要[3]。此論文中采用的是1995年由John Bauman and Brent Culligan創立的詞表。此詞匯表不僅包括1953年構建的GWL詞表最初收錄的2000個中心詞,還增加了在Brown Corpus出現頻率較高的284個中心詞。
AWL是Academic Word List的縮寫,即英語學術詞匯表,由Averil Coxhead在新西蘭惠靈頓維多利亞大學創建。該表包括了570個詞組(head word),涵蓋除GSL以外學術語篇中出現的約10%的詞匯。且按照使用頻率劃分為10個子詞表,其中一個子列表則包含詞頻最低的學術詞匯[4]。AWL以大量真實的學術英語語料為基礎,采用了合理的建構方法,不僅科學地指出ESP即學術英語教學中哪些詞匯應該被包含在學習材料中,同時,AWL子表的編排也為ESP教材的編寫和詞匯教學的順序提供了一定依據。這也是本文選用AWL作為甄選比對單詞覆蓋率詞表的原因所在。
詞表建構
在詞頻統計中,專業學術英語詞匯選擇通常遵循兩個主要標準,即范圍和頻率。在AWL的編制過程中,最終進入詞表的詞匯不應包含GSL,但能夠覆蓋建庫28個學科中一半以上學科語料,即保證入選詞匯使用范圍的廣度。入選詞匯還應達到一定的使用頻率要求。在AWL所建3,500,000個詞的學術英語語料庫中,最終統計生成的學術英語詞匯在語料庫中的使用頻率至少應達到100次以上,而高頻學術詞匯的使用頻率可達數千次。所以,在自建專業學術英語語料庫基礎上進行詞頻統計時,建庫者可根據實際需要來設定詞匯篩選統計的范圍和頻率標準[5]。因此,單詞甄選基于以下3個基本原則:第一,根據詞頻,高頻詞入選詞表。第二,根據詞表的大小。第三,根據對象。Cecil Textbook of Medicine的主要讀者是醫生、醫學從業者、醫學院高年級學生、研究生等。他們本身已經掌握了一些GSL詞表中高頻單詞,所以有必要將這些單詞過濾出詞表。具體分為以下6個步驟。endprint
根據詞頻統計結果共有34,955個單詞出現在Cecil Text-book of Medicine。基于詞表的詞匯量以及隨后自建小型醫學英語學習者語料庫的容量,筆者從這34,955個單詞中選取了大約8,000個單詞。根據詞頻統計結果,單詞出現的最高詞頻105,139次,而最低的詞頻是1次。有必要截取過濾掉這一部分功能詞。下表展示了一部分截取過濾的功能詞信息:
通過截詞將GSL詞表收錄的單詞部分過濾出去,將剩余單詞同AWL詞表進行比對、分析、計算覆蓋率等。
仿照antconc軟件的詞形還原功能,人工將詞表中單詞的不同變化形式進行歸類、合并,組成一個單詞,找出主詞(headword),進一步確認其屈折變化以及派生變化。
Coxhead & Nation(2001)將英語詞匯劃分為四類,即高頻詞匯、學術詞匯、專業詞匯和低頻詞匯[6]。對于ESP學習者,造成詞匯困難的不是一般用途詞匯,也不是與學科高度相關的專業詞匯,而是介于兩者之間的學術詞匯。所以,這一步驟分離常用學術詞匯(半專業詞匯)和專業詞匯。最終得到兩個醫學英語詞表,分別為General Word List of Internal Medicine和Internal Medicine Terminology List。
為了進一步減少失誤,在上述步驟都完成之后,筆者邀請了醫學英語界的權威、醫學英語教師、內科醫生、醫學專業在校學生,對詞表做最后的檢查和鑒定。
進一步開發語料庫
在詞表的基礎上,可以研究開發開放式醫學英語學習者語料庫。該語料庫專為Cecil Textbook of Medicine英文版的學習者設計,收錄該單詞在Cecil Textbook of Medicine中出現的頻率,通過前綴、后綴、詞根以及屈折變化、派生變化等構詞法分析來強化記憶,也提供檢索功能,語料庫使用者可以檢索出該單詞在Cecil Textbook of Medicine中的相關例句,也可向語料庫中添加沒有被語料庫收錄的詞條等。
參考文獻:
[1]張敏:《專業學術英語詞匯表編制及其在EAP教學中的應用》,《重慶世界》2011年第28(6)期,第100-102頁。
[2]J.Claude Bennett,M.D.& Fred Plum,M.D:Cecil Textbook of Medicine,(W.B.Saunders Company , 2003).
[3]M.West:A general service list of English words,(London Longman Green &Co.,1953).
[4]A.Coxhead:“Anewacademicwordlist”,TESOL Quarterly,2000,34(2):P213 -238.
[5]HylandK,TseP:Is there an“‘academic vocabulary?”TESOL Quarterly,2007,41(2):P235-253.
[6]Flowerdew & Peacock:Research perspectives on English for academic purposes(Cambridge: Cambridge University Press,2001).
作者單位:姜雨孜西安思源學院文商學院陜西西安
聶文信西安交通大學外國語學院陜西西安endprint