陳 穎 梁甜甜
(沈陽建筑大學外國語學院 遼寧沈陽 110168)
基于語料庫的專門用途英語文體研究
——以土建英語為例
陳 穎 梁甜甜
(沈陽建筑大學外國語學院 遼寧沈陽 110168)
本文擬以自建土建英語語料庫為例探討如何使用語料庫詞表、檢索和主題詞功能對專門用途英語的文體特征和語言特點進行分析。借助語料庫工具,采用實證手段對目標文本的文體特征進行定量描寫和定性分析,進而可以拓展到對其他領域的專門用途英語文體進行分析。
專門用途英語;語料庫;文體
隨著國際間各領域的交往日益加深,專門用途英語順應各行業對英語的特殊需求而產生,各領域專門行業對于英語的需求從通用英語逐漸過渡到專門用途英語的需求上。不同學科的專業人才需要閱讀大量相關專業的英文文獻和書籍來獲取和了解本專業最前沿的信息,撰寫或發表的學術論文需要符合國際標準,參加國際研討會議時需要使用英語對本專業的理論進行探討或者進行成果和應用方面的說明。但是中國學者在運用英語與本專業同行進行口頭或書面的交流能力方面還存在欠缺。特別是對于某一專業領域文獻的文體特征還缺乏整體的、系統的、理性的認識。專門用途英語文體的特殊功能使其在語言上具有區別于其他文體的顯著特點。語法上正確的句子不一定是特定交際場合里最得體的語句。文體規范就是要解決語言運用里的優化問題,說明在若干個準確的用法中哪一種用法最適合特定語言的交際目的[1]。
為了詳細說明各類文體的語言特點,研究者們一直采用比較或分類分析的方法對各類文體的語言特征進行詳細的觀察和研究。在對文體特征進行描述時鮮見準確數據支持,通常使用如“多”“少”“常常”等類似的模糊詞語。語料庫語言學為語言學研究提供了一種全新的研究思路,它以真實的語言數據位研究對象,從宏觀的角度對大數量的語言事實進行分析,從中尋找語言使用的規律;在語言分析方面采用概率法,以實際使用中的語言現象的出現頻率為依據建立語法分析(楊慧中,2004,4)。
本文擬以自建土建英語語料庫為例探討如何使用語料庫對專門用途英語的文體特征和語言特點進行分析。借助語料庫檢索工具,采用實證手段對目標文本的文體特征進行定量描寫和定性分析,進而可以拓展到對其他領域的專門用途英語文體進行分析。
基于語料庫的語言研究通常采取定性和定量相結合的研究方法,利用計算機強大的計算和信息處理功能,快速、便捷、徹底的在語料庫中對所需要的內容進行檢索,并根據檢索結果和統計數據進行綜合觀察,從而發現語言的真實特點,例如目標文本的用詞特點、語法特征和語言風格等。本文使用Wordsmith軟件對目標文本的形式特征進行考察和數據統計。
文本的形式特征主要包括:文件的字節數(bytes)型符數(tokens),類符(types),類符/型符比(type/token ratio),標準化類符/型符比(standard type/token ratio),平均詞長(average word length),句子數(sentences),平均句長(sentence length),句長標準差(standard deviation of sentence length),段落數(paragraphs),平均段落長(paragraph length),段落長標準差等(standard deviation of paragraph length)(楊惠中,2002)。
目標文本語篇的大小或長度可以依據文本的字節數、型符數和句子數判斷。為了了解某一專門用途英語的用詞特點可以利用頻次計算型/次。根據文本的型符數和類符數可以進行詞匯變化程度分析。一般來說,型/次比值越高,使用的詞形就越多,意味著文本使用了比較多樣的詞匯,重復詞較少。比值小則說明文本的詞匯有限,經常使用同樣的詞匯。但簡單的計算型/次比不一定能反映出不同文本中的詞匯變化度。因為詞匯總是相對有限的,因而文本越短,型/次比就會相對越高。文本長了,詞匯被重復使用,型/次比就會降低。為此,為了使型/次比有可能性,可運用wordsmith做標準化處理,對文本的每1000個詞的型/次比都依次重新計算,最后算出各個1000詞的平均型/次比,即標準型/次比,據此可以判斷詞語使用的多樣性程度。
高頻出現的核心詞匯可以幫助區分不同的文本類型。運用檢索工具對具體語言項的詞形出現頻次進行統計,觀察排在最前面的詞。不同文體語料中抽取的詞表的高頻詞匯差異顯著。因此某些詞類在不同文體文本中出現頻率上的差異可以作為判別不同文體的主要標志。利用詞匯頻率(包括使用頻率、覆蓋率和分布率)的統計對目標文本可以進行體裁及體裁差異分析[2]。
在語料庫分析中,主題詞指在單篇或多篇語篇中具有超高復現頻率的詞匯。利用檢索軟件提取專門用途英語語篇中的專業詞匯進行主題詞分析,可以得出該語篇的主題相關性。語篇的主題取決于該詞在與之相對比的參照語料庫中的出現情況。選取某一參照語料庫(長于被檢索文本)與觀察語料庫進行對比,生成主題詞表。通過表中排在較前的主題詞,可以得到該文本的關鍵信息。在某個特殊的科學領域里時,這些詞匯具有特定的含義,有些詞匯甚至僅在其特定的領域里使用。通過進一步觀察這些詞語在多個文本中的分布及內部意義和關系,可獲得某一知識領域的詞句集合相互聯系的概念群。
下面以自建土建英語語料庫為例,利用Wordsmith等工具對文本進行分析,自動生成詞表和相關信息(如表1所示)。
表1數據表明,土建英語庫中型符數為498,174,類符數為28,497 。為判斷詞形使用多少,根據表2計算型/次比為5.82。考慮到BNC的平均標準型/次比為43.02 ,結果表明BNC的內容覆蓋面較廣,需要較多的詞型,而土建英語庫中詞型變化少,表明語料庫圍繞土木行業建設,用詞比較集中,可見專業性詞匯比通用性詞匯應用范圍要窄一些。
土建英語庫中文本的平均詞長是5.21,表明語料庫的另一個特點:它的短詞數目較少,而長詞的數目較多。數據顯示出的平均句長是22.15,這意味著土建英語整體上句式要長,句子結構也略復雜。長句能夠表達較為復雜的概念,準確傳遞表達信息,多出現在

表1 土建英語文本總體統計數據(部分)

表2
書面語和正式場合中。土木英語屬于科技文體,因此長句所占比例較大。
將土建英語語料庫中最顯著的名詞檢索排序。由表3可以看出:所列出的土建英語當中前10個最常用的名詞,完全與土建專業密切相關,可見不同文體在常用詞匯的使用方面有著顯著地不同。這說明專門用途英語在詞匯的選用方面有相當區別,因此在學習和使用專門用途的詞匯時需要特別注意。
G212
A
1000-9795(2014)08-000272-02
陳 穎(1976-),女,遼寧撫順人,副教授,研究方向:語料庫語言學。
沈陽建筑大學青年基金項目(2013211)。