劉 皓
(西安外國語大學,陜西 西安 710128)
【語言與文化】
基于自建酒店西班牙語小型語料庫的研究和應用
劉 皓
(西安外國語大學,陜西 西安 710128)
隨著我國經濟的快速發展,西班牙語專業因其廣泛的用途越來越受到重視。本文在自建酒店西班牙語小型語料庫的基礎上,利用Word Smith軟件分析了酒店西班牙語語言的特征及西班牙酒店網頁的語言特色與功能,以為進一步建設漢西雙語語料庫奠定基礎、積累經驗。
酒店西班牙語;語料庫;WordSmith
漢語、英語和西班牙語是世界上使用人數最多的三種語言。近年來,隨著全球經濟的飛速發展,西班牙及拉美等國在國際貿易往來中扮演著越來越重要的角色,西班牙語儼然已成為使用最廣泛的國際貿易往來語種之一。[1]2007年,在哥倫比亞召開的第四屆世界西班牙語大會上,西班牙語國家的一些經濟學家和出版專家一致認為,隨著中國和西班牙語國家經濟的崛起,漢語和西班牙語將削弱英語在經貿領域的主導地位。[2]可見,英、漢、西“三足鼎立”的時代已經到來。
在大數據的時代背景下,語料庫語言學在經歷了近半個世紀的發展,得到了相當程度的普及,并且日趨成熟。具體表現為從最初語料庫的建設、檢索工具的研發等初級階段邁向了系統的理論創新和廣泛具體的實際應用階段。
西班牙語語料庫的研究以西語國家(西班牙、墨西哥等)為主,主要有CORPUS DEL ESPAOL, Corpus—Spanish FrameNet Project, Spanish Learner Language Oral Corpora(SPLLOC)等。西班牙皇家語言學院的“21世紀語料庫”是世界上規模最大的西語語料庫,收錄有現在西班牙和拉丁美洲最新的3億個西班牙語詞條。以西語為第二語語料庫(CEDEL2)和西班牙語學習者口語語料庫(SPLLOC)是以母語為英語的西班牙語學習者為語料建立的語料庫。中國臺灣成功大學建設的“臺灣多國語言學習者語料庫”,其中包括臺灣西語學習者語料庫。
雖然漢語和西班牙語是世界上使用人口最多的語言,但由于歷史的原因,現有漢語和西班牙語料資源較少,處理難度高,國內的研究才剛起步。
旅游業是西班牙的第一大產業,也是中國急需發展的綠色產業。基于西班牙語使用的廣泛性、中國和西班牙旅游的國際地位和旅游業對酒店的需求,筆者建立了一個酒店西班牙專業語料庫,并對其進行了初步分析與研究。
對任何語料庫的研究都從語料庫的建設開始,語料庫的建設主要包括語料庫類型確立、語料的選取及語料入庫等環節。
(一)語料庫類型與選材原則
Donkd E. Walker將語料庫劃分為異質型、同質型、系統型和專用型四種類型[3],語料庫的用途是確定語料庫類型的主要依據。[4]酒店西班牙語語料庫主要是針對從事酒店業務的管理者和消費群體,其是一個專用型的西班牙母語語料庫。
語料庫的類型確定后,就要制定語料庫的選材原則及選材范圍。在此過程中,考慮到該語料庫的目的和使用對象,并按照通用性、描述性、實用性、科學性、現勢性等原則選擇酒店網頁作為語料庫建設的材料及研究對象。和傳統類型的文本材料相比,網頁具有一系列獨有的附加優勢,因為它處在一個不斷更新的環境中,它所提供的語料不管是在形式上還是內容上,都處于不斷更新、日趨豐富的過程中。基于本小型教學語料庫的用途,具體所采集的酒店網頁語料文本涉及以下四類。
1.簡介類:一般位于酒店官方網站的首頁,用于勸說和促使消費者購買酒店的服務,接受采取某些消費行為的信息。
2.設施設備類:空調、電視、通風設備、服務、餐廳、迷你吧臺、自助餐、吹風機、無線網絡、洗衣店、自動販賣機等。
3.運營管理:預定、取消、辦理入住、退房、酒店政策、價目單、促銷等。
4.評論類:該類評論語料可從網上采集,其提供了豐富的用于表達觀點、情感、評價的文本材料。
(二)語料庫的規模
根據語料庫類型與選材原則,本文選取了西班牙三大自治區安達盧西亞、加利西亞及瓦倫西亞不同星級的46家酒店的網頁文本共計2.1萬字作為具體的語料數據,并將其保存為“txt”格式導入WordSmith軟件進行具體的研究分析和應用。
Word Smith Tools軟件是英國語料庫專家麥克爾·斯考特(Mike Scott)設計編寫的,它共包含Word List(單詞列表工具)、Key Words(主題詞檢索工具)、Concord(檢索工具)、Splitter(文本分割工具)、Text Converter(文本替換工具)、Viewer(文本瀏覽工具)六個程序。[5]其中,Word List、Concord是主要的文本檢索工具,也是筆者用于酒店西班牙語語料庫具體研究分析的主要工具。
(一)Word List(單詞列表工具)
Word List最主要的用處在于生成語料庫所涉及文本的總體信息列表,以及語料庫中單詞使用的頻率列表。前者顯示的數據主要包括以下幾個方面:第一列為所有文本的總體數據,其他各列則分別顯示各個文本的具體對應數據;第一行Text File為文本名稱,第二行Bytes為各個文本所包含的字節,第三行Tokens為詞次,第四行Types為類符數,第五行Type/Token Ratio為類符、詞次比,第六行Standardised Type/Token為標準化的類符/詞次比,第七行Ave. Word Length為單詞平均長度,第八行Sentences為句子數量,第九行Sent.length為句子長度,第十行sd.Sent. Length為標準化句子長度,第十一行paragraphs為段落數,第十二行Para.length為段落長度,第十三行sd.Para.length為標準化段落長度;另外若干項分別顯示了不同字母個數的單詞在文本中的數量,具體如圖1所示。

圖1 單詞詞表統計
而語料庫中單詞使用的頻率列表可按照需要生成兩種順序的單詞頻率列表:語料庫中所涵蓋的所有單詞即可按照字母順序排列,也可按照單詞出現頻率從高到低進行排序,依次顯示它在所選文本中出現的次數(Freq)及該詞占文本總單詞數的百分比率(%)。單詞頻率列表提供了更多研究語料庫詞匯的可能,其具體可以應用于以下幾方面。
1.可以利用按照字母順序排序的單詞頻率列表進行不同詞性同根詞的學習。
2.確定專門用途語料庫中的常見詞塊,并進行有針對性的教學。
3.比較不同文本中特定詞匯的使用頻率。
4.比較不同語言中對認知詞匯對應翻譯語的使用頻率。
5.制作酒店西班牙語專門用途單詞列表。
(二)Concord(檢索工具)
Concord主要用于查詢和統計語料庫中某個或某些詞匯或短語出現的頻率數。相較于傳統字典只能給出單詞的意思及少量例句而言,它的優勢在于可以通過語境跨度(span)及語境詞的設定來對檢索詞進行高級檢索,進而檢索出所有文本中符合檢索條件帶有檢索詞的語句。通過大量原汁原味的句子,可以更好地學習檢索詞在不同真實語境下的使用方法。例如,輸入的檢索詞為habitación(房間),設定為“5L to 5R”,即把語境跨度設定為從檢索詞左邊第5個詞開始到檢索詞右邊第5個詞截止。[6]它是所導入的三個文本中所有包含habitación檢索詞的語句,共有161項,其中,第一項有5 264個詞(占86%),其源文件是hotele-1.txt.(具體如圖2所示)。
通過檢索列表,可以一目了然地看出哪些詞可以和habitación一起搭配使用,進而反映出西班牙語酒店業中不同房型的表達方法:habitación individual;habitación simple, habitación doble;habitación triple, habitación cuádruple;habitación standard/
estándar, habitación;superior, habitación matrimonial, habitaciónfamiliar, habitación de luxe, habitación;club superior, habitación suite, habitación;classic, habitación ejecutiva,等等。
此外,Concord檢索功能還提供了諸多選項卡,通過這些選項卡可以獲得與核心詞(即檢索詞)搭配相關的更多數據及信息,如使用最為廣泛的“clusters”“collocates”及“patterns”。下面仍以habitación檢索詞為例,分別介紹這三種工具的具體用法。
1.Clusters可以用來分析帶有檢索詞的詞叢,即其常見的組合方式,按照頻率從高到低進行排序,在專門用途西班牙語的教學中就可以做到有的放矢(圖3)。

圖2 Concord檢索功能示例

圖3 詞從列表示例
2.Collocates主要用于觀察與檢索詞進行搭配的詞匯、二者共同出現的頻次以及該搭配詞匯的具體位置。以habitación一詞為例(圖4),列出三個文本中與其搭配的所有單詞,并以頻率從高到低的順序進行排列。分別顯示搭配詞與檢索詞共同出現的頻次、搭配詞位于檢索詞左側的頻次、搭配詞位于檢索詞右側的頻次,以及具體到以檢索詞為中心左右各五個跨度搭配詞的頻次。例如,habitación在和servicio搭配時,在所有文本中共同出現了38次,其中,servicio位于habitación左側的有28次,位于其右側的有10次。更具體的位置,servicio位于habitación左五位置出現了2次,左四1次,左三3次,左二21次,左一1次,右二5次,右三1次,右四1次,右五3次。由此可以看出,這兩個詞匯在搭配時的偏好位置為servicio處于habitación左二位置。

圖4 collocates列表示例
3.Patterns工具用來生成和檢索詞在各個位置高頻搭配詞的總結列表。通過該表,核心詞和各種詞性單詞的搭配位置及用法一目了然。圖5是以habitación一詞為檢索詞所生成的patterns列表,可以明顯看出,和其所搭配的高頻形容詞有“individual”“estándar”“amplia”“doble”“exterior”“ juniro”“ deluxe”等,和其所搭配的高頻動詞有“disponer” “tener”“ofrecer”“ ser”等。

圖5 Patterns列表示例
(1)運用WordSmith4.0分析了酒店西班牙語語言的特征與應用,以及西班牙酒店網頁的語言特色與功能。本文是將語料庫語言學應用于旅游酒店領域的研究嘗試,結合語料庫和行業標準,以期探索行業西班牙語言研究新模式。
(2)中國語料庫的研究歷經35年的發展,研究成果頗豐,但仍存在一些研究不足。當下研究多局限于英語和漢語,西班牙語、法語、俄語等語言的語料庫研究較少,阿拉伯語語料庫的文獻更是空白。酒店西班牙語小型語料庫的建設在西班牙語料庫方面進行了有益的嘗試,其為進一步建設漢西雙語語料庫奠定了基礎,積累了經驗。
(3)運用Word Smith等文本分析工具對語料進行分析、研究與應用,突破了傳統的西班牙語教學模式,為學習者創造了廣闊的平臺。
[1]欒昀.我國專門用途西班牙語(EFE)教學探討[J].青年文學家,2012,(6):56-57.
[2]許云鵬,林如萱.漢語和西班牙語將削弱英語的主導地位[EB/OL].(2007-03-29)[2017-03-25].http://news.xinhuanet.com/world/2007-03/29/content_5910803.htm.
[3]劉連元.現代漢語語料庫研制[J].語言文字應用,2013,(5):3-9.
[4]張淑文.CONULEXID語料庫系統中的文章庫介紹[C].中國辭書學會雙語詞典專業委員會第四屆年會暨學術研討會論文集,2001.
[5]申蕾,李曉霞,趙莉.基于語料庫研究方法對《孫子兵法》中外兩個英譯本的分析[J].長春師范學院學報(人文社會科學版),1996,(3):81-83.
[6]王立非,梁茂成.Word Smith方法在外語教學研究中的應用[J].外語電化教學,2007,(115):3-7.
【責任編輯:王 崇】
H319;H34
A
1673-7725(2017)07-0176-04
2017-05-10
劉皓(1986-),女,陜西西安人,助教,主要從事西班牙語與語料庫研究。