口譯語料庫中副語言信息的轉寫及標注:現狀、問題與方法

2014-03-13 08:19:11鄒兵王斌華

山東外語教學 2014年4期

關鍵詞：語言信息建設

鄒兵，王斌華

(1.廣東外語外貿大學高級翻譯學院，廣東廣州 510420; 2.香港理工大學中文及雙語學系，香港九龍)

口譯語料庫中副語言信息的轉寫及標注:現狀、問題與方法

鄒兵1，王斌華2

(1.廣東外語外貿大學高級翻譯學院，廣東廣州 510420; 2.香港理工大學中文及雙語學系，香港九龍)

本文對口譯副語言信息的相關概念進行了界定，并檢視了國際范圍內口譯語料庫中副語言信息的轉寫標注情況，發現現有研究對副語言信息的轉寫標注等口譯語料庫基礎建設問題缺乏關注。本文基于筆者設計和建設口譯語料庫的經驗，歸納了口譯副語言信息轉寫及標注應注意的問題，并從標注工具、標注步驟和后期建設幾個方面探討了口譯副語言信息的轉寫及標注方法。

口譯語料庫;研究現狀及問題;副語言信息;轉寫及標注

1.0 引言

語料庫應用于翻譯研究已逾20個年頭。當前基于語料庫的筆譯研究多關注語言層面，即集中于譯文語言特征研究和譯者語體/文體風格研究。對基于語料庫的口譯研究而言，語言層面之外的副語言和超語言信息也值得關注，因為這些信息對于研究者分析口譯產品的特點以及考察口譯過程起著關鍵作用。而在口譯語料庫建設中，語言層面之外的信息轉寫和標注是一個難題，當前關于這一難題的討論(包括轉寫內容、方法、工具、原則與標準等)卻不多見，這一定程度上制約了語料庫口譯研究的發展。在本文中，筆者在檢視世界范圍內主要口譯語料庫的基礎上，結合自身設計與建設口譯語料庫的經驗，探討口譯語料區別于筆譯語料的特有信息——副語言信息的轉寫和標注問題，希望能對口譯語料庫建設的標準化有所貢獻。

2.0 口譯語料中的副語言信息

語言學中的副語言信息概念最初由 Trager (1958)在“Paralanguage:A First Approximation”一文中首次使用(梁茂成，1994:128)，指在與詞匯和語法層面平行的信號層面上的非語言話語信息(陳瑞青、王巍巍，2011:5)。

口譯語料涉及的信息大致可分為三類，即語言信息(linguistic information)、副語言信息(paralinguistic information)和超語言信息(extra－linguistic information)?；赗oach，et al.(1998)、Monti，et al.(2005)、張威(2009)等的觀點，結合口譯語料庫的特點和設計需要，筆者對這三類信息界定如下:

1)語言信息，即口譯源語與譯語中詞句篇章各個層面的信息，包括:詞性標注、句法標注、時間標記、句子段落標記、詞句段對齊，等等。

2)副語言信息，即源語和譯語產出的同時所伴隨產生的相關信息，包括:停頓、支吾語(猶豫)、填充語、重音、語音拖長、自我修正、打斷、話語重疊、不完整句、幽默、肢體語言，等等。

3)超語言信息，即與口譯活動相關的環境信息，包括:①口譯背景信息，如口譯主題、口譯場合、時間地點、源語語體、專業難度、技術設備等;②講話人信息，如口音、語速、時長及字數、信息密度、國籍、性別、政治身份等;③口譯員信息，如口譯經歷、專業級別、口譯形式、準備時間、國籍、性別、母語等;④口譯聽眾信息，如知識背景、與會目的、雙語水平等;⑤口譯活動贊助人、組織者信息，等等。

這些信息是口譯語料庫建設時所應轉寫和標注的基本信息。關于語言信息和超語言信息的轉寫和標注，當前筆譯語料庫建設已經積累了較為標準化和可操作化的方法、工具和體系?？谧g語言信息的標注基本可以參照筆譯或筆語語料庫的標注體系(如詞性標注集、句法標注集等)，超語言信息的標注也基本可以在頭文件(text header)中統一處理即可。(梁茂成、許家金，2012)

但是，口譯副語言信息的轉寫和標注問題，目前尚未引起足夠的重視，這從相關研究的缺失即可看出。有必要指出的是，副語言信息的標注對于口譯語料而言有著特殊的意義，因為副語言信息“有利于判定具體口譯策略的影響因素以及這些策略的應用效果”(張威，2009:56)，“有助于揭示口譯語體特征和譯員風格的差異”(胡開寶、陶慶，2010:52)，有助于“研究非言語因素對口譯的方向性和語言特征的影響”(李婧、李德超，2010:101)。

從筆者設計和建設口譯語料庫的經驗以及作為口譯研究者和口譯教師對口譯語料庫功能的期待來看，口譯語料庫建設之初的設計工作應引起極大的重視。因為口譯語料庫建設是一項耗時耗力的龐大工程，哪怕只是一個磁帶小時的口譯語料，往往需要花費數倍的時間來轉寫和標注，所以在口譯語料轉寫之前就應當根據研制語料庫的目的確定要關注的信息類別，在轉寫的同時標注這些信息。

3.0 現有口譯語料庫中副語言信息的標注

根據筆者掌握的資料，目前世界范圍內已建和在建的口譯語料庫僅有十多個。此處對現有口譯語料庫的建設情況作一檢視，重點關注其對口譯副語言信息的轉寫及標注，詳見表1的描述。

表1 現有口譯語料庫建設及其副語言轉寫標注情況①

通過考察這些口譯語料庫的建設情況，筆者發現，其副語言信息轉寫及標注存在以下幾方面問題:

1)轉寫及標注內容選擇不一。表1中較大型的口譯語料庫(如 EPIC、CIAIR、CECIC、CoSi、CorIT)，對副語言信息轉寫和標注較為全面，其它口譯語料庫則選擇性地轉寫和標注了停頓等部分副語言信息。各個語料庫選擇轉寫和標注的內容重合度較低，沒有體現對口譯語料最基本的一些副語言特征的關注。

2)轉寫及標注規范不統一。如EPIC、CECIC、 TIC按照TEI文本編碼規范(見4.1.2)，ComInDat及其子庫(DiK，IiSCC，SimDik)、CoSi遵循HIAT口語文本轉寫標注規范(見4.1.2)，CorIT則依據會話分析領域的轉寫規范，其它語料庫則根據需要自行設定了轉寫和標注符號。

3)較少考慮語料庫兼容問題。語料庫之間的兼容體現在若干方面，除了要轉寫標注一些基本特征以及要遵循統一的轉寫標注規范之外，語料庫文件格式還要能方便地轉換為現在所普遍提倡的XML格式，從而方便未來的跨庫研究。而表1中只有較少語料庫(如EPIC、CECIC)考慮到了與其它語料庫的兼容問題。

總體而言，當前多數口譯語料庫的開發者并沒有很詳細地描述其副語言信息的轉寫標注過程，再加上很多語料庫本身并不公開，因此對于其它口譯語料庫的副語言信息轉寫標注無法提供很好的指導和借鑒。

4.0 口譯副語言信息轉寫標注的問題與方法

上文的考察反映出，國內外學者在探討口譯語料庫開發及建設時，都認為口譯語料深加工是需要重點關注和解決的問題，但是少有學者論及口譯副語言信息轉寫和標注的具體操作問題。下面筆者將結合自己設計和開發口譯語料庫的經驗，探討副語言信息轉寫標注應注意的問題和轉寫標注的方法。

4.1 口譯副語言信息轉寫標注應注意的問題

4.1.1 轉寫及標注內容的選擇

口譯副語言信息層面可以轉寫標注的內容，除了上文(見2.0)提及的類別之外，還可以包括口譯學習者的口譯錯誤和職業譯員的口譯策略。至于這些內容如何選擇，則須遵循兩點原則:

1)明確建設語料庫的最終目的。即在建庫之初，要明確口譯語料庫使用方(包括口譯研究者、口譯學習者、口譯教育者、口譯實踐者、機器口譯研發者等)的需求。面向的服務對象不同，對口譯副語言信息轉寫和標注程度的要求也有所不同。同時，轉寫和標注內容的選擇也要考慮現有資源(包括語料規模、資金、人員等)以及所掌握技術的情況。

2)體現對口譯基本/共性特征的關注。即對口譯活動表現的一些基本和共性的副語言特征表示關注。這樣做的目的是增強各個領域、各種形式、各個語種的口譯語料庫的可比性和兼容性，有利于未來進行跨語料庫的多語類多語種口譯比較研究。筆者認為口譯語料庫應當轉寫和標注以下幾類基本的副語言信息:①言語行為特征，包括停頓(又可分為無聲停頓和有聲停頓)、猶豫、填充語、不完整句、自我修正、打斷、話語重疊、重復、口誤、不規范用語;②明顯的發聲特征，如拼讀錯誤、語音拖長、語音變異(口音)、語速、音量/調變化、笑聲、咳嗽等;③明顯的體態語特征，如眼神、手勢等面部表情和肢體動作;④無法辨識的現象，如因設備影響而聽不清、故意含混不清等現象;⑤突發事件;⑥轉寫者評論，如幽默、錯誤、策略等。

4.1.2 轉寫及標注體系與規范

當前各口譯語料庫遵循的規范大致有三類，即TEI文本編碼規范、HIAT口語文本轉寫標注規范和會話分析轉寫規范。

TEI全稱為Text Encoding Initiative，是一個國際性的跨學科的編碼標準，提倡使用可擴充置標語言XML對數據和語料語言及結構信息進行編碼，現行版本TEI P5專辟一章說明如何轉寫語音語料②。HIAT全稱為Halbinterpretative Arbeitstranskriptionen (Semi－Interpretaive Working Transcriptions)，現已發展成為集轉寫標注格式規范和轉寫標注工具為一身的EXMARaLDA系統，主要致力于解決口語文本的轉寫和標注問題③。語言學中的會話分析(Conversation Analysis，CA)領域長期關注機構話語和日常會話的結構、策略和風格特點，并形成了一套比較系統和完整的會話轉寫規范。(Schiffrin，1994)

對口譯副語言信息而言，這三類規范各有優勢，各大口譯語料庫對這三類規范也是各有青睞，但其彼此之間既有交叉也存在一定差異。隨著未來口譯語料庫建設日益走向標準化，還是有必要根據口譯活動自身的特點以及口譯語料庫“目標用戶”的需要，研制出一套普遍適用且能被廣泛采用的口譯語料庫副語言信息轉寫及標注體系或規范。(Cencini＆Aston，2002)可以說，“語料轉寫是決定口譯語料庫代表性的一項關鍵工作，轉寫的程序與操作規范都可以成為研究課題”。(張威，2013:83)

4.1.3 其它相關問題

1)轉寫標注者主觀因素

在副語言信息轉寫和標注過程中，需要注意的一個重要問題是如何避免或盡量減少轉寫標注者的主觀因素，因為這些主觀因素往往容易導致語料標注前后不一致甚至相互沖突。為此，可以采取的措施有:①在轉寫標注之前專門進行集體培訓，并進行試驗性轉寫標注，在試驗期間進行反復調試，直至完全符合要求后再正式參與轉寫標注工作;②專設核對和“質檢”的角色，即時監控轉寫標注過程，隨時發現問題隨時更正;③在工具開發上嘗試設計標準化的轉寫標注功能，對每一類副語言信息設置單獨的轉寫標注模塊，出現此類信息時直接點擊選擇，自動生成相應的轉寫標注符號，從而減少插入符號時出現的失誤;④有些涉及口譯錯誤和口譯策略的副語言特征，本身便存在主觀判別的風險，這便需要事先進行明確定義，在操作過程中一以貫之地執行。

2)語料庫的兼容問題

現有語料庫大多存在重復建設、轉寫標注標準不統一以及經過調整也很難融合的問題，即語料庫之間的兼容性太差。當前語料庫建設普遍提倡在建庫時即采用XML置標語言，或者所建語料庫能夠方便地轉換為XML文件格式，這對于語料庫的標準化、網絡化十分關鍵。對于口譯副語言信息而言，具體的轉寫標注內容和符號需要研究者結合口譯活動特點和口譯研究需要，制定一個通行的可操作性強的操作準則和細則。口譯語料庫建設尚剛剛起步，在起步之初，如果各口譯語料庫的設計者在語料選取上能夠盡量避免同質和重復，并且能很好地遵循通行的轉寫標注規范和體系，那么隨著越來越多的語料庫形成一個大的集合，未來的口譯語料庫研究一定會發揮越來越大的作用，遠非現在的各自為戰所能比擬。

3)語料庫的應用問題

語料庫建好之后如何應用，這是在建庫之初就應思考的問題?？谧g語料庫中所轉寫標注的副語言信息如何應用，筆者認為可以從其最終目的出發進行考慮:①若為口譯研究者服務，便要清楚認識到副語言特征可以說明什么問題，如停頓、支吾語、填充語等可能與譯員當時當地的心理活動有關，若再針對這些副語言現象出現的規律提出一定的研究假說，與其它的實證研究手段(如TAPs、ERPs、fMRI等)結合進行三方驗證，便能很好地解釋和預測復雜口譯過程中的一些現象，但需要注意的是進行語料庫口譯研究時，應特別重視方法論設計(Setton，2002);②若為口譯教育者和口譯學習者服務，則需要注重語料庫調用的功能模塊設計，如在課堂上同時檢索呈現不同譯員停頓的位置、時長、前后語境等信息，同時還要注意與口譯多媒體教學平臺的兼容問題。

4.2 口譯副語言信息的轉寫及標注方法

4.2.1 轉寫及標注工具

口譯副語言信息的轉寫和標注與語言信息和超語言信息不同，需要使用專門的工具和軟件。副語言信息通常的轉寫方法是用“…”、“－”、“*”、“p”等符號指代某類副語言特征，各類副語言信息夾雜于口譯輸出文本之中，語言信息與副語言信息相互交織。這種做法的優點是便于線性轉寫操作，缺點在于:1)文內的標點需要去掉或作特別處理(以免與標注符號弄混)，為此不得不使用額外的符號區分語段間隔;2)較難處理多種副語言信息出現在同一時間節點的情況，也較難處理話語重疊等副語言現象;3)不便于實現轉寫和標注的可視化操作。

關于副語言信息的轉寫及標注，目前已經有一些較為成熟的工具和軟件可供利用，如Anvil、EXMARaLDA Partitur Editor、Praat等，這些軟件各有優勢。以Anvil為例，該軟件開發的初衷是為肢體語言研究服務，其操作界面如圖1所示。

圖1 Anvil軟件轉寫及標注界面

值得關注的是，Anvil軟件成功實現了副語言信息轉寫和標注的可視化操作。它允許對語言信息與副語言信息進行分層標注，不同類別的信息在不同的軌道(track)上進行標注，彼此之間互不干擾，而又通過線性時間軸相互聯系。甚至不同類別的副語言信息(如肢體動作、語音高低長短、停頓等)還可進一步細分，在不同的軌道進行單獨標注，這也避免了不同類別副語言信息在同一時間節點出現時不便標注的問題。講話人的輸出與口譯員的輸出也可各自占據一條軌道，因此講話人與口譯員話語重疊的問題也得到了解決。新軌道可以由轉寫標注者自行開辟，標注符號體系可以由轉寫標注者自行制定和導入，同時該軟件還提供簡單的數據統計分析功能，并且可以很方便地將轉寫標注好的語料導出成XML格式文件，因此也較好解決了與其它語料庫的兼容性問題。

可惜的是該軟件使用舒適度較低(Garg et al.，2004)，而且支持的影音格式和輸入語言有限。但這些都可以在未來通過對軟件的不斷更新進行完善，或者至少為口譯副語言信息轉寫標注工具的研制提供了很好的思路和方向?，F階段口譯副語言信息轉寫和標注可以依托現有工具可利用的功能，綜合利用各個工具的長處。但未來大規?？谧g語料庫的建設，還是有待于性能更加優良、更符合口譯研究需要的副語言信息轉寫標注軟件的研發。

4.2.2 轉寫及標注步驟

基于對上述問題的探討，并根據自身建設口譯語料庫的經驗，筆者總結了口譯語料庫副語言信息轉寫標注的步驟:

1)明確建庫目的，初步確定其未來應用領域，據此選定需要進行轉寫及標注的副語言信息類別(本文4.1.1建議的基本副語言特征應予標注);

2)基于文本編碼規范(TEI)、口語文本轉寫標注規范(HIAT)和會話分析(CA)領域的會話特征轉寫規范，編制符合當前口譯語料庫建設需要的副語言信息轉寫及標注符號體系(應盡可能使用現存規范已有的標注符號);

3)對口譯影音語料進行頭文件信息轉寫，要求盡可能多地涵蓋該口譯活動所涉及的超語言信息;

4)根據第1)步所選取的副語言信息類別，設定轉寫標注軟件(如 Anvil)中的轉寫標注軌道(track)，有幾類副語言信息就通過編寫程序設定幾個軌道;

5)運用轉寫標注軟件(如Anvil)，按照第2)步中所確定的副語言信息轉寫標注符號，對口譯影音語料同時進行語言信息和副語言信息轉寫及標注，每個轉寫標注軌道對應一個類別的語言信息或副語言信息;

6)從轉寫標注軟件(如Anvil)中導出已經轉寫標注好的語料的XML格式文件，并運用語料庫建庫工具(如TEC Tools)建立口譯語料庫;

7)運用語料庫檢索軟件(如BFSU ParaConc)以及相關統計分析軟件(如SPSS)，基于所建立的口譯語料庫，開展相應的研究與教學工作。

4.2.3 后期建設

口譯語料庫的建設往往要在前期投入大量的時間和精力，但建庫完成并不意味著建設工作的結束，后期建設同樣要引起足夠的重視。據筆者的經驗，需要注意以下兩方面的問題。首先，口譯語料庫的維護問題。前期建設過程中難免會出現紕漏，比如副語言信息標注位置錯誤、標注類別錯誤等，這就需要在語料庫實際使用過程中不斷發現問題，不斷進行更正。有時建庫者可能還要根據教學與研究需要，追加標注更多更為細化的副語言信息，這也是后期建設的重要工作。第二，口譯語料庫的擴充問題?？谧g語料庫的建設是一個長期的過程，也是一個語料從少到多不斷壯大的過程，因此后期語料規模擴大也是在建庫之初就要考慮到的問題。有些建庫者是長期依托團隊力量，讓每一屆學生參與轉寫、標注等建庫工作，這種情況下一定要注意副語言信息轉寫標注體系和方法的傳承性。

5.0 結語

本文只是針對口譯語料庫副語言信息轉寫及標注問題的一項探索性研究?；诳谧g語料庫開展口譯研究的意義已經得到口譯學界的廣泛認同，但其應用前景尚待進一步拓展。現有研究多停留在使用詞匯密度、詞長、句長等書面語的參數研究口譯語言特征等問題，對口譯產品的口語體典型特征關注不夠(王斌華，2012)，對于口譯特有的認知處理過程緊密相關的副語言信息關注不夠。另外，開展語料庫口譯研究的前提是已經建設好經過一定程度加工的較高質量的口譯語料庫，而關于口譯語料庫建設的基礎研究目前還相當欠缺。近年來，一些學者已經開始關注口譯語料庫建設中的轉寫和標注問題，分享了各自建庫方法和技術方面的經驗，這對于后來者有著相當程度的參考和借鑒價值。誠如張威(2011:46)所言，“口譯語料庫的建設和相關研究也必將是口譯教學與研究未來發展的一個核心”，或者更準確地說，至少在未來相當一段時期內，口譯副語言信息的轉寫標注等口譯語料庫建設的基礎類研究還是大有可為的，還需要更多研究者積極參與進來。

注釋:

①表1中語料庫名稱縮寫的全稱依次為:EPIC (European Parliament Interpreting Corpus);CIAIR (CIAIR Simultaneous Interpretation Corpus);CECIC (Chinese－English Conference Interpreting Corpus，漢英會議口譯語料庫);PACCEL(Parallel Corpus of Chinese EFL Learners，中國大學生英漢漢英口筆譯語料庫);DIRSI－C(Directionality in Simultaneous Interpreting Corpus);FOOTIE(Football in Europe，a corpus of press conferences of EURO 2008);CoSi/K6 (Consecutive and Simultaneous Interpreting);ComIn－Dat(Community Interpreting Database Pilot Corpus); Dik/K2(Dolmetschen im Krankenhaus［Interpreting in Hospitals］);IiSCC(a corpus of interpreter－mediated interaction in New York Small Claims Court);TIC (Television Interpreting Corpus);CorIT(Italian Television Interpreting Corpus);FPC(Formula one grand prix Press Conferences).

② 關于 TEI的詳細說明參見:http://www.tei－c.org/index.xml。文本編碼的國際規范還有語料庫編碼標準(Corpus Encoding Standard，CES)，但其在語音語料轉寫方面尚處探索階段。

③關于HIAT的詳細說明參見:http://www.exmaralda.org/hiat/en_index.html。

［1］Angermeyer，P.S.Speak English or What? Codeswitching and Interpreter Use in New York Small Claims Court［D］.New York University，2006.

［2］Angermeyer，P.S.et al.Sharing community interpreting corpora:A pilot study［A］.In T.Schmidt＆ K.W?rner(eds.).Multilingual Corpora and Multilingual Corpus Analysis［C］.Amsterdam/Philadelphia: John Benjamins，2012.275－294.

［3］Bendazzoli，C.From international conferences to machine－readable corpora and back:An ethno－graphic approach to simultaneous interpreter－mediated communicative events［A］.In F.Straniero Sergio＆C.Falbo(eds.).Breaking Ground in Corpus-based Interpreting Studies［C］.Bern: Peter Lang，2012.91－118.

［4］Bührig，K.et al.The corpus“Interpreting in hospitals”— Possible applications for research and communication trainings［A］. In T.Schmidt＆ K.W?rner(eds.).Multilingual Corpora and Multilingual Corpus Analysis［C］.Amsterdam/Philadelphia: John Benjamins，2012.305－318.

［5］Cencini，M.＆G.Aston.Resurrecting the corp (us|se):Towards an encoding standard for interpreting data［A］.In G.Garzone＆M.Viezzi (eds.).Interpreting in the 21st Century —Challenges and Opportunities［C］.Amsterdam/ Philadephia:John Benjamins，2002.47－62.

［6］Falbo，C.CorIT(Italian Television Interpreting Corpus):Classification criteria［A］.In F.Straniero Sergio＆ C.Falbo(eds.).Breaking Ground in Corpus-based Interpreting Studies［C］.Bern:Peter Lang，2012.155－186.

［7］Garg，S.et al.Evaluation of Transcription and Annotation tools for a Multi－modal，Multi－party dialogue corpus［J/OL］. In Proceedingsof LREC 2004.http://www.dtic.mil/cgi－bin/ GetTRDoc?AD=ADA 459208.［2013－06－30］

［8］House，J.et al.CoSi－A Corpus of Consecutive and SimultaneousInterpreting［A］. In T.Schmidt＆ K.W?rner(eds.).Multilingual Corpora and Multilingual Corpus Analysis［C］.Amsterdam/Philadelphia: John Benjamins，2012.295－304.

［9］Monti，C.et al.Studying directionality in simultaneous interpreting through an electronic corpus:EPIC(European Parliament Interpreting Corpus)［J］.Meta，2005，50(4):114－129.

［10］Roach，P.et al.Transcription of prosodic and paralinguistic feature of emotional speech［J］.Journal of the International Phonetic Association，1998，28(1－2):83－94.

［11］Russo，M.et al.The European Parliament Interpreting Corpus(EPIC):Implementation and developments［A］.In F.Straniero Sergio＆C.Falbo(eds.).Breaking Ground in Corpus-based Interpreting Studies［C］.Bern:Peter Lang，2012.53－90.

［12］Sandrelli，A.Introducing FOOTIE(Footbal in Europe):Simultaneous interpreting in football press conferences［A］.In F.Straniero Sergio＆C.Falbo(eds.).Breaking Ground in Corpusbased Interpreting Studies［C］.Bern: Peter Lang，2012.119－154.

［13］Schiffrin，D.Approaches to Discourse［M］.Cambridge:Blackwell Publishers，1994.

［15］Straniero Sergio，F.Using corpus evidence to discoverstyle in interpreters'performances［A］.In F.StranieroSergio＆ C.Falbo (eds.).Breaking Ground in Corpus-based Interpreting Studies［C］.Bern:Peter Lang，2012.211－230.

［16］Tohyama，H.et al.CIAIR Simultaneous Interpretation Corpus［J/OL］.In Proceedings of the O-COCOSDA 2004.http://ir.nul.nagoya－u.ac.jp/jspui/handle/2237/15081.［2013－08－15］

［17］Trager，G.Paralanguage:A first approximation［J］.Studies in Linguistics，1958，13(1):1－12.

［18］陳瑞青，王巍巍.口譯中的副語言信息研究芻議［J］.外語藝術教育研究，2011，(3):5－9.

［19］胡開寶，陶慶.漢英會議口譯語料庫的創建與應用研究［J］.中國翻譯，2010，(5):49－56.

［20］李婧，李德超.基于語料庫的口譯研究:回顧與展望［J］.中國外語，2010，(9):100－105，111.

［21］梁茂成.副語言初論［J］.徐州師范學院學報，1994，(2):128－130.

［22］梁茂成，許家金.雙語語料庫建設中元信息的添加和段落與句子的兩極對齊［J］.中國外語，2012，(11):37－42，63.

［23］王斌華.語料庫口譯研究——口譯產品研究方法的突破［J］.中國外語，2012，(3):94－100.

［24］文秋芳，王金銓.中國大學生英漢漢英口筆譯語料庫［M］.北京:外語教學與研究出版社，2008.

［25］張威.口譯語料庫的開發與建設:理論與實踐的若干問題［J］.中國翻譯，2009，(3):54－59.

［26］張威.近十年來口譯語料庫研究現狀及發展趨勢［J］.浙江大學學報，2011，(10):38－49.

［27］張威.線性時間對齊轉寫:口譯語料庫建設與研究中的應用分析［J］.外國語，2013，(2): 76－83.

Transcription and Annotation of Paralinguistic Information in Interpreting Corpora: The Status Quo，Problems and Solutions

ZOU Bing1，WANG Bin－hua2
(1.School of Interpreting and Translation Studies，Guangdong University of Foreign Studies，Guangzhou 510420，China; 2.Department of Chinese and Bilingual Studies，The Hong Kong Polytechnic University，Hong Kong)

In this paper the authors first define some relevant concepts of paralinguistic information(PI)，and then review the status quo of PI transcription and annotation in existing interpreting corpora around the world.It is found that more attention is needed for research into this issue.The authors of this paper then，integrating their experiences in interpreting corpus design and construction，summarize the major problems that need to be considered in transcribing and annotating PI，and explore the methods of PI transcription and annotation in interpreting corpora in terms of tools，procedures and post－construction maintenance.

interpreting corpora;status quo and problems;paralinguistic information;transcription and annotation

H059

1002－2643(2014)04－0017－07

2013－12－06

本研究得到香港理工大學科研項目(G－UA92)和廣東外語外貿大學研究生科研創新項目(14GWCXXM－41)的資助。

鄒兵(1986－)，男，廣東外語外貿大學高級翻譯學院博士生。研究方向:翻譯研究。

王斌華(1974－)，男，博士，香港理工大學中文及雙語學系助理教授(研究)。研究方向:口譯研究、翻譯研究。