廣播新聞語料庫的教材加工
張小林,唐靚,任雪花
(電子科技大學成都學院文理系,四川成都611731)
摘要:首先簡要介紹了基于自建廣播新聞語料庫進行新聞聽力教材編寫過程中語料庫的設計、語料的收集及處理。然后詳細討論了該教材的總體架構,并結合實例介紹了教材編寫中語料的選編、語言知識的呈現及教材練習設計等細節。
關鍵詞:語料庫;廣播新聞;教材加工
文章編號:1672-6758(2015)06-0127-4
中圖分類號:H319
作者簡介:王云,碩士,講師,石家莊鐵道大學四方學院。研究方向:商務英語教學法、翻譯、文學。
基金項目:河北省教育廳高等學校人文社會科學研究重點項目“實用型商務英語課程優化和教學有效性研究”(編號:SD141029);河北省教育科學研究“十二五”規劃青年專項課題“新媒體時代下實用型英語多模態教學研究——以建構主義為視角”(編號:1404550);石家莊鐵道大學四方學院高等教育教學改革研究項目“基于需求分析的高校英語專業課程設置與英語創新應用型人才培養模式研究——以石家莊鐵道大學四方學院為例”(編號:201501)。
一引言
語料庫語言學為英語新聞聽力教材的編寫提供了新的視角。然而,直到近些年才開始有學者對這一課題進行探討。張鵬、辛柯(2008)討論了如何自建廣播新聞語料庫,并指出廣播新聞英語語料庫為新聞英語聽力教材的編寫提供了豐富的素材,編寫者可以方便地從語料庫中選取所需材料,并在語料庫樣本的統計基礎上對所選材料的難易度進行有效控制。楊林偉、伍忠杰(2012)詳細介紹了建設基于Web的多模態廣播新聞語料庫的方案,并討論了該廣播新聞語料庫在英語專業聽力教學中的應用。翁曉斌(2012)指出了語料庫在英語新聞聽力教材編寫中的強大優勢,并提出了具體的規劃方案。上述研究為基于語料庫的英語新聞聽力教材的編寫提供了有益的參考。但這些研究大多停留在宏觀討論階段,忽視了新聞聽力教材編寫的細節問題,尤其是語料庫教材加工的討論。本文將介紹筆者在基于自建廣播新聞語料庫進行廣播新聞聽力教材編寫過程中語料庫的設計、語料的收集及處理,并詳細介紹該教材的總體設計及教學材料的選擇、安排和加工等細節問題。
二廣播新聞語料庫的建設
1.語料庫的設計。
語料庫的設計是語料庫建設中尤為重要的階段,它直接影響到所建語料庫的質量并進一步影響到以后基于所建語料庫的研究工作。(Sinclair, John 1995)根據Kennedy(1998)的觀點,語料庫設計過程中應考慮四個方面的問題:(1)語料庫是語言的靜態樣本還是動態樣本?(2)多大程度上可以成為語言或語體的代表?(3)為了滿足某種研究目的,語料庫規模應該多大?(4)應該包括多少個樣本,每個樣本應該多大?根據實際需要和便于操作原則,本研究選擇建設靜態語料庫,庫容設計為100萬詞,①收集近三年來國際主流英語新聞廣播媒體的新聞報道作為語料,共計2000個樣本,樣本平均大小約500詞。
2.語料的選取及收集。
本研究收集了近三年來VOA和BBC的新聞報道作為語料。VOA和BBC是國際主流英語新聞廣播媒體,其新聞語料具有充分的代表性且較容易通過互聯網獲取。McEnery(2001)指出,語料庫并非語言樣本的簡單堆砌,而是按照一定的語言學原則,借助統計學方法,隨機抽取語料樣本建立的計算機可讀的語言資料庫。鑒于VOA和BBC報道的數據量相當龐大,為避免語料收集的主觀性,本研究采取分層和等距相結合的抽樣方法。首先按新聞內容(災難、政治、經濟、軍事等)和新聞的來源(VOA、BBC)分層,然后將3天作為一個抽樣間距,抽取某一固定時間點的廣播新聞語料樣本,以便克服簡單隨機抽樣所造成的內容上的偏差。語料收集既要收集文本也要收集音頻,且收集好的文本和音頻還需再次人工核對,以保證文本和音頻的完全對應。
3.語料的處理。
按照設計原則收集的原始語料是生語料,為方便進一步的使用,需要進一步處理,包括處理冗余數據,語料文本頭加注和賦碼。多余的空格及空行等冗余數據需要刪除以免影響后續的賦碼準確性。同時,為了方便語料分類,每篇語料需要加注文本頭,提供諸如主題內容、語料來源、收集時間、節目播出時間、播音員的性別、口音、語料長度等相關信息。最后,使用語料自動賦碼軟件Treetagger對文本進行賦碼,該軟件準確率可達96%。由于本研究所建語料庫為廣播新聞語料庫,所以文本處理更重要的一點是制作字幕文件,為語料添加時間標簽(如圖1),這樣才能實現文本、聲音的相互關聯,這也是現代語料庫朝多模態發展的趨勢之一。除文本加工處理外,收集到的聲音也需要進行規范化,本研究統一采用標準Mp3格式。

圖1 加工完成的字幕文本
三廣播新聞語料庫的教材加工
1.基于語料庫的教材總體架構。
在收集加工好的語料基礎上進行教材開發,同時開發紙質和電子教材。如圖2所示,紙質教材承載著基礎知識教學的功能,展示英語新聞聽力中的核心知識,所選材料具有經典性和代表性。電子教材的規模比紙質教材大,包括文本、音頻及學習軟件,它既是紙質教材的源頭,同時也是紙質教材的拓展。

圖2 基于廣播新聞語料庫的教材總體設計
2.語料庫的“教材加工”。
McCarthy(2001)、Widdowson(2003)以及Braun(2005)等學者指出語料庫不能直接應用于語言教學,只有經過“加工”才能走進語言教學的各個層面。我們選取的用于編寫紙質教材的語料以及語料庫檢索得到的相關信息,也需要經過加工處理才能呈現在教材上。梁紅梅、何安平(2012)考察了國內外基于語料庫開發的EFL教材,總結出語料庫的教材加工可以從三個方面著手,即教材語料的選編、語言知識的呈現及教材練習的設計進行。本項目充分考慮了廣播新聞自身所具有的特點,如大量使用專有名詞、術語,播音的語音、語調多樣化及語速較快等,從這三條對語料進行了加工,下面我們將舉例詳細介紹。
(1)教材語料的選編。
教材語料的選編屬于語料庫內容層面的“加工”。首先,應用檢索軟件將語料庫按話題分別生成詞頻表,找出高頻詞。同時,將各詞頻表與大型普通語料庫(本研究使用COBUILD語料庫作參考)提取的詞頻表相比較,得到該新聞話題類別的核心詞和語塊,再進一步根據統計信息來選擇具有代表性的語料入選教材,如:
①WorldNewsfromtheBBC
②Morethan100peoplewerekilledand5000othersinjuredinapowerfulearthquakeinIranonTuesday.
③TheDowJonesAverageclosedatitshighestlevelinmorethanfouryearsonTuesday.
④TheUNSecurityCouncilhasdecidedtosendanadvanceteamofceasefiremonitorstoSyria.
⑤TheWorldHealthOrganizationtodayraiseditspandemicflualertleveltofive.
以上句子是語料庫中的高頻句,都含有新聞核心詞匯。這些詞句是收聽廣播新聞時經常會碰到的,所以非常適合選入教材,以幫助學習者快速掌握。同時,對于此類句子,選取了不同廣播電臺的播音錄音,以便幫助學習者熟悉不同的語音、語調等播音風格,快速提高相關英語新聞的聽力能力。
(2)語言知識的呈現。
語言知識的呈現屬于語料庫技術層面的“加工”。語料庫檢索的索引行或其他相關的統計數據往往需要以隱性的方式在教材中呈現出來,也就是說在教材中只需提供目標詞及其常用搭配和結構的頻數信息,而無需要告訴讀者這些信息的來源出處以及為什么要提供這些信息(McCarten 2010)。例如,在本研究自建的廣播新聞語料庫中檢索interest一詞(圖3),發現新聞報道中interest在大多數情況下表示“利息”,且有一些常見固定搭配。

圖3 “interest”語料庫檢索部分結果
雖然這些語言知識點都來自語料庫的檢索結果,但在編寫教材時不能直接采用語料庫的檢索界面,而應該以教師和學習者都非常熟悉的形式把目標語言點的使用頻率及其典型意義和用法呈現出來(如圖4)。

圖4 語料庫的語言信息在教材中的呈現
(3)教材練習的設計。
教材練習的設計亦屬于語料庫技術層面的“加工”。Willis(1990)、McCarthy(2004)及Braun(2005)等學者一致認為,僅僅把反映語言事實的語言材料呈現給學習者是不夠的,還應在此基礎上設計有利于提升意識的練習,以引導學習者通過分析、體驗和探究去發現和歸納語言的使用范式。也就是說,對語料的“加工”還應貫穿在教材的練習設計之中。在教材編寫過程中,編者可以從語料庫中提取目標語言點的索引行,然后以學習者熟悉的形式呈現在教材中,即以含有目標語言點的整潔的句子或語篇呈現出來,而非直接提取的檢索行。在此基礎之上,編者再設置練習任務,引導學習者利用自身語言體驗來分析、探究、歸納目標語言點的使用特點。例如:
Beijing
1. a city in China.
Duringaweek-longtriptoAsiathatheistaking,SecretaryGeithnerstoppedoverinBeijingandmeetwithhisChinesecounterpart.
2. Chinese government.
Washington'sso-calledpivottowardAsiaismakingBeijingwary.
聽下面的句子,注意辨別句中的出現的“Beijing”哪些是表示地名,哪些是代表政府。
①Beijingisaccusedofkeepingtheyuanartificiallylow,tosupportitsexportsector.
②Some30highwayshaveclosedinthenorthofChinaandinBeijingthecity’sCapitalairportsaw90%offlightscancelledordelayedonSunday.
③Beijingistryingtoreduceitstradebalance,butit'sgoingtotaketime.
④ThedetailedreportssaytheNorthKoreanleaderisspendingthenightinthecityofDalianbeforeheadingtoBeijing.
⑤Inflationisatitshighestlevelinmorethantwoyears,andtamingitisatthetopofBeijing'spolicyagenda.
該練習首先展示了“Beijing”這一專有名詞在英語新聞中的意義,然后從廣播新聞語料庫中提取一批含有“Beijing”的語料,并在此基礎上設置練習,要求學習者根據上下文來辨別句中的出現的“Beijing”所表達的意義。
四結語
本研究基于自建的廣播新聞語料庫,結合廣播新聞的的特點,對新聞語料進行處理加工,編寫了一本新聞聽力教材。實踐證明,語料庫技術能夠為EFL教材的編寫提供有效的幫助和指導。相信隨著技術的發展,未來必將會出現更多集聲音、圖像和文本一體的多模態語料庫,并將為各類EFL教材的編寫提供更重要的便利和支持。
注釋
①Kenndy(1998)認為句法結構和高頻詞匯的研究一般要求語料庫規模在五十到一百萬詞次之間。
參考文獻
[1]Braun, S.From pedagogically relevant corpora to authentic language learning contents [J].ReCALL, 2005(17): 47-64.
[2]Kennedy, G.AnIntroductiontoCorpusLinguistics[M]. London & New York: Addison Wesley Longman Limited, 1998.
[3]McEnery, T. & Wilson, A.CorpusLinguistics:Anintroduction[M]. Edinburgh: Edinburgh University Press, 2001.
[4]McCarthy, M.J.IssuesinAppliedLinguistics[M]Cambridge: Cambridge University Press, 2001.
[5]McCarthy, M.J.FromCorpustoCourseBook[M]. Cambridge: Cambridge University Press, 2004.
[6]McCarten, J. Corpus-informed course book design[A]. In A. O’Keeffe & M. McCarthy (ed.).TheRoutledgeHandbookofCorpusLinguistics[C]. London & New York: Routledge Taylor & Francis Group, 2010. 413-427.
[7]Sinclair, J.Corpus,Concordance,Collocation[M]. Oxford: Oxford University Press, 1995.
[8]Widdowson, H.G.DefiningIssuesinEnglishLanguageTeaching[M]. Oxford: Oxford University Press, 2003.
[9]Willis, D.TheLexicalSyllabus:ANewApproachtoLanguageTeaching[M]. London: Collins COBUILD, 1990.
[10]梁紅梅,何安平. 語料庫的“教學加工”與教材編寫[J]. 當代外語研究,2012(10):35,39,76.
[11]翁曉斌. 語料庫語言學視角下的英語新聞聽力教材設計[J]. 中國電力教育, 2011,29:199-201.
[12]楊林偉,伍忠杰. 基于Web的多媒體新聞語料庫的建設與實施——以聽力教學與研究為目的的設計模型[J]. 現代教育技術,2012(8):72-76.
[13]楊學前. 在聽力教學中使用英語廣播新聞材料的四條原則[J]. 外語電化教學,2000(1):13-15.
[14]張鵬、辛柯. 廣播新聞英語語料庫的建設研究[J]. 西北工業大學學報,2008(3):63-66.
Pedagogic Processing of a Broadcast News Corpus
Zhang Xiaolin,Tang Liang,Ren Xuehua
(Department of Arts and Sciences, Chengdu College of UESTC, Chengdu, Sichuan 611731, China)
Abstract:This paper first briefs the design and data collection of a broadcast news corpus and then details the structure of the corpus-based broadcast news listening course book. With examples, it also presents the teaching material selection, language point’s presentation and exercise design of the book.
Key words:corpus;broadcast news;pedagogic processing
Class No.:H319Document Mark:A
(責任編輯:蔡雪嵐)
王霞,碩士,講師,石家莊鐵道大學四方學院。研究方向:商務英語教學法、文學、翻譯。