【摘要】語料庫自上世紀面試以來,取得了突飛猛進的發展,目前不少組織進行學術交流時,會遇到一定的語言障礙,外語專業人員缺乏相關專業知識,很難能夠快速的對于這些專業詞匯進行轉述,所以需要借助語料庫來進行輔助,在科技文本的翻譯過程中。通過語料庫這種媒介,能夠促進習總書記所說的“努力提高國際話語權”和“中國方案”的建設,提供中外語言交流的參考規范。由于科技文本的規范性,嚴格性,語料庫的應用能夠有效解決文體僵化,用詞簡單的問題。語料庫的建設當前還存在著一些問題,比如程序設計,平臺搭建,語言處理等。這些問題都是由于設計不規范,目標不明確等原因所導致的。本文通過快速,通用,有效的方法,能夠一定程度上解決以上所遇到的語料庫建設問題,探索一種適合于廣大院校和學術機構的語料庫建設方法,使語料庫能夠真正為人們所使用。
【關鍵詞】語料庫;科技文本;語言處理
【作者簡介】官小龍(1989- ),男,漢族,山東青島人,研究生,文學碩士,山東科技大學外國語學院英語筆譯專業,研究方向:計算機輔助翻譯,語料庫研究,人工智能。
1.語料庫(corpus)自上世紀初出現以來,伴隨著統計機器翻譯取得的突破性進步,于二十世紀八十年代開始繁榮發展。進入二十一世紀后,語料庫發展進入了3.0時代,諸如美國當代英語語料庫,柯林斯語料庫,以及國家語委現代漢語語料庫,《人民日報》標注語料庫等的相繼建立,北京大學,復旦大學,北京外國語大學以及北京語言大學等高校也開展的語料庫研究。近期由中國外文局和中國翻譯協會主持建設的中國特色話語對外翻譯標準化術語庫平臺,作為國家級多語種權威專業術語語料庫,收錄了中國最新政治話語、馬克思主義中國化成果、改革開放以來黨政文獻,為對外傳播翻譯提供術語及相關知識的數據資源,確立國家主導的中國特色話語外譯標準,推動了“一帶一路”國家之間的溝通和交流。
2.目前不少機構和組織,在進行國際學術交流時,由于計算機科學等科技外語專業程度較高,會遇到一定的語言障礙,外語專業人員缺乏相關專業知識,很難能夠快速的對于這些專業詞匯進行轉述,所以需要借助語料庫來進行輔助。但是目前計算機類語料庫比較匱乏,而計算機科學興起于國外,中文文獻又多借鑒外文研究成果,中國作者所譯著的計算機科技論文標題和摘要僵化,用詞簡單重復,這種不平衡的現象,嚴重阻礙了中外學術交流,使得中國優秀的學術成果無法傳播到世界,而世界優秀的學術成果又無法準確的傳達給國內專業學習者。
從以上現狀分析可以看出,雖然國內外已經著手進行了相關大型語料庫的建設,并取得了階段性成果。但因為科技英語翻譯涉及專業知識面廣,專業化較強,需要諸如計算機類語料庫等科技語料庫來進行輔助翻譯,但目前針對科技英語翻譯的語料庫較少,科技翻譯不規范的現象仍然存在,因而亟需進行英漢科技文本語料庫的研究和建設以滿足各行各業之間交流的需要。
1.語料庫能夠有效地充當媒介,對于加強國內外相關領域的交流具有十分重要的意義。語料庫的建設可以對科技文體的翻譯進行有效輔助,而科技文本翻譯的發展又可以有效解決科技領域學術不平衡的現象。自十九大以來,習近平總書記曾多次強調要“努力提高國際話語權”,并提出“中國方案”的建設。而話語權的提升,不僅僅是軍事,經濟,文化方面的提升,在科技方面話語權的提升也同樣重要,“中國方案”融通中外語言,確保國際社會“聽得懂”(孫敬鑫,2016)。而翻譯得當是保證“聽得懂”的大前提,通過科技語料庫的建設,能夠將各個高校及機構的已有的優秀翻譯成果結合在一起,從而形成足夠的力量,讓國際社會真正聽得懂,看的懂“中國方案”。
2.語料庫的研究具有十分重要的實踐意義。語料庫能夠提供翻譯過程中權威的參考規范,幫助翻譯人員選擇合適的詞語和搭配。同時語料庫也能夠有效應對科技翻譯過程中出現的文體僵化,用詞簡單的問題,讓國內外學術成果的翻譯能夠做到規范化,標準化。另外,語料庫作為高校以及各類機構學術資產的一部分,能夠收集譯員和學生日常翻譯以及曾經使用過得術語, 并加以整理,最終可作為教員日常教學的重要參考。
1.語料庫的程序設計以及平臺搭建是語料庫建設中所遇到的問題之一,自然語言處理一直以來都是計算機程序設計的難題之一,由于計算機只能按照一定規則來執行程序,處理自然語言需要建立相應的數學模型來規定計算機處理自然語言的方式。本項目語料庫需要同時對英漢兩種文本進行處理,在設計算法時不僅要考慮到不同語言之間的差異,還要從功能對等的角度出發,以解決語料庫的雙語對齊問題。
2.語料的篩選與錄入時亦是語料庫建設中問題,由于語料庫的中的語料是一種“集約化”的豐富的共享語料資源。考慮到語料庫的運行和查詢速度等因素,語料庫并不是越大越好。因而采集時應嚴格進行甄別,以尤金·奈達的功能對等理論作為參考,對于專業性非常強的術語要進行嚴謹的考證,避免不規范的語料錄入至語料庫中,同時形成定期的審查機制,保證語料錄入的規范化。
本文次提出探索一種建設語料庫規范、快速、通用的方法。嘗試運用軟件工程的相關理論,從需求分析開始,到語料庫模型設計,程序實現以及網絡平臺的搭建,到最后的測試交付,使語料庫的建設也能夠實現流程化,規范化,產品化。
1.需求分析與語料采集的研究:在本階段主要針對語料庫使用者,即譯者進行調查與分析,以譯者為中心對語料庫的功能進行規劃,并與語料庫語言學的理論相結合,設計既適合翻譯工作者使用,同時也能遵循科學方法的語料庫概念模型。此外,對科技類文本,尤其是計算機類語料進行收集,語料范圍包括詞、句、段、篇章。
2.進行語料庫的程序設計以及平臺搭建的研究:以.NET平臺作為本次語料庫所使用的技術平臺,SQL Server為語料庫所使用的數據庫技術軟件,而ASP.NET作為網頁設計平臺,在語料庫軟件中設計相應的匹配算法和概率模型,以多表查詢實現雙語對齊查詢,而概率模型則是以統計模型為設計核心,計算出特定詞在短語、句、段以及篇章中的使用概率情況,并以圖表的形式顯示。語料庫則以網頁的形式進行呈現,供使用者進行查詢。
3.語料篩選與錄入的研究:以一定大小的語言樣本代表著某一研究中所確定的語言運用總體。篩選出可以作為參考的語料樣本,語料元素具有概括性,通用性,準確性,權威性,錄入時進行標注,保證詳盡性與可行性的統一。
4.語料庫的使用和測試:完成語料庫的設計工作后,需要對語料庫進行功能性測試,測試語料庫各項功能能夠正常穩定的實現,以滿足語料庫的開發切實滿足使用者的要求。
語料庫發展至今已有數十年歷史,而國內外學術交流活動由于語言的問題,仍存在一定的障礙。而十九大之后“中國方案”的建設,離不開語料庫等工具的發展。而當下英漢科技翻譯中,文體僵化等問題依然存在,語料庫建設中也會遇到諸如程序設計,平臺搭建,語言處理等問題,通過規范、快速、通用的方法,從需求分析,程序設計到篩選,錄入以及測試,最終實現語料庫的建設,使建成的英漢科技文本語料庫能夠真正服務語言服務提供者。
參考文獻:
[1]許家金.語料庫研究學術源流考[J].外語教學與研究,2017(1):51-63.
[2]鄒永利.學術文獻的文體特征及其檢索意義——計算機科學文獻與相關新聞報道文體的比較研究[J].中國圖書館學報,2014(2): 33-40.
[3]孫敬鑫.借“中國方案”提升國際話語權[J].理論視野,2016(4): 10-12.
[4]于連江.基于語料庫的翻譯教學研究[J].外語電化教學,2004(2): 40-44.
[5]崔剛,盛永梅.語料庫中語料的標注[J].清華大學學報:哲學社會科學版,2000(1):89-94.
[6]楊惠中.語料庫語言學導論[M].上海:上海外語教育出版社,2002.