劉益光 方昱
一、會議綜述
2018年4月14日上午,“大數據時代的語言研究研討會暨馮志偉先生八十壽誕慶祝會”在浙江大學紫金港校區啟真酒店求是廳隆重舉行。來自全國各地近兩百位學界同仁共同探討語言學研究的國際化與科學化進程,并為計算語言學家馮志偉先生慶賀八十壽誕。馮志偉先生的老朋友——浙江大學外語學院原院長邵永真教授,應用語言學專家應惠蘭教授,漢語研究專家吳潔敏教授等專程到會祝賀。浙江大學外語學院梁君英教授擔任大會主持。
國際世界語學院院士、浙江大學求是特聘教授劉海濤做了題為“信息時代的語言觀”的主旨演講,深情回顧了馮志偉先生的學術生涯,并借此揭示語言學研究方法科學化、成果國際化的奧秘。作為中國計算語言學的先驅與資深專家,馮志偉先生的學術生涯堪稱傳奇,為中國乃至世界的語言研究作出了巨大貢獻。60年前,當時正在北京大學地球化學系上學的馮志偉對語言產生了濃厚的興趣,并聽從內心的聲音轉系到了中文系潛心進行語言研究。用劉海濤教授的話說:這次從理到文的轉系,創造了中國語言學的一個歷史。本科畢業后,又接著在北大中文系師從語言學家岑麒祥讀研究生。
此后,馮志偉先生考取了中國科技大學的機器翻譯研究生,并被公派到法國學習數理語言學。留學法國期間,馮志偉先生于1981年完成了“漢—法/英/日/俄/德多語言自動翻譯試驗”,在機器翻譯領域走在了世界前沿。鑒于喬姆斯基短語結構語法存在的局限性,馮志偉先生在1983年提出了MMT模型(多叉多標記樹形圖分析法),以此為基礎進行自然語言計算機處理和機器翻譯研究,MMT模型是迄今為止中國學者在計算語言學方面最重要的成就的之一。除了這些學術成就,馮志偉先生還努力將當時世界最前沿的語言學理論、模型和方法帶回中國,先后為國內學界介紹了法國語言學家泰尼埃的“從屬關系語法”以及齊普夫定律(Zipflaw),為中國計量語言學的發展奠定了堅實的基礎。此外,馮志偉先生在1987年發表了專著《現代語言學流派》,系統梳理了現代語言學的格局,直至今日仍是最重要的語言學流派參考書。
馮志偉先生一直投身語言學研究,共出版專著38部,以英、德、法、漢等多種語言發表了431篇論文。值得一提的是,其中300余篇論文都是其退休之后的成果,這成為馮老永葆學術青春的最佳注腳,這份執著和堅守令人欽佩與動容。報告的結尾處,劉海濤教授以其15年前發表的對馮先生的書評《計算語言學不僅僅是計算》一文中的一段話作結,以此與在場語言學同仁共勉:“我們學到的不僅僅是一些有關(計算)語言學的知識,而是一種精神,一種人類原本應該具有的對于未知的探索精神,一種理想主義的精神,一種愛國主義的精神?!?/p>
之后,浙江大學人文學部主任黃華新教授、浙江大學外語學院副院長程樂教授、教育部語言文字應用研究所研究員郭龍生教授先后致辭,分享對大數據時代語言研究理解和看法的同時,向馮志偉先生表達了崇高的敬意。值馮志偉先生八十壽誕之際,大會為其舉辦了慶祝會,儀式雖簡短卻飽含深情,在場各位共祝馮老福如東海、壽比南山!
慶祝儀式結束后,馮志偉先生做了題為“大數據—人工智能—翻譯技術”的主旨演講。馮老從翻譯的起源、當今世界的翻譯需求講起,指出當今翻譯市場高達90%的翻譯需求無法得到滿足,這凸顯了發展機器翻譯的必要性?;诖耍T志偉先生回顧了機器翻譯的發展歷程,大體上可以分為基于規則、基于統計和基于神經網絡三個發展階段。第一代機器翻譯關注語言本體,以短語結構語法等為基礎,研究人員力圖編寫完備的規則讓機器模擬人類的翻譯過程。結合自身的研究經驗和成果,馮先生認為該類機器翻譯應用場景局限性大、研發過程耗時耗力且翻譯正確率有待提高;第二代機器翻譯基于統計數據完成翻譯過程,如2003年,來自德國亞琛大學的奧赫曾利用平行語料庫,現場構建翻譯系統進行演示?;诮y計的翻譯系統的機器翻譯體系正確率大幅提高,是目前的主流;而隨著人工智能和深度學習的發展,谷歌翻譯等基于神經網絡的機器翻譯系統完成了“彎道超車”,雖然其翻譯原理仍不明確,但翻譯成效令人稱贊。不過,發展至今,機器翻譯仍在文學等專業翻譯領域存在明顯的不足。
現階段,機器翻譯的發展主要由谷歌、微軟等科技公司的計算機專家主導,而語言學家日漸式微,這難免造成科技界的過分樂觀和語言學界的擔憂。馮老認為兩者都不可取,一方面,科技界過分強調語言的符號性,卻忽視了語言是凝結文化的復雜系統,這不利于機器翻譯解決反諷等多樣化翻譯難題;而語言學界也不必妄自菲薄,我們應該擁抱技術革新,同時致力于機器翻譯背后原理的探究,破解尚存的“黑箱”問題。馮老的發言既是鼓舞也是指引,字里行間洋溢的信心和勇氣催人奮進。
二、分組討論
下午,“大數據時代的語言研究研討會”分組討論在浙江大學紫金港校區東五教學樓青荷咖啡吧和201會議室同時進行。討論分為四組,來自北京大學、復旦大學、南洋理工大學、浙江大學、華中科技大學、西安交通大學、廣東外語外貿大學、大連海事大學、北京語言大學、杭州師范大學、華南師范大學、南京師范大學、中國傳媒大學等高校的學者共報告了20余項研究。
(一)關注當下新興的人工智能、機器學習等技術。馮志偉、詹宏偉介紹了語音自動識別在人工智能會話中的應用。他們首先梳理了語言自動識別的歷史與現狀,隨后介紹了影響語音識別效果的四個可變維度:詞匯量的大小、語音的流暢度和自然度、信道和噪聲以及說話人的語音特征,指出語音識別需經歷特征抽取、聲學建模和解碼三個階段。常寶寶、張浩和裴亞軍則探討了從科技文獻中自動識別并提取術語的方法。他們采用的多損失雙向LSTM模型,不僅可以標記文獻中重合的術語,還能夠標記文獻中的新術語。樂明、張翼利用大數據探究特定語法現象,利用BNC語料庫,從格、數、人稱、時態四個方面討論了英語it-分裂構式的特點。
(二)主要探討如何以大數據視角研究詞長、詞頻等語言基本特征。陳芯瑩報告了基于谷歌大數據的漢語詞長歷時研究,研究發現近300年來,漢語詞長呈現多音節化、加速增長的趨勢?;迎h節有人認為,若語料未剔除外來詞,這一趨勢或許與外來詞影響有關。陳芯瑩指出,外來詞的判定本身難以統一標準,此外外來詞的進入確實可能是漢語詞長變化的一個動因,但它們之間的因果關系需要更多相關研究進行佐證。陳衡、劉海濤基于蘭卡斯特現代漢語語料,發現漢語語法符合門策拉定律,即句子越長,組成句子的小句越短。
(三)主要關注語料庫研究。雷蕾、Dilin Liu對比了2016年美國總統競選過程中特朗普和希拉里的演講內容,發現兩位競選者在演講中的主題詞和用詞情感色彩都存在明顯差異。具體而言,相較于克林頓,特朗普的演講用詞更具商業用詞特點,用詞的情感色彩更偏負面。現場有老師指出,特朗普的這種說話風格也許跟其情緒化的性格有關,或許特朗普所用的正面詞匯也較多,而情感程度較低的中性詞較少。對此,雷蕾老師表示認同,并認為可以從不同的角度進一步探討這一問題。
(四)主要探討了語音和詞共現網絡兩個問題。黃偉以10個方案為對象,報告了漢語羅馬化拼寫經典方案的計量研究。研究結果發現,漢語拼音方案雖然在6個考察指標上都非最優解,但其綜合表現最為均衡。趙雪等人對個人口述史、民族志和新聞訪談等三類訪談的共現詞網絡進行了分析,發現三類訪談的關鍵詞區分非常明顯,口述史的話題具“個體性”“時代性”,民族志話題具“族群性”“文化性”,而新聞訪談話題則具“公眾性”和“時效性”。
三、會議總結
分組討論結束后是展板交流環節,三十余位參會學者展示了自己的研究成果,并在現場與到場的專家學者進行了面對面的交流,氣氛熱烈而融洽。這些研究涵蓋語言學研究的方方面面,集中展現了大數據時代下語言學研究的新趨勢,同時也體現了將更為客觀、科學的方法引入語言研究的重大意義。
與會的學界同仁在向前輩表達敬意的同時,深入探討了大數據時代下語言研究的新形勢和新發展。援引大數據創新團隊梁君英教授的話,這次大會真正實現了學科交叉、學術交融、學者交流的目的。