《中國語音學報》近期刊登了科大訊飛公司祖漪清研究員等的論文《用語言復制方法記錄瀕危語言一一錫伯語案例》。該文提出了用人工智能技術記錄瀕危語言的一種新方法。我們從這一研究成果看到:語言學家跟人工智能工程師協(xié)作,可以在下面兩個方面先行動起來:一是研究表情語;二是研究焦點與篇章之間關系。這項研究既可以取得有國際話語權的語言學成果,也會對AI技術發(fā)展產生重要推動作用。
趙元任先生在《國語語調》(1935)中指出:一國的語言除掉達意之外,還有表情的功能,特別是在藝術上所用的語言,例如在戲劇的對話里,那就全靠表情語調用得得當了;又在《北平語調的研究》(1929)中提出:口氣語調有40種,其中以音高跟時間的變化為主要成素的27種,以強度跟嗓子的性質為主要成素的13種。“文革”結束后,1977年夏秋之交,語言研究所討論如何恢復科研工作。呂叔湘所長找孫國華先生和我商討開展?jié)h語語調研究問題,希望我們用話劇語料研究語調。我倆帶著呂先生的親筆信給夏青先生,夏青先生把他保存的《茶館》廣播劇錄音磁帶給了我們。語言所陳建民先生和孟琮先生轉錄了這個錄音語料,用于他們的口語語法研究。由于主客觀原因,我只能用實驗句和文本句研究功能語調(《漢語語調實驗研究》,林茂燦,中國社會科學出版社,2012;《漢語語調與對外教學研究》,林茂燦、李愛軍、李智強,中國社會科學出版社,2019),對此我十分愧疚!因而,我衷心盼望有志于研究表情語調的專家,用話劇語料跟AI相結合的方法,來研究表情語調,一定會取得關于表情語調的有國際話語權的成果。這個成果是呂先生生前十分希望看到的!根據這個成果,還可以寫一部圖文并茂的《藝術語言》專著,填補這方面的空白,因為市場上尚無這類著作。
焦點與篇章之間關系的研究是目前語言學界的熱門課題,我們如能把自然口語與AI相結合開展這方面研究,也一定能得到鮮為人知的結果。
語音學家及其他語言學家利用已有知識對自然口語語料進行精細標注(標注內容包括語音結構、句法結構、篇章信息結構以及超音段等),利用訊飛智能語音合成系統(tǒng)作為研究平臺,通過合成驗證的方式來細致考察對這些語料輸入的語言學知識是否足夠,發(fā)現(xiàn)什么新內容,看到什么新問題,等等。語言學專家使用這種把大規(guī)模自然語料與人工智能AI相結合的研究方法,運用自己的智慧對結果做思考和推斷,這樣既可全面觀察到語篇各層級的語音結構,也可更深入全面地認識和發(fā)現(xiàn)語篇中的焦點、表情語調等韻律方面問題,以及語法等問題。當然,這些結果也可用于合成,使合成語音的自然度提高一步。
在智能語言技術已經到來之際,語音學家及其他語言學家應該積極行動起來,做好語音和語言數據資源建設方面的工作,為我國AI產業(yè)的發(fā)展提供堅實的數據支撐。我們期待漢語和少數民族語言的這種研究成果能夠對中國科學技術發(fā)展發(fā)揮出更加重要的作用,使得所謂“得語言者,得天下”的論斷為大家所共識,推動語言學發(fā)展。
這項工作需要大規(guī)模的語料,要對它做精細標注加工,還要跟人工智能工程師協(xié)作,使用有關設備,需要投入必要的物力和人力。我建議有關主管部門大力支持,給予立項,使這項研究多、快、好、省地開展起來,取得預期成果,以掌握這方面的國際話語權,為語言學發(fā)展做出更大貢獻!