范齊楠
在北京語言大學唯一的理工類學院——信息科學學院讀書,我的處境總是有些尷尬。每當親戚朋友問我:“你在北語學什么語言啊?”我只能略帶調侃地回答:“C語言啊(一種編程語言)。”本科時,我在北語讀信息管理與信息系統專業。在人工智能的浪潮中,自然語言處理有很好的發展前景,因此我決定在北語繼續攻讀自然語言處理方向的碩士學位。
語言也能計算
以前我一直認為計算機和語言學是兩個世界的,彼此沒有什么關系,直到接觸到自然語言處理領域,我才逐漸了解到原來語言也是可以計算的,這也是它之所以文理科學生兼收的原因。
如今智能教育非常火熱,語法改錯便是其中的一個重要功能,具有很大的應用價值。比如留學生在中文寫作時,經常會犯一些語法錯誤,市面上一些基于規則的成熟的語法改錯工具可以幫助他們修改作文。老師也可以在相關軟件的輔助下批改學生作文,以減輕工作負擔。還有我們常用的辦公軟件Word中的字頻統計、拼寫檢查等功能,都是語言計算的應用。
不久前,理科出身的我參加了一個語法改錯評測任務。我和小組成員一起把目前最新的神經網絡模型應用到語法改錯任務中,結果發現只能達到60%左右的準確率,有時候連基礎的單復數、時態錯誤都改不對。但無論我們如何改進算法,最終也只能把準確率提升到80%~90%,剩下的10%必須有語言學理論的加持。比較常見的做法是從語言學理論中總結出一些規則,用計算機可以理解的方式表示出來,作為先驗知識輸入給模型。這樣一來,才有可能在改錯速度和質量上都超越人類,甚至達到100%的準確率。
對于文科背景的同學來說,他們沒有接受過系統的數學和計算機教育,很難轉型為我們這種研究算法的程序員,但他們更擅長結合一些計算的手段,進行語言學或文學方面的研究。前不久我參加了中國計算語言學大會,看到一個針對《西游記》中“真假美猴王”的研究,覺得非常有意思。
“真假美猴王”這個章節引發了很多不同的解讀,引起幾個文科背景的研究生的興趣,他們首先把觀點總結為以下三種:
(1) 認為真的孫悟空已經被如來佛祖打死,《西游記》后半部分取經的是六耳獼猴;
(2) 認為真的孫悟空還活著,死的是六耳獼猴,孫悟空是唐三藏的精神導師,這個事件是唐三藏的修行,消滅了唐三藏的心魔,《西游記》后半部分中,孫悟空的桀驁不馴并沒有收斂;
(3) 認為真孫悟空還活著,“心魔”即是六耳獼猴,是孫悟空的反抗精神,“真假美猴王”事件之后孫悟空被“同化”,屈服于神權,再無反抗之意的悲劇結局。
到底真的孫悟空有沒有死?為了找出真相,他們開始對“真假美猴王”事件前后,孫悟空與其他角色的對話進行分析,比較孫悟空在該事件前后對其他角色情感值的變化。我們都知道,在臺詞的前綴中通常會出現“大笑道”“罵道”“后悔道”等含有濃烈感情色彩的詞。另外,臺詞中孫悟空對其他人物的稱呼也很能表現他對人物的情感是正面的還是負面的。比如他常常叫八戒“呆子”,叫妖怪“孽畜”,對尊敬的人會稱呼“陛下”“公主”,這些都可以作為計算感情值的指標。就這樣,他們以老版《西游記》為語料,把符合條件的臺詞從語料中抽取出來,通過對各種指標的計算,得到了孫悟空在“真假美猴王”事件前后對其他角色的情感值得分。最終他們得出“真的孫悟空沒有被如來打死,但這個事件消除了他的反抗精神”的結論。
看吧,原來計算機和語言學是這么密不可分!
像語言學家一樣做研究
自然語言處理是一個交叉學科,想要在這個領域做出創新性的工作,就必須有一雙善于發現的眼睛。這不僅能幫助我們從新的角度思考問題,更可能成為我們的學術靈感源泉。比如我有個師姐注意到“刷微博”“刷朋友圈”中的“刷”字是一種新的用法,于是就想到去研究這個字的語義變化。
在前不久的語料庫語言學課上,老師布置了一個作業,讓我們考察一個詞的搭配情況。“搭配”在語料庫語言學中是一個很重要的概念,有一套完整的理論。它要求我們在考察一個詞的搭配時,不僅限于看它的常見搭配詞,還要看它和搭配詞是否構成了一定的語法結構,它的語義及情感是否受到搭配詞的影響等等。比如“造成”一詞,本來是中性的,但由于它經常跟不好的事情一同使用,使它也帶有了一些消極意義。
要做好這個作業,首先得選到值得探究的詞語。為了尋找靈感,我用了一種笨方法——瀏覽語料庫。一次,我看到了“整整”一詞。除了作為一種語氣上的強調外,我隱隱覺得它還有一些比較特別的語法功能和語義特點。于是,我找出了語料庫中“整整”一詞出現的所有場景。除了“整整紅領巾”偶爾用作動詞之外,它絕大多數都是跟數量詞或動詞+數量詞搭配,來形容數量之大、動作持續時間之長,比如“整整30年”“整整忙活了一天”,并且它傳達的消極態度占多數,比如“‘大屠殺整整持續了5個月。”
有意思的是,除了表示“整數”之外,我發現與“整整”連用的數量詞有時還會是零數、概數。例如:“班主任和同學們整整聊了三個半小時”“籌備了整整兩個多月時間,百隊杯籃球京滬交流賽終于在上周末成行。”“從大廳就開始排隊,整整花費了30多分鐘。”
這到底是怎么回事呢?我找到“整整”在《漢語大詞典》中的義項:“(1)整齊嚴謹貌;(2)工整;(3)達到一個整數的,十足的。” 為什么字典里面只有整數的釋義呢?一心想搞明白緣由的我又翻閱了許多文獻,果然發現有學者提出,應該針對“整整”不一定完全表示整數的用法修改釋義,“這種用法雖然在比例上不占優勢,但卻非常重要。”
看到這里,你還相信我是學計算機的嗎?
年度流行語的誕生
每年的 “2018漢語盤點”系列活動,都是由北京語言大學國家語言資源監測與研究平面媒體中心共同承擔完成的。作為這個中心的一名研究生,我有幸參與了“2018年度中國媒體十大流行語”和“漢語盤點2018”年度字詞的篩選、發布工作。
每年的流行詞、流行語層出不窮,要完成中國媒體十大流行語、年度字詞的篩選工作,背后的工作量相當之大。就拿我重點參與的“2018年度中國媒體十大流行語”篩選發布工作來說吧,考慮到報紙的發行量、更新周期以及地域分布等因素,我們選擇了人民日報、北京日報、深圳特區報、齊魯晚報、華西都市報等國內16家影響力和發行量較大的報紙作為語料庫,收集到從2018年1月1日至11月底的全部報紙文本,語料規模近5億字次。接下來,我們利用語言信息處理技術,根據詞語出現的頻次,結合人工后期處理提取、篩選,得出流行語的候選詞表。
在篩選流行語的過程中,我成了語言監測這個大任務中的“小監測器”,不自覺地跟上了時代的主旋律。許多新詞高度濃縮了一年時間里的中國和世界風貌,盡現時代民生民情。有些跟我們的生活息息相關,比如由滴滴打車引發關注的“網約車安全”,頻頻出現在電商領域的“大數據殺熟”,備受關注的長春“問題疫苗”;有些離我們有些遙遠,比如在西昌衛星發射中心用長征三號乙運載火箭發射兩顆衛星的“一箭雙星”,在上海舉辦十二個國家參與的“進博會”等。一旦出現熱點事件,都會在第一時間引起我們高度關注,像中美貿易摩擦、川航英雄機長、重慶公交車墜江這些我們比較感興趣的話題,我和小伙伴甚至能像時事分析評論員那般,滔滔不絕地說上許久。
由于我們的語料來源于主流媒體,網絡上流行的“安排”“真香”“沖鴨”“涼涼”等詞,因在報紙語料中很少出現,最終沒有進入候選詞庫。但作為年輕人,我和團隊小伙伴們養成了一個共同的習慣:每當生活中遇到有意思的詞或熱點事件,大家的第一反應都是“說不定能出流行語!”前段時間,我發現“隱形貧困人口”一詞突然流行,它是指有些人看起來每天有吃有喝但實際上非常窮。仔細一想,這說的不就是我自己嘛!我當時就想:“這個詞真不錯!做流行語研究的時候一定得跟老師提出來!”
2018年12月6日,經過我們初步篩選以及專家評審的“漢語盤點2018”年度候選字詞正式發布,穩、芯、退、戰、改革開放四十年、錦鯉、貿易摩擦等熱門字詞都涵蓋其中。2018年12月15日,“2018年度中國媒體十大流行語”正式發布。十大流行語為:憲法修正案、命運共同體、進博會、貿易摩擦、錦鯉、板門店宣言、立德樹人、“一箭雙星”、幸福都是奮斗出來的、改革開放四十周年。2018年12月20日,由網友最終票選的“漢語盤點2018”年度字詞發布:國際年度字“退”;國際年度詞“貿易摩擦”;國內年度字“奮”;國內年度詞“改革開放四十年”。
責任編輯:曹曉晨