999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

AI拯救冰島語

2023-05-02 04:53:49仇廣宇
中國新聞周刊 2023年15期
關鍵詞:數據庫人工智能語言

仇廣宇

冰島一處公路上的指示牌。圖/視覺中國?

你知道Sau??ljóst是什么意思嗎?它是冰島語中的一個詞,描述的是一天中一個特殊時刻,在這個朦朧的黎明時分,大自然的光線,剛好讓人們能夠看清楚羊群。

用一個簡單的詞匯傳達出詩意和美感,這正是冰島語的特色。多年來,這門語言的精美讓不少文人墨客為之著迷。但近百年來,這門精美的語言曾經數次面臨滅絕危機。隨著全球化和高新科技的發展,只有三十幾萬人使用的冰島語,在現實里會受到英語等強勢語言的威脅,在網絡空間里也沒有太多展示的空間。

不過,冰島人一直在為自己母語的生存而努力,而且這種努力已經頗具成效,它甚至強大到將冰島語本身的命運反轉了過來。2023年3月15日,美國人工智能研究公司Open AI發布最新的人工智能系統——GPT-4,并公布了一些正在使用GPT模型的案例。通過這些案例,人們才發現,冰島政府正在訓練GPT模型學習冰島語。目前這種訓練已經取得了相當大的突破,GPT-4已經可以具備邏輯地用冰島語回答問題,并學會書寫冰島語的詩歌了。

人工智能學會了保護小眾語言,這件事,讓人工智能軟件在人們眼中多了一層善良、溫柔的色彩,人們發現它不只會搶走人類的飯碗,也能夠在恰當的利用之下,做一些保護傳統文化的有益工作。不過,說到底,這件事還是倔強的冰島人促成的。

科技背景下的語言危機

冰島人之所以會選擇用人工智能去保護冰島語,是因為冰島語在十幾年前遭遇過一次瀕臨滅絕的危機。2012年,一份由歐洲多家學術機構聯合編寫的、名為《歐洲語言平等》的報告顯示,因為缺乏數字技術的支持,有超過20種語言可能在網絡世界中滅絕,其中,冰島語的消失風險名列榜單的第二位,僅次于馬耳他語。那時,報告研究者憂心忡忡地呼吁,導致問題的原因,可能是多數歐洲語言都嚴重缺乏語言資源——這種資源,指的正是相關的語言數據庫和語言技術工具。

具體說來,這種危機是科技革命給小眾語言帶來的生存困境。十多年前,智能手機開始普及,之后,智能語音系統也開始伴隨智能音箱等產品進駐千家萬戶。在使用電子產品時,人們必須使用某種語言去和機器對話。但是,冰島人慢慢發現,當他們在自己家里使用智能音箱或者其他設備時,這些設備中沒有冰島語的選項。當然,大部分冰島人都是精通多語種的,他們可以改用英語、挪威語、丹麥語,也不會覺得有太大問題,但在政府層面看來,這種不能在自己家里使用母語的局面,實在是有些荒唐。

從那時起,這個問題就留在了很多冰島人的心里,他們開始思考如何解決冰島語在數碼世界可能消失的問題。擔憂的人包括詩人、學者甚至科技從業者,而首先站出來的正是一位技術從業人員——特勞斯蒂·克里斯蒂安松(Trausti Kristjánsson)。克里斯蒂安松的父親編纂過冰島語詞典,他對本民族語言也有著強烈的情感。早在2012年,在谷歌公司任職的他就開始強烈建議,要求他身邊的同事把冰島語加入谷歌語音的備選語言中。

但這個提議一開始就被谷歌的其他員工否決了,原因是,這些科技公司想要在語音系統里加入冰島語,就首先需要為冰島語建立數據庫,而對科技公司而言,為越小眾的語言建立數據庫,他們所支出的成本就會越多,因為原始的語言材料不夠,為了收集這些材料,公司還要花費額外的人力物力,這樣做,對一家企業而言很不劃算。為此,克里斯蒂安松只好與冰島當地的一位學者展開合作,通過手機收集了冰島人朗讀的數百萬個句子。最終,通過他們當年收集的語料基礎,谷歌建立了互聯網上第一個完整的冰島語語料庫。如今,谷歌翻譯里的冰島語翻譯選項,也是以這個數據庫為基礎制作的。

在克里斯蒂安松之后,冰島政府也開始行動。2014年起,冰島政府開始在一項語言保護計劃的牽頭之下,組織相關公司收集語言資料,促成人工語言數據庫的建設。數年后,當數據庫的建設初具規模,冰島官員就開始了下一步行動,他們公開致信,或是親自到訪各大科技公司,希望他們開展用機器學習冰島語的業務,或者,希望這些公司至少先在系統語言中添加冰島語選項。

冰島文化和商務部部長莉莉婭·阿弗萊德多蒂爾(Lilja Alfredsdóttir)曾在2021年寫信給迪士尼,希望對方在網絡播放的電影添加冰島語的字幕和配音,后來迪士尼回復稱,愿意在《冰雪奇緣》等動畫片中添加冰島語的字母和配音。此后,她又致信蘋果公司CEO蒂姆·庫克,但沒有收到回音。直到2022年4月,事情出現了較大的突破,冰島總統古德尼·約翰內松親自帶著團隊訪問了Open AI,并最終促成了該公司與冰島的合作。

高新科技如何保護一門小眾語言?

對于能夠教會人工智能說冰島語,冰島文化和商務部部長阿弗萊德多蒂爾笑得很開心,曾為此事多方奔走的她,激動地對媒體講述:為了訓練人工智能說冰島語,冰島方面花費了四五年時間,調集了六十多名專家來研究這個問題。此外,數家冰島科技公司也參與了這一過程。

使用人工智能學習一門語言,其背后的道理并不難理解。當人工智能學會了某門小眾語言,就相當于這門語言有了一個永不停歇、不斷進化的“傳人”,那么,它作為小眾語言的滅絕風險也就會大大降低了。這個學習的過程同樣不難以理解。只要人們能夠收集到某種語言使用者提供的、足夠多的語言資料,比如對話、互聯網網頁和出版物等文字資料等,將這些資料建成語言數據庫,再把數據庫的內容輸入人工智能的模型中進行訓練,稍微花費時間和精力,就可以做到。

但簡單道理的背后,還是有不少困難需要解決,尤其是,人工智能對語言的學習是依靠語言資料組成的語料庫完成的,那么語言本身的特點,以及數據庫的質量,就會決定人工智能學習一門語言的效果。語言學家、教育部語言文字應用研究所研究員,84歲的馮志偉是中國計算語言學的開拓者。在他看來,中文即使比冰島語大眾很多,在機器學習方面,它也面臨很多挑戰。

首先,如果語言材料本身的內容不豐富,量不夠大或者質量不夠高,都會令機器的學習效果大打折扣。比如,單獨以書本資料作為考察對象,中文的出版物大概只占目前全人類的語料庫的百分之5%,相比之下,英文出版物可以占到整個語料庫的60%,這樣的話,機器學習英語的效果自然更好。其次,如果某一門語言的獨特性過強,也會妨礙機器對它的學習。比如,中文在世界語言中的獨特性就很強,它不屬于表音文字,是表意的,其一個詞匯可能有很多重含義,此外,中文的詞和詞之間沒有空格,機器對這種一長串組成的句子并不能很好地理解。這也增加了機器識別的難度。

用這幾個條件比照,在機器學習領域,冰島語確實面臨著類似的困境。由于使用人數、語言資料都比較少,因此用冰島語書寫的互聯網資源的數量更是少得可憐。其次,冰島語雖然屬于表音的語言,但有大量長度極長,中間不會空格的復合詞,這些單詞也容易讓機器“讀不懂”。

如今,能夠成功訓練人工智能,其背后數據庫的建成,都是冰島人共同努力的結果。除了前述谷歌員工建立的數據庫之外,自從2014年政府建立相關項目以來,冰島本土的一些科技公司都投入到了數據庫的收集中去。比如,有家公司為此建設了一個網站,呼吁所有會說冰島語的人都把自己說話的錄音傳上去,為語料庫做一份貢獻。冰島前總統維格迪絲·芬博阿多蒂爾也帶頭參加這些語音項目的收集工作,親自在數據庫里錄下了她的聲音。

數據庫建成后,又有其他冰島本地的公司參與進來進行后續工作。其中一家公司組建了將近40個人的團隊,這個團隊每天的主要工作就是專門負責訓練GPT-4 回答冰島語問題。這些工作人員每天給GPT-4 留一些冰島語的“作業”,他們負責把答案收集進行評估。若發現機器的回答不準確,再重新教會它改進,如此循環往復,這種訓練有了成果,在GPT4的上一代模型——GPT3.5所輸出的答案里,還會混有英語或其他北歐語言的單詞,但是很快,GPT4就能給出純冰島語的答案了,而且日益準確。

“語言規劃部”和“人名規劃局”

在語言學家馮志偉看來,語言保護是冰島政府的“國策”。而冰島人將這種保護做出了特色。除了應用人工智能技術保護語言,冰島一直設有一個類似“語言規劃部”的語言規劃組織。該組織受到政府的資助,其中活躍著很多語言和技術學者,這些人的工作是審定外來技術詞語,再以此為標注提倡冰島公民使用。馮志偉提到,這種保護規格還是很高的,目前在歐洲國家中,除了冰島,只有法國才有“法語推廣委員會”,其他國家都沒有專門建立。

人們會好奇,為何冰島人如此執著于本民族的語言保護?除了民族性格之外,這也與冰島的歷史傳統相關。將語言上升為一種民族情感和“國策”,這與冰島建國的歷史有很大的關系。從公元9世紀起,冰島就開始有移民居住,在這個小島上,很早就誕生了獨立的民族意識和自己的文化,但千百年來,它始終不能算是一個獨立的國家,而是處于挪威和丹麥的勢力范圍內。后來,冰島于1944年正式建立共和國。

冰島人形成了一種文化共識,他們深知,他們的祖國不是一個大國,因此,獨立的經濟和獨特的文化才是他們的生存之道。因此,大概也是從19世紀開始,冰島的上層人士和學者們,就開始把這種共識傳播開來,逐漸形成了冰島人骨子里對民族語言文化的熱愛。此外,雖然長期和挪威語、丹麥語以及英語共處,但在現代社會之前,冰島語的樣貌沒有太多變化,它一直是與古代北歐語言最接近的一門語言,冰島人可以毫不費力地閱讀他們的祖先在千年前寫下的詩歌。這種身為世界文化遺產的自豪感,也促進了冰島人對冰島語言的熱愛。

因為這樣的共識,冰島人早在百年前就開始嘗試用系統方法進行語言保護。那個所謂的“語言規劃部”早在1927年就成立了,如今,它的名字是阿尼·馬格努松研究所,是一間由冰島大學獨立資助的學術研究機構,在冰島文化和商務部的主持下運作。最早,這個機構是為了解決外來詞和冰島語的結合問題而設置。當時,隨著時代發展,越來越多的外來詞涌入冰島,為了和游客、客戶等對象溝通,普通百姓也開始將英語等其他語言與冰島語混用。慢慢地,大到學術會議的官方語言,小到家電說明書,食品商標和孩子們玩的游戲卡,冰島人眼中的外語詞匯日益增多,母語詞匯一再被蠶食。這一現象令政府人士十分頭疼。

為了解決這一問題,“語言規劃部”想到了一個辦法:他們把所有外來詞都用冰島語的語法重新造詞,再通過手冊、報紙、廣播、電視等各種形式推廣至全國。這些詞匯很多都是當年比較新的科技發明。舉例說來,冰島語中原本沒有“電視”和“電腦”這兩個詞,當出現了這些新鮮事物后,研究所就開始構造這些詞匯,他們構造出的“電視”這個詞,是“視覺”加上“投射、發射”的意思組合而成的。而諸如“TV”“Computer”這樣的外來詞,是不被鼓勵在冰島本土使用的。

隨著時代發展,冰島語語言危機愈演愈烈時,“語言規劃部”反而越挫越勇,它們甚至發展出相關的“人名地名規劃局”來規范人名和地名。現在的阿尼·馬格努松研究所有一個下屬機構,專門對人名和地名如何進行準確地冰島語表達加以研究。

如今,一切努力都有了成果。當人工智能成功地學會了用冰島語寫詩歌,執拗的冰島人展露出了欣慰的笑容,除了“語言規劃部”以外,他們從此有了一個新的、守護本民族語言的幫手。在最新公布的2023年版的《歐洲語言平等》報告中,冰島人為本民族語言留存所做的一切努力都得到了高度贊揚,在這些研究者看來,盡管冰島語依然有著滅絕的風險,但這個趨勢是在不斷減小的。這也正如冰島文化和商務部部長阿弗萊德多蒂爾所感慨的那樣:作為一個小國,只要做足了功課,我們依然可以很好地保護我們的語言。

(參考資料:《冰島主權觀念:構建文化獨特性與優先經濟發展》,作者陳安琪)

猜你喜歡
數據庫人工智能語言
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
讓語言描寫搖曳多姿
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
數據庫
財經(2017年2期)2017-03-10 14:35:35
累積動態分析下的同聲傳譯語言壓縮
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 16:51:29
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 国产精品一区在线麻豆| 精品国产黑色丝袜高跟鞋| 亚洲精品在线影院| 影音先锋亚洲无码| 国内精品伊人久久久久7777人| 精品国产网站| 草逼视频国产| 91啦中文字幕| 一级毛片a女人刺激视频免费| 成人久久18免费网站| 色综合婷婷| 国产亚洲精久久久久久无码AV | 5555国产在线观看| 亚洲熟妇AV日韩熟妇在线| 欧美激情,国产精品| 欧美在线一二区| 欧美日韩中文字幕二区三区| 国产在线高清一级毛片| 欧美在线黄| a天堂视频在线| 国产SUV精品一区二区6| 一区二区三区在线不卡免费| 国产欧美高清| 亚洲自偷自拍另类小说| 美女高潮全身流白浆福利区| 奇米影视狠狠精品7777| 国产国拍精品视频免费看| 97在线视频免费观看| 久久婷婷国产综合尤物精品| 伊人色婷婷| 免费观看男人免费桶女人视频| 91娇喘视频| 国产成人乱码一区二区三区在线| 亚洲视频色图| 国语少妇高潮| 亚洲欧洲日韩综合| 久久青草视频| 国产99视频免费精品是看6| 亚洲国产精品日韩专区AV| 国产成人91精品| 精品三级网站| 在线看片免费人成视久网下载| 干中文字幕| 在线人成精品免费视频| 欧美高清三区| 毛片免费高清免费| 日韩精品无码免费专网站| 精品久久国产综合精麻豆| 精品国产三级在线观看| 欧美日韩免费在线视频| 日韩A∨精品日韩精品无码| 国产丝袜啪啪| 亚洲网综合| 亚洲成人一区二区三区| 亚洲无码熟妇人妻AV在线| 亚洲天堂精品视频| 国产在线啪| 欧美a在线看| 日韩国产黄色网站| 亚洲精品第一页不卡| 亚洲欧美成人网| 一本色道久久88| 亚洲精品你懂的| 国产日韩欧美一区二区三区在线| 亚洲永久视频| 国产国产人成免费视频77777| 午夜少妇精品视频小电影| 国产原创演绎剧情有字幕的| 人妻无码一区二区视频| 亚洲美女高潮久久久久久久| 亚洲视频无码| 波多野结衣无码AV在线| 亚洲成人动漫在线| 97色婷婷成人综合在线观看| 中日韩一区二区三区中文免费视频| 亚洲精品自拍区在线观看| h视频在线观看网站| 国产www网站| 日韩在线视频网| 日本精品影院| 少妇精品网站| 成人在线观看不卡|