999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不同自然語言的信息處理方法差異概述

2022-04-29 09:38:33尕藏才讓
計算機應用文摘 2022年3期
關鍵詞:規則

尕藏才讓

關鍵詞:NLP文本檢查藏文文法

計算機時代的到來開啟了自然語言的自動處理先河。早在二戰時期,就有美國數學家沃倫·韋弗指出“德語只是用密碼寫成的英語而已”。他在戰后構想的機器翻譯概念直接啟發和推動了冷戰時期以英俄語翻譯為主的機器翻譯。自然語言處理從最初的基于規則的方法,到今天的基于深度學習的方法,技術得到了革命性變革。如今,NLP技術水平已不同往日,除了機器翻譯,其還被廣泛應用在輿情檢測、自動摘要、文本分類、語音識別、智能問答和人工智能等眾多領域。

由于互聯網首先在英語國家發展成型,所有在現階段的英語處理水平基本上代表著國際最頂尖的NLP技術水平1)因為各個自然語言的文法規則有差別,導致各個語種之間的處理技術有一定的差異性,在進行跨語種的NLP技術的研究時,只能進行淺層次的借鑒,而不能完全搬抄。甚至同語言不同方言的NLP技術都需要設計和采用不同的算法程序。本文以研究者較為熟練的藏漢兩種文字為例,從文本檢查的角度簡要概述不同語言間,由不同的語言特性所帶來的NLP技術差異。

1漢藏NLP技術發展回顧

1.1漢文的NLP技術發展

漢文是不同于英文的表意字,在語法上與大部分拼音文字有巨大差別。恰如語言學家王力先生所言:“就句子的結構而言,西洋語言是法治的,中國語言是人治的”。漢文的原始信息化處理開拓極其艱難,早期計算機和互聯網在國內的大范圍推廣應用直接受制于“計算機漢化”工作進度,這也是漢文字信息化處理工作要攻克的第一個難關;1974年,經有關部門批準將748工程納入國家科技發展計劃,標志著漢文字NLP技術攻關在國家層面得到了重視,其成果引發了印刷業的改革。其中,748工程又細分為精密中文編輯排版系統、中文情報檢索系統、中文通信系統,三者直接為“計算機漢化”和中文互聯網生態的形成打下了堅實的基礎。發展至今,“計算機漢化”問題已基本解決,漢文NLP則更注重于“漢文計算機化”,即通過計算機來處理漢文,輔助甚至代替人類進行翻譯、語言識別控制、情緒識別等。

相較其他自然語言,漢文NLP水平已走在世界前列,出現了一批優秀的科研機構和科技企業,如清華大學、哈爾濱工業大學、科大訊飛、百度等。通過與知識圖譜的結合,可廣泛運用于教育、醫療、養老、旅游等領域。此外,因漢文字所固有的語法復雜、結構不穩定等特性,使漢文字的NLP技術發展遇到了瓶頸,影響了整個技術的發展速度。但這幾年隨著深度學習和大規模語料庫的加持,又使該技術得到了新的發展契機(見圖1)。

1.2藏文的NLP發展回顧

藏文是參考古印度梵文編制的拼音文字[1],其基本由30個輔音1)和4個元音2)組成,有相對穩定和嚴格的文法體系,但又有別于西方流行的拉丁、日耳曼和斯拉夫等語系的左右橫向拼音排列,還具有從上到下的縱向疊加,對NLP技術的算法提出了更高的要求。20世紀80年代,改革開放,百業初興。在國內外的NLP技術大發展的背景下,藏文NLP技術研究工作也開始起步[2]———最早見于報道的是張連生于1981年用計算機進行的藏文詞匯排序工作,并于1983年采用李方桂先生提出的藏文羅馬轉寫方案,實現了藏文最初的處理系統,包括俞樂等人于1984年在VICTOR9000上設計的藏文處理系統和西北民族大學在WANGVS/80上實現的藏文字處理系統等。但上述藏文字處理系統缺乏宏觀層面的協調和國家統一標準的制訂,呈現了“各自為政,相互不通”的情況,嚴重制約了整個藏文信息處理研究的進一步發展。不過,1997年7月這種情況迎來了轉機———我國多部門、多地方、多高校聯合制訂的《信息技術交換用藏文編碼字符集基本集》通過第33屆SC2/WG2會議,藏文成為我國繼漢文后第二個進入國際ISO/IEC10646標準編碼體系的文字。此項標準的制定也正式打開了古老的藏文通向新時代的大門。這前后出現的蘭海藏文系統、TCE藏漢英文信息處理系統、北大方正藏文處理系統都呈現了高標準化的現象。此后,藏文NLP計算的研究對象越發廣泛,典型的有字詞頻統計、語料庫建設、自動分詞、機器翻譯、字詞校對、文本識別等。

隨著相關領域的國家和省級重點實驗室在西藏大學、青海師范大學等藏區高校落地,加快促進了以計算語言學為核心的藏文信息處理技術的研究和各層次人才的培養,使藏文信息化處理掀起了一個前所未有的發展熱潮。2016年8月,云藏搜索引擎在青海省海南藏族自治州正式上線(見圖2),代表著藏文互聯網和藏文處理技術形成了規模龐大的產業群。為該領域的產研結合、產教結合開辟了先河。

2漢文與藏文NPL技術在文本檢查方法中的差異概述

從語言學的骨架語法角度來看,漢文屬于獨特的“孤立語”,其表義轉變主要依賴虛詞和詞序的變化。如“水溫”和“溫水”具有根本詞義上的區別,但因字之間相互孤立,無所謂字詞的錯誤,而是根據用詞環境來界定。而藏文恰恰不同,其語法和表達方式帶有很強的“黏著語”的特點。即根據詞根的后綴或內部(即藏文的一個字節,以隔音符來界定)的變化實現語義的轉變,如“”和“”僅一個元音字母()之差帶來了語義的轉變[3]。本文將以漢文和藏文各自的語法差異為出發點,從自然語言文本處理的四個層面;字、詞、句(上下文無關)、篇(上下文有關),試述兩種文字NLP技術的具體差異。

2.1字層面的拼寫檢查方法差異

字的處理是進行自然語言文本處理的第一步和基礎。因漢文字本身的語法特點,在這層面只需通過統一編碼的漢字庫,就可以杜絕錯別字(即不存在的別字)的出現。現行的漢字顯示大都由基于Unicode編碼的漢文字機內碼、交換碼、輸入碼、點陣碼、點陣圖來實現,形成了龐大的具有6萬余字的字庫,編碼標準號為;GB2312?80。在此不做贅述。

不過,藏文字層面的檢查和糾錯機制則更為復雜[4],藏文由常用的30個輔音字母和10個非常用的輔音字母1)以及“”“”“”“”四種元音字符組成。而30個常用輔音字符中有分別分出10個后加字、5個前加字、2個再(后)加字、3個上加字、4個下加字。一個音節除了由40個常用和非常用輔音字母擔任基字外,還可以在基字上添加上、下、前、后、再加字以及元音字母。如果在拼寫環節不對語法規則進行限制,以現有的himalaya藏文輸入法為例,在限制字長為7的前提下,能輸入48000組不同音節字符串,但實際符合藏文音節2)拼寫規則的只有8000多組,盲打錯誤率高達83%。所以,要采用一定的算法規則,去規避和糾正不符合語法的錯誤音節的輸出。

下文將簡單介紹三種較為可行的方法:一是利用形式語言與自動機理論,構造識別藏文字的有限狀態自動機,將藏文字作為有限自動機進行輸入,能夠被自動機識別的藏文字的拼寫則是正確的,否則可能是錯誤的。此方法由西藏大學尼瑪扎西教授提出;二是對已輸入或正在輸入的藏文字按部件進行分解和分析,并在語法上進行規范,從而實現錯別字的過濾。此辦法由青海民族大學安見才讓教授提出;三是使用向量模型取值設限去實現音節內的拼寫檢查,參照藏文語法,把藏文中七個部件抽象成向量元素,并以元素數量設值,再用語法細則制定規則,從而制作向量模型,并將其與向量模型對照映射就可檢查該音節藏文字符語法的真值結果。此外,還有基于知識庫和產生式推理等處理方法,在此不做贅述。

如今,藏文字層面的拼寫檢查理論研究趨于成熟,更多的研究應該側重于實用化。以上部分的藏文語法以《字性組織法》理論為重點3)。

2.2詞層面的檢查方法差異

不管是孤立語還是屈折語和黏著語,到詞層面都需要參照相應的語法進行書寫檢查和糾錯處理,藏漢文字亦如此。此外,藏漢文字有個不同于西方英、法、西等語言的顯著特點———詞與詞之間沒有分隔符。所以,分詞系統的設計在藏漢兩種語言的NPL技術中都同樣重要,是詞法分析的基礎性工作。

在深度學習之前,詞層面的處理不外乎基于語言學知識的規則約束和基于大規模語料庫的統計匹配。雖然藏漢兩種文字在這個層面的處理方式差異已經變小,但因各自語法的特點,也還有一定的差異。

藏文詞層面的處理偏向于語法規則的約束,此方法相較建設成本高昂的語料庫而言,有成本低、算法穩定等優點。但其對前期的語法規則知識歸納和算法設計要求較高。此外,隨著處理對象的變化,如譯詞、新專用詞以及未登錄詞等的出現,必然會導致誤判情況發生。同時,在區別近義詞和歧義詞的差別上不靈敏、細粒度不夠,往往需要語料庫的加持。現流行的一部分Android藏文輸入法帶有一定的聯想匹配功能,亦是在遵循上述原則上拓展實現的。

漢文詞層面的處理則偏重于語料庫,通過細化和擴展語料,特別是分詞和標記等基礎工作,準備大容量的熟詞語料庫,加上詞表庫和每個詞運用環境正確,再借助統計和匹配以判斷檢查對象詞的用法正確。到現在,隨著深度學習的使用以及預訓練模型等的成熟運用,傳統的語料運用和建設變得更為簡單。

2.3句子層面的檢查方法差異

句子層面自然語言處理比以上兩個層次更復雜、更抽象,而藏漢兩種文字的處理方法也進一步趨同[5],但還是有一定的差別———比如,藏文在句法層面的處理就要考慮語法規則《三十頌》,而漢文字更注重考慮詞序和虛詞等語句構件的結構和排序。較為常見的方法體系有:短語結構句法體系和依存結構句法體系[6]。簡單舉例如“我在拉薩八廓街。”,按依賴關系標記并寫成樹狀圖(如圖3所示)。

依存結構句法體系所運用的表示形式簡單且可讀性強,方便設計算法。但不同語種都有各自的語法特色,所以剖析依賴關系時需要注意———比如,漢文字中的把字句、被字句;藏文字中的各類格詞和其他非自主副詞(在藏文字節之間,其表義和書寫要遵循三十頌語法體系。其中,以格屬詞、格動詞為主的非自主副在與前詞或整個語境結合時,要嚴格遵循跨音節的拼寫規則)的作用和使用規則,以免細微的差異帶來整體語句的變化,導致處理無效或錯誤。可以說,藏語句義分析技術現階段還未成熟[7]。

2.4語義層面的檢查

語義層面的處理除了要檢查語法層面的真偽問題,還要結合上下文,即上下文有關文法;在語法正確的前提下,判斷整個篇章的語義統一性和邏輯連貫性。該層次的實現對算法要求極高,無法通過簡單的規則推理和簡單的語料庫匹配來完成,更多地需要借助人工智能的訓練和學習來實現。如清華大學楊植麟團隊就在近期提出一種不需要預訓練模型的學習框架,并以此延伸出任務驅動的語言模型,使訓練模型能夠準確地認識語句中的細微差別,能明顯提高計算機的篇章級語言文字處理水平。以研究者角度來看,經過字、詞、句層面,到這一環節漢藏文字處理方法基本一致[8~10],可相互借鑒使用。

3結語

除了程序員,計算機和人類之間大部分的交流無外乎通過各種各樣的自然語言來實現。而計算機作為當今不可或缺的生活、辦公、學習工具,提升其對自然語言的識別和處理能力,不但可以提升某種工具的價值,更能使人類實現自我提升、自我解放。以研究者身邊的計算機和網絡環境為例,除了常用的漢文字外,還有一定的藏文數字信息存在,所以需要對這兩種文字NLP技術的發展予以關注。此外,在很多領域都有這樣的現象,如從事西方某國文字或歷史的專業研究,但不懂該國的語言文字,從而不能掌握一手資料,只能人云亦云,終究只能困守在一定的學術高度而不能出眾。在自然語言處理領域更是如此,進行跨語種NLP技術鉆研的時候,第一步就應該學習、掌握目標語言的語法規則和運用環境,而非脫離現實,翻閱二手資料,先入為主。這樣,即使自身擁有較高的計算機水平,往往也因語法知識的局限而亦趨亦步,而不能向前。

跨語種的信息化處理的第一步應該從目標語言的語法知識開始。總之,不管是哪種文字,除了語法上的差別導致處理過程有一定的差異外,目標都是一致的,就是能讓計算機咬文嚼字、又出口成章、代行百事,讓我們為這個目標持續奮斗[11]。

猜你喜歡
規則
拼寫規則歌
撐竿跳規則的制定
數獨的規則和演變
依據規則的推理
法律方法(2019年3期)2019-09-11 06:26:16
善用首次銷售規則
中國外匯(2019年7期)2019-07-13 05:44:52
規則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
顛覆傳統規則
環球飛行(2018年7期)2018-06-27 07:26:14
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
啦啦操2010—2013版與2013—2016版規則的對比分析
運動(2016年6期)2016-12-01 06:33:42
主站蜘蛛池模板: 欧美日韩在线成人| 干中文字幕| 国产微拍一区| 国产成人亚洲精品色欲AV| 一区二区自拍| 114级毛片免费观看| 日韩午夜伦| 婷婷五月在线视频| 日本少妇又色又爽又高潮| 国产在线观看91精品亚瑟| 欧美日韩国产在线播放| 爽爽影院十八禁在线观看| 亚洲人成亚洲精品| 色亚洲激情综合精品无码视频| 91精品久久久久久无码人妻| 黄色国产在线| 日韩精品无码免费一区二区三区 | 亚洲欧美国产高清va在线播放| 青青草一区二区免费精品| 亚洲天堂啪啪| 国产激情在线视频| 操操操综合网| 久久精品这里只有国产中文精品| 麻豆精品国产自产在线| 亚洲Va中文字幕久久一区 | 国产噜噜在线视频观看| 亚欧乱色视频网站大全| 亚洲一区二区日韩欧美gif| 亚洲成av人无码综合在线观看| 久久网综合| 99草精品视频| 成年免费在线观看| 国产97公开成人免费视频| 国产福利大秀91| 毛片在线播放网址| 午夜无码一区二区三区在线app| 久久人搡人人玩人妻精品一| 国产免费好大好硬视频| 久久国产黑丝袜视频| 久久青青草原亚洲av无码| 国产精品jizz在线观看软件| 日本免费福利视频| 日韩欧美色综合| 999福利激情视频| 国产精品女熟高潮视频| 看av免费毛片手机播放| 在线欧美一区| jizz国产在线| 亚洲人免费视频| 国产成人av一区二区三区| 精品无码人妻一区二区| 伊人五月丁香综合AⅤ| 天天干伊人| 全部免费特黄特色大片视频| 亚洲a免费| 男女男精品视频| 日韩A∨精品日韩精品无码| 呦系列视频一区二区三区| 亚洲不卡av中文在线| 久久一日本道色综合久久| 国产爽歪歪免费视频在线观看| 成人韩免费网站| 欧美激情成人网| 亚洲欧美日韩中文字幕在线一区| 亚洲中文无码av永久伊人| 欧美不卡视频一区发布| 亚洲精品男人天堂| a级毛片免费看| 中国精品久久| 成人免费午间影院在线观看| 久久人午夜亚洲精品无码区| 亚洲精品图区| 亚洲人免费视频| 福利国产微拍广场一区视频在线 | 国产成人精品三级| 美女被操91视频| 天天综合网亚洲网站| 美女无遮挡免费视频网站| 无码日韩精品91超碰| 成人一区在线| 黄色网址免费在线| 91福利在线看|