999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢語語病自動檢測研究現(xiàn)狀及展望

2020-08-18 17:34:48朱麗莉
文存閱刊 2020年9期
關鍵詞:展望

摘要:本文總結漢語語病自動檢測的研究現(xiàn)狀,并從檢測對象、檢測方法、檢測效果及所結合的語言學知識等角度進行分析,進一步探討漢語語病自動檢測理論研究的突破點及發(fā)展方向,以期為應用研究提供參考。

關鍵詞:漢語語病;自動檢測;研究現(xiàn)狀;展望

一、引言

隨著信息技術的發(fā)展,文本自動校對研究于20世紀70年代率先在美國展開,80年代,日本開始日文字詞檢測研究,到90年代中期,中文錯別字校對研究工作開展起來。目前,漢語語病自動檢測[]研究主要有兩個層面:基礎理論層面和應用層面。前者側重于理論分析和檢測方法的設計,后者側重應用軟件開發(fā)。在現(xiàn)有的信息處理文獻中,專題討論漢語語病自動檢測的文獻有70篇左右[]。在應用研究方面,現(xiàn)有的檢測軟件主要有黑馬校對、北大方正校對、金山WPS校對和微軟Word檢測等。總體而言,其中不乏代表性的檢測方法和技術,為了更深入地探討其研究問題及發(fā)展方向,筆者將對其研究現(xiàn)狀進行總結,并從檢測對象、檢測方法、檢測效果及所結合的語言學知識等角度進行分析。

二、漢語語病自動檢測研究現(xiàn)狀

漢語語病自動檢測系統(tǒng)包括查錯和糾錯,查錯先于糾錯。查錯的主要方法有模式匹配、N元模型、基于Web、基于規(guī)則和基于統(tǒng)計、基于特征等。糾錯法主要有模式匹配、建立字詞集和聚類替換等。

(一)查錯研究

替換法,通過分析錯誤字詞的類型及出錯頻率,在搜集系統(tǒng)語料的基礎上,根據字詞出錯的類型,設計音形相似度的閥值,進而建立起音近、形近字詞集,利用語言模型對各候選字串進行評分,找出評分最高的候選字串,與原文字詞進行比較,從而檢測出文本中的錯誤字詞。該方法能較有效地查出文本中的近似字詞錯誤情況,但誤報率較高。

模式匹配法,主要基于字詞典,將文本中的錯誤字詞與詞典中形近字詞進行模糊匹配,通過對比,獲取正確字詞。此方法最大的改進是能檢查并糾正固定式結構中的多字、缺字、替換字,能較有效地查出長詞中的別字。

N元模型法,運用詞二元同現(xiàn)概率來檢測文本,對待校文本中常見錯誤進行統(tǒng)計分析,并針對文本中出錯字詞與相鄰字詞接續(xù)關系弱的特點設計查錯方法,在檢測前后幾個字詞搭配關系方面有良好的檢測效果,但不適合長距離檢測。

基于規(guī)則與基于統(tǒng)計相結合的檢測方法,主要應用于文本標注和建立依存關系網中,該方法從字詞校對轉移到了語法檢測,通過對比英漢文本特點,根據漢語缺乏形態(tài)變化、詞類句法不存在簡單對應關系等規(guī)則,從上下文語法搭配上進行考慮,彌補了僅代換相似字詞的不足,利用錯誤規(guī)則模式,對正確語料和錯誤語料進行測試,并結合數(shù)據統(tǒng)計,能有效調整規(guī)則的約束范圍,以降低誤報率。

基于特征的檢測方法,采用Winnow方法進行特征學習,利用上下文特征來選擇目標詞混淆集中的詞。該方法主要尋找待校對句子中每個字詞的候選可能性,構造字詞候選矩陣,利用語言本身的特征和統(tǒng)計特征,從候選矩陣中選出最佳字詞候選序列,并與原句對照,找出錯誤字詞并提供候選字詞。

基于Web法,主要用于搜索及檢測未知詞[],用corpus統(tǒng)計詞頻,利用統(tǒng)計值消除歧義,將Web視為龐大且有時效性的語料庫,對未知詞進行辨識,在檢測中嵌入搜索引擎,考慮所有符合條件的相鄰詞和嵌入詞,充分結合了統(tǒng)計和搭配檢測的優(yōu)點。

此外,有研究者將多種檢測方法結合起來,目前,已找到了字詞的高頻出錯規(guī)律,針對字詞檢測,已取得突破性進展,但針對歧義、語法、語義方面的檢測,準確率較低。

(二)糾錯研究

聚類替換法,將漢語中形、音相似字詞進行聚類編碼,形成錯別字對詞典,在文本自動校對過程中輔以上下文語境的統(tǒng)計分析,提示糾正相近的音、形字,自動獲取錯別字對。該方法利用錯別字在字級錯誤中覆蓋率高的出錯特征,查找并糾正高頻出錯對象。它的局限在于沒有充分考慮上下文信息,糾錯建議只限于糾錯字表,對缺字、多字、易位和替換等錯誤類型的糾錯能力較弱。

建立字詞集的糾錯方法,通過收集常見的易混淆字詞,建立起混淆詞典,在糾錯時先查找此詞典,再判斷待校對字詞是否符合語言規(guī)則。此方法不僅可以用于音形相近字詞的替換,還能解決一部分歧義問題,但算法較復雜,糾錯對象具有局限性。

模式匹配法,主要利用相似度匹配原則來對相似的字詞進行替換,其原理與替換法相近,但匹配法的核心方法不是建立語料,而是設計字詞相似度算法,進而匹配字詞并提供糾錯答案。該方法可以對長詞進行糾錯處理,具有較好的效果,但未能充分分析和利用出錯字串的特征,且計算量較大。

三、問題分析

漢語語病自動檢測重字詞研究,輕語法、語義、語用研究,且重查錯,輕糾錯。就字詞檢測而言,對單音節(jié)詞(也叫單字詞)、雙音節(jié)詞、多音節(jié)詞的誤用檢測,召回率和準確率均低于60%。對此,筆者將從研究視角和思路、檢測方法、漢語本體研究等角度,試析漢語語病自動檢測理論研究的突破點及發(fā)展方向。

(一)研究視角和思路

語病自動檢測與人工檢測有很大不同,人工檢測一般按照查錯—糾錯—錯誤類型判定的順序,而自動檢測通常在設計好檢測類型后,按照指定類型—查錯—糾錯的順序,對待檢測文本進行分詞,查找散串,默認散串為錯誤類型,再根據散串提供糾錯參考。這其中,很可能直接略去了對散串正誤情況的判斷及出錯類型判定兩個環(huán)節(jié),所以,要么糾錯率低,要么誤報率高。先判定錯誤類型再做正確形式替換,或者先替換再判定類型,當下研究可以先做探討。

(二)檢測方法

目前,漢語語病自動檢測研究方法較多,但每種方法針對的對象、檢測思路及算法各有不同,呈現(xiàn)的檢測效果參差不齊。現(xiàn)有研究在借鑒英文、日文文本檢測方法時,未充分結合漢語漢字的特征設計檢測方法,故而影響檢測正確率及適用度。有的雖參考了漢語本體研究成果,但未深入分析待校對文本中漢語語病的類型、成因及特征等,以致未能找到合適的切入點。

此外,對語病自動檢測的重難點分析不足,檢測方法缺乏針對性。現(xiàn)階段,閥值的設定方法極少且標準不一,一旦閥值設定不當,就會出現(xiàn)誤判情況,進而影響召回率和查錯、糾錯的正確率。

(三)漢語語病本體研究

就目前而言,語病本體研究還有很多待探究之處。與英語相比,漢語具有很多特性,如,字詞之間沒有明顯的分隔符,字詞之間的組合聚合形式靈活多樣,詞在不同語境下的含義及承擔的語法功能或有不同,這些都需要一一統(tǒng)計。文本中的漢語語病形成的原因遠比書寫產生的語病復雜,錄入方式不同,所形成的語病類型、特征就會有所不同,對此,還應該在考察出錯成因的基礎上,有針對地設計檢測方法。漢語語言事實復雜,但現(xiàn)有的語言模型和數(shù)據語料不足,需要更詳盡地對字、詞、短語、句子內部的組合情況進行分析和描寫。

另外,理論研究與應用研究脫節(jié),理論研究進度較慢,跟不上應用研究的步伐,應用研究缺少充分的理論指導,因而在實際檢測中與用戶的期望值相差甚大。

四、研究方向及展望

通過分析現(xiàn)有研究存在的問題,我們發(fā)現(xiàn)漢語語病自動檢測需要開展大量的研究工作,對此,需要我們在較長一段時間內從各方面去一一突破。

(一)學科滲透

隨著大量文本編輯及電子文本檢測數(shù)量的增加,漢語語病自動檢測研究已是當前信息化發(fā)展亟待進一步解決的難題。此項研究需要深入結合語言學、數(shù)學、計算機科學等多門學科知識,這對研究者來說是一大考驗。不妨先從語言學角度對漢語漢字進行理論分析,梳理漢語漢字的發(fā)展規(guī)律,再結合數(shù)學和計算語言學等學科知識與技術,設計檢測方法。

(二)中外文本對比及檢測方法借鑒

將漢語與英語進行對比,可以幫助我們了解漢語的特點,避免大規(guī)模借鑒英語檢測方法帶來的問題,同時也可以幫助我們分析漢語語病自動檢測研究的重點和難點。

在中文文本中,字詞間沒有分隔符,所以,檢測前需對文本進行分詞及標注;此外,也沒有非詞錯誤,所以,無需使用單字匹配法;英語以音素、音節(jié)或詞為檢測切入點,漢語應以字為檢測的基礎,所以,用詞法檢測替代單字搭配檢測,會增加查錯的誤報率;英語重語法和拼寫,漢語重語義,所以,漢語檢測重點應在語義搭配;英語詞類和句法成分一一對應,漢語詞類和句法成分關系復雜,所以,漢語的詞性搭配檢測只能作為輔助方法。另外,同日文文本對比,中文文本中的錯誤類型及所占比例也有所不同。日語是粘著語,僅從位置上檢測字詞前后粘著情況就能解決大部分問題,而漢語中字、詞、短語和句子之間的組合都非常靈活,語序變換豐富多樣,位置檢測法也不能完全借鑒。

通過對比,我們可以利用語言之間的共同特征,更合理地改進檢測方法,漢語雖沒有非詞錯誤,但錯誤字詞可以以組詞搭配為主,利用漢語中的固定式和長詞優(yōu)勢,匹配檢測出其中的錯誤字詞。此外,馬爾科夫鏈接模型適用于漢語中短距離的字詞搭配、語法搭配、語義搭配檢測。

(三)充分結合漢語本體研究

漢語內部各要素間有一定的運行特點和規(guī)律,漢語中的字詞彼此之間結成以線條性為基礎的關系,又按照一定的規(guī)則一個挨著一個進行排列組合。結合語言學的研究成果,“字”是漢語的“基本結構單位”。漢語語病檢測,也應以字為檢測切入點,逐漸成系統(tǒng)地分析詞、短語、單句、復句等各要素之間的位置、詞性、語義、語用情況,以查出具體出錯類型,可以有效避免因默認查錯類型而增加誤判率的情況。

另外,漢語是語義型語言,不管是字詞檢測,還是詞法、句法檢測,都應該離不開語義的研究,字詞義之間實則有一定的規(guī)律可循。目前,已有學者對合成詞的兩個字位義進行了詳盡考察,分析了漢語字義與詞義之間的關系。這為我們的研究提供了參考,除了分析漢語字詞義的關系外,還應詳盡考察短語之間、句子之間的語義搭配關系,并進行詳細描寫。再結合統(tǒng)計法不斷完善語料,進一步統(tǒng)計其余各要素的搭配情況,并設計語義搭配檢測方法。

(四)深入分析語病出現(xiàn)的原因及規(guī)律

文本中,漢語語病產生的原因,通過統(tǒng)計,按制約因素大小及出錯頻率高低依次排列為:按鍵及選擇致誤;圖像文字識別或轉換出錯;聯(lián)想及記憶錯誤;表達或習慣性出錯;輸入法字庫小;電腦輸入法、機器翻譯或系統(tǒng)編碼出錯;故意為之;語音錄入時文字轉換出錯;因檢測方法設計不當,形成誤判情況等。

結合成因分析,可對按鍵及選擇出錯規(guī)律進行研究,如,使用拼音輸入法時,有可能造成同音錯誤字詞,使用五筆輸入法或手寫輸入法時,常表現(xiàn)為形近字詞錯誤。對于圖像文字識別出錯,可以統(tǒng)計其出錯類型,是誤識較多還是拒識較多,什么情況下會出現(xiàn)亂碼,什么情況下出現(xiàn)近似字詞代換,轉換過程是否有效結合了轉換技術等。對于聯(lián)想、記憶或表達錯誤,我們可以建立并完善語料庫,提供充足、正確的語料資源,以便使用者查找和及時更正。對于字庫較小、存在編碼錯誤的輸入法,我們可以提出糾錯建議,并呼吁使用正確率高、規(guī)范的輸入法系統(tǒng)。通過對語音錄入出錯類型的分析,可以幫助我們了解出錯的制約因素的高低情況,并有針對性地避免。

漢語語病自動檢測研究是一個長期的、逐步積累的發(fā)展過程,需要我們投入更多的精力,展開理論研究,為應用研究提供參考。同時,我們應加快研究的步伐,以應對信息化發(fā)展的需求。

參考文獻:

[1]Frank Keller ,Mirella Lapata? 2003 Using the Web to Obtain Frequencies for Unseen Bigrams .Computational Linguistics 29(3):459-484.

[2]Karen Kukich 1992 Techniques for automatically correcting words in text.ACM Computing Surveys 24(4):377-438.

[3]陳笑蓉,汪維家,陸汝占等 2003 《中文文本校對技術的研究與實現(xiàn)》,《計算機科學》30:53-55.

[3]池原 悟,白井 諭 1984 単語解析プログラムによる日本文誤字の自動検出と二次マルコフモデルによる訂正候補の抽出. 情報処理學會論文誌 25:298-305.

[4]馮金鳳 2011 《中文文本自動查錯研究》,東南大學碩士論文.

[5]龔小謹,羅振聲等 2003 《中文文本自動校對中的語法錯誤檢查》,《計算機工程與應用》39:98-100.

[6]荒木 哲郎,池原 悟等 2000 m重マルコフ連鎖モデルを用いた日本語の誤字·脫落·誤挿入誤り文字列の検出と訂正法 .電子情報通信學會論文誌 6:1516-1528.

[7]李建華,王曉龍,王平 2001 《多特征的中文文本校對算法的研究》,《計算機工程與科學》23:93-96.

[8]蓮井 洋志,川口 湊等 1996 科學技術系論文における付屬語連鎖の統(tǒng)語的,意味的な誤りの検出方法. 情報処理學會論文誌 37:1928-1940.

[9]賴育昇 2002 《自然語言處理於網際網路常用問答集檢索之研究》,國立成功大學博士學位論文.

[10]林筱晴 2004 《語料庫統(tǒng)計值與網際網路統(tǒng)計值在自然語言處理上之應用:以中文斷詞為例》,臺灣大學碩士學位論文.

[11]劉亮亮,王石,王東升等 2013 《領域問答系統(tǒng)中的文本錯誤自動發(fā)現(xiàn)方法》,《中文信息學報》3:77-83.

[12]駱衛(wèi)華,羅振聲等 2003 《中文文本自動校對的語義級查錯研究》,《計算工程與應用》12:115-118.

[13]馬金山,劉挺等 2004 《利用三元模型及依存分析查找中文文本錯誤》,《情報學報》23:723-728.

[14]王虹,張仰森 2001 《基于詞二元接續(xù)的中文文本自動查錯研究》,《貴州大學學報》18:16-21.

[15]吳巖,劉挺等 2001 《中文自動查錯與人機交互糾錯系統(tǒng)的研究與實現(xiàn)》,《哈爾濱工業(yè)大學學報》33:60-64.

[16]余濤 2003 《漢語語音識別文本的自動糾錯研究》,上海交通大學碩士學位論文.

[17]張仰森,曹元大,俞士汶 2006 《基于規(guī)則與統(tǒng)計相結合的中文文本自動查錯模型與算法》,《中文信息學報》4:1-7.

[18]張仰森,丁冰青 2001 《基于二元接續(xù)關系檢查的字詞級自動查錯方法》,《中文信息學報》15:36-52.

[19]朱磊 2004 《自然語言處理之漢語文本自動校對》,電子科技大學碩士學位論文.

[20]張濤2017 《中文文本自動校對系統(tǒng)設計與實現(xiàn)》,西南交通大學碩士學位論文.

[21]王林坪2019 《基于統(tǒng)計特征和規(guī)則聯(lián)合的中文文本校對算法研究》,昆明理工大學碩士學位論文.

[22]卓利艷 2018 《字詞級中文文本自動校對的方法研究》,鄭州大學碩士學位論文.

作者簡介:

朱麗莉,女,四川文化傳媒職業(yè)學院,研究方向:語言學及應用語言學。

猜你喜歡
展望
中國銀行體系改革創(chuàng)新的設想和中外對比
商(2016年32期)2016-11-24 17:21:50
海參人工育苗產業(yè)的現(xiàn)狀及展望
剖析當前計算機軟件開發(fā)技術實踐及展望
文學網絡時代的狂歡
小學課桌椅設計研究綜述
我國環(huán)境會計研究回顧與展望
移動機器人導航技術現(xiàn)狀與展望
國內外森林生物量碳儲量估測現(xiàn)狀存在問題及展望
園林綠化植物應用現(xiàn)狀與展望
國內延續(xù)性護理現(xiàn)狀及展望
考試周刊(2016年77期)2016-10-09 12:37:53
主站蜘蛛池模板: 中文字幕欧美日韩高清| www.狠狠| 77777亚洲午夜久久多人| 在线中文字幕日韩| 亚洲一欧洲中文字幕在线| 中文字幕乱妇无码AV在线| 六月婷婷精品视频在线观看| 99热精品久久| 午夜毛片福利| 国产精品自在在线午夜区app| 午夜福利视频一区| 欧美一区二区三区不卡免费| 久久人人妻人人爽人人卡片av| 亚洲AV永久无码精品古装片| 欧美成人免费一区在线播放| 2022精品国偷自产免费观看| 中文无码精品A∨在线观看不卡| 乱人伦中文视频在线观看免费| 国产99精品久久| 亚洲国产清纯| 国产成人8x视频一区二区| 幺女国产一级毛片| 波多野结衣一区二区三区四区| 91蜜芽尤物福利在线观看| www.亚洲一区| 日韩第九页| 麻豆国产原创视频在线播放| 视频国产精品丝袜第一页| 98超碰在线观看| 谁有在线观看日韩亚洲最新视频| 国产一区成人| 国产成人91精品| 日韩精品毛片人妻AV不卡| 国产精品一区二区无码免费看片| 国产成人亚洲精品蜜芽影院| 一级毛片在线免费视频| 欧美三级视频网站| 国产在线观看精品| 色有码无码视频| 日韩精品资源| 激情综合激情| 天天躁狠狠躁| 亚洲成人一区二区三区| 26uuu国产精品视频| 欧美精品一区二区三区中文字幕| 欧美日本在线| 亚洲AV一二三区无码AV蜜桃| 黑人巨大精品欧美一区二区区| 99re视频在线| 国产亚洲高清视频| 小说区 亚洲 自拍 另类| 99热这里只有精品5| 综1合AV在线播放| 2020亚洲精品无码| 国产精品福利社| 欧美一级高清片欧美国产欧美| 日韩经典精品无码一区二区| 欧美成人一区午夜福利在线| 亚洲国产欧美目韩成人综合| 九九精品在线观看| 重口调教一区二区视频| 久久频这里精品99香蕉久网址| 成人亚洲国产| 伊人久久青草青青综合| 在线亚洲精品自拍| 国产国语一级毛片在线视频| 在线视频一区二区三区不卡| 超碰精品无码一区二区| 国产97视频在线观看| 欧美精品一二三区| 欧美精品二区| 久久精品国产精品青草app| 国产欧美在线观看视频| 在线高清亚洲精品二区| 亚洲h视频在线| 欧美专区在线观看| 久久久久青草大香线综合精品 | 亚洲精品在线观看91| 97se亚洲综合不卡| 2021天堂在线亚洲精品专区| 亚洲一区无码在线| 日韩精品一区二区三区中文无码 |