999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文文本拼寫糾錯研究綜述

2025-06-19 00:00:00沈友志沈友志程春雷程春雷句澤東龔著凡
現代信息科技 2025年8期
關鍵詞:文本語言模型

中圖分類號:TP391.1;TP301.1 文獻標識碼:A 文章編號:2096-4706(2025)08-0138-08

Abstract:Chinese Spelling Correction(CSC)isacrucial foundational task inNaturalLanguage Processing (NLP),and providessupport forthedownstreamtasks andresearch.Theresearch in the fieldofCSCtaskscontinues to develop,mainly divided into eror corrction methods based onN-Gram language models,Deep Leaming,andLarge Language Models (LLMs). Firstly,techaracteristicsoftheN-GamlnguagemodelanditsapplicationinCSCareanalyzed,rvealingitsadvatagesin capturing contextual information.Secondly,methodsbasedonDepLearning improve theaccuracyof error coectionthrough deep neural networksand are widelyused in Chinese text procesing.Atthesame time,theriseofLLMs provides new ideas for speling correction,demonstrating their enormous potentialindealing withcomplex languagephenomena.Thisreviewprovides adetailedoverviewofthecurrentresearchstatusintheCSCfeld,providingareferenceforscholars engaged inrelatedresearch.

Keywords: Chinese text; spelling correction; N-Gram language model; Deep Learning; Large Language Model

0 引言

中文文本拼寫錯誤(CSC)是自然語言處理(NLP)領域的一個重要的基礎研究方向,其目的是檢測和糾正文本中出現的拼寫錯誤,為后續的文本分析、信息檢索、文本生成等任務提供了干凈、準確的輸入數據。另外拼寫糾錯與其他NLP任務緊密相關。例如,在信息抽取任務中,準確的文本能夠提高信息提取的準確性;在機器翻譯中,拼寫錯誤可能導致翻譯結果不準確,因此糾錯可以提高翻譯質量。此外人們在日常在線交流、寫作和翻譯中,難免會出現拼寫錯誤問題,這些錯誤可能會影響到文本的準確性和可讀性。它可以幫助用戶在撰寫文檔時提高寫作質量,改善用戶體驗。綜上所述,中文文本拼寫糾錯在自然語言處理中不僅是一個關鍵的基礎任務,也為各種應用和研究提供了支持,促進了NLP技術的全面發展。

1基于N-Gram語言模型的糾錯方法

早期無監督時代拼寫糾錯方法主要利用無監督管道系統即在沒有人工標注或監督信號的情況下,通過自動化處理流程來完成特定任務的系統。由于N-Gram語言模型在上下文建模、處理語言特性、計算效率以及實現和可解釋性等方面的優勢,早期的拼寫糾錯方法都采用了N-Gram的語言模型,并結合了動態規劃、加權平滑、發音和字形相似性等多種技術手段提升糾錯精度。

1.1N-Gram 語言模型

N-Gram語言模型是一種基于概率的語言模型,用于預測一串詞序列中給定上下文后出現某個詞的概率。N-Gram模型通過統計不同長度的詞組(即 N 個詞組成的片段)在語料庫中的出現頻率,來計算詞與詞之間的條件概率。N-Gram模型的核心思想是使用前面的 N - 1 個詞預測第 N 個詞。

在這個模型中,假設一個句子中的第i個詞的出現只依賴于前面的 N - 1 個詞,而與其他詞無關,即滿足馬爾可夫假設。 N 的值決定了模型的復雜度和上下文長度。常用的N-Gram模型包括:

1)Unigram(一元模型)假設每個詞的出現獨立 于前面的詞,只考慮詞本身的頻率。 2)Bigram(二元模型)只考慮前一個詞。 3)Trigram(三元模型)考慮前兩個詞。

例如,N-Gram語言模型預測第 N 個詞只依賴于第 N - 2 和第 N - 1 個詞。

第 i 個詞只依賴于第 i - 2 和第i-1個詞。對于給定的詞序列 ,N-Gram模型計算該序列的概率如下:

其中, 表示在前面 N - 1 個詞出現的情況下,第 i 個詞出現的條件概率。

條件概率通過詞頻的相對頻率來估計,即:

其中, 表示該N-Gram在語料庫中出現的次數,而count 表示前面 N - 1 個詞組成的詞組出現的次數。

在實際應用中,由于數據稀疏性,很多N-Gram組合可能在語料庫中沒有出現。為了解決這種“零概率”問題,需要使用平滑技術,如拉普拉斯平滑、加權平滑、Kneser-Ney平滑等。這些方法通過將部分概率質量從高頻事件轉移到低頻甚至未出現的事件,來提高模型的泛化能力。

1.2N-Gram語言模型在中文拼寫糾錯中的應用

Xie等人[2]將Bigram和Trigram模型結合并使用動態規劃和加權平滑解決了訓練數據稀疏性問題并提高了糾錯能力,但其召回率(Recall)較低,且處理長句子時復雜度較高。Huang等人[3]使用了Trigram語言模型進一步提高了其糾錯能力,但其主要針對字符級別的錯誤檢測和糾正,忽略了單詞級別的錯誤。Yu等人[4使用字符級N-Gram語言模型用于檢測潛在的拼寫錯誤的字符,并根據發音和形狀相似性生成候選集,再根據詞字典過濾掉不能形成合法單詞的候選項,最后選擇最高概率的候選字符作為糾錯的結果。Yeh等人[5]使用了N-Gram排名倒排索引列表用于映射潛在的拼寫錯誤字符到可能的對應字符,并結合發音和形狀字典用于生成候選集,并用E-HowNet傳統中文詞匯的知識表提高了糾錯效果,但其訓練和測試階段的復雜性較高。Yu等人結合了多種統計方法(N-Gram模型、機器學習模型、圖模型)以及使用了多個語料庫的資源,增強了模型的效果并提高了魯棒性和準確性,但其融合多種方法導致其實現和維護難度增加。

綜上所述,N-Gram模型計算效率高、對小數據集友好且解讀性好,但其長距離依賴有限,只能捕捉固定窗口內的依賴關系,處理較長的句子時效果不佳,容易忽視跨N-Gram邊界的詞匯關系。而且稀疏性問題嚴重,當 N 值較大時,N-Gram模型會變得稀疏,導致無法捕捉到足夠的語言現象,影響糾錯的準確性。最后N-Gram模型在生成候選詞方面不如深度學習模型,容易導致糾錯的多樣性和自然性不足。

2基于深度學習的糾錯方法

中文拼寫糾錯需要考慮上下文語境,以判斷某字是否正確。傳統的N-Gram模型只能捕捉有限范圍的上下文信息,而深度學習網絡(如Transformer[)可以利用自注意力機制在全局范圍內建模句子的語義關系,捕捉到長距離的詞匯關聯。而且拼寫錯誤在不同的上下文中可能代表不同的糾正方式,深度學習模型通過上下文對字詞進行編碼,可以根據具體句子的語義來調整糾錯建議。這對于中文這樣有大量同音字和形近字的語言尤其重要。另外深度學習模型既可以通過生成式方法給出候選糾錯字詞,也可以通過判別式方法判斷某字是否錯誤。這種靈活性使得深度學習網絡可以更全面地解決拼寫糾錯任務。因此,深度學習網絡因其強大的特征學習和長距離依賴建模能力,非常適合中文拼寫糾錯任務。在當前實踐中,BERT等預訓練語言模型以及基于Transformer的序列到序列網絡在中文拼寫糾錯任務中已經展現出優異的表現。

2.1 深度學習網絡

深度學習網絡[8是一種通過多個神經網絡層級結構來模擬人類大腦的學習模式的算法模型。通過層層的神經元結構,深度學習網絡能夠自動提取數據中的多級特征,實現復雜模式的識別和預測。深度學習網絡中的常見模型有前饋神經網絡(FeedforwardNeuralNetwork,FNN)、卷積神經網絡(CNN)、循環神經網絡(RNN)、長短期記憶網絡(LSTM)和

Transformer等。深度學習網絡的基本結構如圖1所示,包括輸入層、隱藏層和輸出層。輸入層用于接收輸入數據,如文本、圖像等。隱藏層包含多個神經元層,負責數據特征的提取和抽象。深度網絡的“深度”通常指隱藏層的數量。輸出層產生模型的最終預測結果。

圖1深度學習網絡的基本結構

深度學習網絡通過大量的數據訓練,使得網絡層的權重逐漸調整,以最小化預測結果與真實值之間的誤差。這個過程通過反向傳播和梯度下降來實現。

2.2深度學習在中文拼寫糾錯中的應用

2.2.1 模型架構創新

隨著Wang等人提出自動生成偽標記數據的技術解決CSC數據稀缺的問題,標志著CSC研究范式向以深度神經網絡為主導的監督學習時代的轉變。這一時期,研究人員探索了各種途徑來提高CSC性能。Zhang等人[1o]提出了新的神經網絡Soft-MaskedBERT架構,如圖2所示,通過結合錯誤檢測網絡和基于BERT的錯誤糾正網絡使其能夠更有效地利用全局上下文信息,顯著提高了拼寫錯誤糾正的性能。其中錯誤檢測網絡使用雙向GRU(Bi-GRU)網絡來預測每個字符是否為錯誤。對于每個字符,定義了一個條件概率 表示其為錯誤的概率。錯誤糾正網絡使用BERT模型作為錯誤糾正網絡,其最后一層包含一個Softmax函數,用于輸出每個字符的糾正概率。

圖2Soft-Masked BERT架構

Zhu等人[提出了一種新的多任務檢測-校正框架MDCSpell,如圖3所示,并通過利用拼寫錯誤字符的字形和發音特征同時最小化其對上下文的誤導性影響從而在中文拼寫糾錯任務中表現出色。其中檢測網絡使用基于Transformer的結構作為檢測網絡,確定每個字符的錯誤概率。輸入文本的嵌入序列經過多層Transformer編碼后,得到檢測網絡的輸出編碼向量,表示每個位置字符的正確性概率。糾錯網絡使用BERT-base作為糾錯網絡,找到替換錯誤字符的正確字符。BERT-base由12層相同的Transformer塊組成,最后一層的隱藏狀態用于糾錯任務。

圖3MDCSpelI架構

2.2.2 訓練策略改進創新

Liu等人[12]提出了一種新的訓練策略CRASpell(Contextual Typo Robust Approach for ChineseSpellingCorrection),通過引入噪聲建模模塊和復制機制,有效解決了中文拼寫糾錯中的上下文錯別字干擾和過度糾正問題。噪聲建模模塊為了使模型對上下文噪聲魯棒,該方法首先生成每個訓練樣本的噪聲上下文。然后,強制糾錯模型基于原始上下文和噪聲上下文生成相似的輸出。噪聲建模模塊通過替換原始訓練樣本中的字符來生成噪聲上下文,具體替換策略包括替換位置(從距離最近錯別字一定范圍內的位置中選擇位置進行替換)和替換字符(根據混淆集隨機替換為音似字符、形似字符或詞匯表中的任意字符)。而糾錯模塊輸入為嵌入序列,經過Transformer編碼器生成隱藏表示矩陣。最終輸出分布是生成分布和復制分布的加權和,算式如下:

其中, 表示生成分布, 表示復制分布, ω 表示復制概率。生成分布通過一層前饋網絡計算,復制分布是一個獨熱向量(One-hotVector),復制概率通過兩層前饋網絡計算。

Wu等人[13]提出了一種簡單但有效的方法來解決BERT在CSC任務中過度擬合錯誤模型的問題。該CSC任務需要語言模型和錯誤模型協同工作來做出決策。語言模型決定給定上下文中字符的分布,而錯誤模型表示給定上下文及其正確形式的潛在拼寫錯誤的分布。算式如下:

其中, x 表示除位置 外的所有字符。為了提高語言模型的性能而不影響錯誤模型,該論文提出在微調過程中隨機掩蓋輸入序列中 20 % 的非錯誤標記。這樣模型被迫在給定上下文的情況下預測被掩蓋的標記,從而學習到更好的語言模型。這種方法不需要對人類錯誤的任何假設,因此能夠從真實的人類數據中學習到完全無偏的錯誤模型。另外還提出了一種利用單語數據與并行數據進行模型訓練的方法,以實現在新領域的領域遷移。Liu等人[4]提出了重述語言模型(ReLM)來解決中文拼寫糾錯問題。傳統的序列標注方法將CSC視為字符到字符的標注任務,模型被訓練來將一個字符映射到另一個字符。這種方法會導致模型過度依賴訓練數據中的錯誤模式,忽略了整個句子的語義。然而重述語言模型(ReLM)為了克服序列標注的缺點,提出用重述作為CSC的主要訓練目標。具體來說,源句子首先被編碼到語義空間,然后基于給定的掩碼槽進行重述以生成正確的句子。

ReLM基于BERT模型,通過填充預設的掩碼槽來實現重述。ReLM是一個非自回歸的重述模型,使用BERT架構。輸入句子和目標字符被連接起來,模型被訓練來逐個生成目標字符。算式如下:

其中, 表示用于 的掩碼字符。ReLM自然地適用于多任務學習,所有任務都統一為掩碼語言建模格式,增強了CSC到各種任務的可遷移性。

2.2.3 多模態與特征增強創新

此外,還可以將發音或字形特征融入模型增強糾錯效果,如Cheng等人[15]提出了一種新的拼寫糾錯方法SpellGCN,通過圖卷積網絡(GraphConvolutionalNetwork,GCN)將語音和視覺相似性知識融入語言模型中。首先,從開源的混淆集中構建兩個相似性圖,分別對應發音相似性和形狀相似性。每個相似性圖是一個二進制鄰接矩陣,表示混淆集中的字符對是否存在。SpellGCN通過圖卷積操作吸收圖中相鄰字符的信息。每層采用輕量級的GCN卷積層,算式如下:

其中, 表示鄰接矩陣 A 的歸一化版本, 表示可訓練的權重矩陣。

為了結合發音和形狀相似性圖,采用了注意力機制。對于每個字符,表示組合操作的算式如下:

其中, 表示圖 k 的卷積表示的第 i 行, 表示權重,計算式為:

β 表示一個超參數,控制注意力權重的平滑度。

等人[提出了REALISE中文拼寫檢查器,通過利用漢字的多模態信息(語義、發音和圖形信息)來檢測和糾正拼寫錯誤。其實驗結果表明,REALISE模型在SIGHAN基準數據集上的表現顯著優于現有的最先進模型,驗證了多模態信息在中文拼寫檢查任務中的有效性。該REALISE模型包含了語義編碼器、語音編碼器和圖形編碼器。其中語義編碼器采用BERT作為語義編碼器的骨干,捕捉文本信息。語音編碼器使用漢語拼音作為語音特征,設計了一個分層編碼器。拼音由聲母、韻母和聲調組成,分別用字母和數字表示。圖形編碼器應用ResNet作為圖形編碼器,提取字符圖像的視覺信息。字符圖像從預設的字體文件中讀取,使用三種字體(黑體、小篆)來捕捉字符的圖形關系。最終輸出為一個向量,長度等于語義編碼器的隱藏大小 。

Li等人[17]提出了SCOPE(Spelling Check byPronunciationPrediction),SCOPE基于共享編碼器和兩個并行解碼器,一個用于主要的CSC任務,另一個用于細粒度的輔助CPP(CharacterPronunciationPrediction)任務。輸入句子經過編碼器處理后,生成語義、語音和形態特征。其次兩個解碼器分別生成目標正確字符和預測每個目標字符的聲母、韻母和聲調。Liang等人[18]提出了DORM(DisentangledPhoneticRepresentationModel)糾錯模型,其通過分離文本和拼音特征,并引入拼音到字符的預測目標和自我蒸餾模塊。其中包含拼音感知輸入序列。首先,將拼音序列附加到原始文本輸入,構建一個拼音感知的輸入序列。拼音序列由聲母和韻母組成,忽略聲調信息。Wu等人[提出了一種通過隨機遮蔽非錯誤詞元來增強語言模型的方法。即在微調過程中,隨機遮蔽輸入序列中 20 % 的非錯誤詞元,迫使模型在沒有這些詞元的情況下預測目標詞元。這種方法不同于BERT預訓練時的 1 5 % 詞元遮蔽,旨在增強語言模型的學習而不影響錯誤模型。該方法有效地解決了BERT在CSC任務中過度擬合錯誤模型的問題以及LEMON基準的引入為CSC模型的泛化能力評估提供了新的標準。

綜上所述,研究者通過創新模型架構、改進訓練策略及融合多模態特征,顯著提升了拼寫糾錯的性能。基于深度學習的中文拼寫糾錯方法具備更高的針對性和計算效率,尤其適合處理中文特有的拼音、字形等錯誤類型,且對數據需求較低,適用性強。但其泛化能力和靈活性較弱,難以應對復雜上下文和多種類型的錯誤。相比之下,大語言模型雖然計算成本更高,但具備強大的語言理解和遷移能力,能夠在多樣化場景中處理更復雜的語言錯誤。

3基于大語言模型的糾錯方法

3.1 大語言模型

大語言 模型(Large Language Model,LLM)[20]是一種由包含數百億以上參數的深度神經網絡構建的語言模型。其訓練通?;邶嫶蟮奈谋緮祿M行,這些數據集包含了廣泛的語言現象、語法規則和詞匯用法。從而使模型能夠學習到語言的復雜性和多樣性,從而在處理文本糾錯任務時能夠識別并糾正各種語言錯誤。其次大語言模型具有強大的上下文理解能力,能夠根據句子的前后文來推斷詞語的正確用法。這種能力使得模型在糾正文本錯誤時,能夠考慮到整個句子的語義和語法結構,而不僅僅是單個詞語的替換。而且大語言模型具有強大的文本生成能力,能夠生成流暢、連貫的文本。在文本糾錯任務中,這種生成能力使得模型能夠替換掉錯誤的詞語或句子,同時保持文本的連貫性和可讀性。其次通過增加大模型參數規?;驍祿幠硐掠稳蝿盏哪P托阅芴嵘@種現象通常被稱為擴展定律(ScalingLaw)[21]如圖4所示。而當模型參數規模達到千億量級(例如175B參數的GPT-3[22]和540B參數的 )語言大模型能夠展現出多方面的能力躍升。又如,GPT-3可以通過“上下文學習”(In-ContextLearning,ICL)的方式來利用少樣本數據解決下游任務,甚至在某些任務上超過當時最好的專用模型。

圖4大規模語言模型的擴展定律(ScalingLaws)

綜上所述,大語言模型由于其大規模數據集訓練、上下文理解能力、生成能力、自適應性和可擴展性、語言模型的內在特性以及錯誤模式識別能力等因素,非常適合用于文本糾錯任務。這些特性使得大語言模型在處理文本糾錯時能夠表現出色,為用戶提供準確、可靠的糾正建議。

3.2大語言模型在拼寫糾錯中的應用

Li等人[24認為LLMs在滿足中文拼寫檢查任務的字符級約束方面存在不足,通過提出C-LLM方法并建立字符級映射,逐字檢查和糾正錯誤來提高拼寫檢查的性能,使其成為字符復制和替換的任務。Li等人[25]使用LLMs作為基礎模型進行微調并通過任務特定的提示和上下文學習策略來評估和改進LLMs在CSC任務中的表現。任務特定提示如圖5所示,為了引導LLMs像糾錯模型一樣行為,提示要求LLMs最小化對原始輸入句子的更改,并且在拼寫糾錯任務中保持輸入和輸出句子長度一致。而在上下文學習策略中設計了三種隨機樣本:隨機錯誤樣本、正確和錯誤樣本、選擇難以糾正的錯誤樣本,以此來增強LLMs的中文拼寫糾錯能力。

Dong等人[2提出了名為RS-LLM(RichSemanticbasedLLMs)的上下文學習方法將GPT-3.5-turbo和ChatGLM2-6B作為基礎模型,并研究引入各種中文富語義信息對框架的影響。其中構建了一個包含6763個漢字的GB2312簡化漢字編碼表,并收集了每個漢字的多種屬性,如拼音、部首、筆畫數、結構等,如圖6所示。為了確保數據的準確性和完整性,對這些信息進行了手動標注。

利用RS-LLM的上下文學習能力,通過提供有限的與任務相關的例子來快速提高任務性能。如圖7所示,在該提示模板中,限制RS-LLM對輸入句子的語義重述,并要求其找到并糾正拼寫錯誤。為了避免RS-LLM在生成修正句子時過度修改句子長度或未有效使用語義信息,引入了一個內省機制即生成修正句子后,再次將其與原始輸入句子一起輸入RS-LLM,要求其判斷兩個句子的長度是否一致以及語義信息是否有效使用。只有當兩個問題的答案都是“是”時,才輸出修正結果;否則,將當前對話作為歷史對話的一部分,并再次請求RS-LLM回復。其實驗結果表明發音和部首信息對CSC任務的提升最為顯著,其次是結構信息,而筆畫信息的提升相對較小。

Zhou等人[27]提出了首個無須訓練和提示的框架,該方法完全不同于以往的中文拼寫糾錯(CSC)方法,利用大型語言模型(LLMs)作為傳統語言模型進行評估。并提出了長度獎勵策略以及忠實度獎勵策略,有效促進了多字符標記的生成,減少了過度糾正問題。

4結論

本文詳細闡述了中文文本拼寫糾錯(CSC)的研究現狀,重點介紹了基于N-Gram語言模型、深度學習和大語言模型的糾錯方法。N-Gram語言模型通過統計詞組頻率來預測詞的概率,盡管計算效率高,但在處理長距離依賴和生成候選詞方面存在局限。基于深度學習方法探討了模型架構創新、訓練策略改進和多模態特征融合等方面的研究進展。特別是基于Transformer的模型,通過自注意力機制捕捉長距離依賴,顯著提高了糾錯性能,大語言模型憑借其強大的上下文理解和生成能力,進一步提升了糾錯效果。隨著技術的不斷進步和優化,我們可以期待這一領域在未來呈現更多創新和突破。

參考文獻:

[1]KONDRAK G.N-Gram Similarity and Distance[C]//String Processing and Information Retrieval (SPIRE 20o5).BuenosAires:SpringerNature,2005:115-126.

[2]XIEWJ,HUANGPJ,ZHANGXR,etal.ChineseSpellingCheck SystemBased onN-GramModel[C]//Proceedingsof the Eighth SIGHANWorkshop on ChineseLanguage Processing(SIGHAN-8).Beijing:ACL,2015:128-136.

[3]HUANGQ,HUANGPJ,ZHANGXR,et al.Chinese SpellingCheck System Based on Tri-Gram Model [C]//Proceedingsof the ThirdCIPS-SIGHAN JointConferenceonChineseLanguage Processing.Wuhan:ACL,2014:173-178.

[4]YUJJ,LI Z H.Chinese Spelling Error Detection andCorrection Based onLanguage Model,Pronunciation,and Shape[C]//Proceedings of the Third CIPS-SIGHAN Joint Conference onChinese Language Processing.Wuhan:ACL,2014:220-223.

[5]YEHJ-F,LI S-F,WU M-R,et al.Chinese WordSpellingCorrectionBasedonN-GramRanked Inverted IndexList[C]//Proceedings of the Seventh SIGHAN Workshop on ChineseLanguage Processing.Nagoya:ACL,2013:43-48.

[6]YUL-C,LEEL-H,TSENGY-H,etal.OverviewofSIGHAN 2014 Bake-off for Chinese SpellingCheck[C]//Proceedings of the Third CIPS-SIGHAN Joint Conference onChinese Language Processing.Wuhan:ACL,2014:126-132.

[7]VASWANIA,SHAZEERN,PARMARN,etal.Attention IsAll You Need[C]//3lst International Conference onNeural Information Processing Systems.Long Beach:CurranAssociatesInc,2017:6000-6010.

[8]SCHMIDHUBER J.Deep Learning in Neural Networks:AnOverview[J].Neural Networks,2015,61:85-117.

[9] WANGDM,SONGY,LIJ,et al.AHybrid ApproachtoAutomatic Corpus Generation for Chinese Spelling Check[C]//Proceedings of the 2018 Conference on Empirical Methods inNaturalLanguage Processing.Brussels:ACL,2018:2517-2527.

[10] ZHANG SH,HUANG HR,LIUJC,et al. SpellingError Correction with Soft-Masked BERT[C]//Proceedings ofthe 58th Annual Meeting of the Association for ComputationalLinguistics.Online:ACL,2020:882-890.

[11]ZHUCX,YINGZQ,ZHANGBY,etal.MDCSpell:A Multi-task Detector-corrector Framework forChinese Spelling Correction [C]//Findings of the Association forComputational Linguistics.Dublin:ACL,2022:1244-1253.

[12] LIU SL,SONG SK,YUETC,et al.CRASpell: AContextual Typo Robust Approach to Improve Chinese SpellingCorrection [C]//Findings of the Association for ComputationalLinguistics.Dublin:ACL,2022:3008-3018.

[13]WUHQ,ZHANG SH,ZHANGYC,et al.Rethinking Masked Language Modeling for Chinese SpelingCorrection[C]//Proceedingsof the6lstAnnualMeetingoftheAssociation for ComputationalLinguistics.Toronto:ACL,2023:10743-10756.

[14]LIULF,WUHQ,ZHAO H.ChineseSpelling Correction as Rephrasing Language Model [J/OL].arXiv:2308.08796 [cs.CL].[2024-10-02].https://arxiv.org/abs/2308.08796.

[15]CHENGXY,XUWD,CHENKL,et al.SpellGCN: Incorporating Phonological and Visual Similarities intoLanguage Models for Chinese Spelling Check [C]//Proceedingsof the 58th Annual Meeting of the Association for ComputationalLinguistics.Online:ACL,2020:871-881.

[16] XUH-D,LI ZL,ZHOUQY,et al.Read,Listen,and See: Leveraging Multimodal Information Helps Chinese SpellChecking [J/OL].arXiv:2105.12306 [cs.CL].[2024-10-02].https://arxiv.org/abs/2105.12306.

[17] LI JH,WANGQ,MAO ZD,et al. ImprovingChinese Spelling Check by Character Pronunciation Prediction:The Effects ofAdaptivity and Granularity[J/OL].arXiv:2210.10996[cs.CL].[2024-10-04].https://arxiv.org/abs/2210.10996.

[18] LIANG ZH,QUANXJ,WANGQF.DisentangledPhonetic Representation for Chinese Spelling Correction [J/OL].arXiv:2305.14783 [cs.CL].[2024-10-05].https://arxiv.org/abs/2305.14783?context=cs.CL.

[19]WUHQ,ZHANGSH,ZHANGYC,et al.Rethinking Masked Language Modeling for Chinese SpellingCorrection [J/OL].arXiv:2305.17721[cs.CL].[2024-10-07].https://arxiv.org/abs/2305.17721?context=cs.

[20] ZHAOWX,ZHOUK,LIJY,etal.A Surveyof LargeLanguageModels[J/OL].arXiv:2303.18223[cs.CL].[2024- 09-20].https://arxiv.org/abs/2303.18223.

[21]KAPLANJ,MCCANDLISHS,HENIGHAN T,etal.ScalingLaws forNeuralLanguage Models[J/OL]. arXiv:2001.08361 [cs.LG].[2024-09-20].https://arxiv.org/ abs/2001.08361?file=2001.08361.

[22]WUTY,HESZ,LIUJP,etal.ABriefOverviewof ChatGPT:The History, StatusQuo and Potential FutureDevelopment[J].IEEE/CAAJournal ofAutomatica Sinica,2023,10(5):1122-1136.

[23]ANILR,DAIAM,FIRATO,etal.PaLM2 TechnicalReport[J/OL].arXiv:2305.10403[cs.CL].[2024-09-10]. https://arxiv.0rg/abs/2305.10403v3#.

[24]LIKT,HUY,HEL,etal.C-LLM:Learnto Check Chinese Spelling Errors Character by Character[J/ OL].arXiv:2406.16536 [cs.CL].[2024-09-10].https://arxiv.org/ abs/2406.16536.

[25]LIYH,HUANGHJ,MASR,etal.Onthe (in)Effectiveness ofLarge Language Models for Chinese Text Correction [J/OL].arXiv:2307.09007 [cs.CL].[2024-09-16].https:// arxiv.org/abs/2307.09007?context=cs.CL.

[26]DONGM,CHENYJ,ZHANG M,etal.Rich SemanticKnowledgeEnhancedLargeLanguageModelsforFewshotChinese Spell Checking[J/OL].arXiv:2403.08492[cs.CL]. [2024-09-16].https://arxiv.org/abs/2403.08492.

[27]ZHOUHQ,LIZH,ZHANGB,etal.A Simple yetEffective Training-free Prompt-freeApproach to Chinese SpellingCorrection BasedonLargeLanguageModels[J/ OL].arXiv:2410.04027[cs.CL].[2024-09-16].https://arxiv.org/ abs/2410.04027?context=cs.CL.

作者簡介:沈友志(1997一),男,漢族,九江人,碩士在讀,研究方向:自然語言處理;通信作者:程春雷(1976一),男,漢族,人,副教授,碩士生導師,博士,研究方向:機器學習、知識表示與學習、知識圖譜;句澤東(1998一),男,漢族,山西朔州人,碩士在讀,研究方向:自然語言處理;龔著凡(2000一),男,漢族,人,碩士在讀,研究方向:自然語言處理。

猜你喜歡
文本語言模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓語言描寫搖曳多姿
累積動態分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 波多野结衣在线一区二区| 欧美日韩精品一区二区在线线| 免费一看一级毛片| 亚洲成人动漫在线观看 | 成人国产精品一级毛片天堂| 日韩在线播放中文字幕| 国产福利一区二区在线观看| 亚洲欧美国产五月天综合| 久久综合婷婷| 亚洲第一成年人网站| 中文字幕在线日韩91| 粗大猛烈进出高潮视频无码| 青青青伊人色综合久久| 91精品视频在线播放| 国产爽妇精品| 国产成人亚洲综合A∨在线播放| 亚洲一区网站| 亚洲色偷偷偷鲁综合| 国产爽歪歪免费视频在线观看| 国产精彩视频在线观看| 久久久91人妻无码精品蜜桃HD| 色婷婷视频在线| 精品無碼一區在線觀看 | 特级毛片免费视频| 99re视频在线| 99精品免费在线| 色欲色欲久久综合网| 999精品在线视频| 欧美啪啪视频免码| 波多野结衣在线一区二区| 一区二区三区成人| 久久成人18免费| 毛片视频网| 亚洲人成影院在线观看| 少妇人妻无码首页| 亚洲精品成人7777在线观看| 一级高清毛片免费a级高清毛片| 久久人搡人人玩人妻精品| 国产精品免费久久久久影院无码| 中国一级特黄视频| 久久久久九九精品影院| 日本免费一区视频| 天天躁夜夜躁狠狠躁躁88| 亚洲中文制服丝袜欧美精品| 福利视频一区| 夜夜操国产| 中文字幕在线观| 国产亚洲精品97在线观看| 在线高清亚洲精品二区| 国产在线观看精品| Aⅴ无码专区在线观看| 国产手机在线小视频免费观看| 毛片国产精品完整版| 色亚洲成人| 国产Av无码精品色午夜| 精品99在线观看| 四虎永久免费在线| 人妻少妇乱子伦精品无码专区毛片| 亚洲an第二区国产精品| 青青热久免费精品视频6| 国产精品亚洲欧美日韩久久| 秋霞午夜国产精品成人片| 国产SUV精品一区二区6| 免费午夜无码18禁无码影院| 青青草原国产一区二区| 亚洲精品大秀视频| 强奷白丝美女在线观看| 四虎永久在线视频| 久久国产精品影院| 亚洲大学生视频在线播放| 欧美一区日韩一区中文字幕页| 中文精品久久久久国产网址 | 成人久久精品一区二区三区| 91久久偷偷做嫩草影院| 九月婷婷亚洲综合在线| 精品久久久久久中文字幕女| 亚洲成人网在线观看| 波多野结衣中文字幕久久| 在线网站18禁| 狠狠操夜夜爽| 日韩精品免费一线在线观看| 国产乱子伦视频三区|