999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的中文語法錯誤診斷方法研究

2020-12-04 07:50:50潘俊輝王浩暢MariusPetrescu
計算機技術與發展 2020年11期
關鍵詞:模型

王 輝,潘俊輝,王浩暢,張 強,張 巖,Marius. Petrescu

(1.東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318; 2.普羅萊斯蒂石油天然氣大學,羅馬尼亞 什蒂市 100680)

0 引 言

隨著“一帶一路”倡議的提出,風靡全球的“漢語熱”承載了當今世界各國人民對中華文明的深切渴望。漢語水平考試(HSK)的萌出,以及中文在國際舞臺的迅猛傳播,逐漸彰顯了中國國際地位的提升及中國文化的重要性。教育部、國家語委印發的《國家中長期語言文字事業改革和發展規劃綱要(2012-2020年)》[1]中提出必須糾正語言文字的不規范使用,構建和諧語言生活,服務社會主義文化強國建設。然而,中文作為最難學的語言之一,與英文有很大的不同,其在發音、語法、語義、形態上有著極強的復雜性和靈活性,無形中加大了中文語法錯誤診斷的難度。包含語法錯誤的中文自然語言描述,往往會導致計算機做出錯誤的回應,直接影響著人工智能的水平。因此,中文語法錯誤診斷的研究意義重大,已然成為了計算機處理自然語言領域的一個重要研究方向。

2014年,Yu發布的中文語法錯誤診斷共享任務中,將語法錯誤診斷重點集中在語料中出現的四類語法錯誤,即詞語冗余(redundant words,R)、詞語缺失(missing words,M)、詞語誤用(word selection errors,S)和詞語亂序(word ordering errors,W)[2]。近年來,傳統的中文語法錯誤診斷方法多采用基于規則、統計、語料、特征等策略,結合機器學習判定中文語法錯誤,這些方法的最大缺陷在于難以關聯上下文語義,導致中文語法檢錯效果并不是很好。隨著深度學習技術在計算機視覺、語音識別、自然語言處理等諸多領域的迅猛發展和優異表現,相比于傳統的檢錯方法,基于深度學習的中文語法檢錯方法逐漸占據了中文語法錯誤診斷技術的主導地位。

2014年,Shuk-Man Cheng等提出應用CRF和基于排序SVM算法的模型檢測詞語亂序錯誤[3]。2015年,Jui-Feng Yeh等先采用CKIP自動標注系統分詞,再應用CRF模型進行中文語法錯誤診斷,取得了較好的召回率和精準率[4]。同年,韓文穎構建了基于序列標注的CRF語法錯誤檢測模型,提高了識別層的精度[5]。2016年,在參加中文語法糾錯任務的隊伍提交方法中多次出現了深度學習相關算法,在各級別的評估下都取得了不錯的成績。例如,北京大學采用了Bi-LSTM模型診斷方法,云南大學提出了基于字向量的CNN模型和LSTM模型的診斷方法[6]。同年,Zheng等也采用了LSTM模型進行句子語法錯誤標注[7]。2017年,Yang等提出的LSTM-CRF模型很大程度上提高了句子標注的準確性,獲得了同年國際自然語言處理聯合會議(IJCNLP 2017)中文語法糾錯第一名[8]。2019年,楊勁男探討和對比了現有機器學習模型以及其他神經網絡模型,提出一種基于門控遞歸單元與條件隨機場的組合模型(GRU_CRF),提高了文本特征擬合度,同時證明CRF在判錯定位時確實具有較好的效果[9]。然而,現有的方法往往需要大量人工標注特征,同時忽略了特征詞的上下文信息的影響。

鑒于此,該文提出一種基于BI-LASM-ATT與CRF相結合的模型應用于中文語法錯誤診斷研究。首先,對句子進行斷句、按固定長度補全句子、采用jieba分詞技術進行數據預處理;其次,為反映詞對全文信息的重要程度,以及詞位置的影響,利用Skip-gram模型標注詞向量;最后,將生成的向量表示作為基于注意機制的雙向LASM模型的詞嵌入層數據,利用CRF模型進行序列標注。

1 相關工作

1.1 分詞技術

詞語是自然語言處理最基本的一個元素,在進行語法錯誤檢錯之前,首先需要對測試文本進行詞語劃分,即將句子分割成獨立的詞語。目前,英文分詞技術主要采用規則模型主導和統計模型主導的分詞技術,中文分詞技術主要采用基于字符串匹配、基于理解和基于統計的分詞方法,其中最為常用的是Python的jieba分詞組件。

jieba分詞支持以下四種分詞模式:

(1)精確模式。將句子精確切分以作文本分析。

(2)全模式??焖賿呙璩鼍渥又兴锌沙稍~的詞語。

(3)搜索引擎模式。在精確模式的基礎上,再次切分長詞,以提高召回率。

(4)paddle模式。利用深度學習框架,訓練序列標注網絡模型實現分詞與詞性標注。

jieba分詞技術能夠實現高效的詞圖掃描,生成句中漢字所有可能的成詞情況的有向無環圖;并采用了動態規劃算法以查找最大概率路徑的方式,找出以詞頻為基礎的最大切分組合;對于未登錄到詞庫的詞,使用了基于漢字成詞能力的隱馬爾可夫(hidden Markov model,HMM)模型和維特比(Viterbi)算法得到分詞結果。同時,jieba分詞技術能夠實現詞性標注工作,為語法檢錯提供了更詳盡的數據。

1.2 詞嵌入技術

分詞之后得到的每個詞語相互獨立,一定程度上忽略了上下文影響因素,使得在語法錯誤診斷過程中遺漏了很多語法錯誤,因此需要找出其相關的所有信息。詞嵌入模型可以使用詞向量的方式來描述詞語的相關信息,2013年Mikolov等學者提出了Word2vec方法來解決這個問題[10]。Word2vec是從大量文本語料中以無監督方式學習語義知識,一種用于訓練詞向量的模型工具,作用是將所有詞語投影到K維的向量空間,每個詞語都可以用一個K維向量表示。Word2vec可使用連續詞袋CBOW(continuous bag-of-words)和Skip-gram模型來學習詞向量表達,CBOW主要通過上下文預測詞的方式學習,Skip-gram主要以詞來預測周圍上下文方式學習。對于沒有標注的訓練數據集,Skip-gram模型作為一種無監督學習技術,可根據樣本間的規律統計對樣本進行分析,查找給定詞的最相關詞語,更適合完成中文語法檢錯的詞嵌入層向量的生成。

1.3 深度學習模型

深度學習是機器學習研究中一個嶄新的領域,其模型屬于一種多隱藏層、多感知層的神經網絡結構,并具備優秀的數據表示。近年來,深度學習模型及其各種改進形式的模型層出不窮,紛紛被應用在自然語言處理研究中,得到了不錯的效果。為了更好地捕捉詞語上下文相關信息,保留語序特征信息,該文采用了基于注意機制的雙向長短期記憶網絡模型。

1.3.1 雙向長短期記憶網絡模型

長短期記憶網絡(long short-term memory networks,LSTM)模型是遞歸神經網絡(recurrent neural network,RNN)模型的一種,可以更好地解決中文語法檢錯中的長距離依賴問題。近年來,LSTM作為RNN的一種優化,利用其所具備的學習長距離文本依賴的特點,被廣泛應用在情感分類、機器閱讀理解等研究中,已然成為了深度學習的一個重要研究熱點[11]。雙向長短期記憶網絡(Bi-LSTM)由前向和后向LSTM組合而成,由于其具備神經網絡擬合非線性的能力,可以更好地捕捉上下文的雙向語義信息,為語法檢錯提供上下文依賴性更強的文本信息。

1.3.2 注意機制

注意(attention)機制強調把注意力集中放在重要的點上,忽略其他不重要的因素。神經網絡注意機制是具備專注于其輸入(或特征)的神經網絡,它可選擇特定的輸入。目前,基于注意機制深度學習網絡模型的改進研究,已在機器翻譯等領域取得了很好的應用效果。

1.4 序列標注技術

中文語法檢錯任務可以視為序列化標簽標注任務,在做標注時給定特定的標簽集合,即可完成序列標注。常見的解決方案往往借助于隱馬爾可夫(HMM)[12]、最大熵馬爾可夫(MEMM)[13]和條件隨機場(conditional random field,CRF)模型。其中,2001年由Lafferty等提出的CRF,是一種無向圖判別式概率模型,作為解決序列標注問題的主流方法,很好地解決了HMM和MEMM的標注偏差以及標簽之間的依賴關系信息問題,在分詞、詞性標注和命名實體識別等序列標注任務中取得了很好的應用效果。

2 基于BI-LSTM-ATT與CRF的中文語法錯誤診斷模型

該文構建了基于BI-LSTM-ATT與CRF的中文語法錯誤診斷模型,由詞嵌入層、BI-LSTM-ATT層、CRF層構成,結構如圖1所示。

圖1 基于BI-LSTM-ATT與CRF的中文語法錯誤診斷研究框架

2.1 詞嵌入層

詞嵌入層的作用在于通過大量樣本訓練Word2vec輸入詞向量,提供給下一層使用。應用Skip-gram模型分別將輸入詞和POS標簽作為中心詞,預測出其上下文詞和上下文POS標簽為輸出詞。訓練前,將語料庫中的所有n個詞語進行獨熱編碼為w(i)∈Rn,同時對輸出也進行獨熱編碼。Skip-gram模型結構如圖2所示。

圖2 Skip-gram模型

Skip-gram模型分為三層:第一層為輸入層(INPUT),w(i)為輸入語句的每個詞語,以此作為輸入詞;第二層為投影層(PROJECTION);第三層為輸出層(OUTPUT),窗口為c,假設c取5,得到目標單詞w(i)上下文中的5c個詞向量(w(i-5),…,w(i-1),w(i+1),…,w(i+5)),即輸入詞的鄰近詞的概率分布。同理,再將每個詞POS標簽p(i)作為輸入,得到其上下文POS標簽向量(p(i-5),…,p(i-1),p(i+1),…,p(i+5)),即輸入詞POS標簽的鄰近POS標簽的概率分布。

給定一個大小為|W|的詞集,將每個詞w∈W映射到dw維嵌入空間。同理,給定大小為|P|的POS標簽集,將每個POS標簽p∈P映射到dP維嵌入空間。最后,將得到的詞向量和POS標簽向量嵌入連接到單個向量xi∈RHc中,其中Hc=c×(dw+dp),作為BI-LSTM-ATT層的輸入。

2.2 基于注意機制的BI-LSTM模型

1997年,Hochreiter與Schmidhuber提出對遞歸神經網絡(recurrent neural network,RNN)進行優化,得到了長短期記憶網絡(long short term memory networks,LSTM)[14],解決了長序列學習的梯度消失問題[15]。近年來,很多學者在自然語言處理的研究應用中,針對具體問題,對LSTM模型進行各種形式的改進都取得了不錯的應用效果[16]。該文采用BI-LSTM-ATT模型,通過充分利用序列上下文中所有可能對標記有用的信息,即提取詞過去和未來的特征來提升標簽的準確度,如圖3所示。

圖3 基于注意機制的BI-LSTM模型

(1)

其中,W是權重矩陣,將輸入的hi進行線性轉換,uw是詞水平的上下文矢量,C是第i個詞語的向量。

最終得到每個詞的所有標簽的各自得分,即每個詞映射到標簽的概率值。

2.3 CRF層

BI-LSTM-ATT模型充分考慮了輸入序列的上下文信息,但忽略了標簽之間存在的依賴關系,而相鄰文字之間的信息對于語法識別很重要。在BI-LSTM-ATT模型之后再加入一個CRF層,可針對不同任務設計特征,所有特征可進行全局歸一化,求得全局最優解,通過選取有效特征,生成相應的標簽序列。CRF模型可以把前后標記依賴約束考慮進去,使用標記狀態轉換概率作為評分。

在自然語言處理問題中,普遍采用線性鏈條件隨機場解決序列標注問題。設X為線性鏈表示的輸入觀測序列,Y為對應的狀態序列,X=(X1,X2,…,Xn),Y=(Y1,Y2,…,Yn),則Y的條件概率分布P(Y|X)構成條件隨機場,模型定義為:

(2)

其中,fk和λk分別表示特征集合和對應權重,Z(X)表示歸一化因子,表示所有可能狀態的條件概率之和,公式如下:

(3)

該文按中文語法錯誤的四種類型加無錯誤類型,將錯誤類型標簽Y定義為{R,M,S,W,N},分別對應詞語冗余、詞語缺失、詞語誤用、詞語亂序和無錯誤。

3 實 驗

3.1 數據來源

實驗選取2017年“漢語水平考試(HSK)”寫作部分數據的10 000句作為訓練數據,其中正確句子總數為3 658句;從NLPCC2018(CCF國際自然語言處理與中文計算會議,Natural Language Processing and Chinese Computing)新增的TASK2中文語法錯誤修正任務提供的數據集中,隨機選取3 000句作為測試數據。

3.2 數據預處理

(1)文本清洗。

實驗過程中,為了保證不會因為句子分割或字向量過于稀疏等因素影響檢測結果,定義句子長度為100。對長于100的句子,采用人工分割的方式,盡量保證文本特征集中;對短于100的句子,采用在句后以0字補全的方式。

(2)分詞和詞性標注。

利用python自帶的jieba分詞器對訓練集所有語句進行分詞處理和詞性標注。使用Skip-gram模型訓練得到300維的字向量。

3.3 評價指標

根據常用的幾個性能評價指標對模型進行評價,主要有精確率Precision(P)、召回率Recall(R)和F_meature(F),公式如下:

(4)

(5)

(6)

其中,TP表示正確的句數,FP表示錯誤的句數,FN表示沒有被檢測出的句數。F_meature作為標準測度,考慮了Precision和Recall的綜合影響。

3.4 實驗結果及分析

在數據進行了預處理的前提下,將提出的方法與常用的人工智能方法進行實驗對比,包括LSTM、Bi-LSTM、CRF、Bi-LSTM-CRF。實驗結果如表1所示,包括不同算法模型對應的Accuracy、Precision、Recall和F_meature值。從表1可以看到,LSTM與Bi-LSTM雖然能夠解決中文語法檢錯中的長距離依賴問題,甚至Bi-LSTM能夠更好地捕捉上下文相關信息,實驗效果明顯優于LSTM,但在更加復雜的真實數據實驗情況下,CRF模型的Accuracy、Recall和F_meature指標明顯高于LSTM與Bi-LSTM。Bi-LSTM-CRF模型由于結合了獲取上下文信息和局部特征條件概率的能力,在位置級別上比以上模型效果都要好,但由于梯度下降等原因,仍不能完美發揮作用。因Bi-LSTM-ATT能夠通過注意機制捕捉句中關鍵部分,優化了語法檢錯任務,再通過CRF層對標簽序列概率分布建模,得到了更高的Precision、Recall和F_meature,在位置級別上與Bi-LSTM-CRF實驗效果相差無幾。實驗表明,提出的基于Bi-LSTM-ATT與CRF相結合的模型,可有效提高中文語法錯誤診斷效果。

表1 實驗結果對比

4 結束語

提出了一種基于BI-LSTM-ATT與CRF相結合的中文語法錯誤診斷模型,應用于NLPCC2018的TASK2提供的數據集。該方法將采用jieba分詞預處理后的數據,運用Skip-gram模型得到詞向量表示,通過BI-LSTM-ATT模型的Softmax分類器進行分類,進而采用CRF模型分類并定位。為驗證模型的有效性,在復旦大學提供的語料集中抽樣實驗,結果表明,提出的模型在Accuracy、精確率、召回率、F_meature效果對比中,比傳統深度學習模型均有提高,為中文語法錯誤診斷的相關研究提供了一些新思路。在未來的工作中,將獲取更多的訓練數據增強模型,爭取更大限度地擬合出中文的固定規律,進一步優化和完善模型。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产精品福利尤物youwu| 久久国产精品麻豆系列| 亚洲精品男人天堂| 亚洲中字无码AV电影在线观看| 波多野结衣无码中文字幕在线观看一区二区| 国产菊爆视频在线观看| 中文字幕天无码久久精品视频免费 | 激情無極限的亚洲一区免费 | 国产日本一线在线观看免费| 综合网久久| 国产一级无码不卡视频| 国产亚洲精久久久久久无码AV | 丝袜无码一区二区三区| 国产美女在线观看| 人人妻人人澡人人爽欧美一区| 国产精品嫩草影院视频| 91精品国产综合久久香蕉922| 久久中文电影| 亚洲精品无码专区在线观看| 天天干天天色综合网| 国产一区二区色淫影院| 亚洲第一天堂无码专区| 免费国产好深啊好涨好硬视频| 五月丁香在线视频| 久久semm亚洲国产| 99免费视频观看| 国产精品va免费视频| 亚洲欧美在线精品一区二区| 日本免费一区视频| 久久96热在精品国产高清| 亚洲水蜜桃久久综合网站| 99精品免费欧美成人小视频| 亚洲人成网址| 欧美五月婷婷| 日a本亚洲中文在线观看| 国产日本欧美在线观看| 精品国产成人a在线观看| 日韩亚洲综合在线| 日韩最新中文字幕| 亚洲国产一成久久精品国产成人综合| 欧洲熟妇精品视频| 免费中文字幕一级毛片| 久久精品视频一| 久久综合五月婷婷| 日韩精品免费一线在线观看| 亚洲欧美精品日韩欧美| 国产精品免费福利久久播放| 久久狠狠色噜噜狠狠狠狠97视色 | 国产主播福利在线观看| 国产区精品高清在线观看| 中文字幕第4页| 波多野结衣第一页| 久久黄色一级片| 国产精品白浆在线播放| 人妖无码第一页| 国产精品视频第一专区| 久久中文电影| 视频二区国产精品职场同事| 毛片视频网址| 99热这里只有精品在线观看| 久久精品66| 亚洲欧美一区二区三区图片| 中文字幕资源站| 老司机久久精品视频| 97国产在线播放| 欧洲高清无码在线| 欧美第九页| 欧美日韩午夜| 毛片在线区| 国产毛片基地| 福利视频一区| 国产精品久久久精品三级| 美女国内精品自产拍在线播放 | 国产精品区视频中文字幕| 看av免费毛片手机播放| 国产特一级毛片| 亚洲天堂网视频| 国产日本视频91| 欧美午夜一区| 久久6免费视频| 亚洲天堂高清| 成人在线第一页|