999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積模型的農(nóng)業(yè)問(wèn)答語(yǔ)性特征抽取分析

2019-01-05 08:02:44張明岳吳華瑞朱華吉
關(guān)鍵詞:分類特征文本

張明岳 吳華瑞,2 朱華吉

(1.國(guó)家農(nóng)業(yè)信息化工程技術(shù)研究中心, 北京 100097; 2.北京農(nóng)業(yè)信息技術(shù)研究中心, 北京 100097;3.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)信息軟硬件產(chǎn)品質(zhì)量檢測(cè)重點(diǎn)實(shí)驗(yàn)室, 北京 100097)

0 引言

問(wèn)答社區(qū)是基于互聯(lián)網(wǎng),以用戶提出問(wèn)題、回答問(wèn)題和討論問(wèn)題為主的知識(shí)服務(wù)社區(qū),能夠更好地滿足互聯(lián)網(wǎng)用戶獲取信息和交流知識(shí)的需求,是目前自然語(yǔ)言處理(Natural language processing,NLP)和信息檢索(Information retrieval,IR)領(lǐng)域備受關(guān)注、具有廣泛發(fā)展前景的研究方向[1-2]?!爸袊?guó)農(nóng)技推廣APP”作為服務(wù)于農(nóng)技人員的專業(yè)平臺(tái),用戶每天在農(nóng)技問(wèn)答模塊發(fā)布的提問(wèn)有上萬(wàn)余條,這類文本具有稀疏性、實(shí)時(shí)性、不規(guī)范等特點(diǎn),加劇了問(wèn)題文本關(guān)鍵詞特征的稀疏化,難以充分挖掘特征之間的關(guān)聯(lián)性,如何從數(shù)據(jù)集中方便、快捷地挖掘有效信息并提供更高質(zhì)量和智能化的農(nóng)業(yè)信息服務(wù)已成為農(nóng)業(yè)信息分類領(lǐng)域文本挖掘的主要任務(wù)之一。傳統(tǒng)的人工篩查需要消耗大量的人力、物力,并且很難高效地完成對(duì)無(wú)效冗余數(shù)據(jù)的處理。目前常用的人工特征分類及淺層分類學(xué)習(xí)模型雖然能夠輔助完成數(shù)據(jù)篩查及剔除等工作,但由于其過(guò)分依賴人工選取特征和分類器性能,不具備從數(shù)據(jù)中自動(dòng)抽取和組織信息的能力,導(dǎo)致經(jīng)典的文本分析方法在短文本處理上的適用性下降[3-4]。因此利用計(jì)算機(jī)實(shí)現(xiàn)農(nóng)技冗余問(wèn)答自動(dòng)、智能篩查是“中國(guó)農(nóng)技推廣APP”需要解決的一個(gè)重要問(wèn)題。神經(jīng)網(wǎng)絡(luò)模型具有靈活性和多樣性的特點(diǎn),在序列標(biāo)注[5]、語(yǔ)義匹配[6]、情感分析[7]等自然語(yǔ)言處理任務(wù)中表現(xiàn)出較好的性能,由于該類模型能夠以端到端的方式進(jìn)行訓(xùn)練,自動(dòng)學(xué)習(xí)特定任務(wù)并挖掘文本內(nèi)的大量語(yǔ)義關(guān)系,有效減少了傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法中人工設(shè)定大量特征等相關(guān)工作[8]。

目前結(jié)合神經(jīng)網(wǎng)絡(luò)模型開(kāi)展自然語(yǔ)言處理的相關(guān)應(yīng)用已經(jīng)取得了一定成果,其中卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)在情感分析和文本分類領(lǐng)域得到很好的應(yīng)用[9-12]。由于農(nóng)業(yè)領(lǐng)域一直缺乏大規(guī)??捎玫臄?shù)據(jù)庫(kù),因此關(guān)于這方面的研究還較少,只有個(gè)別研究者針對(duì)農(nóng)業(yè)特定領(lǐng)域研究神經(jīng)網(wǎng)絡(luò)模型在農(nóng)業(yè)問(wèn)答系統(tǒng)的應(yīng)用,但仍處于起步階段。趙明等[13]構(gòu)建了基于Word2vec和雙向門(mén)控循環(huán)單元神經(jīng)網(wǎng)絡(luò)(Bi-directional gated recurrent unit,BIGRU)的番茄病蟲(chóng)害問(wèn)句分類模型,對(duì)番茄病蟲(chóng)害智能問(wèn)答系統(tǒng)用戶問(wèn)句進(jìn)行高效分類。針對(duì)傳統(tǒng)的句子相似度算法準(zhǔn)確率較低的問(wèn)題,梁敬東等[14]通過(guò)構(gòu)建基于 Word2vec和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long short-term memory,LSTM)的神經(jīng)網(wǎng)絡(luò)計(jì)算問(wèn)句相似度,并在水稻常問(wèn)問(wèn)題集(Frequently asked question,F(xiàn)AQ)中的問(wèn)句上進(jìn)行驗(yàn)證,以提高系統(tǒng)回答的準(zhǔn)確性。以上研究的開(kāi)展為神經(jīng)網(wǎng)絡(luò)應(yīng)用于農(nóng)業(yè)知識(shí)問(wèn)答系統(tǒng)提供了參考和可行性依據(jù),但關(guān)于神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本多樣性、情感極性等農(nóng)業(yè)文本特征挖掘方面仍有不足,關(guān)于利用卷積神經(jīng)網(wǎng)絡(luò)檢驗(yàn)農(nóng)技推廣提問(wèn)數(shù)據(jù)的精確性和可靠性方面尚未見(jiàn)報(bào)道。

為了實(shí)現(xiàn)農(nóng)技推廣社區(qū)問(wèn)答情感特征信息的有效挖掘和表達(dá),本文利用基于卷積神經(jīng)網(wǎng)絡(luò)模型的知識(shí)自動(dòng)化的方法,有針對(duì)性地引入農(nóng)業(yè)詞庫(kù)字典進(jìn)行中文分詞和詞向量表示[15],利用卷積神經(jīng)網(wǎng)絡(luò)提取文本情感表達(dá)作為文本特征向量,用于情感分類,并進(jìn)一步針對(duì)其重要的結(jié)構(gòu)參數(shù)和訓(xùn)練策略進(jìn)行優(yōu)化和改進(jìn),構(gòu)建一種基于卷積神經(jīng)網(wǎng)絡(luò)的農(nóng)業(yè)問(wèn)答情感極性特征抽取分析模型,以實(shí)現(xiàn)農(nóng)技推廣提問(wèn)的精確高效識(shí)別。

1 數(shù)據(jù)采集與預(yù)處理

1.1 樣本采集

本文數(shù)據(jù)集來(lái)源于“中國(guó)農(nóng)技推廣APP”農(nóng)技問(wèn)答模塊,以2017年8月上線到2018年4月產(chǎn)生的130多萬(wàn)條提問(wèn)數(shù)據(jù)作為基礎(chǔ)樣本。由于人工標(biāo)注百萬(wàn)級(jí)樣本十分困難,參照文獻(xiàn)[16-18]使用的文本分類數(shù)據(jù)集量級(jí),根據(jù)月份選取8 000條數(shù)據(jù)作為試驗(yàn)樣本集。其中人工標(biāo)注有效及無(wú)效提問(wèn)各3 000條作為學(xué)習(xí)數(shù)據(jù)集,用于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練和優(yōu)化參數(shù)驗(yàn)證,人工選擇樣例如表1所示。剩余2 000條樣本數(shù)據(jù)作為模型效果驗(yàn)證的測(cè)試集,由于測(cè)試集是在訓(xùn)練集和驗(yàn)證集選取之后選取,已經(jīng)較大限度地保證了訓(xùn)練與測(cè)試數(shù)據(jù)集文本的不重疊,因此可以將測(cè)試結(jié)果的平均準(zhǔn)確率作為文本模型的識(shí)別效果評(píng)價(jià)指標(biāo)[19]。

表1 人工選擇樣例Tab.1 Worked examples of manual annotation

1.2 數(shù)據(jù)集預(yù)處理

中文文本需要進(jìn)行預(yù)處理轉(zhuǎn)換為數(shù)字形式,以便能夠被計(jì)算機(jī)識(shí)別。為最大程度地保留原始中文文本的特征及語(yǔ)義信息,減少信息損失,需要對(duì)文本進(jìn)行去噪、分詞、向量表示等預(yù)處理操作,主要步驟如圖1所示。

圖1 數(shù)據(jù)預(yù)處理過(guò)程示意圖Fig.1 Schematic of data preprocessing

(1)去噪:數(shù)據(jù)集中原始數(shù)據(jù)包含中文特殊字符、英文特殊字符、空格等多種類型的符號(hào)信息,不利于語(yǔ)性特征抽取。因此使用正則表達(dá)式對(duì)數(shù)據(jù)集進(jìn)行去噪處理,僅保留中文、英文、字母、數(shù)字等通用特征信息。

(2)分字與分詞:利用Python正則表達(dá)式對(duì)數(shù)據(jù)集中每條語(yǔ)句的漢字進(jìn)行分割形成分字?jǐn)?shù)據(jù)集。由于中文分詞[20]主要依賴語(yǔ)義與語(yǔ)境,而農(nóng)技提問(wèn)又包含很多農(nóng)業(yè)專業(yè)詞匯,基礎(chǔ)分詞庫(kù)很難滿足要求,本試驗(yàn)還需要建立農(nóng)業(yè)專業(yè)詞匯的自定義分詞字典。參照文獻(xiàn)[21]選擇搜狗農(nóng)業(yè)詞匯大全中的8 874個(gè)詞匯作為農(nóng)業(yè)專業(yè)分詞字典,再利用Jieba分詞工具包對(duì)數(shù)據(jù)集進(jìn)行精確模式分詞形成分詞數(shù)據(jù)集[22]。

(3)生成詞向量:使用Word2vec工具集的Skip-gram模型[23]對(duì)分字集和分詞集進(jìn)行預(yù)訓(xùn)練,具體操作方法是對(duì)文本中的字、詞等元素的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì),通過(guò)無(wú)監(jiān)督訓(xùn)練,獲得作為語(yǔ)料基礎(chǔ)構(gòu)成元素的字、詞對(duì)應(yīng)的指定維度的向量表征,最終生成指定維度的字向量和詞向量。

(4)文本向量化:為便于神經(jīng)網(wǎng)絡(luò)訓(xùn)練,文本數(shù)據(jù)需要轉(zhuǎn)化為字或詞嵌入,具體操作是將樣本中每個(gè)字或詞替換成對(duì)應(yīng)的向量表示,將文本轉(zhuǎn)化為向量組。對(duì)樣本每條數(shù)據(jù)的字或詞進(jìn)行統(tǒng)計(jì),選擇字或詞數(shù)最多的那條文本的字或詞個(gè)數(shù)作為文本向量維度,其余提問(wèn)長(zhǎng)度不足的通過(guò)0來(lái)補(bǔ)齊。

2 基于卷積神經(jīng)網(wǎng)絡(luò)模型的農(nóng)業(yè)數(shù)據(jù)篩查方法

自KIM[10]研究了利用卷積神經(jīng)網(wǎng)絡(luò)處理自然語(yǔ)言后,大量研究人員在其基礎(chǔ)上做了拓展與優(yōu)化,盡管文本分類模型變得越來(lái)越豐富,但所有模型的基本架構(gòu)都與圖2相近?;舅悸肥亲只蛟~經(jīng)過(guò)嵌入層后利用不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提取局部、全局和上下文信息,經(jīng)過(guò)全連接層合并到一起,最后利用不同分類器進(jìn)行文本分類得到結(jié)果。

圖2 文本分類基本架構(gòu)Fig.2 Basic structure of text categorization

本文在基本架構(gòu)基礎(chǔ)上進(jìn)行了拓展,增加了卷積層數(shù)以及更多尺度的卷積核,同時(shí)在激活之前增加了批標(biāo)準(zhǔn)化進(jìn)行規(guī)范化處理,全連接層中也增加了批標(biāo)準(zhǔn)化處理,最后使用Softmax邏輯回歸作為分類器,進(jìn)行數(shù)據(jù)的語(yǔ)性特征抽取。

模型中卷積核的尺寸與數(shù)量對(duì)于CNN的性能至關(guān)重要。輸入語(yǔ)料通過(guò)i個(gè)不同的卷積核卷積,生成j個(gè)不同的特征圖,卷積層滿足公式

(1)

f(·)——批標(biāo)準(zhǔn)化及激活函數(shù)

Mj——輸入圖像的特征量

針對(duì)各層分布不均和精度彌散等問(wèn)題,在進(jìn)行激活之前使用批標(biāo)準(zhǔn)化(Batch normalization,BN)來(lái)規(guī)范響應(yīng),同時(shí)加快網(wǎng)絡(luò)收斂,防止過(guò)擬合。具體公式為

(2)

(3)

(4)

yi=γi+β=BNγ,β(xi)

(5)

式中x——輸入值

m——批量化的數(shù)目

γ、β——學(xué)習(xí)參數(shù)

ε——常量,用來(lái)保證值的穩(wěn)定性

yi——結(jié)果輸出值

BNγ,β(·)——批標(biāo)準(zhǔn)化函數(shù)

參考CLEVERT等[24]的試驗(yàn),模型激活函數(shù)使用修正線性單元(Rectified linear unit, ReLU),公式為

f(x)=max(0,x)

(6)

根據(jù)文本分類的特性,需要在一定程度上降低卷積層參數(shù)誤差造成的估計(jì)均值偏移所引起的特征提取的誤差,試驗(yàn)選用Max-pooling作為池化方法。網(wǎng)絡(luò)的訓(xùn)練階段使用批量隨機(jī)梯度下降法(Mini-batch stochastic gradient descend)。

本文使用Softmax邏輯回歸來(lái)做特征分類器(對(duì)應(yīng)Softmax loss損失函數(shù)),進(jìn)行實(shí)際文本的語(yǔ)性特征抽取[25]。最終確定的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

圖3 基于文本的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 Schematic of text-based convolution neural network

3 試驗(yàn)及結(jié)果分析

3.1 硬件及軟件

本試驗(yàn)處理平臺(tái)為聯(lián)想臺(tái)式計(jì)算機(jī),處理器為Intel(R)Core(TM)i5-4590、主頻3.30 GHz、內(nèi)存8 GB、容量120 GB金士頓固態(tài)硬盤(pán),運(yùn)行環(huán)境為:Windows 10專業(yè)版 64位,軟件環(huán)境為Python 3.6.5和Tensorflow 1.8.0。

3.2 試驗(yàn)操作流程

(1)輸入層

輸入層為經(jīng)過(guò)預(yù)處理的256維詞嵌入,對(duì)分詞后數(shù)據(jù)集的詞組個(gè)數(shù)進(jìn)行統(tǒng)計(jì),可以得到數(shù)據(jù)集中最多詞數(shù)為58個(gè),即每條提問(wèn)的詞向量維度為58×256。將輸入數(shù)據(jù)順序打亂并隨機(jī)排列,選取前面90%(5 400條)作為訓(xùn)練數(shù)據(jù),后面10%(600條)作為驗(yàn)證數(shù)據(jù)。訓(xùn)練次數(shù)設(shè)置為200次,每批次輸入500條,共計(jì)輸入2 200批次,圖4為輸入層中“植物”一詞的向量示例。

(2)卷積層

卷積層的作用是特征提取,設(shè)置卷積核長(zhǎng)度為58,窗口層數(shù)為5,每層窗口滑動(dòng)尺寸分別是1~5,卷積核每個(gè)窗口特征映射數(shù)為200,所以第1層卷積核W1的尺寸為(1~5)×58×1×200,第2層卷積核W2的尺寸為(1~5)×58×200×200。

(3)池化層

池化層的作用是特征壓縮,在進(jìn)行池化前使用了批標(biāo)準(zhǔn)化進(jìn)行處理。最后連接一個(gè)Softmax邏輯回歸分類器,用于將壓縮好的特征映射到輸出層。S1對(duì)前面的特征圖進(jìn)行了最大池化操作,每批次得到500個(gè)1 000維的特征圖。

(4)Softmax分類器

經(jīng)過(guò)訓(xùn)練,最后剩下的神經(jīng)元由Softmax分類器將其拼合成為一維列向量,全連接到輸出層,計(jì)算出屬于每類特征輸出的概率值。

(5)輸出層

比較分類器中計(jì)算出的語(yǔ)性特征概率值,將結(jié)果歸類到概率最大的一組,然后合并歸類結(jié)果并保存到prediction.csv文件中,識(shí)別結(jié)果樣例如表2所示,表中“○”表示識(shí)別結(jié)果與真實(shí)值相同,“X”表示識(shí)別結(jié)果與真實(shí)值不同。

3.3 結(jié)果與誤差分析

采用試驗(yàn)所描述的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)使用訓(xùn)練樣本來(lái)訓(xùn)練模型,網(wǎng)絡(luò)權(quán)重初始化采用標(biāo)準(zhǔn)差為0.01、均值為0的高斯分布,樣本迭代次數(shù)均設(shè)置為200,批處理尺寸設(shè)置為100,設(shè)置權(quán)重參數(shù)的初始學(xué)習(xí)速率為0.001,動(dòng)量因子設(shè)置為0.9。對(duì)上述訓(xùn)練集做2 600次迭代訓(xùn)練,其訓(xùn)練曲線如圖5所示。

從圖5可以看出,隨著迭代次數(shù)不斷增加,模型分類誤差逐漸降低。當(dāng)訓(xùn)練迭代到2 000次時(shí)訓(xùn)練集的識(shí)別準(zhǔn)確率最高達(dá)到98.6%,迭代到2 200次時(shí)驗(yàn)證集的識(shí)別率最高達(dá)到93.5%,且從第1 400次迭代以后訓(xùn)練集和驗(yàn)證集兩者的誤差差值趨于穩(wěn)定,說(shuō)明模型狀況良好,卷積神經(jīng)網(wǎng)絡(luò)達(dá)到了預(yù)期的訓(xùn)練效果。由試驗(yàn)可以確定訓(xùn)練達(dá)到2 200次以后模型對(duì)樣本的識(shí)別準(zhǔn)確率趨于擬合,將訓(xùn)練次數(shù)設(shè)定為2 200能夠使模型得到充分訓(xùn)練。

圖5 迭代次數(shù)與識(shí)別準(zhǔn)確率關(guān)系曲線Fig.5 Diagram of relationship between number of iterations and accuracy

為了驗(yàn)證不同類型嵌入層對(duì)模型效果的影響,分別使用字向量嵌入、詞向量嵌入以及經(jīng)過(guò)農(nóng)業(yè)字典分詞的詞向量嵌入作為輸入層,對(duì)試驗(yàn)?zāi)P瓦M(jìn)行2 200次的迭代對(duì)比訓(xùn)練,識(shí)別結(jié)果如圖6所示。

圖6 不同嵌入層迭代次數(shù)與識(shí)別準(zhǔn)確率關(guān)系曲線Fig.6 Diagram of relationship between number of iterations and accuracy in different embedded layers

由圖6可以看出,隨著迭代次數(shù)增加,各模型識(shí)別準(zhǔn)確率均不同程度增加,當(dāng)上漲到一定程度后各模型識(shí)別率趨于穩(wěn)定。經(jīng)過(guò)2 200次訓(xùn)練,詞向量嵌入的識(shí)別準(zhǔn)確率最高達(dá)到92%,字向量嵌入的識(shí)別準(zhǔn)確率最高達(dá)到80%,經(jīng)過(guò)農(nóng)業(yè)字典分詞的向量嵌入識(shí)別準(zhǔn)確率是三者中最高的,接近99%。試驗(yàn)證明,輸入層使用分詞嵌入能夠比分字更好地表達(dá)文本特征,針對(duì)所屬領(lǐng)域使用專用的詞匯進(jìn)行細(xì)化分詞后會(huì)更加充分地表達(dá)文本特征。

通過(guò)表3可以看出,增加卷積核滑動(dòng)窗口個(gè)數(shù)以及窗口特征映射層數(shù)能夠有效增加模型的識(shí)別準(zhǔn)確率。當(dāng)模型參數(shù)增加到一定程度后繼續(xù)增加參數(shù)寬度和深度,模型的識(shí)別準(zhǔn)確率很難繼續(xù)提升,但模型需要的訓(xùn)練時(shí)間更長(zhǎng)。通過(guò)模型參數(shù)比較,設(shè)定卷積核的窗口寬度為5、映射特征層數(shù)為200的訓(xùn)練模型能夠在現(xiàn)有軟硬件的條件下較好地滿足試驗(yàn)要求。

表3 試驗(yàn)?zāi)P蛥?shù)的比較Tab.3 Comparison of experimental model parameters

為了進(jìn)一步證明提出方法的性能,將其與現(xiàn)有的JOHNSON等[26]提出的One-hot詞表示法+CNN的文本分類方法、ASEERVATHAM等[27]提出的SVM分類器方法、DANTI等[28]提出的文檔矢量空間表示模型(DVSM)+詞間距離度量分類方法、ZHANG等[29]提出的KNN分類器方法以及使用Dropout代替Batch-Normalization執(zhí)行標(biāo)準(zhǔn)化的CNN分類方法等5種文本分類方法進(jìn)行比較,對(duì)測(cè)試集的2 000條提問(wèn)數(shù)據(jù)進(jìn)行識(shí)別,各種分類方法的篩選性能如表4所示。

通過(guò)表4可以看出,各類算法都能夠?qū)y(cè)試集進(jìn)行有效的特征篩選,本文使用方法在6種算法中識(shí)別準(zhǔn)確率最高,達(dá)到了82.7%。盡管文獻(xiàn)[26]的方法也使用了CNN模型,但由于輸入層使用的是One-hot方法,其準(zhǔn)確率只達(dá)到68.2%,明顯低于其他篩選方法,說(shuō)明Word2vec的Skip-gram模型能夠更高效地表示語(yǔ)料特征,也證明了輸入層的文本處理方式對(duì)于模型訓(xùn)練結(jié)果存在較大影響。雖然文獻(xiàn)[27]方法在測(cè)試集中的識(shí)別準(zhǔn)確率比文獻(xiàn)[28]方法高出1.1個(gè)百分點(diǎn),但是精確率和F1度量值明顯不如后者,這也間接說(shuō)明相鄰分詞之間的關(guān)聯(lián)語(yǔ)意對(duì)識(shí)別結(jié)果存在影響。使用Batch-Normalization規(guī)范響應(yīng)相較于卷積神經(jīng)網(wǎng)絡(luò)常用的Dorpout標(biāo)準(zhǔn)化方法能夠加快收斂,使訓(xùn)練更加充分,防止過(guò)擬合,顯著提高識(shí)別準(zhǔn)確率,識(shí)別準(zhǔn)確率高出6.3個(gè)百分點(diǎn)。綜合表4列出的各類文本分類方法,本文提出的基于CNN優(yōu)化模型因?yàn)闄?quán)值共享機(jī)制減少了網(wǎng)絡(luò)中的可訓(xùn)練參數(shù),有效降低了模型復(fù)雜度,具有更好的泛化能力,因此相較于其他機(jī)器學(xué)習(xí)模型取得了更好的分類效果[30]。卷積神經(jīng)網(wǎng)絡(luò)的核心特點(diǎn)是每個(gè)卷積層包含數(shù)個(gè)卷積核及大量特征面,通過(guò)池化操作大量減少模型中的神經(jīng)元個(gè)數(shù),增強(qiáng)了模型表達(dá)能力,因此對(duì)輸入空間的平移不變特征更具魯棒性,有效防止訓(xùn)練過(guò)擬合[31]。盡管卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練時(shí)間遠(yuǎn)高于表4其他分類方法,但通過(guò)權(quán)值共享、局部連接、批標(biāo)準(zhǔn)化增強(qiáng)、池化操作等使本文方法具有更少的連接和參數(shù)、更易于訓(xùn)練,具有自動(dòng)抽取語(yǔ)性特征并且得到更多分類特征的特點(diǎn)。

表4 各種分類方法的比較Tab.4 Comparison of various classification methods

4 結(jié)論

(1)研究方法滿足實(shí)際應(yīng)用需求。通過(guò)卷積網(wǎng)絡(luò)模型篩選數(shù)據(jù),減小了人工篩查的工作強(qiáng)度,避免了傳統(tǒng)識(shí)別方法中復(fù)雜的預(yù)處理和特征篩選過(guò)程,提高了算法優(yōu)化效率,對(duì)測(cè)試集特征識(shí)別準(zhǔn)確率達(dá)到82.7%。

(2)優(yōu)化輸入層表示及模型結(jié)構(gòu)能顯著提高識(shí)別效果。不同類型嵌入層對(duì)于篩選結(jié)果也有較大影響,使用農(nóng)業(yè)專業(yè)詞典進(jìn)行分詞處理的嵌入層在模型學(xué)習(xí)效率和識(shí)別準(zhǔn)確率上都有提高。另外使用Batch-Normalization替換Dropout訓(xùn)練后識(shí)別效果相較于Dropout標(biāo)準(zhǔn)化的卷積神經(jīng)網(wǎng)絡(luò)識(shí)別準(zhǔn)確率提升了6.3個(gè)百分點(diǎn),對(duì)比其他類型的文本分類模型識(shí)別效果也具有明顯優(yōu)勢(shì)。

猜你喜歡
分類特征文本
分類算一算
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 国产成人精品男人的天堂下载 | 欧美国产成人在线| 一级毛片无毒不卡直接观看| 亚洲AV无码不卡无码| 91福利片| 精品国产免费观看| 在线99视频| 激情综合图区| 人禽伦免费交视频网页播放| 欧美一级大片在线观看| 国产在线无码av完整版在线观看| 国产视频你懂得| 夜色爽爽影院18禁妓女影院| 在线网站18禁| 色网站免费在线观看| 亚洲中文字幕国产av| 欧美全免费aaaaaa特黄在线| 99这里只有精品免费视频| 欧美午夜小视频| 国产成人福利在线| 亚洲精品综合一二三区在线| 91网在线| 欧美日韩国产系列在线观看| 精品无码一区二区在线观看| 中文字幕第4页| 91精品国产91久无码网站| 91网址在线播放| 日本黄色不卡视频| 69国产精品视频免费| www.99精品视频在线播放| 91精品久久久无码中文字幕vr| 欧美成人免费一区在线播放| 制服丝袜 91视频| AV色爱天堂网| 欧美黄网在线| 国产成人精品男人的天堂下载 | 91精品伊人久久大香线蕉| 色婷婷久久| AV在线麻免费观看网站| 亚洲综合日韩精品| 亚洲天堂啪啪| 亚洲中文无码av永久伊人| 亚洲日韩AV无码精品| 五月婷婷综合网| 欧美成人看片一区二区三区 | 国产69精品久久久久孕妇大杂乱 | 国产青榴视频| 国产成人福利在线视老湿机| www.日韩三级| 日本一区二区不卡视频| 国产 在线视频无码| 911亚洲精品| 三上悠亚精品二区在线观看| www.99精品视频在线播放| 亚洲无码电影| 免费看一级毛片波多结衣| 欧美日韩另类国产| 99ri精品视频在线观看播放| 婷婷久久综合九色综合88| 高清不卡一区二区三区香蕉| 久久人搡人人玩人妻精品一| 久久久久国产精品免费免费不卡| 午夜视频www| 国产波多野结衣中文在线播放| 色综合激情网| 亚洲一区免费看| 欧美成人手机在线观看网址| 成人小视频在线观看免费| 激情综合五月网| 成人国产精品2021| 超碰免费91| 91精选国产大片| 久久精品无码国产一区二区三区 | 亚洲 日韩 激情 无码 中出| 亚洲AV无码一区二区三区牲色| 日韩成人在线视频| 四虎成人免费毛片| 制服丝袜亚洲| 欧美日韩一区二区在线播放 | 欧美在线精品怡红院| 91九色国产porny| 91免费观看视频|