999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

民航旅客不文明行為信息自動匹配方法

2021-12-23 04:34:50曹衛東
計算機工程與設計 2021年12期
關鍵詞:文本實驗信息

曹衛東,高 德

(中國民航大學 計算機科學與技術學院,天津 300300)

0 引 言

文本相似度計算是眾多文本處理任務中的基礎,按照理解層次不同,可將其分為基于字面匹配和基于語義計算兩種方法。相比之下,基于語義的文本相似度算法更加符合人類大腦的認知規律,更能反映文本的真實含義。近年來,民航旅客的不文明行為呈多元化趨勢,包括辱罵機組人員、不配合安檢、強闖隔離欄、偷拿航班上的救險物資等。

研究民航旅客不文明行為信息與規則的自動匹配對提升民航運輸的安全和效率具有重要意義。研究民航旅客不文明行為信息與規則自動匹配的核心任務是研究文本相似度計算。

民航旅客不文明行為信息與規則自動匹配是一種特定領域的文本相似度計算。主要任務是從非結構化的民航不文明行為信息文本數據中計算出其語義信息,目的是將其語義信息與已有的規則進行匹配,便于完成不文明旅客信息的分類以及對不文明旅客的處罰。目前,民航旅客不文明行為信息與規則自動匹配主要有兩個難點:一是由于涉及到特殊領域,基于傳統的統計機器學習的文本相似度計算往往依賴領域語言學知識和大量的人工定義特征。二是該領域文本長短不一,有的上百字,有的只有十幾個字,難以使用傳統的網絡結構捕獲此類文本中的完整語義。

基于語義的文本相似度算法使用深度學習技術避免大量使用人工進行特征選取。目前,深度學習技術已廣泛應用于情感分析、閱讀理解[1]、自動問答[2]、機器翻譯[3]等任務。主流神經網絡模型主要包括CNN和RNN及二者的多種變體,其中卷積神經網絡在池化層提取文本特征時會過濾掉一些信息。Sabour等[4]提出用一種矢量膠囊來替代傳統標量神經元,即膠囊網絡(capsule network)解決CNN池化層存在的問題。

1 相關研究

早期的文本相似度計算都是基于文本字符串,然后通過距離公式直接計算的。例如使用編輯距離、jaccard距離[5]和信息熵[6]。但這些方法都有很大的局限性,同一個詞在不同的語境下可能代表不同的含義。例如“小米”既可以表示一種谷物,也可以表示一家科技公司。同理,相同的含義也可由不同的詞表達,例如“工資”和“薪水”就可以表示同一含義。

除了基于文本字符串這種簡單直接的計算方式,還有學者提出了一些基于語料庫的文本相似度計算方法。詞袋模型(bag of words model,BOW)認為文本所處的上下文語境相似,那么其于語義也相同。詞袋模型簡單的以文本出現的頻率為指標來衡量文本的相似程度,這使得句子中一些無用但出現頻率高的詞成為了計算相似度的絆腳石。因此,有學者提出了詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF),該模型使得詞語的重要性隨著它在特定文本中出現的次數正比增加,但也會隨著它在整個語料庫中出現的頻率反比下降,這是對詞袋模型的改進。除了基于語料庫的計算方法,還有基于知識庫的方法研究,其中最主要的就是WordNet、《知網》(HowNet)和《同義詞詞林》以及維基百科、百度百科等??衫弥R庫中的組織形式,如概念間的同義反義關系進行相似度計算。

近年來,神經網絡已被廣泛用于文本相似度計算中,它能自動的從原始數據中提取文本特征,在很大程度提高了文本相似度計算的性能。如深度語義匹配模型(deep structured semantic models,DSSM)、樹形長短時記憶網絡(tree-structured long short-term memory networks,Tree-LSTM)、孿生長短時記憶網絡(Siamese LSTM)和ConvNet[7-10]都是在對詞語或者句子進行建模的基礎上得到詞向量或者句子向量,再使用距離公式進行相似度計算。

因此,利用神經網絡進行文本相似度計算一般有兩種思路。一是直接得到句子向量,如Ryan Kiros等[11]通過word2vec的跳字模型(skip-gram),通過一句話直接預測其前一句和后一句話。二是從詞的角度出發,先得到每個詞的向量表示,然后再用詞向量組合出整個句子的向量表示。如Kusner等[12]先得到詞的向量表示,然后最小化兩個句子中詞向量的全局距離,再使用經驗模態分解算法來計算句子的相似度;Arora等[13]也是先得到詞的向量表示,再通過加權平均的方法得到句子向量,同時采用奇異值分解和主成分分析方法進行修正,取得了較好的效果。

本文采用膠囊網絡、門控循環單元(gated recurrent unit,GRU)進行文本相似度研究,膠囊網絡可以更充分提取文本局部特征信息,減少傳統卷積神經網絡在最大池化過程中的信息損失,門控循環單元解決了傳統神經網絡因無法捕獲長距離信息而導致的梯度消失問題,可以更好地捕獲文本的全局特征。將二者融合成gru-capsule組合模型進行實驗,可以獲取更充分的文本特征信息,再結合距離公式,從而提高相似度計算效果。

2 組合式深度學習模型

基于膠囊網絡組合模型的文本相似度計算框架如圖1所示,其中句子一和句子二分別經過相同的網絡結構來提取文本特征,從而進行相似度的計算。本文提出的模型包括以下4個部分:向量表示、特征提取、相似度計算以及文本分類。

圖1 集成模型框架

(1)向量表示:將文本信息向量化是自然語言處理中的一項基本任務,詞向量(word embedding)一詞最早由Hinton于十九世紀八十年代提出。其中經典的方法有one-hot編碼,但其采用的數據稀疏存儲方式在構建語言模型時會造成維數災難,向量的表示也很難體現出兩個詞之間的關系。word2vec使用3層神經網絡通過Embedding層將one-hot編碼轉化為低維度的稠密向量,使得含義相近的詞語映射到詞向量空間中相近的位置,解決了one-hot編碼的維數災難和詞語鴻溝問題。本文使用預訓練的word2vec,將原始文本序列映射為300維的詞向量矩陣。

(2)特征提?。簩⑸鲜鲈~向量矩陣作為門控循環單元的輸入,再將其輸出矩陣經過形狀變換(reshape)后作為膠囊層的輸入,其中膠囊層有16維,每一維有10個膠囊,動態路由的次數是3次。經過這一系列操作,就可以提取到較充分的文本特征信息。

(3)相似度計算:一般的距離公式有歐氏距離、jaccard距離、編輯距離和余弦相似度(cosine similarity)等,前三者比較適合于標量的計算,而余弦相似度更適合做向量的計算,神經網絡中的數字傳遞使用向量形式。本文通過一層全連接層提取到句子一和句子二的文本特征向量,再使用余弦相似度進行計算。

(4)文本分類:文本分類一般分為二分類、多分類和多標簽分類。二分類輸出層激活函數一般采用sigmoid,多分類采用softmax,多標簽分類也采用sigmoid,其實多標簽分類的本質就是作用在每個標簽上的二分類問題。由于文中數據集都是單標簽數據集,并且是二分類問題,所以輸出層使用sigmoid分類器。

2.1 門控循環單元

門控循環單元屬于循環神經網絡的一種,其采用兩個門控取代長短時記憶(long short term memory,LSTM)網絡的3個門控,減少了模型訓練參數,提升了訓練效率,同時GRU解決了傳統循環神經網絡因無法捕獲長距離依賴信息而導致的梯度消失問題,并且在數據較少的情況下的性能表現良好。門控循環單元結構如圖2所示。

圖2 門控循環單元結構

為了保持較遠距離的信息傳遞,為了保持較遠距離的信息傳遞,GRU采用兩個門控。分別是重置門rt和更新門zt。如圖2所示,重置門是第一個門控,其作用是將xt和ht-1中的部分信息組合起來影響ht。ht-1和xt先經過一次線性變換,再相加輸入σ激活函數,再輸出激活值。重置門的計算公式為

rt=σ(Wrxt+Urht-1+br)

(1)

式中:Wr代表重置門輸入變量的權值矩陣,Ur代表重置門隱藏狀態的權值矩陣,br是重置門的偏置矩陣,σ代表sigmoid激活函數。ht的計算公式為

ht=tanh(Whxt+rt·(Uhht-1)+bh)

(2)

式中:Wh、Uh和bh的含義同上式,tanh是激活函數。

GRU第二個門控是更新門,決定“遺忘”ht-1中多少信息,以及“記憶”ht中多少信息,計算公式為

zt=σ(Wzxt+Uzht-1+bz)

(3)

式中:xt是第t個時間步的輸入向量,xt與ht-1分別經過一次線性變換,相加后輸入σ激活函數,再輸出激活值,Wz代表更新門的輸入變量權值矩陣,Uz代表更新門的隱藏狀態權值矩陣。由以上公式可知:重置門和更新門都由xt和ht-1決定。最后,GRU單元當前時刻隱藏狀態的值ht可以表示為

ht=(1-zt)·ht-1+zt·ht

(4)

通過這種門控機制,GRU解決了序列信息的長期依賴問題。

2.2 膠囊網絡

傳統卷積神經網絡通過卷積操作來處理文本,通過控制詞窗滑動和詞窗的大小來獲取局部的文本特征信息,再經過最大池化層進行降維,雖然最大池化層可以有效減少模型參數,在一定程度上提高訓練效率,但同時也會造成一定的信息損失,因為最大池化層只關注了最重要的信息,忽略了有可能也起關鍵作用的其它信息。膠囊網絡使用capsule的向量輸出(vector)取代了傳統神經元的標量輸出(value),由輸出向量的多個維度替代一個輸出維度。神經元是偵測某一個具體模式,但是capsule是偵測某一類模式,它輸出的向量的每一個維度代表該模式的特性,向量的模長代表某一類的模式是否存在。

由于文本中存在著諸多例如停留詞、標點符號、特殊字符等眾多與相似度計算無關的詞語,下層膠囊中不可避免的會產生很多噪音膠囊,這無疑會對相似度計算產生一定的影響,而膠囊網絡采用動態路由機制(dynamic routing),下層膠囊通過該機制將計算結果傳給上層膠囊。與CNN的最大池化層相比,膠囊不再是簡單的舍棄除某些值,而是在計算過程中為下層膠囊動態分配歸一化的權重,從而有效減少信息的損失。雖然這樣會增加計算量,但可以通過權值共享策略簡化該過程。動態路由算法如圖3所示。

圖3 動態路由過程

其中涉及的公式描述如下

ui=Wivi

(5)

(6)

(7)

其中,vi代表下層膠囊的輸出,也即是當前膠囊層的輸入,Wi為上下兩層之間的權值矩陣,通過矩陣運算得到ui,cij是動態得到的,它決定了底層膠囊的信息有多少能傳遞下去,經過運算得到中間量,sj是中間量,它通過擠壓函數可以得到aj,aj將參與到bij計算,bij計算再用來更新cij,直到計算出本層的矢量輸出v,其中b初始值設置為0,擠壓函數squashing及更新bij的計算公式如下

(8)

bij=bij-1+uj|iaj

(9)

其中,aj代表上層膠囊的輸出,膠囊輸出向量的模長代表類別的概率值大小,bij-1代表上一輪動態路由時的b值,擠壓函數只會改變sj的長度,不會改變向量的方向,從式(8)可以看出,當sj很大的時候,得到的aj就會趨向于1,當sj很小的時候,aj就會趨向于0,從而把向量的模長限定在(0,1)區間,輸出向量的模長越大,代表文本所屬該類的概率就越大。

2.3 模型集成

門控循環單元可以捕獲較長距離的文本特征信息,膠囊網絡在提取文本局部特征時可以減少卷積神經網絡最大池化操作中的信息損失。本文采用的組合模型結合門控循環單元和膠囊網絡各自的優勢,可以多層次,全方位的提取文本的特征信息,從而提高相似度計算的效果。

3 實驗與分析

3.1 實驗數據

文中的實驗數據是民航旅客不文明行為信息數據集、支付寶花唄借唄問答數據集和LCQMC問答數據集,第一個數據集來源于中國航空運輸協會,第二個數據集來源于螞蟻金服,最后一個是哈爾濱工業大學整理的網上的問答數據,三者都是單標簽數據集。其中,每條數據都包括3部分,分別是兩個句子和一個標簽,標簽有兩個類別,即標注兩個句子相似還是不相似,相似用1表示,不相似用0表示。為了驗證方法的有效性,本文采用準確率(precision):所有數據中正確匹配的數據所占的比重,衡量模型的優劣。

3.1.1 民航數據集標注

兩個公共數據集已經是實驗需要的形式,民航旅客不文明行為信息數據集需要人工標注句子是否相似。中國航空運輸協會目前公布了392條記錄,按照每條都能與其它一條形成相似和不相似的情況,在經過去重復,共可得到76 636條數據,但由于人工成本較大,在保證得到的是一個平衡數據集的情況下,只隨機得到3000條數據。數據標注規則如下:①行為相似的為相似,標1;②行為不相同的為不相似,標0。

標注好的數據見表1。

表1 民航數據集標注

第一組數據兩個行為都是在航班上違規使用電子設備,因此相似。第二組數組雖然都沒有聽工作人員勸阻,但是第一個行為毆打他人,安全隱患較大,性質更加惡劣,因此二者不相似。第三組數組兩個行為都是屬于造謠,雖然發生地點不同,但都屬于傳播虛假信息,造成惡劣的影響,因此二者相似。第四組數據兩個行為雖然都發生在安檢時,但是明顯第一個口角和肢體沖突對機場正常秩序影響更大,后者只是不配合,因此二者不相似。

3.1.2 各數據集統計

花唄借唄問答數據集一共有102 477條數據,兩句子相似的數據只有18 685條,是一個不平衡的數據集,為了得到好的實驗效果,對原數據集進行了篩選,對LCQMC問答數據集進行同樣的操作。最終實驗數據信息統計見表2。

表2 數據集統計

3.2 實驗參數設置

本文實驗基于keras深度學習框架實現,在本實驗中,為了得到相對穩定的實驗結果,實驗重復進行了50次。具體參數設置見表3。

表3 實驗參數設置

3.3 實驗結果與分析

3.3.1 gru-capsule與其它模型的實驗結果對比

為了驗證文中提出的gru-capsule組合網絡模型的有效性,本文在兩個公共數據集和民航旅客不文明行為信息數據集上分別進行實驗,且均在同一實驗條件下進行,本文對比實驗選取比較主流的幾個基線模型:cnn、lstm、gru。另外,還將上述基線模型分別與膠囊網絡集成cnn-capsule、lstm-capsule等組合模型進行實驗,實驗結果見表4。

表4 準確率結果對比

其中準確率一是在花唄借唄問答數據集上的準確率,準確率二是在LCQMC問答數據集上的準確率,準確率三是在民航旅客不文明行為信息數據集上的準確率。

從表中實驗結果可以看出,相比于其它基線模型,本文提出的gru-capsule組合模型在兩個三個數據集上均取得了最高的準確率。其中在花唄借唄問答數據集上的準確率達到了70.33%,在LCQMC問答數據集上的準確率達到了73.94%,在民航旅客不文明行為信息數據集上也達到了72.06%。同時可以看到,由于capsule采用了動態路由機制,解決了cnn在最大池化操作中存在的信息損失問題,因此,在兩個公共數據集上的準確率都有所提高,同時,在民航旅客不文明行為數據集上準確率由cnn的63.33%提高到了capsule的69.53%;

在兩個公共數據集和民航數據集上,cnn-capsule的準確率相比于cnn也均有所提高,原因是數據只經過卷積層就輸入膠囊網絡層,并未經過最大池化操作,因此不存在池化過程中的信息損失;在花唄借唄問答數據集上lstm-capsule的準確率從lstm的64.37%提高到了65.66%,在LCQMC問答數據集上lstm-capsule的準確率從lstm的68.31%提高到了68.99%,在民航旅客不文明行為信息數據集上lstm-capsule的準確率從lstm的67.06%提高到了68.33%;相比于cnn-capsule,lstm-capsule在3個數據集上的準確率也有所提高,原因是lstm雖然訓練比較耗時,但能獲取序列化的文本信息,這在文本處理上非常重要;甚至在花唄借唄問答數據集上cnn-lstm-capsule模型的準確率都從cnn-lstm的62.69%提高到了67.81%,LCQMC問答數據集從69.44%提高到了69.67%,在民航旅客不文明行為信息數據集上cnn-lstm-capsule模型的準確率都從cnn-lstm的68.67%提高到了69.60%;在本文3個數據集上所有集成了膠囊網絡的模型中,只有cnn-gru到cnn-gru-capsule準確率降低了,原因是隨著模型深度的增加,信息經過卷積層和門控循環單元之后有所衰減,膠囊網絡層不能充分利用原始文本中的有效信息。另外,從表中數據可以看出,本文實驗中LCQMC問答數據集上的準確率要普遍略高于花唄借唄問答數據集和民航旅客不文明行為信息數據集,原因是后者包含很多專用詞匯,給詞向量的構建帶來一些噪音。通過在這3個數據集上的實驗結果可以驗證膠囊網絡在文本相似度計算領域具有很大的潛力,并且適用于民航旅客不文明行為信息這一特殊領域的數據集,同時驗證了gru-capsule組合模型的有效性。

3.3.2 網絡參數對模型的影響

網絡參數的設置對模型的實驗效果有明顯的影響。針對本文民航旅客不文明行為信息數據集,本組實驗采用3種優化器進行評估。分別是自適應梯度下降(adagrad)、自適應矩估計(adam)和隨機梯度下降(sgd)。每個優化器分別進行了50次重復實驗,實驗結果如圖4所示。

圖4 不同優化器準確率比較

由圖4可知,在該數據集上自適應矩估計優化器表現最好,自適應梯度下降優化器的表現也明顯優于隨機梯度下降優化器。相比于批量梯度下降法,雖然隨機梯度下降優化器訓練速度變快,但由于是隨機抽取,因此不可避免產生誤差,由于其隨機性,可能會被困在局部極值,并且隨機梯度下降優化器不能自適應學習率,因此其準確率最低。

而自適應梯度下降優化器能夠實現學習率的自動更改。如果某次梯度大,那么學習速率就衰減的快一些,如果某次梯度小,那么學習速率就衰減的慢一些,因此它表現的比隨機梯度下降優化器效果好。自適應矩估計優化器也是一種自適應學習率的優化器,與自適應梯度下降優化器相比,它更適合于較為稀疏的數據,民航旅客不文明信息數據集是一個比較稀疏的數據集,因此它的表現優于自適應梯度下降優化器。

雖然自適應梯度下降優化器和自適應矩估計優化器能夠自適應學習率,但針對特定數據集,模型中初始學習率的設定對實驗仍具有一定的影響,本組實驗固定使用自適應矩估計優化器,仍在民航旅客不文明數據集上進行實驗,學習率分別設置為0.0005、0.001和0.002進行實驗,實驗分別進行50次,每次都迭代100輪,實驗結果如圖5所示。

圖5 不同學習率準確率比較

從實驗結果可以看出,在該數據集上,當學習率設置較小的時候,模型收斂速度變慢,但是準確率有所提高,當學習率設為0.002時,準確率明顯低于學習率為0.0005時,學習率設為0.001時的準確率介于二者之間。該組實驗驗證了在針對本文數據集使用自適應學習率優化器時,初始學習率的設置會對實驗結果產生影響。

4 結束語

本文針對民航旅客不文明行為信息匹配這一特定領域的文本相似度計算任務,提出了gru-capsule組合網絡模型,將其用于民航旅客不文明信息相似度的計算。該模型中的膠囊網絡在提取文本特征信息的時候可以有效地減少傳統卷積神經網絡在池化過程中的信息損失,其中的動態路由過程可以使得重要的信息得到加強,不重要的信息給以削弱。同時使用門控循環單元解決了傳統循環神經網絡因無法捕獲長距離依賴信息而導致的梯度消失問題。有效地提升了相似度的計算性能,提高了分類的準確率,相比于傳統的網絡模型,文本的語義信息也得到充分利用,在民航旅客不文明行為信息數據集上取得了較好的實驗效果。另外,本文模型在計算相似度時,統一的使用了余弦距離度量,還沒有將網絡模型與其它距離公式結合實驗。因此,作者將在本文的基礎上,繼續探索不同的距離算法對實驗效果的影響。同時,相較于LCQMC問答數據集,在民航旅客不文明行為信息數據集上模型準確率普遍偏低的情況,將對數據集設置專用詞典,進一步實驗,建立一個針對民航旅客不文明行為信息數據集準確率更高的網絡模型。

猜你喜歡
文本實驗信息
記一次有趣的實驗
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 久久永久视频| 国产在线一区视频| 中文字幕无线码一区| 欧美成人怡春院在线激情| 国产免费人成视频网| 欧美A级V片在线观看| 国产成人午夜福利免费无码r| 青青青国产免费线在| 天堂在线亚洲| 亚洲欧洲一区二区三区| 日韩毛片免费观看| 国产呦视频免费视频在线观看 | 99伊人精品| 亚洲乱亚洲乱妇24p| 人妻中文久热无码丝袜| 欧美福利在线观看| 久久九九热视频| 国产精品吹潮在线观看中文| 亚洲综合极品香蕉久久网| 亚洲中文字幕av无码区| 免费观看欧美性一级| 国产剧情无码视频在线观看| 日韩精品一区二区三区swag| 国产网友愉拍精品视频| jizz国产在线| 亚洲欧美成人在线视频| 久一在线视频| 自拍偷拍欧美| 波多野结衣在线se| 福利视频99| 久久亚洲中文字幕精品一区| 日韩一级毛一欧美一国产| 91精品国产丝袜| 亚洲人成网站在线播放2019| 国产女同自拍视频| 97se亚洲| 日本少妇又色又爽又高潮| 蜜桃臀无码内射一区二区三区 | 日韩午夜片| 久久亚洲黄色视频| 国产99精品视频| 国产一级小视频| 久久久久免费看成人影片| 爱做久久久久久| 福利在线不卡| 亚洲综合一区国产精品| 亚洲精品自拍区在线观看| 国产精品视频3p| 国产免费精彩视频| 日本AⅤ精品一区二区三区日| 狠狠色丁香婷婷综合| 亚洲Av激情网五月天| 国产乱子伦一区二区=| 亚洲Av激情网五月天| 国产在线观看99| 国产欧美精品一区二区 | 黄色免费在线网址| 亚洲系列无码专区偷窥无码| 美女被操91视频| 天天综合网亚洲网站| 亚瑟天堂久久一区二区影院| 2018日日摸夜夜添狠狠躁| 精品人妻一区二区三区蜜桃AⅤ| 欧美日韩导航| 1024你懂的国产精品| 国产在线视频二区| 久久无码av三级| 中文字幕人成人乱码亚洲电影| 99久久99视频| 国产主播喷水| 亚洲欧美一区二区三区图片| 91精品视频播放| 亚洲欧美一区二区三区图片| 国产日韩欧美在线播放| 中文无码毛片又爽又刺激| 中国一级特黄视频| 国产高清在线观看91精品| 国产乱子伦一区二区=| 国内精品伊人久久久久7777人| 人妻夜夜爽天天爽| 日韩天堂视频| 久无码久无码av无码|