999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ELMo-BiLSTM-CRF 模型的中文地址分詞

2021-10-29 12:18:30于文年彭艷兵
電子設計工程 2021年20期
關鍵詞:信息模型

余 俊,于文年,彭艷兵

(1.武漢郵電科學研究院,湖北武漢 430070;2.南京烽火天地通信科技有限公司,江蘇南京 210019)

外賣、網上購物、共享單車等互聯網資源的普及化和大眾化,衍生出了大量的中文地址信息,中文地址信息中包含著一個人每天的行動路線和個人信息,這類信息若可以獲得高效利用,將會是一筆極其寶貴的資源,使得對中文地址信息解析[1]的研究顯得尤為重要,而中文地址標準化是對地址信息解析的基礎,這些都離不開中文地址分詞。

不同于英文單詞,由于中文有著自身的語言屬性,不同詞之間缺乏顯著的切分憑據,而且中文詞語本身有語法結構[2],中文地址信息容易出現歧義、缺失、冗余[3]等情況,使得該分詞面臨巨大困難。如今,國內外很多學者在該領域也展開了較為豐富的研究。

將字符串作為基礎的匹配[4]方法,能按照一定規則掃描相關詞條,直至找到需要匹配的字符串,實現簡單,但是無法識別匹配速度偏慢且有歧義和缺失的字段;針對該方法存在的缺點,文獻[5]中將標志詞作為基礎,搭建相應地址分詞算法,該方法可以實現正向自適應長度匹配,并針對缺失的地址要素,給出相應的補償,從而解決分詞問題,可以有效消除字段缺失,進一步降低了時間復雜度,從而提升匹配速度,但是無法解決未登錄詞[6],且完全依賴于字典,對字典的長期維護也是一個極大的問題。

為了更好地提升中文地址分詞的性能,文中將ELMo[7]模型應用于中文地址分詞中,并借助于實驗對該分詞模型的有效性進行相應驗證。

1 數據集預處理

文中的研究數據由南京烽火星空科技有限公司提供,抽取了50 000 條南京市地址數據信息作為數據源,數據中包含了不同的地址層級。

由于數據源中地址的不規范性,存在大量重復、字段缺失、地址錯誤且含有字符等信息錯亂的地址,為了對復雜多樣的地址展開高效的數據處理,借助于文獻[8]分布式框架對數據展開分析與并行處理,包括諸多非結構、結構化數據的處理。文中使用南京烽火星空科技有限公司自主研發的ETL[9]數據治理工具對數據進行處理,以保證測試數據集有較高的質量,減少由于數據源的原因導致實驗結果不理想。

通過采用sql+的模式下發任務,并通過開發自定義函數(udf,udaf)來定制化地處理樣本數據,以便針對數據集中各種數據進行去重、刪除錯亂地址和補充缺失字段。

一條地址往往包含多個地址要素,將這些地址要素提煉出來,為方便起見,主要將標準地址劃分為12 個地址層級:國家、省、市、區(縣)、街道、社區、路、號、小區、樓棟號、單元、樓層、室;每類都有其對應的特征詞,地址層級如表1 所示。

表1 地址層級

2 模型建立

2.1 ELMo模型

ELMo 模型通過采用兩個階段的方式對整個模型進行訓練。第一階段主要是利用語言模型對其進行預訓練;第二階段是在完成下游任務之時,借助預訓練網絡,通過單詞網絡對有關Word Embedding 進行提取,并將其視作新的特征補充到下游任務之中[10]。

循環神經網絡被廣泛應用于命名實體識別[11]、中文分詞、智能推薦等自然語言領域,經典的RNN[12]模型中因存在某些原因產生了無法解決長時記憶的問題,比如梯度消失和梯度爆炸。而LSTM[13](Long-Short Term Momory neural Network)通過對RNN 算法進行改進,解決了長期依賴的問題。

該模型還運用了多層LSTM,同時還新增了后向語言模型,即為backward LM,當前階段的輸出通常情況下不僅與之前的狀態有關,還可能與未來的狀態有關。譬如對一句話中的重復單詞進行預測,不僅需要根據當前狀態進行判斷,還需要考慮之后的內容,真正做到基于上下文判斷。

該模型中的預訓練過程,不僅對單詞的Word Embedding 進行了學習,同時還能很好地掌握雙層雙向LSTM 網路結構。ELMo的雙向LSTM 模型如圖1所示。

圖1 ELMo的雙向LSTM模型

前向LSTM 結構如式(1)所示。

后向LSTM 結構如式(2)所示:

將前、后向語言模型相結合,同時還對該模型的對數最大似然函數最大化后得到:

其中,θx表示token的參數,θs表示softmax 分類的參數,分別表示前、后向語言模型LSTM 層的參數。

ELMo 模型訓練好之后,在下游序列中會產生不同的token,即:

下游任務充分利用了各種表示,同時利用了有關分配權重,即:

式中,softmax 通過歸一化處理之后得到的權重是stask,而且準許任務模型縮放,并得到完整的ELMo向量γtask,其也是標量參量。

2.2 BiLSTM-CRF模型

對于LSTM 而言,利用訓練方法可以得到需要遺忘或者需要記憶的信息,然而借助它進行建模時,存在一定的局限性,即很難借助于編碼形式獲取由后往前的信息,這些信息會丟失,然而借助BiLSTM 模型就能很好地捕捉雙向語義依賴,不僅保存了向前的上下文信息,還考慮了向后的上下文信息,因此其在對中文地址分詞中性能更優。

在序列標注任務中,BiLSTM-CRF 模型能取得極好的效果,BiLSTM-CRF 在時間上的展開圖如圖2所示。

圖2 BiLSTM在時間上的展開圖

即便神經網絡有著較高水平的非線性擬合功能,且能得出較佳的模型,然而該模型僅僅考慮了標簽上下文關系,只需要輸出概率最大的標注,沒有考慮到輸出標注間的關系。

為此,借助于CRF[14]開展詞性標注,由于要對臨近單詞詞性進行標注,因此,對于序列CRF 模型而言,借助于BiLSTM 模型的狀態序列向量,將其用作CRF 層輸入,同時運用維特比算法,解決訓練和解碼問題,得出最好的地址標注序列。

對于BiLSTM-CRF 模型而言,要明確輸入序列,輸入序列用X表示,而輸出的相應序列是y,預測輸出為:

S(X,y)為計算出來的最終得分,通過維特比算法計算出最好的地址標注序列。

對于BiLSTM 而言,在學習語句時,由于模型大小的約制,使得關鍵信息出現丟棄問題,為此可以在該模型中新增CNN層,并提取當前局部特征。而且這種方式還是典型、高效的方法,可以對詞的形態信息進行抽取,譬如詞的后、前綴等。又由于BiLSTM 得到的128維是整個地址對當前位置的信息,而CNN得到的是當前位置前后窗口大小的局部信息,兩者拼接相當于綜合考慮了全局信息和局部信息。

圖3 中,BiLSTM的I、O 層都運用了dropout 層,結果顯示它可以明顯提升模型性能。

圖3 基于BiLSTM-CNN-CRF的中文地址

3 實驗

3.1 實驗設置與參數

實驗的主要環境參數如下:CPU 為Intel(R)Core(TM) i7-9750H CPU @ 2.60 GHZ 2.59 GHZ,GPU:NVIDIA GeF orce GTX 1660 T-i with Max-Q Design,操作系統為Window10 64 bits,而且使用了Tensorflow[15]Bi-LSTM 模型和allennlp 下的ELMo。

模型訓練參數如表2 所示。

表2 模型訓練參數

3.2 模型調優

因為ELMo 預訓練模型權重通常比隨機初始化權重更優,為此在具體修改時要更具精細性,文中使用更小的學習率來應對訓練時的表現,使用0.15的學習率能使效果更好;在遴選dropout 層時要慎重進行選擇,如果dropout 層過低會產生過擬合問題,在隱藏與輸入層中,可以運用兩層的dropout,就能使模型的泛化能力得到明顯提升;使用正交化優化策略使方差和偏差兩者保持均衡,通過增加網路的深度、訓練時間長度來減小偏差,以及通過增加訓練數據、正則化等方式來降低方差,循環該過程,直至達到平衡。

在標注詞性時,可以將其詞位標注細分成4、6,詞位標注也會對分詞性能造成影響。

3.3 模型評價指標

該指標主要涉及到均值、精確率與召回率,計算公式如下:

式中,F1為均值,P為精確率,R為召回率。

3.4 實驗結果與分析

在以上實驗環境下,使用如下訓練模型對同一測試樣例數據進行地址分詞性能對比,選用隨機抽取已經治理好的南京市的50 000 條地址作為測試數據集進行分詞性能對比;在表3 中,BiLSTM-CRF 比單獨使用BiLSTM 高了接近1.2 個百分點,可能是由于CRF 能夠限制模型標注間的輸出,BiLSTM 能夠雙向記憶,能夠記憶過去的地址信息和未來地址的信息;整體的實驗結果表明BiLSTM-CRF 在地址分詞中有很好的性能,除了BiLSTM 和BiLSTM-CRF 之外,ELMo 模型的召回率均大于90%,原因可能是測試數據集中存在較多的歧義地址,ELMo 模型在處理地址歧義方面有天然的優勢。加入了CNN 模型之后,效果略有增強。

表3 模型整體分詞性能對比

表5 中,1~6 分別表示BiLSTM4 詞位標注,BiLSTM6 詞位標注、BiLSTM-CRF4 詞位標注、BiLSTM-CRF6 詞位標注、ELMo-BiLSTM-CRF4 詞位標注、ELMo-BiLSTM-CRF6 詞位標注,使用同樣的測試數據集分別對1~6 模型進行性能測試,結果表明,采用6 位詞性標注的性能均比采用4 位詞性標注的分詞性能好。

表4 模型訓練時間

表5 不同標注下模型分詞性能對比

4 結束語

文中將地址信息按照地址層級進行分級,并使用標注體系進行中文地址標注,根據ELMo、BiLSTM、CRF 模型特點,將幾者結合起來并進行實驗對比,結果表明,按照層級進行地址標注更加符合地址的真實情況,利用MapReduce 分布式計算,處理數據更高效,使得地址標注更貼切實際,粒度更細致,為后續的工作做了良好的鋪墊。

文中研究了ELMo-BiLSTM-CRF 模型在地址分詞領域中的應用,并對BiLSTM、BiLSTM-CRF 地址分詞性能進行對比分析,發現針對地址歧義的地址數據ELMo 模型有明顯的性能優勢,BiLSTM-CRF 整體效果較佳,單獨使用BiLSTM 模型分詞效果不佳。

文中使用dropout 和Adam 優化[16]提高實驗效果,并使用正交優化策略保證方差和偏差的平衡,使用較小的學習率使模型表現更加精細,并加入CNN 模型,使得模型更加豐滿,在分詞性能上有更好的表現。

猜你喜歡
信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
一個相似模型的應用
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 一级爱做片免费观看久久| 嫩草在线视频| 国产成人综合久久| 亚洲国产91人成在线| 国产主播在线一区| 亚洲性影院| 国产福利2021最新在线观看| 亚洲国产天堂久久九九九| 国产Av无码精品色午夜| 亚洲无线视频| 亚洲高清国产拍精品26u| 婷婷六月激情综合一区| 国产成人综合亚洲网址| 色婷婷在线影院| 国产精品所毛片视频| 国产丝袜啪啪| 欧美一区二区精品久久久| 日韩视频福利| 99re经典视频在线| 国产欧美日韩综合在线第一| 真实国产乱子伦视频| 亚洲九九视频| 免费看的一级毛片| 午夜国产精品视频| 黄色网在线免费观看| 亚洲精品国产综合99| 国产精品蜜芽在线观看| 亚洲性日韩精品一区二区| 亚洲视频在线观看免费视频| 国产日韩欧美精品区性色| 精品国产中文一级毛片在线看 | 亚洲中文字幕无码爆乳| 91色老久久精品偷偷蜜臀| 国产正在播放| 一本一道波多野结衣av黑人在线| 中文字幕在线播放不卡| 99在线观看国产| www.狠狠| 日韩区欧美区| 亚洲人在线| 日韩精品免费一线在线观看| 91精品国产无线乱码在线| 手机在线看片不卡中文字幕| 欧美综合成人| 亚洲AV电影不卡在线观看| 国产精品嫩草影院av| 国内精品视频| 国产第一页免费浮力影院| 亚洲区视频在线观看| 国产在线观看91精品| 日韩在线第三页| 99视频在线精品免费观看6| 99热免费在线| 欧美精品亚洲精品日韩专区va| 中日无码在线观看| 日韩 欧美 国产 精品 综合| 欧美激情视频一区| 亚洲精品大秀视频| 亚洲区一区| 热热久久狠狠偷偷色男同| a级毛片毛片免费观看久潮| 色婷婷亚洲综合五月| 国产精品毛片一区视频播| 狠狠躁天天躁夜夜躁婷婷| 国产69精品久久久久孕妇大杂乱| 免费福利视频网站| av在线人妻熟妇| 日本午夜在线视频| 亚洲区第一页| 成人福利免费在线观看| 欧美日韩在线国产| 熟女日韩精品2区| 久久久久久尹人网香蕉 | 全部无卡免费的毛片在线看| 久久99精品久久久大学生| 亚洲午夜福利在线| 精品国产aⅴ一区二区三区| 九色视频最新网址 | 亚洲娇小与黑人巨大交| 精品国产一二三区| 久久鸭综合久久国产| 无套av在线|