999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于字詞特征融合的中文地址匹配算法

2023-08-26 03:08:11陳劍
電腦知識與技術(shù) 2023年19期
關(guān)鍵詞:語義特征融合

陳劍

關(guān)鍵詞:地址匹配;深度學(xué)習(xí);特征融合

0 引言

地址是描述某種具體空間位置的文本標(biāo)識,具有重要的地理信息價值。中文地名的匹配和解析是進(jìn)行中文地址標(biāo)準(zhǔn)化和規(guī)范化的基礎(chǔ)[1]。但中文地址具有來源多樣性和描述差異化的特點,在智慧城市建設(shè)和大數(shù)據(jù)背景條件下,如何提高地址匹配的準(zhǔn)確率和有效率是開展后續(xù)任務(wù)的關(guān)鍵因素。當(dāng)前對中文地址匹配的研究主要包含以下三塊內(nèi)容[2-4]:一種是基于規(guī)則的地址匹配方法,這種方法分為兩個階段,第一階段是通過比較兩個地址字符串的相似程度,進(jìn)而判斷是否為同一地址,此類方法不需要對地址進(jìn)行解析,沒有考慮到地址的語義信息,匹配準(zhǔn)確率較低;第二階段是基于地址要素的地址匹配方法,該方法是根據(jù)地址要素特征詞進(jìn)行中文地址的提取,進(jìn)而實現(xiàn)對地址要素的匹配,但基于地址要素匹配的方法對非標(biāo)準(zhǔn)地址或者復(fù)雜地址難以有效解析和提取,適應(yīng)性較差;另外一種是基于統(tǒng)計和機(jī)器學(xué)習(xí)的方法,該方法是通過大規(guī)模語料庫獲取地名匹配的統(tǒng)計模型,其在考慮地名短語的詞法信息之外,結(jié)合了在句子上下文信息,可以在一定程度上解決語義歧義問題;最后一種是基于深度學(xué)習(xí)的方法,通過挖掘數(shù)據(jù)中潛在的規(guī)律特征實現(xiàn)對地址匹配的目的[5-8]。

顯然基于規(guī)則和統(tǒng)計的方法有一定的局限性,匹配準(zhǔn)確度低,依賴標(biāo)準(zhǔn)地址庫的構(gòu)建。對錯亂和缺失的地址無法有效處理,缺乏對地址語義的理解,不能有效地提取地址的語義信息。基于神經(jīng)網(wǎng)絡(luò)的方法能有效解決語義信息的缺失,和對于地址要素之間的各類差異的效果欠佳問題,但對于這類模型來說,如何有效融合全局與局部范圍的上下文信息是一個重要的問題。本文通過分析中文地址結(jié)構(gòu)的特點,提出一種基于字、詞特征融合的中文地址匹配方法,該方法不依賴于地址特征庫,從地址語義理解的角度出發(fā),實現(xiàn)對中文地址的精準(zhǔn)匹配。

1 模型結(jié)構(gòu)

中文地址包含地址要素、詞性和句法三大類特征。中文地址的最小語義單元是地址要素,一個中文地址通常是由多個要素構(gòu)成,每個地址要素屬于地名實體中的一個獨立部分。地址要素由普通字符與特征字構(gòu)成,其中特征字更能體現(xiàn)地址要素間的本質(zhì)區(qū)別,并反映出地址的真實語義與位置信息。中文地址要素包含多個層級,將中文地址要素劃分多個層級。如省、直轄市為第一層級,省會、地級市為第二層級,區(qū)、縣為第三層級,街道、鄉(xiāng)鎮(zhèn)為第四層級,以街道、鄉(xiāng)鎮(zhèn)為例,可能包含對應(yīng)地址要素特征集合為:鎮(zhèn)、鄉(xiāng)、辦事處、居委會、社區(qū)、街道。因此,特征字是區(qū)分地址要素、劃分地址層級的標(biāo)志。在本節(jié)中,筆者根據(jù)中文地址結(jié)構(gòu)的特點,提出一種基于字、詞以及地址特征融合的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)模型。該架構(gòu)的第一個重要組件負(fù)責(zé)將字、詞標(biāo)記及其特征轉(zhuǎn)換為向量表示,然后將得到的句子進(jìn)行融合向量表示獲取地址語義信息,最后根據(jù)地址語義相似度實現(xiàn)地址的匹配。

1.1 主要模塊

本文提出一種基于字詞特征融合的中文地址匹配模型,根據(jù)中文地址的特點,融合中文地址的字、詞屬性,建立字詞特征融合的中文地址語義匹配模型。具體來說,地址語義匹配模型分為三個階段:第一階段為字符嵌入表征,通過融入字符的局部和全局特征,將地址字符信息轉(zhuǎn)變?yōu)橄蛄勘磉_(dá)。第二階段為詞嵌入表征,通過獲取地址文本中詞的前向和后向的上下文依賴關(guān)系,挖掘基于詞的地址語義信息,并且基于地址特征字的關(guān)系屬性,聯(lián)合地址要素綜合得到地址語義表征。第三階段為地址的匹配,通過使用地址語義相似度算法,根據(jù)設(shè)定閾值判斷地址是否相似。

地址語義匹配模型接受地址輸入,并分別基于字、詞生成地址的語義向量表示,接著通過字詞特征融合表征地址語義,最后使用地址語義相似度算法實現(xiàn)地址匹配。模型整體構(gòu)造如圖1所示。MFAM模型整體分為編碼模塊、語義表征模塊、相似度計算模塊組成,下文對各階段的具體細(xì)節(jié)進(jìn)行說明。

1.2 地址語義表征

本文采用結(jié)合字詞特征融合的地址語義表征。具體來說,首先從輸入句子中獲取基于字符嵌入向量表示,并通過卷積網(wǎng)絡(luò)實現(xiàn)最大時間離散化,生成的基于字符的標(biāo)記序列表示被傳遞Bi-LSTM的輸入層;其次,輸入序列通過分詞和預(yù)訓(xùn)練語言模型進(jìn)行詞向量表征,并連接到詞嵌入層。

1) 基于字符表征

1) 基于字符表征本文將中文地址中的漢字字符特征作為一個特征輸入,分別從全局和局部的角度學(xué)習(xí)語義信息。具體來說,首先使用BiLSTM對輸入字符進(jìn)行雙向語義表征學(xué)習(xí),然后使用自注意力機(jī)制有效獲取任意兩個字符之間的關(guān)系,獲取字符全局信息。接著使用卷積神經(jīng)網(wǎng)絡(luò)對字符進(jìn)行特征提取,基于最大池化的方法獲取主要信息,獲取字符的局部特征。基于字符全局特征表征結(jié)構(gòu)如圖2所示。

對于在t 時刻的地址字符wt',首先采用預(yù)訓(xùn)練語言模型BERT將其轉(zhuǎn)換為字符嵌入形式wt,BERT模型采用了雙向Transformer語義模型,可以充分獲取字詞的上下文信息,接著將字符的嵌入表征輸入BiLSTM 網(wǎng)絡(luò),獲取字符表征輸出為ht = [ ht ; ht ],其中ht 和ht分別表示BiLSTM網(wǎng)絡(luò)的前向和后向的輸出。BiL? STM是一種改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,通過引入門結(jié)構(gòu)可以有選擇地保存上下文信息,對于長距離信息進(jìn)行有效利用,可以有效克服梯度爆炸問題。在BiL? STM網(wǎng)絡(luò)的輸出結(jié)果之上,采用自注意力機(jī)制捕獲任意兩個字符之間的關(guān)系,相關(guān)計算公式如下所示:

其中,ct 是上下文向量,wa,wb,wc 是權(quán)重矩陣,χ 是隨機(jī)初始化的參數(shù)向量。

基于字符局部特征表征結(jié)構(gòu)如圖3所示。

使用卷積神經(jīng)網(wǎng)絡(luò)提取字符的局部特征,并且疊加最大池化操作從學(xué)到的特征中保留最主要的特征。對于一個輸入字符,采用CNN進(jìn)行特征提取,相關(guān)公式如下所示:

2)基于詞表征

本文在使用字符級特征基礎(chǔ)之上,采用詞級別特征,引入基于字詞編碼的方法,充分利用詞的邊界和語義信息。將模型的字符和詞的信息編碼成聯(lián)合表示。具體地,該方法為每個字符分配B、M、E和S共4 個標(biāo)簽,其中B表示當(dāng)前字開頭的潛在詞集合,M表示中間包含當(dāng)前詞的集合,E表示當(dāng)前字結(jié)尾的潛在詞集合,S表示當(dāng)前字本身。

為每個詞定義一個集合,集合包含了該詞以及該詞對應(yīng)的B、M、E和S的集合,并使用基于詞頻計算的權(quán)重加權(quán)方式求和多個詞向量,最后拼接當(dāng)前字的向量表示及其對應(yīng)的B、M、E和S的集合的向量表示作為字詞信息的聯(lián)合表示,用作模型的最終輸入:

1.3 特征融合

對于已獲取的字符級特征,包含全局特征和局部特征,使用字詞特征融合的策略進(jìn)行表示。字詞特征融合是一種具有魯棒性和高效性的策略,能充分利用最顯著的特征達(dá)到更好的效果。基于字符級的特征融合能將多個相關(guān)特征組合成原始輸入序列的全局信息表示。在特征融合階段,采用一種能自適應(yīng)的連接策略對全局和局部特征進(jìn)行融合,字詞特征融合表示如下:

其中,htA 和htC 是從1.2節(jié)中獲取的特征,u1 是用來調(diào)節(jié)這兩個特征重要性程度的參數(shù)。

最后,將融合的字符級表示ht 和增強(qiáng)的字詞編碼表示Emb(B,M,E,S) 進(jìn)行特征的拼接,得到最終輸入層的表示。

2 地址語義相似度計算

對待匹配地址和標(biāo)準(zhǔn)地址集中的每一個地址進(jìn)行相似度計算,獲取到與待匹配標(biāo)準(zhǔn)地址的相似度,設(shè)定相似度閾值,查找到符合閾值的相似地址。

3 實驗

3.1 實驗環(huán)境

本文使用基于CUDA 10.0的深度學(xué)習(xí)框架Keras i27.3-.707構(gòu)00建 In網(wǎng)tel絡(luò)(R)模 C型ore,(T實M驗) C在PU內(nèi),存NVDIDDIRA4 G3e2FGo,rc3e.6 GGTHXz 1080 Ti的Ubuntu 18.04 LTS系統(tǒng)上進(jìn)行。

3.2 數(shù)據(jù)集

為了評估本文提出模型的穩(wěn)定性,本文使用標(biāo)準(zhǔn)地址庫構(gòu)建了一個包含約30W條蕪湖市地址信息的數(shù)據(jù)集,將其中的25W條數(shù)據(jù)作為訓(xùn)練集,剩余5萬條數(shù)據(jù)作為測試集數(shù)據(jù),其中訓(xùn)練集和測試集的正負(fù)樣本比例約為3:1。

3.3 實驗設(shè)置

本文將漢字字符特征的維度設(shè)定為 20維度,用 word2vec模型對每個漢字進(jìn)行編碼向量化,將不足20 維的地址數(shù)據(jù)編碼用0補(bǔ)足為20維編碼,然后將地址數(shù)據(jù)中的每個單詞表征為對應(yīng)詞向量,并將其融合作為整個地址數(shù)據(jù)的向量表示。在超參的設(shè)置上,針對地址數(shù)據(jù)可能的長度,在語義表征層中,設(shè)置每一個詞的輸出維度為768維,表征后輸出的地址數(shù)據(jù)語義表征維度均為100維,完成語義表征后,將獲得的兩個語義向量分別輸入下一層網(wǎng)絡(luò)結(jié)構(gòu)中。

3.4 實驗結(jié)果與分析

在評價指標(biāo)上,為了對預(yù)測結(jié)果進(jìn)行有效的評價,本文選取相應(yīng)的參考指標(biāo)去衡量最終結(jié)果,包括準(zhǔn)確率(accuracy) 、精確率(precious) 、召回率(recall) 與F1得分(F1-score) 。其中準(zhǔn)確率越高,證明模型對于地址相似度計算結(jié)果越精確;而F1得分越高,證明模型整體性能越好。

為了驗證本文提出的MFAM模型的有效性,將本文提出的模型與經(jīng)典模型進(jìn)行對比實驗,本文設(shè)置以下幾組對比模型實驗:第一組使用BiLSTM模型;第二組使用BiLSTM模型,并添加注意力機(jī)制進(jìn)行實驗;第三組結(jié)合CNN網(wǎng)絡(luò)獲取局部上下文信息,使用BiLSTM-CNN模型進(jìn)行實驗;最后一組即為本文所提出的MFAM模型,在BiLSTM 中引入注意力機(jī)制,并結(jié)合CNN網(wǎng)絡(luò)進(jìn)行共同訓(xùn)練。

對比實驗地址的結(jié)果表1所示,從表中可以得出本文提出的MFAM模型在準(zhǔn)確率、召回率以及F1值上均取得了最好的結(jié)果,表明本文方法在中文地址匹配方面的有效性。從表1中可以看出,第二組采用結(jié)合注意力機(jī)制的地址匹配方法,使得模型的整體效果都得到了提升,表明添加注意力機(jī)制,可以從全局的角度學(xué)得有效特征,有助于模型的訓(xùn)練。而從第三組實驗結(jié)果中,發(fā)現(xiàn)使用CNN獲取局部有效特征也可對模型的性能進(jìn)行提升。同時,對比第四組、第二組和第三組實驗結(jié)果,可以看出本文提出的模型在F1得分上相比其他模型性能提升了5~7百分點,這個結(jié)果證明了在僅考慮注意力機(jī)制或者CNN獲得的局部信息的情況下,模型無法有效地捕捉地址中的部分關(guān)鍵信息,導(dǎo)致模型的整體性能下降。同時,F(xiàn)1得分證明,MFAM模型的精度提升并非受到數(shù)據(jù)集中正負(fù)樣例的比例影響,而是模型的整體學(xué)習(xí)能力相較于其他消融模型確實獲得了增強(qiáng)。

4 結(jié)論

本文在分析現(xiàn)有中文地址數(shù)據(jù)特征的基礎(chǔ)上,研究了中文地址要素并分析了可能存在的組合模式,針對傳統(tǒng)的中文地址匹配方法存在的不足,提出了一種基于字詞特征融合的中文地址語義匹配模型。在自主構(gòu)建的數(shù)據(jù)集上,本文提出的方法相對于傳統(tǒng)的方法提高了5~7 個百分點,驗證了MFAM 方法的有效性,為中文地址的匹配提供了新的方法和思路。

猜你喜歡
語義特征融合
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
語言與語義
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 国产在线拍偷自揄观看视频网站| 在线中文字幕网| 免费国产高清精品一区在线| 欧美人在线一区二区三区| 久久毛片免费基地| 久久国产精品国产自线拍| 国产精品免费露脸视频| 欧美三級片黃色三級片黃色1| 日韩毛片视频| 玖玖免费视频在线观看| 91麻豆国产精品91久久久| 久久精品人人做人人爽电影蜜月 | 亚洲一区免费看| 国产性爱网站| 国产一级毛片高清完整视频版| 国产美女在线免费观看| 九九免费观看全部免费视频| 欧美成人午夜影院| AⅤ色综合久久天堂AV色综合| 囯产av无码片毛片一级| 亚洲精品中文字幕无乱码| 伊人久久精品亚洲午夜| 亚洲色中色| 国产一区二区人大臿蕉香蕉| 一个色综合久久| 亚洲高清无在码在线无弹窗| 日韩精品高清自在线| 午夜日b视频| 国产香蕉国产精品偷在线观看| 夜夜高潮夜夜爽国产伦精品| 久久福利网| 欧美成人aⅴ| 亚洲精品片911| 99视频在线精品免费观看6| 无码aⅴ精品一区二区三区| 国产一区二区精品福利| 国产精品国产三级国产专业不| 国产成人精品第一区二区| 亚洲欧洲天堂色AV| 亚洲综合网在线观看| 99热国产这里只有精品无卡顿"| 九色在线观看视频| 久青草免费视频| 国产91av在线| 四虎影视无码永久免费观看| 国产人成在线视频| 国产成人综合久久| 久久人人97超碰人人澡爱香蕉| 欧美一区二区三区欧美日韩亚洲| 欲色天天综合网| 18禁黄无遮挡免费动漫网站| 日本a∨在线观看| 亚洲第一视频网| 91精品国产无线乱码在线 | 欧美视频在线播放观看免费福利资源| 日本午夜精品一本在线观看 | 在线精品视频成人网| AV天堂资源福利在线观看| 国产靠逼视频| 国产一在线| 午夜国产精品视频| 欧美国产精品拍自| 亚洲清纯自偷自拍另类专区| 亚洲色图另类| 漂亮人妻被中出中文字幕久久| 综合网天天| 高清免费毛片| 久热精品免费| 高清国产va日韩亚洲免费午夜电影| 国产美女免费| 色网站免费在线观看| 亚洲欧美不卡中文字幕| 久久人人97超碰人人澡爱香蕉| 日韩美毛片| 国产精品hd在线播放| 国产视频一二三区| 亚洲成av人无码综合在线观看| 一级做a爰片久久免费| 中文字幕亚洲电影| 亚洲免费播放| 欧美亚洲网| 欧美一级高清片久久99|