999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文地名地址成分信息識(shí)別

2023-05-10 10:26:02山東科技大學(xué)測(cè)繪與空間信息學(xué)院王鐘岳劉洋
關(guān)鍵詞:方法模型

山東科技大學(xué)測(cè)繪與空間信息學(xué)院 王鐘岳 劉洋

在隨著人工智能的快速發(fā)展和大數(shù)據(jù)時(shí)代的到來(lái),如何在大量的數(shù)據(jù)中快速的并準(zhǔn)確的獲取我們所有需要的數(shù)據(jù)成為了現(xiàn)在計(jì)算機(jī)技術(shù)發(fā)展的重要方向,由于中文地名的復(fù)雜性對(duì)當(dāng)前的地名地址識(shí)別工作起到了較大的困擾。本文利用基于深度學(xué)習(xí)的模型對(duì)中文機(jī)構(gòu)名的識(shí)別和匹配進(jìn)行研究,先通過(guò)CRF++訓(xùn)練分詞模型,然后通過(guò)有限狀態(tài)機(jī)模型結(jié)合的狀態(tài)轉(zhuǎn)移函數(shù),對(duì)分詞后的地址進(jìn)行識(shí)別,能夠準(zhǔn)確地對(duì)地名地址進(jìn)行識(shí)別,研究結(jié)果有很大的現(xiàn)實(shí)意義。

隨著地理信息和大數(shù)據(jù)的快速發(fā)展,如何準(zhǔn)確的識(shí)別出我們需要的信息成為現(xiàn)在研究的關(guān)鍵,中文地名地址的命名實(shí)體識(shí)別是自然語(yǔ)言處理的一項(xiàng)重要任務(wù)[1]。命名實(shí)體識(shí)別是進(jìn)行信息匹配的前提,命名實(shí)體識(shí)別是對(duì)文本中的重要名詞和專有名詞進(jìn)行定位和分類的問(wèn)題,地名和我們的生活緊密結(jié)合在了一起,所以如何準(zhǔn)確并快速的檢索到我們需要的地名成為了現(xiàn)在研究的關(guān)鍵。

1 國(guó)內(nèi)外研究現(xiàn)狀

中文地址成分識(shí)別是地址解析中地址分詞的一個(gè)領(lǐng)域,歸類總結(jié),可以將這些方法分為以下3 個(gè)類別:基于詞典、基于地址規(guī)則、基于規(guī)則和統(tǒng)計(jì)相結(jié)合。梁南元[2]教授最先提出了基于詞典匹配的方法。于濱[3]提出了一種先通過(guò)訓(xùn)練樣本來(lái)建立起標(biāo)準(zhǔn)地址庫(kù),然后再通過(guò)推理機(jī)對(duì)模糊地址進(jìn)行判斷的專家系統(tǒng),這種方法的缺點(diǎn)在于標(biāo)準(zhǔn)地址庫(kù)規(guī)模的大小嚴(yán)重影響系統(tǒng)的識(shí)別率。2006 年錢晶和張杰等提出了基于最大熵的地名識(shí)別方法[4],利用最大熵來(lái)進(jìn)行訓(xùn)練提取特征值,同時(shí)結(jié)合不斷變化的詞表和規(guī)則對(duì)地名進(jìn)行識(shí)別,對(duì)于地名地址識(shí)別有很好的效果。孫存群等[5]提出了分級(jí)地址庫(kù)模型,簡(jiǎn)化了實(shí)現(xiàn)流程,減少了維護(hù)分詞的步驟。鄔倫[6]等提出了基于條件隨機(jī)場(chǎng)的中文地名識(shí)別方法,通過(guò)統(tǒng)計(jì)地名用字的特征,設(shè)計(jì)特征模板,根據(jù)特征模板構(gòu)建特征函數(shù),從而完成命名實(shí)體識(shí)別。隨著有限狀態(tài)機(jī)模型的成熟,可以建立中文地址中存在的成分狀態(tài)轉(zhuǎn)換關(guān)系與狀態(tài)轉(zhuǎn)換函數(shù),運(yùn)用地址數(shù)據(jù)訓(xùn)練狀態(tài)轉(zhuǎn)移概率,可大大減少各個(gè)地址要素之間的相互影響。因此,在解決地址成分識(shí)別的問(wèn)題上,有限狀態(tài)機(jī)模型逐漸成為一種切實(shí)可行的方法。

2 中文地名的成分解析

2.1 中文地址成分分類

地名的分類是進(jìn)行地名識(shí)別的首要工作,地名應(yīng)便于記憶,并能幫助運(yùn)用者能聯(lián)想起地名與地理實(shí)體之間穩(wěn)定的聯(lián)想關(guān)系。那些容易與特定地理實(shí)體建立起關(guān)聯(lián),能生動(dòng)地反映當(dāng)?shù)靥攸c(diǎn)、體現(xiàn)地域文化特征的地名,因指位效能強(qiáng)而受到社會(huì)的青睞[7]。地名用字是地名構(gòu)成的重要部分,根據(jù)不同的目的和原則,可以采用不同的地名分類法[8]。因此本文想要通過(guò)縮減地名中地址要素的分類,通過(guò)幾個(gè)大類對(duì)地名進(jìn)行整體概括,包括了行政區(qū)劃、道路、居民區(qū)、地址、興趣點(diǎn)、組織機(jī)構(gòu)名等一共6 大類作為有限狀態(tài)機(jī)識(shí)別狀態(tài)的基礎(chǔ)。

表1 中文地址要素分類Tab.1 Classification of Chinese address elements

2.2 中文地址分詞工具

現(xiàn)有的中文分詞方法主要有以下幾種:

(1)基于匹配的分詞方法。基于匹配的分詞方法又稱為機(jī)械分詞的方法。它是指按照一定的方法將需要分詞的字符串與詞典中的詞條進(jìn)行匹配,完成分詞。主要有最大匹配法,最大匹配法包括正向最大匹配法、反向最大匹配法和雙向最大匹配法。

例如對(duì)于青島市直屬機(jī)關(guān)來(lái)說(shuō)我們的詞典中有青島市、青島、直屬、市直屬、機(jī)關(guān)。進(jìn)行正向最大匹配的時(shí)候第一個(gè)識(shí)別的詞語(yǔ)就是青島市,第二個(gè)詞為直屬,第三個(gè)詞為機(jī)關(guān)。結(jié)果為{青島市、直屬、機(jī)關(guān)}進(jìn)行逆向最大匹配的時(shí)候識(shí)別的第一個(gè)詞為機(jī)關(guān),第二個(gè)詞為市直屬,第三個(gè)詞為青島,結(jié)果為{青島、市直屬、機(jī)關(guān)},而利用雙向最大匹配算法的結(jié)果為{青島市、直屬、機(jī)關(guān)}。

(2)基于理解的分詞方法。基于理解的分詞方法就是讓計(jì)算機(jī)去理解學(xué)習(xí)人腦對(duì)句子的理解,從而進(jìn)行分詞。它的主要區(qū)別與基于規(guī)則的方法的特點(diǎn)就是,再進(jìn)行分詞的同時(shí)對(duì)語(yǔ)句的信息構(gòu)詞以及相對(duì)應(yīng)的語(yǔ)境進(jìn)行理解,從而達(dá)到減少錯(cuò)誤的出現(xiàn)。主要包括3 個(gè)關(guān)鍵,分詞系統(tǒng)、句子語(yǔ)義理解、總控制。在總控制的幫助下,分詞系統(tǒng)和語(yǔ)義理解系統(tǒng)對(duì)分詞結(jié)果進(jìn)行檢查,減少錯(cuò)誤的出現(xiàn),模擬了人腦進(jìn)行處理的過(guò)程,但它有一定的缺點(diǎn),需要大量的語(yǔ)言知識(shí)和信息,再加上漢語(yǔ)知識(shí)的復(fù)雜性,很難將信息組織成機(jī)器可以學(xué)習(xí)讀取的形式。

(3)基于統(tǒng)計(jì)的分詞方法。基于統(tǒng)計(jì)的分詞方法就是在有大量已經(jīng)分詞的數(shù)據(jù)的前提下,利用機(jī)器學(xué)習(xí)模型學(xué)習(xí)分詞切分的規(guī)律,從而實(shí)現(xiàn)對(duì)分詞任務(wù)的切分。對(duì)訓(xùn)練文本中詞組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算他們之間互現(xiàn)的信息,根據(jù)他們出現(xiàn)的頻率從而認(rèn)為他們構(gòu)成了一個(gè)詞,也是一種無(wú)詞典的分詞方法。隨著各種大規(guī)模標(biāo)注語(yǔ)料庫(kù)的建立,基于統(tǒng)計(jì)學(xué)習(xí)的分詞方法漸漸成為了主流的方法。

本文選擇利用統(tǒng)計(jì)的CRF++分詞方法,CRF++的分詞思路主要是通過(guò)對(duì)詞語(yǔ)進(jìn)行標(biāo)注,對(duì)句子中的字進(jìn)行標(biāo)注,既考慮了文字出現(xiàn)的頻率也同時(shí)考慮了上下文信息,具有很好的學(xué)習(xí)能力,而且對(duì)未登錄詞和具有歧義的分詞結(jié)果有較好的效果。

中文地址分詞工具采用條件隨機(jī)場(chǎng)的基本工作原理,CRF 將句子中每個(gè)單詞根據(jù)所在位置進(jìn)行分類,是目前的主流序列標(biāo)記算法[9]。CRF++把中文分詞任務(wù)看作是序列標(biāo)注任務(wù),通過(guò)BMES 四字標(biāo)注法進(jìn)行標(biāo)注,B 代表詞首,M 代表詞中,E 代表詞尾,S 代表其他。

通常我們將等待分詞的語(yǔ)句稱之為輸入序列,分詞完成后的結(jié)果為輸出序列,所以CRF++分詞的目的就是:在給定輸入序列A 的條件下,找到輸出概率最大標(biāo)注結(jié)果B。將分詞后的結(jié)果作為模型的輸入,輸入進(jìn)本文的有限狀態(tài)機(jī)模型中。

3 基于有限狀態(tài)機(jī)的地址成分識(shí)別

本文的基本識(shí)別思路是:首先,利用中文地址分詞工具對(duì)地址串進(jìn)行分詞標(biāo)注;然后將分詞好的地址串依次打入有限狀態(tài)機(jī)模型,利用標(biāo)注及特征詞完成成分級(jí)別的識(shí)別,若存在由一種狀態(tài)引出兩條方向的情況,則采用訓(xùn)練好的轉(zhuǎn)移函數(shù)判斷分支權(quán)重,識(shí)別為權(quán)重較大的狀態(tài)。最后,利用構(gòu)建好的驗(yàn)證函數(shù)對(duì)狀態(tài)轉(zhuǎn)移進(jìn)行驗(yàn)證,判斷是否無(wú)誤。整個(gè)地址串成分全部完成有限狀態(tài)機(jī)流程,則完成成分識(shí)別。

作為在有限狀態(tài)機(jī)中最重要的部分,狀態(tài)轉(zhuǎn)換函數(shù)能夠識(shí)別各個(gè)地址成分中的特征標(biāo)注及特征詞,按照特征詞來(lái)完成狀態(tài)的識(shí)別,并將其打入相應(yīng)的狀態(tài)。而遇到在成分中不包含特征詞的情況下,這時(shí)候我們無(wú)法通過(guò)標(biāo)注以及特征詞來(lái)判定該成分的狀態(tài),也就是說(shuō)此時(shí)會(huì)存在兩種及兩種以上的狀態(tài)轉(zhuǎn)移可能,所以狀態(tài)轉(zhuǎn)移分支權(quán)重這時(shí)候會(huì)起到很重要的作用。

當(dāng)?shù)刂烦煞滞ㄟ^(guò)轉(zhuǎn)換函數(shù)進(jìn)入某一狀態(tài)后,對(duì)于地址串中的行政區(qū)劃部分我們往往能夠做到準(zhǔn)確的識(shí)別,但對(duì)于地址串后面的街道名、機(jī)構(gòu)名等往往簡(jiǎn)單識(shí)別會(huì)產(chǎn)生歧義。因此,本文特建立驗(yàn)證函數(shù),根據(jù)某一成分的后一個(gè)狀態(tài)來(lái)進(jìn)一步驗(yàn)證某一地址元素的正確狀態(tài)。

地址串根據(jù)轉(zhuǎn)換函數(shù)暫確定狀態(tài)后,需要進(jìn)行進(jìn)一步的驗(yàn)證。對(duì)于地址串“a,b,c, d”,從左至右依次將成分輸入模型,輸入a 成分,根據(jù)狀態(tài)轉(zhuǎn)換函數(shù)暫定某個(gè)狀態(tài)A,此時(shí)成分a 進(jìn)入待定驗(yàn)證過(guò)程,進(jìn)而根據(jù)下一個(gè)成分b 的狀態(tài)來(lái)進(jìn)行判斷,是否根據(jù)狀態(tài)轉(zhuǎn)換關(guān)系能夠從a 到b,如果可以,則a 可以確定為狀態(tài)A,如果a 為終止成分,則a 也可以判定為獨(dú)立狀態(tài)A,下一步將輸入b 成分同樣進(jìn)行驗(yàn)證,否則的話,成分ab 則暫時(shí)被看為一個(gè)狀態(tài)B。

此時(shí)進(jìn)入循環(huán),將ab 作為一個(gè)成分輸入模型,ab進(jìn)入待定驗(yàn)證過(guò)程,如果根據(jù)狀態(tài)轉(zhuǎn)換關(guān)系能夠從ab到c 或者ab 為終止成分,則ab 可以看成一個(gè)獨(dú)立狀態(tài),驗(yàn)證結(jié)束。如果ab 不能夠到c,則將abc 暫看成一個(gè)狀態(tài),繼續(xù)執(zhí)行循環(huán)驗(yàn)證abc 的狀態(tài),從而完成識(shí)別。

4 實(shí)驗(yàn)結(jié)果分析

本文的實(shí)驗(yàn)語(yǔ)料與上文同樣是通過(guò)高德的開放數(shù)據(jù)API 的AddressComponent 對(duì)象,是從高德地圖上爬取地址成分識(shí)別實(shí)驗(yàn)所需的語(yǔ)料。本次實(shí)驗(yàn)總共爬取了山東省的地址數(shù)據(jù)總共11270 條的地址數(shù)據(jù),三組模型都對(duì)這11270 條數(shù)據(jù)來(lái)進(jìn)行識(shí)別測(cè)試,作為統(tǒng)一的實(shí)驗(yàn)語(yǔ)料。然后輸入有限狀態(tài)機(jī)、HMM 和CRF 識(shí)別方法進(jìn)行對(duì)比。

對(duì)于實(shí)驗(yàn)當(dāng)然是需要實(shí)驗(yàn)評(píng)價(jià)的指標(biāo),本文將采用召回率、準(zhǔn)確率以及綜合指標(biāo)F 值[10]3 個(gè)指標(biāo)來(lái)評(píng)價(jià)實(shí)驗(yàn)以及做實(shí)驗(yàn)之間的對(duì)比。

通過(guò)統(tǒng)計(jì)3 種模型的實(shí)驗(yàn)結(jié)果,得到的測(cè)試結(jié)果如表2 所示。

表2 各模型實(shí)驗(yàn)結(jié)果Tab.2 Experimental results of various models

5 總結(jié)與展望

5.1 本文總結(jié)(This Paper Summarizes)

地址成分的識(shí)別是地址匹配技術(shù)階段的第一步,也是利用地址信息導(dǎo)航以及定位系統(tǒng)的基礎(chǔ)性的一項(xiàng)技術(shù),這些技術(shù)與人們的生活有著息息相關(guān)的聯(lián)系,對(duì)人們的生活有著重要的影響。

對(duì)于本文而言,主要的核心工作集中在以下幾點(diǎn):

(1)對(duì)中文地名地址的成分進(jìn)行分析,將中文地址進(jìn)行分類;

(2)通過(guò)分詞對(duì)中文地址的成分進(jìn)行劃分,更好的理解中文地址的構(gòu)成成分;

(3)為了使有限狀態(tài)機(jī)起到更加準(zhǔn)確的效果,本文還提出了構(gòu)建驗(yàn)證函數(shù),建立判別條件來(lái)不斷驗(yàn)證地址成分。地址成分通過(guò)有限狀態(tài)機(jī)轉(zhuǎn)換函數(shù)被判定為某狀態(tài)后,經(jīng)過(guò)狀態(tài)驗(yàn)證函數(shù)可進(jìn)一步消除識(shí)別歧義,達(dá)到更好的識(shí)別效果。

5.2 未來(lái)工作(Future Work)

基于有限狀態(tài)機(jī)模型的地址成分識(shí)別方法是具有一定優(yōu)勢(shì)的,但是還存在需要改進(jìn)的地方。

(1)地址的分詞采用CRF++訓(xùn)練的方法,雖然準(zhǔn)確率較高,但分詞的結(jié)果會(huì)影響后續(xù)標(biāo)注的正確率。因此,在后續(xù)的研究中應(yīng)該嘗試改進(jìn)這一弊端,這需要大量的準(zhǔn)確標(biāo)注的數(shù)據(jù)。

(2)對(duì)于有限狀態(tài)機(jī)的驗(yàn)證函數(shù),應(yīng)該不僅僅局限于通過(guò)后面的成分來(lái)進(jìn)行判別,應(yīng)該需要考慮多地址成分之間的關(guān)系,加大對(duì)地址成分構(gòu)成的要素分析與統(tǒng)計(jì),把握中文地址不同類別地址之間的差距與區(qū)別,在識(shí)別的時(shí)候能更好地把握地址成分的完整性。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
學(xué)習(xí)方法
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 2020亚洲精品无码| 国产一区二区三区视频| 狠狠v日韩v欧美v| 中文国产成人精品久久| 国产91精品调教在线播放| 99国产精品一区二区| 国产精品不卡永久免费| 一区二区日韩国产精久久| 国产又黄又硬又粗| 亚洲精品黄| 熟女日韩精品2区| 好吊色妇女免费视频免费| 九九九国产| 精品免费在线视频| 日韩精品一区二区三区免费| 在线观看国产精品一区| 亚洲精品免费网站| 欧美福利在线播放| 毛片国产精品完整版| 夜夜操天天摸| 精品国产三级在线观看| 福利在线不卡一区| 亚洲色大成网站www国产| 2021天堂在线亚洲精品专区| av午夜福利一片免费看| 免费不卡在线观看av| 国产综合精品一区二区| 免费中文字幕在在线不卡| 国内精自视频品线一二区| a天堂视频在线| 四虎精品免费久久| h网站在线播放| 被公侵犯人妻少妇一区二区三区| 欧美一区二区三区不卡免费| 精品一区二区三区自慰喷水| 香蕉伊思人视频| 爆乳熟妇一区二区三区| 国产午夜福利亚洲第一| 亚洲综合婷婷激情| 国产精品免费电影| 日韩精品亚洲人旧成在线| 2021国产精品自产拍在线观看| 国产特级毛片| 亚洲 成人国产| 久久人搡人人玩人妻精品| 在线播放91| 亚洲区一区| 国产男女XX00免费观看| 亚洲午夜天堂| 伊人丁香五月天久久综合| 99国产精品国产高清一区二区| 日韩高清欧美| 国产交换配偶在线视频| 中文字幕在线观| 狠狠五月天中文字幕| 日韩欧美国产综合| 国产免费人成视频网| 91成人精品视频| 成人午夜精品一级毛片| 米奇精品一区二区三区| 精品国产毛片| 91久久天天躁狠狠躁夜夜| 香蕉在线视频网站| 九九久久99精品| 欧美视频二区| 美女无遮挡免费视频网站| 中文字幕精品一区二区三区视频 | 久久黄色视频影| 亚洲成A人V欧美综合| 国产免费高清无需播放器| 色成人综合| 一级福利视频| 国产一二视频| 久热这里只有精品6| 午夜国产不卡在线观看视频| 少妇精品在线| 在线观看国产网址你懂的| 国产成人综合亚洲欧洲色就色| 国产女人在线| 国产色婷婷| 一本大道香蕉中文日本不卡高清二区 | 中文字幕av无码不卡免费|