






摘 要: "地址匹配是危化品運輸交通起止點調(diào)查分析的關(guān)鍵技術(shù)之一。為解決復(fù)雜非標(biāo)危化品道路運輸?shù)刂菲ヅ渚容^低的問題,通過構(gòu)建自擴展中文分詞及自擴展的地址數(shù)據(jù)知識圖譜,基于全文索引知識圖譜進行危化品運輸中文地址的匹配,納入加權(quán)拼音全文搜索機制以提高拼寫錯誤地址的匹配準(zhǔn)確率,結(jié)合在線地理解析接口構(gòu)建危化品運輸?shù)刂范嘀仄ヅ錂C制,并對少量疑難地址執(zhí)行半監(jiān)督匹配,形成了完整的危化品運輸?shù)刂菲ヅ浞椒w系。針對危化品運輸電子運單地址數(shù)據(jù)的計算表明,算法能實現(xiàn)復(fù)雜中文危險化學(xué)品運輸?shù)刂菲ヅ涞母邷?zhǔn)確率及高精度。在隨機地址測試集中準(zhǔn)確率達(dá)94.6%,在較難分類地址測試集中準(zhǔn)確率達(dá)67.5%,在較難分類地址匹配的準(zhǔn)確率及精度上均相比于通用匹配方法及地理搜索引擎有大幅度的提升。
關(guān)鍵詞: "危化品運輸?shù)刂菲ヅ洌?中文分詞; 全文搜索; 知識圖譜
中圖分類號: "TP391 """文獻標(biāo)志碼: A
文章編號: "1001-3695(2022)02-014-0407-04
doi:10.19734/j.issn.1001-3695.2021.07.0299
Address matching based on full-text indexed knowledge graph for "hazardous materials transportation
Liu Fei1,2, He Xiangyang2, Zou Zhiyun1
(1.School of Civil amp; Hydraulic Engineering, Huazhong University of Science amp; Technology, Wuhan 430074, China; 2.Ningbo Transport Development Research Center, Ningbo Zhejiang 315042, China)
Abstract: "Address matching is one of the key technologies in the investigation and analysis of origin-destination in hazardous materials transportation.In order to help solving the problem of low accuracy of complex non-standard address matching for hazardous materials road transportation, this paper adopted self-expanding knowledge graph of address data,proposed a self-expanding Chinese word segmentation method and an address matching mechanism based on full-text index.Besides,this paper incorporated a weighted Pinyin full-text search mechanism to improve the matching accuracy for misspelling addresses.The online interface of geographic resolving and semi-supervised matching mechanism made the proposed address matching system a complete one.The matching results of the address data of the electronic waybill for the hazardous materials transportation show a high accuracy and high precision.The accuracy is over 94.6% for random address dataset and 67.5% for difficult-to-parse address dataset, both are much higher than the general matching methods and geographic search methods in terms of the accuracy and precision of address matching.
Key words: "address matching of hazardous materials transportation; Chinese word segmentation; full-text search; know-ledge graph
0 引言
危化品運輸?shù)慕煌ㄆ鹬裹c(origin-destination,OD)分析是指通過一定的技術(shù)手段對危化品電子運單大數(shù)據(jù)中運輸起止點之間的流量、流向、流時等信息進行分析。通過OD分析挖掘危化品運輸?shù)臅r空分布規(guī)律,可以更加精準(zhǔn)地支撐危化品道路運輸行業(yè)規(guī)劃、運力審批及調(diào)度、危化品道路運輸管理政策的調(diào)整及優(yōu)化等,以助力交通安全運行。
起止點地址匹配是危化品運輸OD分析的關(guān)鍵技術(shù)。受電子運單數(shù)據(jù)業(yè)務(wù)流程不規(guī)范、數(shù)據(jù)錄入標(biāo)準(zhǔn)不統(tǒng)一、運輸行業(yè)從業(yè)人員文化水平等因素的影響,目前危化品電子運單中的地址信息大多數(shù)為非標(biāo)中文地址。以寧波市危化品電子運單數(shù)據(jù)為例,有超過50%的地址甚至不包含地理要素信息,此外還有大量地址數(shù)據(jù)中存在空值、拼寫錯誤、數(shù)據(jù)過時等現(xiàn)象,大大增加了地址識別及匹配的難度。
目前中文地址匹配任務(wù)的主要算法是基于分詞的地址匹配方法,其本質(zhì)是將中文文本進行適當(dāng)切分,再分單詞進行匹配,包括直接分詞法、統(tǒng)計分詞法及自然語言處理分詞法。直接分詞法依據(jù)現(xiàn)有的語料字典對地址進行切分,應(yīng)用于地址成功匹配的前提是完善的字典庫,但是僅靠直接字符匹配及字典庫無法輸出標(biāo)準(zhǔn)的地址,也不能處理歧義切分[1]。基于統(tǒng)計方法的分詞則是基于歷史地址的數(shù)據(jù),計算字符或詞組的詞頻,根據(jù)概率推測可能的詞組[2],在缺乏知識庫支撐的情況下,匹配結(jié)果的可靠性低。基于傳統(tǒng)機器學(xué)習(xí)的地址匹配方法實際上也主要依賴于統(tǒng)計分詞方法,但是采用了如隱馬爾可夫模型、最大熵模型、條件隨機場等序列標(biāo)注模型進行分詞,其中以條件隨機場應(yīng)用最為廣泛,著名的中文分詞算法框架jieba的核心算法就是基于條件隨機場[3]。自然語言處理是深度學(xué)習(xí)的主要應(yīng)用之一,其優(yōu)點是能在非人工干預(yù)的環(huán)境中自主學(xué)習(xí)中文文本的語義規(guī)則,除了能實現(xiàn)智能分詞,還可以通過學(xué)習(xí)實現(xiàn)接近于地址匹配任務(wù)的序列標(biāo)注功能[4,5],但是在應(yīng)用于地址匹配這種多標(biāo)簽且標(biāo)簽之間有樹型關(guān)系的地址分類任務(wù)時,需要對大量的標(biāo)記數(shù)據(jù)進行訓(xùn)練,準(zhǔn)確率也難以保證。此外,僅僅依靠分詞無法處理大量不包括地理要素的復(fù)雜不規(guī)則地址[6]。
現(xiàn)有地址匹配方法強調(diào)匹配,不重搜索。實際上復(fù)雜地址匹配在一定程度上依賴于包括詞典、行政區(qū)域知識等知識庫的存在。知識圖譜是一種網(wǎng)狀數(shù)據(jù)庫,與地址結(jié)構(gòu)有著天然的相似性,基于選擇注意力機制的知識圖譜中文地址匹配方法取得了較高的準(zhǔn)確率[7],但是該方法知識圖譜是固定的,且對危化品運輸?shù)刂分休^大量的異常地址無法處理。
本文針對危化品運輸?shù)刂方Y(jié)構(gòu)復(fù)雜但是變化較小的特點,提出了一種基于全文索引知識圖譜的中文地址匹配方法,用于提高危運地址匹配的準(zhǔn)確率和精度,以適應(yīng)危化品道路運輸OD分析對地址精度提出的要求。該方法提出了從簡單的標(biāo)準(zhǔn)地址數(shù)據(jù)開始不斷擴展知識圖譜的技術(shù)框架,開發(fā)了漢字拼音加權(quán)全文搜索得分評價機制、在線地理解析地址匹配結(jié)果相互校驗機制以及針對少量疑難地址的半監(jiān)督糾錯機制等多種技術(shù)來提高危化品道路運輸?shù)刂菲ヅ涞木取嶒灲Y(jié)果表明,本文方法能夠在少量人工干預(yù)的基礎(chǔ)上實現(xiàn)較高準(zhǔn)確率及較高精度的地址匹配,可以滿足危險化學(xué)品道路運輸OD分析對地址識別和匹配的要求。
1 問題描述
危化品電子運單數(shù)據(jù)中保存的地址形式多樣,主要分類如表1所示。
在表1中,第0~3類及第10類地址屬于較易匹配地址,通過基礎(chǔ)的知識圖譜就能夠精確識別。 第4~9類及第11~13類地址通常需要有額外的字段或者背景知識作為補充才能識別,背景知識包括專家知識、互聯(lián)網(wǎng)地圖服務(wù)商提供的地理解析數(shù)據(jù)以及已通過其他方式解析的正確數(shù)據(jù)擴展后的知識圖譜,其中第13類地址必須借助其他字段的數(shù)據(jù)才能完成識別,以上屬于較難匹配地址。危化品運輸?shù)刂菲ヅ淙蝿?wù)可以描述為
[province,city,district,subdistrict]=f(input_address) ""(1)
其中: province、city、district、subdistrict分別表示輸出的省、市、區(qū)、子區(qū)(街道)。為了描述特定研究區(qū)域(一般是市級)危化品道路運輸?shù)臅r空分布特征,研究區(qū)域以外的地址至少需要輸出province、city,研究區(qū)域以內(nèi)的地址至少需要輸出province、city、district, 重點研究區(qū)域的地址則要求輸出province、city、district、subdistrict 。
2 基于全文搜索自擴展知識圖譜的地址匹配
2.1 半監(jiān)督分詞方法
無論是建立中文全文索引還是對源地址進行預(yù)處理,都需要可信的中文分詞方法。本文結(jié)合詞典分詞及基于統(tǒng)計的分詞方法的優(yōu)點,一方面利用統(tǒng)計分詞模型避免大量的訓(xùn)練及龐大的字典構(gòu)建需求,另一方面根據(jù)正確識別的數(shù)據(jù)及閾值判斷機制滾動擴展詞典。基本詞典由全國鄉(xiāng)鎮(zhèn)及以上地名的簡要名稱數(shù)據(jù)、行政區(qū)域及企業(yè)后綴詞、寧波市石化企業(yè)信息數(shù)據(jù)表構(gòu)成,詞典的結(jié)構(gòu)如下:
{v i=(w,f,t)} ""(2)
其中: i∈"Euclid Math TwoNAp
;v i 表示第 i 個單詞; w、f、t 分別表示地址短名、詞頻、詞性。建立基本詞典時,詞頻默認(rèn)設(shè)置為10,后續(xù)成功的分詞結(jié)果及匹配會由程序自動增加。基本詞典僅考慮設(shè)置三類詞性,即 ns (地名)、 hm (企業(yè),主要為化工廠)、 su (后綴詞,如省、市、區(qū)、自治區(qū)、有限公司等地名后綴詞)。
分詞前先構(gòu)建前綴詞典,即Trie字典樹,這是哈希查找樹的一種,可以實現(xiàn)快速的字典查找。根據(jù)Trie樹對輸入地址進行詞典查找操作,得到其有向無環(huán)圖(directed acyclic graph,DAG)。DAG以字典的形式存儲,結(jié)構(gòu)如下:
{P i:[n a+n b,…,n x]} ""(3)
其中: i,a,b,…,x∈"Euclid Math TwoNAp
;P i 表示輸入地址中第 i 個字的索引; n a 表示以 P i 為前綴的第 a 種詞頻大于0的劃分詞的末尾位置。這樣DAG就記錄了輸入地址的所有可能切分,下一步就是根據(jù)動態(tài)規(guī)劃查找最大概率的路徑。每一個詞出現(xiàn)的概率等于該詞在前綴詞里的詞頻除以所有詞頻之和,如果詞頻為0或者不存在,就設(shè)為1。每種分詞的概率計算方法如下:
p j=p j,a×p j,b×…×p j,x ""(4)
其中: j,a,b,…,x∈"Euclid Math TwoNAp
;p j 表示第 j 種切分或者第 j 條路徑的概率; p j,a 表示第 j 條路徑中第 a 個詞的詞頻。為方便計算,對式(4)取對數(shù),得到
log "p j =log "p j,a+ log "p j,b+…+ log "p j,x ""(5)
在危化品電子運單地址文本中,語義的重點在前,使用動態(tài)規(guī)劃法從前往后計算所有路徑的概率,選擇其中概率最大的路徑,即得到適用于當(dāng)前詞典的較優(yōu)分詞結(jié)果。由于基礎(chǔ)詞典已經(jīng)擁有了較為完善的數(shù)據(jù),上述過程已經(jīng)能對大多數(shù)的輸入得到正確的分詞結(jié)果了。為了彌補基礎(chǔ)詞典的不足,本文設(shè)定最低概率閾值 P min ,對于任一輸入地址的切分結(jié)果,如果有
max(log "p j)lt;P min ""(6)
則記錄該輸入地址,對該詞進行人工分詞,并將有效的結(jié)果加入詞典,插入待分地址的末端。若檢測到無效地址,則標(biāo)記該地址為無效。根據(jù)對1 000組詞匯最大log "p j 的計算,按照2%的半監(jiān)督介入率, P min 設(shè)置為80。
2.2 全文搜索匹配得分機制
全文搜索匹配得分機制基于TF-IDF(term frequency-inverse document frequency)技術(shù)構(gòu)建,以計算全文搜索結(jié)果的匹配相關(guān)度,評分函數(shù)的計算方法如下:
s(q,d)=N(q)· coord (q,d)·∑ t "in "q "(tf( t "in "d )·idf( t )·norm (t,d)) ""(7)
其中: q、d 為查詢的文本及匹配的文檔; N(q) 是預(yù)設(shè)的標(biāo)準(zhǔn)化查詢語句,通常對于一個特定的查詢應(yīng)用沒有影響;coord( q,d) 表示文檔中得到查詢響應(yīng)的個數(shù),越多的查詢項出現(xiàn)在一個文檔中,則表明查詢與文檔的匹配程度越高,主要應(yīng)用于多條件查詢環(huán)境中。在地址查詢中,可以通過查詢成功的結(jié)果來建立完善分詞詞典,將單項查詢轉(zhuǎn)換為多項查詢以提高 q 的匹配準(zhǔn)確率。
tf( t "in "d) 表示詞頻(term frequency,TF),來源于 q 中單詞 t 在 d 中出現(xiàn)的次數(shù)越多,詞頻就越高,表明相關(guān)度越高。由于地址中會有大量的單位詞,比如省、市、鎮(zhèn)、路、有限公司、石化園區(qū)、集團等標(biāo)志,若文檔中存在大量的地址后綴會使得部分長后綴地址的匹配相關(guān)度異常的高,從而得到錯誤匹配。在危化品運輸中,后綴詞規(guī)模十分有限,可以建立后綴詞字典,通過分詞來剔除固定后綴詞,將去除后綴的短文存儲到知識圖譜特定的字段中,并建立單獨的索引,從而提高匹配的精確度。
idf表示逆向文檔頻率(inverse document frequency),其計算方法如下:
idf( t i )=log "|D| |{j:t i∈d j}| """(8)
其中: |D| 是文檔個數(shù); |{j:t i∈d j}| 表示單詞 t i 在文檔 d j 中的總個數(shù)。某個單詞在單個文檔中出現(xiàn)的次數(shù)越少或者出現(xiàn)的文檔越多,匹配的相關(guān)度越高,可以一定程度地排除各種虛詞的影響。此外,該元素表明,某個地址出現(xiàn)在更多的實體中就會獲得較高的匹配率,因此后文在構(gòu)建知識圖譜的過程中會不斷使用匹配成功的地址來擴展知識圖譜,使得部分偶然匹配到錯誤地址的概率隨著匹配過程的進行而減小。
norm( t,d) 表示字段長度歸一化值,與分詞的結(jié)果相關(guān),一般可以簡化為詞數(shù)目平方根的倒數(shù),意味著全文搜索優(yōu)先匹配長字段,因此后文構(gòu)建知識圖譜的過程中會建立長地址字段,以提高地址搜索及匹配的成功率。
2.3 知識圖譜
知識圖譜是結(jié)構(gòu)化的語義知識庫,可以很好地描述物理世界中的概念及相互關(guān)系。在地址匹配任務(wù)中,知識圖譜的實體主要包括五種類型,即省(province,包括直轄市)、市(city,包括城市、地區(qū)、旗、盟、州等)、區(qū)縣(district,包括區(qū)、縣市級及省轄縣級行政單位)、子區(qū)(subdistrict, 包括街道、鄉(xiāng)鎮(zhèn)、社區(qū)、自定義片區(qū)等)、化工企業(yè)(factory)以及在更新知識圖譜中新建的其他類型實體(other)。
根據(jù)2.2節(jié)關(guān)于全文搜索匹配得分機制的研究,為提高地址匹配的準(zhǔn)確率,按照如表2所示的字段構(gòu)建知識圖譜。
為了能對危化品運單地址中存在較多的地址拼寫錯誤進行正確解析,本文通過建立字段對應(yīng)的帶聲調(diào)拼音字段來獲取可信的搜索結(jié)果。為了使得全文搜索能夠獲得更精確的地址匹配,知識圖譜在構(gòu)建的時候需要充分考慮到全文搜索匹配得分計算函數(shù)對全文索引結(jié)果的影響,本文設(shè)計了詳細(xì)地址字段location。詳細(xì)地址字段由當(dāng)前行政級別之前的所有地名組成,比如寧波市的location字段為“浙江省寧波市”,而鎮(zhèn)海區(qū)的location字段為“浙江省寧波市鎮(zhèn)海區(qū)”,以及簡略地址字段(short_location),即省略了地名后綴的字段。location字段及short_location字段能夠使得地址全文搜索時更好地避免匹配到錯誤的重名地址。
知識圖譜實體間的關(guān)系包括從屬belong,其表達(dá)方式為
a-[rel:belong]-gt;b ""(9)
其中: a、b 表示實體; rel 是表示關(guān)系的標(biāo)志詞; belong 表示該關(guān)系是從屬關(guān)系;箭頭表示關(guān)系的方向。在危運地址分析中,還涉及城市之間的導(dǎo)航距離關(guān)系:
a-[rel:distance]-b ""(10)
其中: a,b∈(city),(city) 表示所有類型為city的實體組合。距離關(guān)系不需要定義方向,其值為使用高德地圖導(dǎo)航API所計算得到的城市中心坐標(biāo)點之間的導(dǎo)航距離。
基礎(chǔ)知識圖譜建立完成后,本文為知識圖譜所有實體中的中文字段及對應(yīng)的拼音字段分別構(gòu)建基于2.2節(jié)描述的全文搜索匹配得分機制為核心的中文、拼音全文索引,其中中文索引使用2.1節(jié)描述的半監(jiān)督分詞方法,拼音索引使用簡單的空格(unicode-whitespace)分詞方法。
2.4 全文搜索應(yīng)用于地址匹配
危化品電子運單單條地址數(shù)據(jù)中一般存在兩個中文數(shù)據(jù)項,分別是實際地址與企業(yè)地址。其中實際地址是較為可靠的信息,企業(yè)地址的可靠性則有限,只有在實際地址無法得到匹配結(jié)果時,才使用企業(yè)地址來進行地址搜索。
全文搜索結(jié)果的匹配得分?jǐn)?shù)值計算方式如下:
score=w aS a+(1-w a)S c ""(11)
其中: S a、S c 分別是實際地址、企業(yè)地址的全文搜索匹配得分; w a 為權(quán)重,本文主要以實際地址的匹配結(jié)果為準(zhǔn),因此設(shè)置該值為0.8。 S a、S c 的計算方式如下:
S=S hanzi×w hanzi+S pinyin×(1-w hanzi) ""(12)
其中: S hanzi、S pinyin 分別為通過中文及拼音全文搜索得到的匹配得分; w hanzi 為中文全文搜索得分所占的權(quán)重,設(shè)為0.8。全文搜索若返回結(jié)果為空,則其得分設(shè)為0。
受限于危險貨物的高速管制及停車限制等多重安全因素,危險貨物的長途運輸占比較小。以寧波市為例,超過92.5%的道路危險貨物運輸距離不超過300 km,而且超過78%的貨物運輸發(fā)生在浙江省內(nèi),在存在大量同名地名的情況下,距離研究區(qū)域較近的地點相比于距離較遠(yuǎn)的地點擁有更大的概率接近真實地址,因此,在計算匹配度數(shù)值時,加入距離調(diào)整系數(shù),其計算方式如下:
S after=S before·θ ""(13)
其中: S after 、 S before 分別為調(diào)整前后的全文搜索匹配得分; θ 為距離調(diào)整系數(shù)。 θ 計算方式如下:
θ =1-e 0.25(D/100-20) ""(14)
其中: D 為匹配結(jié)果城市距離研究區(qū)域城市(本文為寧波市)之間的導(dǎo)航距離,單位為km。距離調(diào)整系數(shù)的函數(shù)如圖1所示。
從圖1中可以看出,在 d 值小于500 km時,調(diào)整系數(shù)接近于1,對匹配得分幾乎沒有影響,隨后呈指數(shù)衰減,若匹配到大于2 000 km的運輸目的地,其真實的得分值會趨近于0。加入距離調(diào)整系數(shù)之后,對遠(yuǎn)距離同名區(qū)縣的匹配容錯率提高。
一次查詢得到的匹配結(jié)果可能多達(dá)上千條,為了減小冗余計算量,本文僅在每個查詢結(jié)果中保留得分排名前10%的結(jié)果。為了進一步減小匹配到同名區(qū)縣或者近似名區(qū)縣以及降低錯誤分詞結(jié)果的影響,本文對匹配結(jié)果按城市進行聚類,得到如下字典形式的輸出。
{C i:{l i,1:s i,1,l i,2:s i,2,…,l i,n:s i,n}} ""(15)
其中: C i 表示第 i 個城市; l i,n 表示隸屬于 C i 的第 n 個全文搜索匹配結(jié)果地址; s i,n 表示 l i,n 對應(yīng)的全文搜索匹配得分。設(shè)
=aver (s i,1,s i,2,…,s i,n) ""(16)
s max =max (s i,1,s i,2,…,s i,n) ""(17)
設(shè) m 表示 (s i,1,s i,2,…,s i,n) 中大于 ""的個數(shù),則城市 C i 的匹配分值計算方式如下:
S(C i)=s max·2m/n ""(18)
從以上公式可知,匹配到結(jié)果個數(shù)越多,且分值越大, S(C i) 越大,對于部分偶然的錯誤匹配的容錯率越高。最終的匹配結(jié)果為 S(C i) 最大的城市匹配結(jié)果中最大 s i,n 對應(yīng)的地址 l i,n 。
如果 s i,n≤3, 則認(rèn)定匹配無效,跳過該條地址,將該地址加入到百度或高德地圖地理解析接口中,只有兩大服務(wù)商輸出的結(jié)果相一致才會確認(rèn)搜索結(jié)果,否則加入到待監(jiān)督分類地址中。若 s i,ngt;3 ,則輸入匹配結(jié)果,更新分詞詞典的詞頻并將結(jié)果推送到知識圖譜中形成新的實體。
綜上所述,本文用到的技術(shù)總結(jié)如圖2所示。中文地址分詞技術(shù)不僅應(yīng)用在知識圖譜的構(gòu)建和擴展更新中,更是中文地址全文搜索匹配的必要技術(shù)。中文地址全文搜索技術(shù)應(yīng)用于知識圖譜中,既可以對輸入地址進行精確識別,又能對知識圖譜進行自動擴展。完整的地址搜索匹配的具體流程如圖3所示。
3 模擬計算與結(jié)果分析
實驗硬件CPU為Intel CoreTM i5-6500 CPU @ 3.20 GHz(3 192 MHz),內(nèi)存12 GB(2 400 MHz);Python版本為3.9,NumPy版本為1.18.3,操作系統(tǒng)為Windows 10,知識圖譜基于neo4j-community-4.3.1構(gòu)建,基礎(chǔ)知識圖譜擁有44 815個省、市、區(qū)及子區(qū)實體。本文選取了寧波市危化品運輸電子運單2018年6月至2019年10月的數(shù)據(jù),合計1 467 469條數(shù)據(jù),每條數(shù)據(jù)包括起運地址及目的地地址,超過292萬條數(shù)據(jù)。去除掉重復(fù)及全空數(shù)據(jù),得到117 150條數(shù)據(jù),去除空白地址及重復(fù)地址,剩余25 885條地址。本文使用具有有效行政區(qū)域代碼的地址數(shù)據(jù)經(jīng)由知識圖譜匹配后的結(jié)果對基礎(chǔ)知識圖譜進行擴展,擴展了一共25 626個其他類型實體。
在25 885條地址中隨機選取1 000條地址,使用全文搜索進行處理。在宏觀準(zhǔn)確率方面,實驗采用了基于Jaccard相似度的地址匹配方法、基于動態(tài)規(guī)劃的地址匹配方法、基于Sorensen Dice的全文檢索地址匹配方法、基于bert4kera預(yù)訓(xùn)練的地址匹配方法以及基于擴展知識圖譜的中文地址匹配方法,值得注意的是,本文的測試地址數(shù)據(jù)數(shù)目要遠(yuǎn)大于同類算法。
如表3所示,一般地址匹配算法在地址匹配中的準(zhǔn)確率不到70%,應(yīng)用知識圖譜的方法5也只是稍微高于70%,難以應(yīng)對危化品運輸OD分析對地址匹配的精度要求。在對危化品道路運輸?shù)刂窋?shù)據(jù)庫中隨機選取的1 000條地址匹配測試中,本文方法有94.6%的結(jié)果能得到正確的區(qū)縣級以上匹配結(jié)果,在危化品道路運輸?shù)刂菲ヅ渲芯哂懈邷?zhǔn)確率的特點。表4是人工選取的120條非標(biāo)較難分類地址進行處理并與百度及高德地理解析算法相比較的結(jié)果。
基礎(chǔ)知識圖譜的地址匹配結(jié)果與高德、百度等地理解析的結(jié)果準(zhǔn)確率相當(dāng),其中較難分類地址的匹配準(zhǔn)確率要高于兩者。擴展知識圖譜的地址匹配準(zhǔn)確率則大幅度提升,比基礎(chǔ)知識圖譜、高德、百度的結(jié)果高了約26%。除此之外,擴展知識圖譜在各類地址中的優(yōu)勢也很明顯,尤其在對包括無明確屬性的第11類地址以及拼寫錯誤的第12類地址等較難分類地址的匹配上,其準(zhǔn)確率是其他方法的近2倍。由于引入了拼音全文搜索,對于因拼音輸入法普遍應(yīng)用而產(chǎn)生的大多數(shù)錯誤地址都能夠正確識別。從表4還可以看出,基于知識圖譜的地址匹配在得到精確到區(qū)縣結(jié)果的數(shù)目方面有著明顯的優(yōu)勢,其準(zhǔn)確率是其他方法的2倍以上,可以為危化品運輸?shù)腛D分析提供更為可靠和詳實的數(shù)據(jù)支撐。表5提供了表4中的一些較難分類的經(jīng)典測試數(shù)據(jù),結(jié)果中僅標(biāo)注匹配到的最小行政區(qū)。從表5中可以看出,本文算法在應(yīng)對較難分類的危化品道路運輸?shù)刂飞舷啾扔诘乩斫馕鏊阉饕嬗兄^大的優(yōu)勢,結(jié)果大多能精確到區(qū)縣乃至鄉(xiāng)鎮(zhèn)一級。未識別的較難分類地址可以通過半監(jiān)督的方式不斷更新到擴展知識圖譜中。數(shù)據(jù)測試顯示,知識圖譜平均每更新一條數(shù)據(jù),綜合模式下危化品運輸?shù)刂菲ヅ錅?zhǔn)確率可以提高約0.03‰。
4 結(jié)束語
針對危險化學(xué)品道路運輸?shù)刂返奶卣鳎疚奶岢隽艘环N基于全文索引知識圖譜的危化品運輸?shù)刂菲ヅ浞椒ǎm用于危化品運輸OD分析應(yīng)用。在可擴展的中文分詞算法的基礎(chǔ)上,本文提出的知識圖譜能在匹配過程中不斷擴展,結(jié)合獨特中文全文搜索及拼音全文搜索得分評價機制,本文方法不僅能夠識別絕大多數(shù)危險化學(xué)品道路運輸?shù)刂窋?shù)據(jù)(94.6%),在較難分類地址中也有67.5%的準(zhǔn)確率,且能夠識別匹配多數(shù)由于拼音輸入法造成的拼寫錯誤的同音或近音地址。實驗結(jié)果表明,該算法在處理各類地址,尤其是較難分類地址方面有著較高的準(zhǔn)確率及匹配精度。
目前該算法的執(zhí)行效率尚有待提升,雖然大多數(shù)地址都是重復(fù)的,但是對新地址的平均識別時間超過5 s, 雖然能夠處理大多數(shù)離線地址匹配應(yīng)用,但是不適用于大規(guī)模或者分布式的在線地址匹配。在后續(xù)的研究工作中將致力于引入包括深度學(xué)習(xí)等在內(nèi)的自然語言處理新技術(shù),以進一步提高匹配進度和速度。
參考文獻:
[1] ""王佳楠,梁永全.中文分詞研究綜述[J].軟件導(dǎo)刊,2021, 20 (4):247-252. (Wang Jianan,Liang Yongquan.A summary of Chinese word segmentation research[J]. Software Guide ,2021, 20 (4):247-252.)
[2] Xue Nianwen.Chinese word segmentation as character tagging[J].I nternational Journal of Computational Linguistics amp; Chinese Language Processing ,2003, 8 (1):29-48.
[3] "莫建文,鄭陽,首照宇,等.改進的基于詞典的中文分詞方法[J].計算機工程與設(shè)計,2013, 34 (5):1802-1807. (Mo Jianwen,Zheng Yang,Shou Zhaoyu, et al. Improved Chinese word segmentation method based on dictionary[J]. "Computer Engineering and Design ,2013, 34 (5):1802-1807.)
[4] "Sutskever I,Vinyals O,Le Q V.Sequence to sequence learning with neural networks[C]//Proc of the 27th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2014:3104-3112.
[5] 任智慧,徐浩煜,封松林,等.基于LSTM網(wǎng)絡(luò)的序列標(biāo)注中文分詞法[J].計算機應(yīng)用研究,2017, 34 (5):1321-1324,1341. (Ren Zhihui,Xu Haoyu,F(xiàn)eng Songlin, et al. "Sequence labeling Chinese word segmentation method based on LSTM networks[J] . Application Research of Computers ,2017, 34 (5):1321-1324,1341.)
[6] 孫士琦,湯鯤.基于BERT的中文地址分詞方法[J].電子設(shè)計工程,2021, 29 (9):155-159. (Sun Shiqi,Tang Kun.Chinese address segment method based on BERT[J]. Electronic Design Enginee-ring ,2021, 29 (9):155-159.)
[7] "陳雨暉,皮洲,姜滕圣,等.基于知識圖譜的中文地址匹配方法研究[J/OL].計算機工程與應(yīng)用,2021.[2021-04-20].http://kns.cnki.net/kcms/detail/11.2127.tp.20210419.1437.065.html. (Chen Yuhui,Pi Zhou,Jiang Tengsheng, et al. Research on Chinese address matching based on knowledge graph[J/OL]. Computer Engineering and Applications ,2021.[2021-04-20].http://kns.cnki.net/kcms/detail/11.2127.tp.20210419.1437.065.html.)
[8] 陳俊月,郝文寧,張紫萱,等.基于改進句子相似度算法的釋義識別研究[J].計算機工程,2020, 46 (9):76-82. (Chen Junyue,Hao Wenning,Zhang Zixuan, et al. "Research on interpretation recognition based on improved sentence similarity algorithm[J]. Computer Engineering ,2020, 46 (9):76-82.)
[9] 陳細(xì)謙,遲忠先,昃宗亮,等.地理編碼在空間數(shù)據(jù)倉庫ETL中的應(yīng)用[J].小型微型計算機系統(tǒng),2005, 26 (4):628-630. (Chen Xiqian,Chi Zhongxian,Ze Zongliang, et al. "Application of geocoding in spatial data warehouse ETL[J]. Small and Microcomputer System ,2005, 26 (4):628-630.)
[10] 盧盛祺,何施晶,韓景倜.基于Apache Lucene的地址匹配技術(shù)研究[J].微型機與應(yīng)用,2015, 34 (18):73-75,79. (Lu Shengqi,He Shijing,Han Jingti.Research on address matching technology based on Apache Lucene[J]. Microcomputer and Applications ,2015, 34 (18):73-75,79.)
[11] 李舟軍,范宇,吳賢杰.面向自然語言處理的預(yù)訓(xùn)練技術(shù)研究綜述[J].計算機科學(xué),2020, 47 (3):162-173. (Li Zhoujun,F(xiàn)an Yu,Wu Xianjie.A review of pre-training techniques for natural language processing[J]. Computer Science ,2020, 47 (3):162-173.)