999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分詞技術的地址標準化治理方法與實現

2023-08-31 06:42:34楊海杰
大眾標準化 2023年15期
關鍵詞:標準化標準

葛 燕,楊海杰

(1.廣州市工業和信息化產業發展中心,廣東 廣州 510030;2.廣州市數字政府運營中心,廣東 廣州 510630)

1 引言

1.1 地址數據的現狀

地名地址數據作為最常用的社會公共信息資源之一,不僅與人們的日常生活息息相關,而且是政府行政管理、經濟建設、國內外信息交往不可或缺的基礎信息資源。目前城市地址信息主要分散在公安、規劃、住建、網格管理等多個部門,民政部門負責道路街巷命名,公安部門負責門樓號牌管理,規劃部門負責建筑物、小區審批,網格管理部門負責實有人口、房屋信息采集。由于不同部門之間的地址信息資源相對獨立,遵循各自的行業標準,地址格式和命名規范缺乏統一的規范和標準,難以進行關聯整合。此外,政府各職能部門信息系統在采集地址時大多采用手工錄入,地址的規范性和準確性得不到保證,給城市管理和社會治理帶來諸多困難和不便。

1.2 地址數據應該標準化

標準地址不僅是表達清晰、規范、準確的地點,而且歸屬于特定的行政區、街鎮、社區、網格,甚至歸屬于具體的責任人,根據業務地址找到與之對應的標準地址就能把對應數據、問題劃歸到特定的行政區、街鎮,甚至是負責人員,方便有關政府部門采取即時查證、處置、評估、預防等干預措施,進而讓城市網格化管理落到實處,讓城市生活變得更便捷、更美好。

2 標準地址庫建設

2.1 標準地址庫建設內容

標準地址是某個地址的唯一標識,包括地址編碼和標準的地址文本描述。標準地址與其他標準數據一樣,一般是由某個權威部門發布的、形式規范的、滿足規則和管理要求的數據,不同之處在于標準地址還標記了所屬的行政區劃、街鎮、社區、網格、經緯度,甚至還有標準建筑物,而這部分數據既是地址標準化的價值,也是地址標準化之目的所在。

通過整合公安、民政、規劃、住建等現有地址標準,基于網格化服務和管理工作,建立貫穿市、區(縣)、街道(鄉鎮)、社區(村)、工作網格、基礎網格、建筑物、房屋(戶室)等多層結構的空間地理與地址體系,形成統一的地址標準。

2.2 標準地址的層級結構

標準地址雖然也是一個字符串,但是非常規整,具有良好的層級結構,如下圖1所示。標準地址存儲應采用多表存儲、關聯表達完整的標準地址。

圖1 城市地址數據標準表述

3 地址標準化治理

3.1 摘要匹配原理

業務地址是人們在工作中、生活中使用的地址,是業務系統地址數據的統稱,也泛指所有的非標準地址。

首先,業務地址和身份證號碼、電話號碼等數據一樣,如通過公眾口述錄入或公眾直接填寫登記,則容易導致出現全角數字、全角符號、空格、回車、換行、特殊字符的情況,有時也有某側、左右、路口、入口、出口、附近、與、和、多少米等模糊的定位詞。因此,在地址數據治理時應該先對數據進行清洗,如檢查、修復,替換為半角字符,剔除特殊字符,去除模糊詞。

其次,經過初步治理的業務地址也不能簡單的和標準地址進行連接匹配。在實際業務中統計發現,兩個地址一模一樣的概率相對較低,甚至可能低于20%。這個概率遠遠不滿足治理目標和分析應用的需要。

業務地址和標準地址匹配治理的本質是語義相同或相近,也可解釋為是字符串的相似。但是對于語義相同或相近的判斷往往是非常困難的,即使是字符串相似也需要耗時巨大的運算,因此通過一條業務地址和全部標準地址進行相似性比較是行不通的。

業務地址雖然不能直接和標準地址進行運算,但可以抽取標準地址、業務地址的摘要信息,同時對摘要信息進行匹配,匹配成功后將業務地址和對應的標準地址進行字符串相似性或語義比較,取兩者相同或最相似的,這就是地址摘要匹配的原理。如下圖2所示,這樣不僅能夠找到目標地址,而且可以大幅降低地址匹配運算的數據規模,滿足了政務應用的需要。

圖2 摘要匹配原理示意

3.2 分詞生成摘要

摘要是地址的濃縮,也是地址的子串。不論標準地址還是業務地址都可以生成多個摘要,生成摘要的過程首先就是分詞,摘要是分詞的目的,分詞是摘要生成的手段。

分詞不是新概念,在自然語言處理(NLP)技術中,分詞是一項基礎能力。不論英文、中文文本都有多種分詞算法、框架、產品,借助詞庫的和不借助詞庫的,分詞實現的選擇空間很大,分詞效果也對地址匹配結果有很大、很直接的影響。

因此,摘要生成越多,越容易實現業務地址與標準地址的連接,從而保證地址標準化治理的匹配度指標。摘要生成后也應進行質量評估,拋棄過短、分異性差的摘要。

3.3 摘要編目查找

幾百萬條標準地址在業務地址匹配前全部完成分詞,便于以高速查找方式進行存儲,需要構造倒排索引結構、全部數據駐留內存、支持散列查找、鏈接雷同摘要的多地址。其中,摘要和標準地址是多對多關系,即一個摘要可以指向多個不同的標準地址,少則幾十個,多則幾十萬個。且一個地址也可以產生很多摘要,通常是幾十個。

文章實現的高效倒排索引結構、散列表、鏈接關系如下圖3所示,Value存儲體存放標準地址數據,其中也按需存放行政區、街鎮、網格、經緯度,一個標準地址一條記錄,Idx、Hash存儲體沒有冗余,因此整體內存占用不大,長駐內存,支持多線程并發的只讀訪問。

圖3 摘要倒排索引散列表結構

存儲結構必須用散列表,因為其平均查找長度是小于2的常數,與查找的數據規模無關,而且數據規模越大優勢越明顯。標準地址幾百萬條,衍生的摘要有幾千萬條,一條業務地址查找幾十次,用非散列查找性能無法保證。散列表構造資料很多,java的hashmap、Redis實現均可參考。

3.4 相似性比較

摘要技術能夠使一個業務地址和多個標準地址連接起來,但如果還要找出最接近的那個,需要利用語義或字符串相似算法進行判定。

與前述的分詞類似,字符串相似算法也很多,文章主要采用BM25。BM是Best Match的縮寫,25指的是第25次算法迭代,該算法也是Elastic Search采用的一種用來評價搜索詞和文檔之間的相似度算法。它是一種基于概率檢索模型提出的算法,借鑒了詞頻、逆向文檔頻率和向量空間模型。詞頻即分詞單元在文檔中出現的頻率,由于每個文本的長度不同,一個單詞在長文檔中出現的次數可能比短文檔中出現的次數要多得多,相當于一個詞出現的次數越多,它的得分就越高。通過對地址通用詞語“街道、路、巷,樓、幢、棟、小區”的加權處理,可突出多層級地址要素的重要性,有效提高重點關鍵詞在地址匹配的權重,大大提高準確度。

4 地址標準化治理服務構建

4.1 地址標準化治理服務器

業務系統本身缺少地址標準化治理能力,如果能將地址標準化治理能力封裝為一個服務器,可以簡單集成到各種業務系統中,使得業務系統可以方便地調用地址標準化治理功能,從而將地址標準化治理研究成果應用推廣,實現廣泛、快速治理地址數據,并享受標準地址標記準確的行政區劃、街鎮、社區、網格、經緯度、標準建筑物等信息帶來的好處,讓業務系統變得更加智能化、人性化。

地址標準化治理服務器提供常用功能包括:單條業務地址標準化匹配治理、批量業務地址標準化匹配治理、業務地址關聯地址查詢、POI(Place Of Information 興趣點)匹配標準地址、經緯度匹配標準地址、地址查經緯度、多邊形查標準地址等功能。

地址標準化治理服務可以以服務或SDK的方式使用,服務可以是HTTP、socket、命名管道等形式,SDK則支持c、c++、java、python等開發語言。

4.2 并發匹配

地址標準化治理服務器除穩定、可靠外,還要有較好的性能,才能保證可用性。摘要技術能夠使一個業務地址和多個標準地址連接起來,一個摘要可能導致一個業務地址和幾千、幾萬個標準地址連接,連接還要通過耗時的相似性計算求出唯一目標地址,而且摘要生成目標非常多,造成一條業務地址的匹配治理產生很大計算量,批量業務地址標準化匹配治理的開銷更大。

文章實踐中采用pthread的多線程、無鎖緩沖區等技術,充分利用了硬件資源,實現批量業務地址的并發計算,較好解決了性能和實用性問題。

4.3 地址標準化治理效果

在地址標準化治理精度、匹配度指標充分保證和地址標準化服務器功能完備的前提下,業務系統可以在短時間內完成地址標準化治理能力構建。比如某市城中村專項數據治理項目,僅用兩周時間就完成了全部業務地址治理。特定重點人群的業務地址與標準地址匹配率為33.58%,使用本文地址治理方式,匹配率提升到80.90%,增長47%。水電氣用戶地址與標準地址匹配率從原來的25.48%提升到71.43%,增長46%。

應用城中村專項數據治理項目的經驗,某市人口庫的地址標準化治理能力得到極大提升,實有人口地址數據治理標準化率達到95%以上,形成人口基礎底數“一本明白賬”,有效支撐了城市實有人口的精細化管理。

5 結束語

基于分詞技術的地址標準化治理方法是一種很實用的數據治理方法,該方法思路巧妙且易于實現,充分利用計算機并行計算能力,有效降低計算任務的時間開銷,使業務系統在獲得地址數據時,即時進行地址標準化治理成為可能。

地址標準化治理是智慧城市運營管理的空間塊數據基礎技術,有著廣闊的應用前景,諸如AI、語義相關摘要生成方法、方向值得深入研究,歡迎感興趣的同仁、朋友共同參與、探討,推動基礎數據治理技術的快速發展和廣泛應用。

猜你喜歡
標準化標準
2022 年3 月實施的工程建設標準
標準化簡述
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
企業標準化管理信息系統
你可能還在被不靠譜的對比度標準忽悠
標準化是綜合交通運輸的保障——解讀《交通運輸標準化體系》
中國公路(2017年9期)2017-07-25 13:26:38
一家之言:新標準將解決快遞業“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
2015年9月新到標準清單
以標準化引領科技創新
主站蜘蛛池模板: 污网站免费在线观看| 在线日韩一区二区| 日本三级欧美三级| 国产97视频在线| 欧美一级特黄aaaaaa在线看片| 91视频国产高清| 久夜色精品国产噜噜| 91麻豆精品国产91久久久久| 91在线一9|永久视频在线| 香蕉伊思人视频| 黄色福利在线| 国产h视频在线观看视频| 女人18毛片一级毛片在线 | 中文字幕无线码一区| 久久77777| 在线观看欧美精品二区| 在线观看国产小视频| 国产精品福利一区二区久久| 色香蕉网站| 午夜爽爽视频| 亚洲男人的天堂久久香蕉| 国产va免费精品| 国产一二三区视频| A级毛片无码久久精品免费| 欧美中日韩在线| Jizz国产色系免费| 国产成人综合亚洲网址| 在线毛片网站| 99视频在线免费观看| 亚洲国产亚洲综合在线尤物| 特黄日韩免费一区二区三区| 一本色道久久88| 国产综合欧美| 黄片一区二区三区| 亚洲成AV人手机在线观看网站| 亚洲91在线精品| 高清不卡一区二区三区香蕉| 国产在线观看一区二区三区| 亚洲第一色视频| 亚洲二三区| 老色鬼欧美精品| 免费观看国产小粉嫩喷水| 久久久久久国产精品mv| 精品黑人一区二区三区| 亚洲a级毛片| 国产精品久久久精品三级| 亚洲欧美成aⅴ人在线观看| 搞黄网站免费观看| 久久香蕉国产线看观看亚洲片| 亚洲AⅤ无码国产精品| 六月婷婷综合| 国产精品30p| 国产高清又黄又嫩的免费视频网站| 免费高清a毛片| 67194亚洲无码| 日韩色图在线观看| 亚洲成年人片| 韩国v欧美v亚洲v日本v| 99在线视频网站| 一级毛片在线播放免费观看| 免费AV在线播放观看18禁强制| 国产精品女同一区三区五区| 久久夜色精品| 丁香六月激情综合| 扒开粉嫩的小缝隙喷白浆视频| 国产精品一线天| 中文字幕伦视频| 日韩毛片视频| 欧美在线一二区| 精品人妻一区二区三区蜜桃AⅤ| 亚洲成人福利网站| 无码人妻热线精品视频| 91久久国产热精品免费| 日韩精品一区二区三区免费在线观看| 亚洲自偷自拍另类小说| 久久精品只有这里有| 国产成人一区免费观看| 99精品视频播放| 亚洲国产综合精品一区| 色妞www精品视频一级下载| 网友自拍视频精品区| 99福利视频导航|