999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

兼顧語義的地圖注記智能換行方法研究

2021-12-03 07:28:12
地理空間信息 2021年11期
關(guān)鍵詞:語義方法

張 偉

(1.福建省基礎(chǔ)地理信息中心,福建 福州 350003)

地圖是一種圖形化的“語言”,記載了人類文明的變遷。隨著互聯(lián)網(wǎng)、計算機(jī)、移動設(shè)備技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)地圖也迅速被人們熟悉和應(yīng)用。相較于傳統(tǒng)紙質(zhì)地圖,互聯(lián)網(wǎng)地圖具有更新快、通俗易懂、功能豐富等優(yōu)勢,服務(wù)方式由直接提供數(shù)據(jù)轉(zhuǎn)變?yōu)樘峁?shù)據(jù)服務(wù)。地圖標(biāo)注則是地圖的“點(diǎn)睛之筆”,在紙質(zhì)地圖時代,地圖的更新周期相對較長,地圖的應(yīng)用面相對較窄,地圖上標(biāo)注的重要性也尤為重要,且有嚴(yán)格的專業(yè)標(biāo)準(zhǔn);而互聯(lián)網(wǎng)地圖的應(yīng)用面較廣,面對的不僅是專業(yè)技術(shù)人員,還有很多普通大眾,且依托不同平臺的互聯(lián)網(wǎng)地圖還可通過搜索的方式提供其他附加信息,因此互聯(lián)網(wǎng)地圖標(biāo)注的重要性相對傳統(tǒng)紙質(zhì)地圖有所下降,但也形成了一套行業(yè)標(biāo)準(zhǔn),如導(dǎo)航電子地圖、天地圖等。與傳統(tǒng)地圖不同,互聯(lián)網(wǎng)地圖上的標(biāo)注具有更新快、涉及類別多、標(biāo)準(zhǔn)不統(tǒng)一等特點(diǎn),因此電子地圖注記的選取、表達(dá)與更新是制作互聯(lián)網(wǎng)地圖時需要考慮的一個 難點(diǎn)。

互聯(lián)網(wǎng)地圖信息豐富、應(yīng)用面廣,后臺大量精確的地名興趣點(diǎn)數(shù)據(jù)為其提供了支撐,但地圖圖面的信息承載量有限,需要在圖面上進(jìn)行合理標(biāo)注,以保持地圖的美觀、詳略得當(dāng)。通常采用自動標(biāo)注的方式,通過自動控制標(biāo)注位置和標(biāo)注長度來實(shí)現(xiàn),目前主流的地理信息軟件均可實(shí)現(xiàn)該功能;但略顯不足的是,標(biāo)注注記換行時一般只考慮字節(jié)長度而不考慮語義是否完整,使得換行后的可讀性受到影響。若按照語義進(jìn)行換行處理,則需在相應(yīng)的位置添加一個換行標(biāo)識符。在實(shí)際生產(chǎn)過程中,人工判斷語義添加換行標(biāo)識符的方式工作量巨大,不能滿足當(dāng)前快速更新的要求,因此本文提出了一種兼顧語義的地圖標(biāo)注智能換行方法。

1 常規(guī)互聯(lián)網(wǎng)地圖標(biāo)注制作方法

目前主流的地理信息軟件基本上都可以制作互聯(lián)網(wǎng)地圖。總體來說,互聯(lián)網(wǎng)地圖制作一般可分為編制不同比例尺的地圖集和服務(wù)發(fā)布兩個步驟。地圖標(biāo)注在編制地圖階段開展,主要是通過地名、興趣點(diǎn)、道路、水系等地理信息數(shù)據(jù)的名稱屬性進(jìn)行自動或手動標(biāo)注。地圖標(biāo)注中數(shù)量較多的是地名和興趣點(diǎn)注記,除了用于查詢定位外,還可根據(jù)不同的互聯(lián)網(wǎng)地圖應(yīng)用抽取不同類別和數(shù)量的注記進(jìn)行地圖圖面標(biāo)注。結(jié)合實(shí)際情況可知,地名注記一般長度較短,可不考慮換行標(biāo)注問題,只需考慮興趣點(diǎn)的換行標(biāo)注問題。

編制互聯(lián)網(wǎng)地圖時,通常采用自動標(biāo)注功能,可在指定位置進(jìn)行標(biāo)注,自動進(jìn)行注記避讓,大大提升了地圖的表達(dá)效果,減少了人工工作量,如在ArcGIS中可利用Maplex注記處理引擎實(shí)現(xiàn)注記的各種優(yōu)化顯示,其中就包括注記的換行處理[1]。為了在有限的地圖圖面上表達(dá)美觀而準(zhǔn)確的注記,一般需對長注記進(jìn)行換行處理。注記換行方法包括兩種:①直接按照注記長度自動截斷,進(jìn)行換行標(biāo)注;②通過人工添加換行標(biāo)識符進(jìn)行換行標(biāo)注[2]。這兩種方法各有優(yōu)劣,前者可批量自動化實(shí)現(xiàn),無需人工干預(yù),但未考慮標(biāo)注的語義,影響了注記閱讀的舒適性;后者需人工添加換行標(biāo)識符,可按照語義進(jìn)行換行標(biāo)注,但人工工作量大,顯然不能滿足當(dāng)前地圖信息更新速度的需求。本文主要對第二 種方法進(jìn)行改進(jìn),通過自動中文分詞并選取最佳換行位置添加換行標(biāo)識符的方式,實(shí)現(xiàn)自動語義換行標(biāo)注。

2 基于分詞的地圖注記智能換行標(biāo)注

本方法主要采用語義分詞和最佳位置自動選取兩個關(guān)鍵技術(shù)。常用的互聯(lián)網(wǎng)地圖標(biāo)注以中文為主,因此需采用中文分詞技術(shù)。中文分詞是中文自然語言處理的基礎(chǔ)。中文分詞模型算法主要經(jīng)歷了基于匹配的詞典分詞、基于標(biāo)注的機(jī)器學(xué)習(xí)算法和基于理解的深度學(xué)習(xí)算法3個階段,其中基于匹配的詞典分詞也稱為機(jī)械分詞;基于標(biāo)注的機(jī)器學(xué)習(xí)算法和基于理解的深度學(xué)習(xí)算法統(tǒng)稱為統(tǒng)計分詞方法。目前研究的熱點(diǎn)和難點(diǎn)還包括單一準(zhǔn)則下的多模型集成算法和多準(zhǔn)則分詞[3]。jieba分詞是一種適合中文分詞的方法,其原理是基于統(tǒng)計詞典,先構(gòu)造一個前綴詞典,再利用前綴詞典對輸入句子進(jìn)行切分,得到所有的切分可能[4]。利用Python可以很簡單方便地調(diào)用jieba工具包。通過多次試驗認(rèn)為,采用jieba分詞可以滿足當(dāng)前應(yīng)用的需要。分詞后興趣點(diǎn)最佳換行位置的選取主要利用FME進(jìn)行開發(fā)。FME是加拿大Safe Software公司開發(fā)的 一套空間與非空間數(shù)據(jù)分析、處理、轉(zhuǎn)換、共享的方案定制軟件,支持超過325種格式的空間數(shù)據(jù)與非空間數(shù)據(jù)的處理和轉(zhuǎn)換,能在轉(zhuǎn)換過程中對數(shù)據(jù)的圖形和屬性做靈活處理,為進(jìn)行快速、高質(zhì)量、多需求的數(shù)據(jù)轉(zhuǎn)換應(yīng)用提供了高效、可靠的手段[5]??傮w技術(shù)流程如圖1所示。

圖1 總體技術(shù)流程圖

2.1 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)格式轉(zhuǎn)換和數(shù)據(jù)篩選。通常將興趣點(diǎn)數(shù)據(jù)源轉(zhuǎn)換為文本格式,便于處理。興趣點(diǎn)一般為矢量的點(diǎn)格式,屬性信息較多,但需要處理的只是興趣點(diǎn)的名稱字段,因此可將興趣點(diǎn)轉(zhuǎn)換為文本格式(如csv格式),只保留名稱和唯一的掛接字段,便于將處理后的結(jié)果掛接回去,從而提高程序處理效率。綜合考慮地圖圖面信息承載量和相關(guān)互聯(lián)網(wǎng)地圖生產(chǎn)規(guī)定,通常名稱大于6個中文字符的興趣點(diǎn)才需進(jìn)行換行處理。

2.2 中文分詞處理

中文分詞是通過某種方法或方法的組合,將輸入的中文文本基于某種需求并按照特定的規(guī)范劃分為“詞”的過程[6],因此中文分詞處理是最關(guān)鍵的一步。興趣點(diǎn)數(shù)據(jù)是比較單一的自然語言,詞義簡單、詞語較少、不存在復(fù)雜句法,詞性單一、停用詞(如啊、的、且等)較少,這對中文分詞的準(zhǔn)確性是比較有利的。從實(shí)用性和可操作性考慮,本文采用jieba分詞算法進(jìn)行處理。jieba分詞算法基于前綴詞典實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能生成詞情況構(gòu)成的有向無環(huán)圖(DAG),再采用動態(tài)規(guī)劃查找最大概率路徑,得到基于詞頻的最大切分組合;對于未登錄詞,采用基于漢字成詞能力的HMM模型和Viterbi算法[7]。Jieba分詞算法支持精確模式、全模式和搜索引擎模式3種分詞模式,其中精確模式適用于文本分析;全模式可將句子中所有可以成詞的詞語都掃描出來,但存在歧義;搜索引擎模式是在精確模式的基礎(chǔ)上再次切分長詞,適用于搜索引擎分詞。根據(jù)地圖上興趣點(diǎn)注記的特點(diǎn),通過多次試驗發(fā)現(xiàn),地圖標(biāo)注采用精確模式較合適,jieba分詞算法中默認(rèn)模式即為精確模式。在Python中調(diào)用jieba.cut方法進(jìn)行分詞,并將分詞結(jié)果存儲在表格的另一列中。

2.3 最佳位置選取

通過中文分詞將興趣點(diǎn)分為多個詞組,詞組與詞組之間采用“/”進(jìn)行分割。分詞解決了語義分割的問題,對于地圖配圖還需知道在哪個位置進(jìn)行換行,因此需要選擇換行的最佳位置,即從一系列的“/”中選擇一個最佳位置。注記換行的最佳位置一般是標(biāo)注的正中間,越靠近中間位置,注記換行顯示效果就越好,如果太靠近頭尾位置則認(rèn)為未找到最佳位置。在FME程序設(shè)計時,先利用StringLengthCalculator函數(shù)計算POI的總長度,利用StringSearcher函數(shù)查找“/”符號,并獲取其位置信息;再利用Tester函數(shù)將獲取的位置信息與中間位置逐個進(jìn)行比較,選取最接近中間的位置作為最佳位置;然后利用StringReplacer函數(shù)將“/”替換成“,”,便于在制圖軟件中進(jìn)行換行識別;最后將其他的“/”清除掉。

對于未找到最佳位置的興趣點(diǎn)名稱,需要進(jìn)行人工處理,通??筛鶕?jù)興趣點(diǎn)的重要程度選擇不標(biāo)注或人工添加換行標(biāo)識符,這種情況數(shù)量不多,一般不到總量的5%。自動生成的換行標(biāo)識符還需進(jìn)行人工核查,可根據(jù)興趣點(diǎn)的重要程度對重要興趣點(diǎn)進(jìn)行重點(diǎn)核查,其他非重要興趣點(diǎn)進(jìn)行概查或抽查,以減少工作量。分詞前、后以及自動選取最佳位置的效果如圖2 所示。上述過程均在FME中實(shí)現(xiàn),通過Python調(diào)用jieba分詞算法進(jìn)行分詞,查找最佳換行位置并替換符號。為了結(jié)果能直接使用,可利用唯一碼掛接字段與興趣點(diǎn)數(shù)據(jù)進(jìn)行掛接,輸出分詞后的結(jié)果,程序界面如圖3、4所示。

圖2 分詞前、后以及選取最佳位置樣例

圖3 利用FME進(jìn)行分詞的程序界面

圖4 利用FME選取最佳位置的程序界面

2.4 地圖編輯設(shè)置

利用掛接后的處理結(jié)果即可在地理信息制圖軟件制作電子地圖時實(shí)現(xiàn)換行顯示的效果。以ArcGIS為例,采用Maplex標(biāo)注引擎,在標(biāo)注的自適應(yīng)策略中的堆疊標(biāo)注選項中設(shè)置堆疊分隔符為“,”,即可實(shí)現(xiàn)換行標(biāo)注。未采用語義自動換行的注記顯示效果如圖5所示,采用語義自動換行的注記顯示效果如圖6所示,可以看出,采用語義換行可提升地圖注記的可讀性,也兼顧了注記的美觀性,避免了上下兩行注記數(shù)量差異太大。

圖5 未采用語義自動換行的注記顯示效果

圖6 采用語義自動換行的注記顯示效果

3 應(yīng)用效果

“天地圖·福建”是國家天地圖的省級節(jié)點(diǎn),電子地圖的制作是其中的一項主要工作,近年來通過國家、省、市、縣節(jié)點(diǎn)的數(shù)據(jù)融合,積累了大量的地名和興趣點(diǎn)數(shù)據(jù)。本文方法主要應(yīng)用于“天地圖·福建”電子地圖制作的注記制作中。目前全省地名興趣點(diǎn)總量達(dá)到100萬條以上,其中需進(jìn)行換行標(biāo)注處理的約有 30多萬條,由于手工語義換行標(biāo)注的工作量太大,只能將機(jī)關(guān)單位、學(xué)校、醫(yī)院等公益性機(jī)構(gòu)(約6萬多條)等部分主要興趣點(diǎn)進(jìn)行手工語義換行處理,需要投入約30人天,其他的只能進(jìn)行按照長度換行處理;而采用本文方法可對所有興趣點(diǎn)進(jìn)行自動語義換行處理,再加上后期的核查和手工處理工作,投入的全部工作量約為7人天,在處理效率和實(shí)現(xiàn)效果上均得到了很大提升。

4 結(jié) 語

隨著互聯(lián)網(wǎng)地圖廣泛深入的應(yīng)用,地圖數(shù)據(jù)的采集更新能力不斷增強(qiáng),采用傳統(tǒng)的地圖生產(chǎn)方式已不能滿足當(dāng)前互聯(lián)網(wǎng)地圖快速更新的需求,本文主要針對地圖中長注記提出了一種兼顧語義的地圖標(biāo)注智能換行方法,保證了換行位置的合理性,增強(qiáng)了圖面注記的可讀性。該方法可對大批量的興趣點(diǎn)進(jìn)行自動化快速處理,提升了互聯(lián)網(wǎng)地圖生產(chǎn)和更新的效率。在“天地圖·福建”的電子地圖中,利用該方法大大提升了地圖注記的生產(chǎn)效率和圖面注記的可讀性,縮短了互聯(lián)網(wǎng)地圖的更新周期。后續(xù)還需對英文、中英文混合的興趣點(diǎn)名稱的分詞效果進(jìn)行改進(jìn),對最佳位置的選擇算法進(jìn)行提升,最大限度地減少人工工作量。隨著研究的深入,將中文分詞與深度學(xué)習(xí)相結(jié)合,還可實(shí)現(xiàn)興趣點(diǎn)的自動采集、自動智能分類、敏感信息自動脫敏處理以及興趣點(diǎn)自動更新等一系列自動化處理,從而大大提升互聯(lián)網(wǎng)地圖的生產(chǎn)效率,使互聯(lián)網(wǎng)地圖更好地服務(wù)于政府和社會大眾,在新時期的測繪工作中做好“兩服務(wù)、兩支撐”。

猜你喜歡
語義方法
語言與語義
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認(rèn)知范疇模糊與語義模糊
語義分析與漢俄副名組合
主站蜘蛛池模板: 久久无码高潮喷水| 色屁屁一区二区三区视频国产| 无码啪啪精品天堂浪潮av| 久久久无码人妻精品无码| 精品人妻无码中字系列| 毛片视频网址| 国产亚洲精品资源在线26u| 最新加勒比隔壁人妻| 一本无码在线观看| 精品少妇人妻无码久久| 五月婷婷精品| 重口调教一区二区视频| yjizz视频最新网站在线| 天天视频在线91频| 久久青草热| 午夜精品久久久久久久99热下载 | www.91中文字幕| 婷婷亚洲视频| 免费国产黄线在线观看| 久久久精品无码一二三区| 国内熟女少妇一线天| 国产精品三区四区| 国产欧美亚洲精品第3页在线| 久久中文电影| 玖玖免费视频在线观看| 九九热精品视频在线| 成人一区在线| 日日碰狠狠添天天爽| 亚洲日本在线免费观看| 国产成人啪视频一区二区三区| 成人国产一区二区三区| 黄色不卡视频| 国产人妖视频一区在线观看| 日本一区中文字幕最新在线| 免费在线成人网| 97国产在线播放| h视频在线观看网站| 久久影院一区二区h| 亚洲黄色网站视频| 99精品免费欧美成人小视频| 国产精品无码作爱| 久久久久无码精品国产免费| 日韩a级片视频| 最新日韩AV网址在线观看| 99久久精彩视频| 国产微拍一区| 无码中文字幕精品推荐| 国产亚洲欧美在线视频| 毛片免费高清免费| 免费一级无码在线网站| 依依成人精品无v国产| 国产精品美女免费视频大全| 国产成人精品在线| 久久无码av三级| 99re在线免费视频| 欧美.成人.综合在线| 国产又色又刺激高潮免费看| 亚洲精品无码专区在线观看| 99热这里只有精品在线观看| 久夜色精品国产噜噜| 亚洲精品制服丝袜二区| 久久久久国产精品熟女影院| 女人毛片a级大学毛片免费| 一区二区影院| 亚洲a级毛片| 日本欧美午夜| 亚洲AⅤ波多系列中文字幕| 色吊丝av中文字幕| 国产成人精品高清不卡在线| 欧美区国产区| 国产在线一区视频| 精品国产福利在线| 欧美人与动牲交a欧美精品| 先锋资源久久| 亚洲精品黄| av在线无码浏览| 日本精品影院| 国产女人18毛片水真多1| 中文字幕免费在线视频| 亚洲视频免费在线看| a级毛片视频免费观看| 国产成人精品在线|