梁 宇,左 棟
(1. 自然資源部地圖技術審查中心,北京 100036; 2. 中國地質大學(北京)信息工程學院,北京 100083)
地圖具有科學價值、社會價值、法理價值和軍事價值,是人類工作、學習和生活不可缺少的科學語言和工具[1]。地理信息是地圖的重要組成部分,具有區域性、多維性和動態性等獨特的特性[2]。隨著人工智能、計算機視覺、智能計算等技術的快速發展,測繪行業逐步向智能化時代過渡,涌現出深度學習等新的方法,測繪地理信息數據逐漸在汽車導航與自動駕駛、實景三維建設等領域中得到廣泛的應用[3-7]。
測繪地理信息數據是國家基礎性的、戰略性的資源,是總體國家安全觀的重要組成部分。為了保護國家主權和地理信息安全,防止在公開地圖中出現不利于我國政治主張的內容,我國對地圖和地理信息實行審查和監管制度。錯誤表示國家領土范圍和地理信息的地圖稱為問題地圖,如錯繪我國國界、地理信息內容的表示不符合國家有關規定等。如在地圖中錯誤表示上述內容將嚴重威脅國家主權和地理信息安全。在智能化測繪時代,應當在保護地圖和地理信息安全的前提下,促進行業的健康快速發展[8-10]。“問題地圖”檢測的目的即保護地圖和地理信息安全,其主要應用領域是地圖的技術審查和事后監管階段,也可應用于制圖單位送審之前的質量檢驗。由于地圖和地理信息行業的快速發展,地圖在數量、表現形式、應用范圍等方面均有大幅提升,直接導致了“問題地圖”檢測的數量增加、時間成本提升等痛點問題,且開始出現慎用地圖、棄用高精地圖等現象和趨勢,對行業的發展帶來不利影響。因此,保護地圖和地理信息安全與促進測繪地理信息行業發展已成為矛盾問題。
地圖正處于大變革和人工智能的新時代,為地圖和地理信息等自然資源要素智能解譯提供了新的方法和研究方向。通過自動發現和提取地理規律,實現“問題地圖”的智能檢測,可為提升地圖和地理信息管理水平提供新的思路,能夠解決保護地圖和地理信息安全與促進測繪地理信息行業發展的矛盾[11-14]。本文首先回顧了“問題地圖”檢測的發展現狀,著重從地圖的識別和檢測兩個基本流程對智能化測繪時代的“問題地圖”檢測方法和存在的問題進行了論述;然后結合當前“問題地圖”智能檢測研究面臨的痛點問題,論述“問題地圖”智能檢測的關鍵技術;最后結合地圖技術審查知識庫建設,指出“問題地圖”智能檢測的發展方向。
1.1.1 傳統檢測方法
根據地圖學的基本理論,“問題地圖”檢測的主要對象為3大類、11小類的地圖基本構成元素[15]。傳統檢測地圖和地理信息的方法完全依靠人工,需要審圖員熟讀與“問題地圖”相關的各項規定及標準地圖,形成“問題地圖”檢測的具體規則,構成先驗知識。檢測階段分為兩個步驟,首先通過人眼獲取視覺圖像,而后在大腦中對地圖元素進行分類,判斷地圖的表示區域,識別出境界線、水系、各類型注記等感興趣的內容,構建相關元素的空間位置關系和邏輯關系;然后根據識別的地圖元素,從空間位置、數量、類型等方面判斷地圖元素的邏輯關系,與大腦中的先驗知識對比,得出檢測結果,最終完成檢測地圖和地理信息的流程[16-18]。
1.1.2 傳統檢測方法存在的問題
傳統的“問題地圖”檢測方法大量依靠審圖員的專業知識,存在下列問題:①無法保證檢測的時效性,檢測數量的增多將直接影響檢測時間,對智能高精地圖等高時效性,以及智能網聯汽車訓練場景庫等數據量大的檢測對象尤為明顯;②存在一定的主觀性,同樣的地圖內容交由兩名審圖員進行檢驗,由于對相關標準的不同把握尺度和認知能力,可能產生不同的檢測結果;③工作效果易受影響,在檢測數量增多時,該問題尤為明顯;④地圖內容復雜多樣,但檢測過程中感興趣的地圖元素偏少,造成冗余的工作增多。
1.2.1 智能檢測概況
智能化測繪是新時代、新技術不斷發展的產物。智能化測繪時代對“問題地圖”的檢測流程與傳統“問題地圖”檢測一致。智能檢測地圖和地理信息的前提條件是從各類圖像中成功識別并提取出感興趣的地圖和地理信息數據;此外,還需要將傳統檢測方法的各檢測規則適配于計算機語言的形式表達,構成智能檢測的先驗知識。完成上述工作后,再識別地圖和地理信息內容,構建語義模型,根據發現和提取的地理規律進行智能檢測。
1.2.2 地圖的識別
智能檢測首先需要從檢測對象中過濾掉非地圖圖片。關于從柵格類型圖片中識別出特定類型的圖片,目前出現基于深度學習的圖像識別技術,主要使用主動學習和卷積神經網絡、深度置信網絡等方法,識別土地利用類型、遙感影像變化和分類、其他圖片的類型等[19-25],該技術可識別出地圖圖片、遙感影像等類型的圖片,且具有較高的準確率,通過排除大量無關類別的圖片,提高了地圖和地理信息管理水平[26]。
該技術對獲取的圖片類型地理空間大數據進行初步過濾,實現了智能檢測的前提條件。但本質上,上述方法僅縮小了人工檢測地圖和地理信息的范圍,且將圖片整體作為研究對象,從圖片的紋理特征中提取出相關的語義特征,智能檢測的應用范圍受到限制。
1.2.3 地圖元素的識別和提取
“問題地圖”智能檢測的第一步是從地圖中識別并提取感興趣的點、線、面、注記4類地圖元素,根據地圖元素的特征判斷地圖的表現區域,并構建地圖要素模型。
識別并提取地圖要素可通過地圖名稱、地圖注釋獲取地圖的表示區域[27-28]。提取地圖元素,目前主要使用訓練集對卷積神經網絡進行訓練,文獻[29—31]使用地圖圖像識別技術,從柵格地圖中提取了水域等線狀、面狀地圖元素,以及名稱等注記類型元素,驗證了從柵格地圖中識別和提取地圖元素的可行性。
判斷地圖的表現區域主要通過使用注記類元素,利用深度卷積神經網絡等方法實現地名的解譯,幫助自動識別地名所處的空間坐標[32-33],輔助判斷地理信息的位置。
地理信息數據大量存在于實景圖片、遙感影像等柵格類型的圖片,以及由點云、影像等構成的三維地物中。對地理信息的識別主要面向遙感影像圖、街景地圖等柵格類型圖片,通過支持向量機、卷積神經網絡等方法,識別天橋、立交橋、建筑物等人工構建的地理信息[34-38]。使用深度學習在柵格圖片中識別并提取感興趣的地理信息數據應用較廣泛,主要使用卷積神經網絡、對抗神經網絡等方法,用于提取地圖字符和地圖符號[31,39-40]。識別影像方面,文獻[41—44]使用卷積神經網絡,在不同波段分別進行了行人檢測、建筑物的識別與提取、特定地物的識別與檢測等,且具有較高的檢測成功率。識別實景影像構成的三維地圖主要采用目標檢測深度學習模型在圖像中檢測信號燈、路燈、垃圾桶、交通標志牌等多類別城市典型地物要素[45];識別點云構成的三維地物中的地理信息則主要采用通過融合空間上下文信息的分類圖注意力模型、特征屬性篩選、分類模型等方法識別交通標線、桿狀物等地理信息[46-48]。
當前,對地圖元素和地理信息的識別已有成熟的技術,且具有較高的準確率。在地圖檢測的應用領域中,當前的識別和提取方法均針對某一種更具體的地圖元素,如水系、天橋、行人等。由于對地圖元素的分類方法有待改進,未從智能檢測的角度對地圖元素進行分類,因此現有研究無法覆蓋全部的檢測對象,未在“問題地圖”智能檢測的應用中形成完整的體系結構。
上述方法的主要應用領域是識別出正確的地圖和地理信息要素,在此基礎之上,下一步應對識別出的要素,構建地圖要素模型并確定計算模式。在測繪產品質量檢驗測試研究領域,已通過比對檢驗等方法,智能驗證測繪產品相關格式的邏輯正確性,并將空間關系作為質檢關鍵共性技術[49-50],為“問題地圖”智能檢測提供了積極的借鑒作用。
1.2.4 地圖的檢測
實景地圖、遙感影像地圖等圖種在識別限制表達的地圖內容后,即完成地圖的檢測,其他圖種則需要進一步檢測地圖各組成內容的類別、數量、方向等邏輯關系。目前主要通過對特征進行提取和對比,自動發現地圖圖片中的錯誤,確保地圖內容的完整性與準確度[30-31]。文獻[51—52]提出智能檢測“問題地圖”應將先驗知識與算法相結合,從認知規則獲取特征知識,結合空間關系約束規則和計算模型進行智能檢測,并提出了構建專家庫、樣本庫、智能審圖模型與算法、智能審圖協同平臺的智能化審圖技術框架;文獻[53]認為先驗知識由審查內容、地圖要素模型、地圖技術審查標準庫組成,通過識別地圖區域、識別地圖要素和屬性信息、審查地圖要素、分析識別結果4個步驟實現;在二維地圖的檢測中,智能檢測“問題地圖”得到了初步的應用;文獻[54]使用卷積神經網絡的方法,利用“問題地圖”的補集,實現了“問題地圖”智能檢測,且檢測準確率達80%,驗證了智能檢測“問題地圖”的可行性。但是,由于該方法要求檢測對象必須為特定形式,且檢測的錯誤類型相對有限,限制了其應用范圍。由于地圖的表現形式復雜,同類錯誤存在幾十種甚至上百種形式,為擴大智能檢測的適用對象,需要構建統一的地圖元素模型,使用統一的計算模式。
智能化測繪時代對地理信息的檢測主要應用領域是導航互聯網地圖中興趣點的檢測,通過建立黑白名單庫,使用搜索引擎優化、關鍵詞優化、自動分詞、詞法分析等方法實現興趣點的自動篩查[55]。
1.2.5 智能化檢測存在的問題
現階段,“問題地圖”智能檢測取得了初步的研究成果,但是受制于下列痛點問題,當前的“問題地圖”檢測仍然使用傳統的檢測方法:①缺少合適的訓練樣本,當前的訓練樣本主要通過自然資源部標準地圖服務系統(即“問題地圖”的補集)獲得,由于“問題地圖”檢測的規則眾多,訓練樣本的缺乏直接限制了當前的智能檢測規則和檢測區域;②地圖的表現形式多樣,待檢測的地圖在地圖投影、符號選取、制圖綜合、地圖比例尺、基礎地理信息的選取與應用等方面存在巨大的差異,缺少統一的建模標準,亟須用統一的計算機語言表達所有的“問題地圖”錯誤類型;③由于元數據的質量差別巨大,且存在語義異構的現象,導致識別準確率較低,無法滿足高效獲取和利用地圖圖像大數據的實際需求[28,56];④“問題地圖”檢測規則更新較快,需及時對檢測規則進行存量維護和增量更新。上述問題導致了“問題地圖”智能檢測的發展較緩慢。推進智能化檢測應充分借鑒圖片在質量檢測等方面已有的經驗[57],并突出“問題地圖”智能檢測的特點。
實現“問題地圖”智能檢測需要大量的訓練樣本。現有的訓練樣本通過自然資源部標準地圖服務系統和送審圖件等固定渠道獲取,樣本量較少。為補充訓練樣本,應將“問題地圖”智能檢測的技術發展與互聯網“問題地圖”監控相結合,對網站、微博、微信公眾號等媒介采用主動挖掘的方式,在監控“問題地圖”的同時,補充訓練樣本。此外,互聯網中蘊含了豐富的地理信息,使用地理大數據聚類分析、異常探測、關聯關系挖掘及預測建模等方法從互聯網中快速、準確地發現并定位地理信息,且對地理信息進行語義分析,提取出感興趣的地理信息數據,是獲取訓練樣本的重要手段[58]。
2.2.1 構建統一的空間認知模型
對地圖空間認知進行建模,構建數學基礎是地圖視覺認知研究從理論探討走向實踐應用的重要前提,以及地圖空間認知理論發展的關鍵[59-60]。由于地圖在投影、比例尺、基礎地理信息和專題內容的選取等方面有眾多的表現形式,且表達的地理信息十分豐富,亟須在智能檢測“問題地圖”的應用中構建統一的數學基礎和要素模型。其基本思路是從有空間參考的訓練樣本中選取對空間認知有價值的境界線、海岸線、居民點等基礎地理信息要素,建立地圖智能檢測參考圖,通過地圖內容特征匹配,自動判斷待檢測對象的實際位置,并賦予其空間位置信息。
2.2.2 構建統一的地圖要素模型
為有效避免“問題地圖”的產生,當前研究已從地圖圖種入手,對高精度導航電子地圖、動畫效果地圖、學術論文中的插圖等圖種[61-63]進行了詳細論述。此外,從檢測內容入手,對用于正確表示地圖和地理信息的國界線、島嶼、重要地名注記等具體的檢測內容[64-65]進行了具體分析。
上述論述經語義分解,可分為以下3個部分:①區域范圍,指地圖批注描述的區域范圍或專題類型;②地圖要素的屬性,指用于區分地圖要素類別的要素屬性信息;③地圖要素計算模式,指檢測時要素屬性在特定情況下應滿足的條件。按照該方法分解相關論述并匯總,文獻[53]構建了地圖要素模型。基于上述內容,形成了智能識別“問題地圖”的地圖要素模型構建方法和裝置,可用于識別的各地圖要素模型的構建,模型的各組成要素是“問題地圖”智能檢測的對象。
針對地圖表現形式多樣、語義結構復雜的痛點問題,提出將地圖專家積累的經驗作為先驗知識庫進行總結,凝練為有關檢測“問題地圖”的認知規則,可據此將訓練樣本分為正、負兩類,同時明確地圖要素的識別與提取對象及構建的地圖要素模型。各地圖要素之間的邏輯關系作為地圖技術審查知識庫的組成部分,用于地圖要素的智能檢測。本文提出根據地圖要素的類型,結合對常見地圖批注內容的語義分解,將其分解為類型檢測、數量檢測、位置檢測、方向檢測、拓撲關系檢測、歸屬檢測、內容檢測7類智能檢測函數。各檢測函數可用于4類地圖要素類型的智能檢測。綜合考慮地圖要素和檢測函數的類型,共組成13個具體的智能檢測函數,見表1。

表1 “問題地圖”智能檢測函數
其中,自動識別點、線、面、注記等類型“問題地圖”的方法和裝置,共同組成了智能識別“問題地圖”的專利體系。
地圖中感興趣的檢測對象從眾多的地圖元素中抽稀而來,與地圖元素的屬性共同構成先驗知識庫。其中,地圖的檢測對象指待檢測的某條國界、某類重要地理信息等,其表現形式在地圖中具有唯一性,且其屬性不發生變化。因此,計算機視覺主要應用于識別并判斷地圖元素的屬性,包括形狀、元素樣式、元素的相對位置關系等;可使用正確、錯誤的地圖示例,利用深度學習圍繞各屬性的取值范圍、形狀特征等內容進行訓練,確定合理的域值。
為解決“問題地圖”檢測的一系列痛點問題,保障在合規的前提下促進測繪地理信息行業的發展,本文回顧了“問題地圖”檢測的現狀,著重論述了智能檢測“問題地圖”的痛點問題,并根據當前存在的問題,提出并實現了“問題地圖”智能檢測的關鍵技術。
本文有助于智能檢測“問題地圖”的研究進展,結合當前檢測的痛點問題構建了地圖審查模型,有助于推動智能檢測“問題地圖”的研究進展。