柴寶惠
(復旦大學歷史地理研究中心,上海 200433)
近代以來,我國產生了大量利用科學測繪技術繪制的彩色地圖,是了解當時地表覆蓋情況的寶貴資料,數字化則是提取相關信息的重要過程和方法。地圖數字化的本質是圖像數字化,通過計算機圖形和圖像技術,將照片等模擬圖像轉化為數字圖像,并對圖像中的目標加以提取與識別。(1)Maria Petrou, Costas Petrou, Image Processing: the Fundamentals, Hoboken, New Jersey: John Wiley & Sons, 2010.地圖的數字化通常還包括地圖的定位和配準。(2)潘威、滿志敏: 《大河三角洲歷史河網密度格網化重建方法——以上海市青浦區1918—1978年為研究范圍》,《中國歷史地理論叢》2010年第2輯。目前已有很多圖像數字化的方法,現代地圖數字化也有了一定研究。(3)郭玲、王曉蘭、周獻中: 《彩色地圖線狀要素識別系統的設計與實現》,《系統仿真學報》2004年第5期;陳銘灝: 《彩色柵格地圖前景要素提取方法研究》,重慶大學碩士學位論文,2006年。但是近代地圖與現代地圖具有不同特點,例如: 部分近代地圖缺乏測繪信息;圖面質量通常較差,存在不同程度的缺失、磨損、泛黃和褪色情況;地圖符號形態各異,缺乏規范和標準。針對彩色近代地圖的數字化方法,國內仍少有研究。在歷史地理學研究實踐中,采用手動數字化的方式仍是主流,不僅效率較低,而且主觀性較強,其準確性和可比性都難以保證。
上海地區原本河網密布,與其他江南水鄉并無二致。地表水體資源利用于交通、農業、生活用水等方面,同水鄉的生產生活方式緊密聯結在一起。(4)吳俊范: 《從水鄉到都市: 近代上海城市道路系統演變與環境(1843—1949)》,復旦大學博士學位論文,2008年;潘威: 《上海地區地表水系空間結構特征重建及相關問題研究(1827—1978)》,復旦大學博士學位論文,2009年。近代開埠以來,出于填浜筑路等都市基礎建設需要,上海市區地表水體形態不斷經受大規模改造(5)滿志敏: 《上海地區城市、聚落和水網空間結構演變》,上海辭書出版社2013年版;王建革: 《水鄉生態與江南社會: 9—20世紀》,北京大學出版社2013年版。;在郊區,由于農業發展和基本建設需求,水網形態也有顯著改變(6)閆芳芳、滿志敏、潘威: 《從小圩到園田: 近百年來上海地區河網密度變化》,《地球環境學報》2014年第6期。。隨之而來的,是區域生態環境的整體嬗變,乃至與地表水體關系密切的社會經濟活動的深刻轉型。上海地區近代地圖資料豐富,地表水體是其展示的重要地物之一,因此,提取上海近代地圖上地表水體并分析其變化有重要意義,也有很強可行性。已有學者利用近代地圖,通過人工數字化提取水體變化信息,就城市化對水網變遷的影響及水系變化的驅動機制等問題進行研究(7)程江、楊凱、趙軍等: 《上海中心城區河流水系百年變化及影響因素分析》,《地理科學》2007年第1期;潘威、滿志敏: 《大河三角洲歷史河網密度格網化重建方法——以上海市青浦區1918—1978年為研究范圍》,《中國歷史地理論叢》2010年第2輯;Wenwei Ren, Yang Zhong, John Meligrana, et al., Urbanization, land use, and water quality in Shanghai: 1947-1996, Environment International, 2003, Vol.29, No.5, pp.649-659.,然而,運用人工數字化方式提取水體結果多為矢量類型數據,河流大多被抽象為線類型要素,其定位和形態有一定模糊性和主觀性,也不利于數據的展示(8)閆芳芳、滿志敏、潘威: 《從小圩到園田: 近百年來上海地區河網密度變化》,《地球環境學報》2014年第6期。;更重要的是,人工數字化方式工作效率較低,特別是在處理較多地圖時,需要投入大量時間成本。
在彩色近代地圖的自動或半自動數字化研究方面,已有不少研究實現了對地名信息的提取(9)潘威、張光偉、夏翠娟、孫濤: 《古舊地圖的信息化》,《圖書館論壇》2021年第11期;Beatrice Alex, Claire Grover, Richard Tobin, et al., Geoparsing historical and contemporary literary text set in the city of Edinburgh, Language Resources and Evaluation, 2019, Vol.53, No. 4, pp.651-675.,但對于地理要素的提取往往主要利用地圖中的顏色信息,對地圖符號的空間形態信息挖掘得不夠充分。(10)Johannes H. Uhl, Stefan Leyk, Zekun Li, et al., Combining remote-sensing-derived data and historical maps for long-term back-casting of urban extents, Remote Sensing, 2021, Vol.13, No. 18, p.3672;Yao-Yi Chiang, Stefan Leyk, and Craig A. Knoblock, Integrating Color Image Segmentation and User Labeling for Efficient and Robust Graphics Recognition from Historical Maps, The Ninth IAPR International Workshop on Graphics Recognition, 2011, pp.1-4.近幾年來,有研究利用深度學習算法進行彩色近代地圖地理要素的數字化并取得了較好的提取效果(11)Sidi Wu, Magnus Heitzler, Lorenz Hurni, Leveraging uncertainty estimation and spatial pyramid pooling for extracting hydrological features from scanned historical topographic maps, GIScience & Remote Sensing, 2022, pp.1-15; Johannes H. Uhl, Stefan Leyk, Yao-Yi Chiang, et al., Automated extraction of human settlement patterns from historical topographic map series using weakly supervised convolutional neural networks, IEEE Access, 2020, Vol.8, pp.6978-6996.,但深度學習方法模型復雜,可解釋性較弱(12)Maya Krishnan, Against interpretability: a critical examination of the interpretability problem in machine learning, Philosophy & Technology, 2020, Vol.33, No.3, pp.487-502.,往往需要大量的訓練樣本和運行時間(13)Athanasios Voulodimos, Nikolaos Doulamis, Anastasios Doulamis, et al., Deep learning for computer vision: a brief review. Computational Intelligence and Neuroscience, 2018; Yanming Guo, Yu Liu, Ard Oerlemans, et al., Deep learning for visual understanding: a review, Neurocomputing, 2016, Vol.187, pp.27-48.,對計算機算力也要求較高,需要更高的硬件支持(14)Neil C. Thompson, Kristjan Greenewald, Keeheon Lee, et al., The computational limits of deep learning, ArXiv, 2020, 2007.05558.,在現階段歷史地理研究中的實用性和可推廣性仍然較為有限。
有鑒于此,本文提出一種基于機器學習和圖像形態學的彩色近代地圖數字化方法,該方法可充分挖掘地圖中的顏色信息和地圖符號的形態結構信息,能夠以半自動的方式快速準確地將彩色近代地圖中的地表水體信息提取出來,以“華東·上海”地圖為例說明具體實現方式,并驗證其有效性。該方法可為彩色近代地圖中具有顏色特征的地理要素的數字化提取提供借鑒,有望為精準復原近代以來地表覆蓋變遷、深入理解城市化進程中的人地關系變化提供數據和方法基礎。
《華東·上海》(EasternChina,Shanghai)地圖(下文簡稱“上海圖”),為柵格圖像格式(圖1)。(15)Ordnance Survey, Great Britain, Eastern China, Shanghai, 1927, Library of Congrass[2021-06-24], https://www.loc.gov/item/2012594283/, Geographical Section, General Staff, War Office, Great Britain, Eastern China 1∶50 000, Shanghai, 1926, Trove[2022-02-16], http://nla.gov.au/nla.obj-1647473952.該圖于1927年由英國地形測量局南安普敦辦公室(Ordnance Survey Office Southampton)繪制、制版并印刷。英國人從19世紀初開始在中國從事測繪活動,從19世紀前10年末起,英國一些主要的測繪機構,包括軍事測量局(Directorate of Military Survey)、印度測量局(Survey of India)、殖民測量局(Directorate of Colonial Surveys),對中國的大片地區進行了測繪,其中,印度測量局最早派出大批勘探和測繪考察隊前往中國西部和西南地區,軍事測量局也在中國其他地區進行了長達50余年的測繪活動,特別是在與英國空軍部和地形測量局的合作之下,為華東地區繪制了一系列不同比例尺的地圖,“上海圖”就是其中之一。(16)Jack F. Williams, China in Maps 1890-1960: a Selective and Annotated Cartobibliography, East Asia Series Occasional Paper No. 4, Michigan: Asian Studies Center, Michigan State University, 1974.
“上海圖”比例尺為1∶50 000,原圖裝裱于亞麻布上,為藍色與黑色雙色套印,尺寸為70厘米×60厘米,分成上下兩個部分以便折疊。圖上文字為英文,四個頂角標有經緯度,西北頂點坐標為(31°26′32.99″N, 121°18′55.24″E),東南頂點坐標為(31°7′14.76″N, 121°37′19.40″E),采用多圓錐投影(17)Geographical Section, General Staff, War Office, Great Britain, Eastern China 1∶50 000, Shanghai, 1926, Trove[2022-02-16], http://nla.gov.au/nla.obj-1647473952.,圖面繪有寬度為1千米的軍用坐標方格網(military grid)。地圖標題右下方標有“僅供官方使用”,指出其不是商業用途的地圖。左下角繪有居民點邊界、省界、區界、鐵路、電車軌道、主路、其他道路、堡壘、電報線路等要素的圖例;右下角繪有礦藏、塔、教堂、歷史遺跡、寺廟、石灰窯或磚窯、墓地、濕地、時令河、林地、沙地和水利工程等要素的圖例,未繪制時令河之外的地表水體的圖例。

圖1 《華東·上海》地圖(1927年,英國地形測量局繪制)
英國在近代繪制的中國地區地圖被普遍認為質量較高。(18)Jack F. Williams, China in Maps 1890-1960: a Selective and Annotated Cartobibliography, East Asia Series Occasional Paper No. 4, Michigan: Asian Studies Center, Michigan State University, 1974.“上海圖”的數字圖像清晰,比例尺較大,雙色套印,采用現代測繪技術方法,地理信息精細完備,因此以該圖為例,驗證本文所提出的基于機器學習和圖像形態學的彩色近代地圖數字化方法的有效性。
在《華東·上海》中,地表水體是用藍色符號標示的。該圖中的河流主要根據寬度差異采用三類不同的符號——藍色輪廓線包圍藍色橫線或斜線、藍色雙線和藍色單線。長江、黃浦江、蘇州河和蕰藻浜等主要河流采用第一類符號標示(圖2a),次級寬度的河流采用第二類符號(圖2b),較窄的河浜采用第三類(如圖2c和圖2d中河流)。小型湖泊和池塘等封閉水域則用藍色實心或空心封閉圖形符號標示(圖2c,圖2d)。由于地表水體的符號主要由線狀符號組成,絕大多數并非實心色塊,所以地表水體大多并未被藍色符號完全覆蓋,其中存在大量背景色空隙。

圖2 《華東·上海》地圖(1927)中幾種地表水體標示符號示例
同時,圖中藍色部分并不全是地表水體,部分文字注記也用藍色標示,包括河流名(如圖3中實線橢圓所示)和方里網序號(如圖3中虛線橢圓所示)。此外,地表水體符號存在不完整的情形,方里網格以及部分黑色文字注記、房屋和橋梁等黑色地圖符號將完整的地表水體符號遮蓋或分隔開來(如圖3中①—③所示位置),特別是由于地圖似用套版印刷術制作,不同顏色符號之間的微小錯位也會導致部分藍色地表水體符號被壓蓋。因此,這些藍色非水體符號和黑色噪聲對地表水體的自動提取造成了一定程度的干擾。而由于地圖時代久遠,地圖上的藍色色調深淺不一,甚至因泛黃、褪色而在某些部分呈現出偏綠或偏灰的顏色。

圖3 《華東·上海》地圖(1927)中藍色文字注記(實線圈)以及黑色 地圖符號(虛線圈)對地表水體符號的分隔和遮擋示例
彩色地圖通過在顏色和形狀等方面不同的地圖符號表示不同地表覆蓋類型或地理要素,使讀圖者能夠加以區分。然而,近代地圖由于年代長遠,磨損、泛黃、褪色等老化現象使地圖符號的顏色發生改變。此外,近代地圖中,地圖符號缺乏統一規范,形態各異,且有時出于節省油墨等方面考慮,面狀地理要素往往不像現當代地圖能將多邊形內部用顏色填滿,而是僅用線狀或點狀符號填充,未將地物完全覆蓋。
彩色近代地圖出現泛黃、褪色,地圖符號覆蓋不完全或符號間互相遮擋的情況對肉眼識別地物類型及其范圍影響不大。如何能夠使計算機充分學習、挖掘、利用彩色近代地圖符號的顏色和空間結構這兩類信息,排除各類干擾信息,準確快速地將地表水體信息提取出來,完全或部分取代人工數字化工作,大幅度提高數字化的精度和效率,是本文的研究目標。
針對這一目標,本文提出結合機器學習和圖像形態學的彩色近代地圖數字化方法,并以“上海圖”為例說明具體實現方式。其中,機器學習部分利用統計學習的方法,深入挖掘地表水體符號的顏色信息,將地表水體初步識別出來;圖像形態學方法則根據地圖符號的空間結構信息,得到更加準確完整的地表水體范圍。該方法是一種地表水體半自動提取方法,所謂“半自動”是指在應用該算法的過程中,需要少量簡單的人工干預。具體來說,該方法包括四個步驟: (1) 地圖定位與配準; (2) 基于機器學習的地表水體初步提取; (3) 基于圖像形態學的地表水體提取結果優化; (4) 結果比較與精度檢驗。
本研究所用“上海圖”系紙質版地圖掃描而得,為圖像文件。要將“上海圖”與現實世界以及其他地圖和遙感影像等多源數據中的地表覆蓋信息進行對比的前提,是要對其進行定位和配準。
首先,根據圖面上四個角點處標示的經緯度,進行整體初步定位。其次,將“上海圖”與近年云量較少的遙感影像進行對比。本研究使用了Landsat OLI Level-2影像作為參照,因其已經過正射校正和幾何校正,并具有投影信息。在圖面范圍內選擇一定數量未發生變化的標志性地物作為控制點,如房屋角點和道路交叉點等,保證這些控制點在圖面范圍內大致均勻分布,再將“上海圖”與Landsat遙感影像進行配準。最后,在偏差較大的區域增加控制點數量,如此進行反復調整,確保地圖定位精度。本研究采用二次多項式進行配準,共選取17個控制點,配準的均方根誤差(RMS)在0.78個像元以內。配準后,“上海圖”每個像元對應的實際面積約為16平方米。
藍色調是“上海圖”中地表水體符號最主要的共性特征。簡單找出圖中所有呈現藍色的部分雖然對很多現代地圖完全可行,但對近代地圖來說則可能遺漏掉大量原本是藍色卻因年代久遠發生顏色改變的部分。針對彩色近代地圖的這一特征,就需要使計算機能夠充分學習“上海圖”中的顏色信息,準確將地圖中所有地表水體符號的覆蓋范圍提取出來。這也是本文提出的方法與現代彩色地圖數字化方法的一大區別。
本研究采用機器學習的方法,思路是通過向計算機輸入少量地表水體符號顏色特征作為訓練樣本,利用高等數學的理論方法,使計算機能夠在全圖范圍內實現對所有具有類似顏色特征像元的自動識別。在機器學習算法中,本文選擇支持向量機(Support Vector Machine, SVM)算法(19)柴寶惠、李培軍、張瑞潔等: 《基于Landsat數據和DMSP/OLS夜間燈光數據的城市擴展提取: 以天津市為例》,《北京大學學報(自然科學版)》2016年第3期。,該算法利用統計學習的方式,不需要大量訓練樣本即可有效識別目標,而且能夠獲得比最大似然法和決策樹等傳統機器學習方法更高的精度(20)Chengquan Huang, L. S. Davis, J. R. G. Townshend, An assessment of support vector machines for land cover classification, International Journal of Remote Sensing, 2002, Vol.23, No.4, pp.725-749.。
為了更準確地識別藍色部分,減小圖像泛黃、褪色的影響,在支持向量機分類器的輸入特征除了RGB顏色空間的紅、綠、藍三個分量,還加入藍版圖,以增加藍色信息的重要性,利用這四個特征一起進行支持向量機分類。藍版圖是指所有藍色調的像元組成的波段,即每個像元的RGB(紅、綠、藍)三分量中,B分量為最大值的像元。(21)郭玲、王曉蘭、周獻中: 《彩色地圖線狀要素識別系統的設計與實現》,《系統仿真學報》2004年第5期。由于“上海圖”原圖包含藍、白、黑三種顏色,故而利用支持向量機生成包含這三類顏色的分類結果。將藍色類別作為目標類別,進行二值化處理,對藍色類別賦值為1,其余賦值為0,進而得到地表水體初步提取結果,具體流程如圖4所示。
任何利用計算機進行數字圖像分類和目標識別的方法,所得結果均存在錯分和漏分兩類誤差,更何況近代地圖較為復雜,存在部分文字注記錯為藍色、地表水體符號覆蓋不完全、黑色符號遮擋地物等各類干擾,因此,僅根據顏色信息得到的地表水體初步提取結果存在一定誤差。故利用圖像空間結構特征和圖像形態學的方法,輔以人工修正,將地表水體初步提取結果進行優化,減少噪聲干擾,排除非水體信息(降低錯分誤差),增強地表水體的完整性和連通性(降低漏分誤差),進而整體提高地表水體提取精度。具體來說,本節包括非水體信息去除和水體完整性增強兩個部分,如圖5所示。

圖4 基于機器學習的地表水體初步提取流程圖注: 藍版圖、支持向量機分類結果以及地表水體初步提取結果中,藍色部分表示地表水體區域。

圖5 基于圖像形態學的地表水體提取優化流程圖注: 地表水體初步提取結果和優化后的地表水體提取結果中,藍色部分表示地表水體區域,白色部分表示非水體區域。
1. 非水體信息去除
如前文所述,藍色調像元中,除地表水體符號外,還包含藍色文字注記(河流名和方里網序號)。因此,需要將地表水體初步提取結果中的這些非水體信息去除。
二值化后,初步提取結果中僅有地表水體和非水體兩個類別,故而直接在藍色文字注記處,圈出其大致范圍進行標選,標選過程中稍加注意,避免包含真正的地表水體,即可得到方里網序號和河流名的二值圖像。由于很多藍色文字注記并未與地表水體部分交疊在一起,這一過程并不十分費時。將二者從初步提取結果中減去,就可以得到去除非水體信息后的結果。
2. 水體完整性增強
地表水體表示符號中的藍色斜線、藍色雙線和空心圖形導致地表水體初步提取結果不完整,或是輪廓加上內部斜線,或是僅有輪廓。此外,受黑色地圖符號分隔和遮擋影響,部分河流的連通性和完整性存在問題。
因此,利用圖像形態學方法,提取圖像中的形狀特征,改善地表水體的完整性和連通性。圖像形態學的基本原理是利用一種特殊的結構元來測量或提取圖像中相應的形狀或特征,以便后續圖像分析和目標識別。(22)Georges Matheron, Jean Serra, The Birth of Mathematical Morphology, Proc. 6th Intl. Symp. Mathematical Morphology, Sydney, Australia, 2002, pp.1-16.圖像形態學運算以膨脹和腐蝕兩種運算為基礎,在數字圖像處理中可根據需要由這兩種運算組成各種復合運算,典型的復合運算有開運算和閉運算。根據圖像形態學閉運算可填充物體內細小空洞、連接鄰近物體、平滑其邊界的同時并不明顯改變其面積的特性,以水體為前景,對上一步去除非水體信息后的結果進行處理,填充遺漏部分,連接斷裂部分,使水體提取結果更加完整。經試驗,閉運算結構元設為3×3像元、閉運算處理遞歸兩次時,填補間隙的效果最好。
由于長江的表示符號中,斜線之間存在較大空隙(圖2a),在長江邊界被提取出來的情況下,進行圖像形態學閉運算后,邊界內仍存在一定數量的地表水體像元未能被提取出來。但這些像元大多與長江邊界有一定距離,因此,無需再仔細沿著邊界勾勒,只需簡單地圈出一些區域,即可將這些遺漏區域基本囊括在內(即使稍有遺漏亦可在最后一步中過濾去除),加入地表水體類別中即可。
經過上述步驟處理后,提取得到的地表水體中仍然存在少量小型孤立非水體區域(島)。由于“上海圖”覆蓋區域內實際上幾乎不存在這種情況,所以這些區域基本都可以被認定為地表水體提取的遺漏區域。因此,通過直接對非水體區域面積設定閾值,過濾面積低于閾值的部分,進一步增強地表水體的完整性。經試驗,閾值設定為在8鄰域內300個像元(約4 800平方米,不到一個足球場的面積)的大小時,過濾效果最好。
經上述步驟所獲結果的準確性可從兩個方面評估,即與原地圖進行直觀的目視對比,以及定量化的精度檢驗。在目視對比中,重點比較未進行人工標選的區域(圖中長江以外地區)。精度檢驗用統計方法評估地表水體提取結果的準確程度。為了驗證方法的有效性,分別評估機器學習和圖像形態學在地表水體準確提取中的作用,將本文方法所得結果與另外三種相關方法,即藍版圖(下稱方法A)、只利用RGB三分量的支持向量機分類(下稱方法B),以及利用RGB三分量和藍版圖共四個特征的支持向量機分類(即地表水體初步提取,下稱方法C)結果相互對比。其中,對比本文與方法A用于判斷對現代地圖往往可行的數字化方法處理近代地圖的適用性;對比方法A與方法B可驗證機器學習方法在近代地圖數字化中的作用;對比方法B與方法C可驗證充分利用圖中顏色信息對準確提取近代地圖中地表覆蓋信息的意義;對比方法C與本文方法可評估基于圖像形態學的地表水體提取的優化過程所起的作用。如果認為在不考慮時間因素等限制條件的理想情況下,地圖的人工數字化精度為100%,那么通過精度檢驗便可得知本文所提出的半自動方法對比人工數字化方式的準確程度了。
由于檢驗樣本的選取方法和質量直接影響結果精度評價的可靠程度,因此,參考現有研究中廣泛采用的檢驗樣本生成方法(23)Baohui Chai, Peijun Li, Annual urban expansion extraction and spatio-temporal analysis using Landsat Time Series Data: a case study of Tianjin, China, IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2018, 11, 8, pp.2644-2656; Xuecao Li, Peng Gong, Lu Liang, A 30-year (1984-2013) Record of annual urban dynamics of Beijing City derived from Landsat Data, Remote Sensing of Environment, 2015, 166, pp.78-90.,本研究選用等量隨機采樣法,可以有效避免目標類別地物(本文中為地表水體)比例過低,進而導致該類檢驗樣本過少的情況。在“上海圖”呈現的地表水體中,長江和黃浦江面積占比很大,如果在全圖范圍內隨機生成檢驗樣本,則大部分水體檢驗樣本都將落在長江和黃浦江中,而其他區域的地表水體提取效果,特別是空間尺度較小的細節之處,其準確性將難以得到客觀評價。因此,除計算全圖范圍的精度之外,還單獨評價了長江和黃浦江范圍之外的精度。在此區域隨機生成400個檢驗樣本,包括地表水體和非水體類別各200個,以更好地驗證空間尺度較小的地表水體的提取精度。在全圖范圍隨機生成的檢驗樣本數量也是200×2=400個檢驗樣本。將檢驗樣本位置處由各個方法所得的地表水體提取結果一一與“上海圖”原圖像加以對照,確定其正確與否,進而通過計算混淆矩陣,計算總體精度、地表水體的制圖精度和用戶精度。其中,總體精度評價是提取完全正確的概率;地表水體的制圖精度和用戶精度則分別評估地表水體漏分和錯分誤差——制圖精度越高,漏分誤差越低;用戶精度越高,錯分誤差越低。
上述方法中,地圖的定位與配準在ArcGIS 10.8平臺上完成,基于機器學習的地表水體初步提取、基于圖像形態學的地表水體提取優化,以及結果比較與精度檢驗則全部在ENVI 5.3平臺上完成。
上文四種方法結果對比如圖6和圖7所示。可以看到,因為地圖存在泛黃、褪色的情況,且絕大多數地表水體地圖符號未將地表水體完全覆蓋,所以,只利用RGB三分量最大值為B分量,也即“呈現藍色調”這個單一的顏色特征,對現代地圖可能簡單有效,但是對于近代地圖卻并非如此——所得結果中,大量地表水體部分被遺漏掉,如圖6a和圖7a所示。
在利用RGB三分量的支持向量機分類結果中(圖6b,圖7b),地表水體符號被提取得更加完整,一定程度上改善了藍版圖中大量地表水體沒能被提取出來的現象,這說明機器學習方法可以通過更充分挖掘顏色信息,有效彌補因泛黃、褪色等地圖變色情況而導致的地表水體遺漏區域。與此同時,對比圖7的a、b兩圖中虛線框區域可以發現,機器學習方法與藍版圖相比,雖然減少了漏分誤差,但也增加了錯分誤差,出現椒鹽噪聲(salt and pepper noise)。

圖6 利用本文方法與其他方法得到的《華東·上海》地圖全圖地表水體提取結果對比

圖7 利用本文方法與其他方法得到的《華東·上海》地圖局部地表水體提取結果對比注: 方法A、B、C間差異明顯的區域用虛線框突出表示;本文方法較方法C改進明顯之處用實線框突出表示。
對比圖7b、圖7c中虛線框區域的差異可見,增加顏色特征的數量,將藍版圖與RGB三分量通過機器學習方法都利用起來,不僅保持了機器學習方法減少漏分誤差的優勢,也比只利用RGB三分量更能避免錯分誤差,全方位提高地表水體提取的準確性。然而,觀察圖7c中實線所示區域可以發現,機器學習方法即使深入挖掘了顏色信息,也只能修正地圖泛黃、褪色現象對地表水體提取的影響,并不能修正大多非實心地表水體符號未將水體完全覆蓋以及被方里網等被黑色符號遮擋而導致的地表水體提取不完整問題。
而本文方法所得結果中,不僅長江被完整地提取出來,藍色文字注記也被全部去除,這是人工標選的結果(圖6d)。對比圖7c和圖7d中實線框所示區域,明顯發現圖像形態學方法(閉運算)以及小型遺漏區域的自動過濾步驟在并未顯著改變地表水體形態的情況下,填補了大量地圖符號中的空隙,修正了上述由地表水體符號覆蓋不完全、黑色符號和文字注記遮擋等原因導致的地表水體提取不完整的錯誤。由此可見,對于近代地圖數字化來說,不僅要充分挖掘地圖中的顏色信息,空間結構信息的有效利用也是不可或缺的。
利用四種方法所得結果的總體精度、地表水體制圖精度和用戶精度對比如圖8所示。圖中可見,僅利用“呈現藍色調”這一信息得到的藍版圖結果,在長江和黃浦江之外區域的總體精度僅為84.3%,而對比地表水體的制圖精度和用戶精度,可以發現初始提取結果用戶精度很低,不及81%,即存在大量錯分誤差,這主要是藍色文字注記未被去除所致。地表水體制圖精度也只有93.1%,因為地圖泛黃、褪色,地表水體符號的某些部分并非呈現藍色調,且一些地表水體符號中存在間隙,所以一些地表水體區域沒有被提取出來,這一精度從定量的角度驗證了上一節中對藍版圖結果的分析。
利用RGB三分量的支持向量機分類結果較藍版圖結果而言,三個精度指標都有大幅提升,在長江和黃浦江之外區域總體精度達到94.0%。用RGB三分量和藍版圖共四個特征的支持向量機分類(地表水體初始提取),則進一步提高了地表水體提取精度,特別是在地表水體的制圖精度方面,由97.8%提高至99.5%,換言之,地表水體的漏分誤差已經被降到極低;而用戶精度也提高了一個百分點,這說明增加支持向量機的顏色特征輸入,可以減少錯分誤差,對應圖7b和圖7c,就是椒鹽噪聲被有效去除。
本文方法無疑是四種方法中精度最高的。在長江和黃浦江之外區域總體精度高達98.8%,地表水體制圖精度為100%,用戶精度亦達到97.3%,在所有精度指標上都高于未使用圖像形態學的方法。特別是用戶精度方面,因為藍色文字注被標選去除,用戶精度比未利用圖像形態學方法處理的方法C結果高出6.3%。在制圖精度方面,雖然實際上仍有部分遺漏之處因為其空間尺度超過圖像形態學結構元的空間尺度而難以被彌合(圖6,圖7),然而,這些漏分誤差并未在地表水體制圖精度中體現出來,也就是說,在隨機生成的400個檢驗樣本中,沒有檢測到地表水體遺漏的現象,反映出漏分錯誤的像元相對于所有地表水體像元來說,仍是極少數。
在全圖范圍內,本文方法所得結果的總體精度更是達到99.8%,地表水體的制圖精度為100%,用戶精度為99.5%(未在圖8中顯示)。全圖范圍內,地表水體的遺漏部分被提取出來,不僅與圖像形態學有關,也與主要遺漏區域標選步驟有直接聯系。但是對于長江與黃浦江之外區域來說,遺漏區域沒有經過手動處理,制圖精度的提高完全是圖像形態學所起的作用,可見閉運算可以有效填補藍色斜線、藍色雙線和空心封閉圖形符號等地表水體符號中的間隙,并且改善因地圖泛黃、褪色,黑色地圖符號和文字注記遮擋而導致地表水體不完整的情況,這些都是只利用顏色信息處理完全無法做到的。

圖8 四種方法所得地表水體提取結果在長江和黃浦江之外區域三種精度對比
針對彩色近代地圖的特點,將其數字化的問題抽象為數字圖像的顏色信息和空間結構信息提取問題,采用機器學習方法,針對顏色信息進行了初步提取,然后運用圖像形態學方法對空間結構信息進行進一步提取。與人工數字化技術相比,本文方法有著諸多特點和優勢。
1. 時間成本
本文所提出的方法可以大大提高近代地圖數字化的效率。對于本文選取的水網密布的“上海圖”來說,用人工數字化的方式提取地表水體,粗略描畫至少需要一兩天,精細描繪則需要數日。然而,本文所提出的方法是半自動化的,只需要少量簡單的人為干預即可,其余步驟全部交由電腦完成。
對本文方法中地表水體提取過程所需時間進行具體量化: 在基于機器學習的地表水體初步提取部分中,生成藍版圖僅需要1分鐘,利用RGB三分量和藍版圖共4個特征的支持向量機分類及二值化步驟需要5分鐘左右;在基于圖像形態學的地表水體提取優化部分中,藍色文字注記標選需要半小時左右,初步提取結果減去文字注記結果只需半分鐘,圖像形態學閉運算的參數調節及運行需要5分鐘左右,主要遺漏區域標選需要10分鐘,小型遺漏區域自動過濾的參數調節及運行需要5分鐘左右。整個流程僅需要1小時左右。
2. 提取精度
如果認為時間完全充裕,數字化工作人員完全專業、認真、客觀的理想情況下,地圖的人工數字化精度是100%,那么本研究所提出的方法,全圖范圍內總體精度達到99.8%,可以媲美人工數字化準確程度的水平,更何況人工數字化的精度本身也不可能達到100%。地表水體被漏分和錯分的錯誤率都低于1%,在節約大量時間和人力的情況下,這個錯誤率是完全可以接受的。
在長江和黃浦江之外區域的提取精度,更驗證了本文方法提取細小的目標地物(地表水體)、排除干擾因素的能力。其中,機器學習方法充分挖掘了地圖中的顏色信息,而圖像形態學方法的利用更是地表水體準確提取的關鍵所在,它有效減少了因地圖褪色泛黃、地表水體符號不能完全覆蓋地表水體、黑色地圖符號和文字注記遮擋地表水體等多種因素導致的漏分錯誤,在增強地表水體完整性和連通性的同時,又沒有顯著改變地表水體原有的形態,大大提高了地表水體的提取精度。
3. 數據格式
對近代地圖進行人工數字化,所得地表水體信息通常為線和面類型的矢量數據。③ 閆芳芳、滿志敏、潘威: 《從小圩到園田: 近百年來上海地區河網密度變化》,《地球環境學報》2014年第5期。與之不同,本文通過對柵格格式的地圖掃描圖像進行半自動數字化后,得到的還是與原圖投影、尺寸、分辨率等各個方面完全一致的柵格類型數據。
矢量與柵格類型的地表水體數據各有優劣。矢量類型數據結構緊湊,具有空間拓撲關系信息,有利于進行網絡分析;然而,將河浜抽象為線要素,其定位和形態有一定的模糊性和主觀性。柵格類型數據結構簡單,定位容易,方便評價地表水體提取精度,也易于展示,但在分析河流長度和多個地表水體間的拓撲關系時,具有一定難度。
值得注意的是,滿志敏曾對格網體系在歷史地理學中的應用做過探討,肯定其在歷史數據管理和成果展示方面的優勢。(24)滿志敏: 《小區域研究的信息化: 數據架構及模型》,《中國歷史地理論叢》2008年第2輯。其研究雖然將舊地圖中的地表水體數字化為矢量數據,卻也為了比較兩個時間斷面的地表水體參數變化又進行了格網化處理,從本質上來講,就是將矢量數據轉化成了柵格數據。③由此可見,柵格數據在地表水體及其演變的時空分析中具有獨特優勢。
矢柵互轉技術已經十分成熟,但在轉化過程中,必然存在一定的信息丟失,因此,可根據研究需要,盡量從原始地圖數據直接將目標地理要素提取為合適的數據類型。本研究提出的方法直接得到柵格類型數據,較為適合時間序列分析,包括多個時相的近代地圖信息對比,以及與遙感影像進行古今對比,這也是該方法的一大特色。
4. 方法的適應性
本文的數字化方法無需編寫程序實現,利用現有的軟件平臺(如本研究使用的ENVI 5.3)即可運行,具有較強的實用性、適應性和可遷移能力,對類似的彩色近代地圖數字化具有相當的參考價值。即使在某些地圖中,一個顏色被對應多個地表覆蓋類型,如在某些民國地圖中,常令湖河以及稻田、鹽田等季節性水體用不同形狀的藍色符號表示,圖像形態學也可以充分發揮作用,根據不同符號之間形態結構特征的差異,進行不同地表覆蓋類型之間的區分。
相比之下,人工數字化需要對每張地圖單獨進行,毫無可遷移性。在處理大量地圖的情況時,繁重的數字化工作僅僅是研究的準備階段,耗費大量時間后,正式研究卻仍未及開展,大大拖慢了工作進度。即使交由專業人士處理,不僅成果質量難以全面把控,所需的數字化費用也是不容忽略的。
需要指出,本文方法對泛黃、褪色或磨損范圍較小(空間尺度小于圖像形態學結構元)的彩色近代地圖適用性較好,對于存在較大范圍折疊、污損、霉爛等情況的近代彩色地圖,可根據數字地圖的實際狀況把存在問題部分進行適當的預處理,再應用本文方法進行數字化分析。分析時需注意機器學習中訓練樣本的選擇,例如,在折疊褶皺處增加訓練樣本,以更準確地識別因褶皺而顏色發生變化的地理要素;對于污損霉爛的地圖,可以考慮將污損霉爛處根據顏色分類進行單獨識別以避免混淆;還應根據問題區域的空間尺度,注意圖像形態學結構元大小的調整,必要時可將地圖圖面進行分區,對不同區域分別采用不同尺度的結構元和不同的圖像形態學運算遞歸次數。
本文提出一種基于機器學習和圖像形態學的彩色近代地圖數字化方法,該方法通過充分利用顏色特征和地圖符號的形態結構特征,能夠以半自動的方式準確地將彩色近代地圖中的地表水體信息提取出來。
以1927年英國《華東·上海》地圖為例,驗證了所提出方法的有效性。結果顯示,利用本文方法得到的結果總體精度達到99.8%,提取的地表水體漏分和錯分錯誤率均低于1%,可以有效去除地圖中的文字注記干擾,并填補地圖符號中的空隙,提高地表水體的完整性和連通性。在幾乎沒有犧牲精度的情況下,地圖數字化的效率卻大大提高,數字化所需時間從數日縮短為1個小時左右。
我國近代以來留存的彩色近代地圖數量可觀,本文方法對其他彩色近代地圖數字化亦具有較高的參考價值,并且該方法可以直接得到柵格類型數據,適合多源數據時間序列分析,包括多個時相的近代地圖信息對比,以及與遙感影像進行古今對比,為突破研究時段和研究技術手段等制約相關研究進展的瓶頸奠定了方法基礎,有助于對近代以來人地關系變化進行更深入的定量研究。