

針對電子政務領域對按特定區域提取法人單位基礎數據庫數據的共性需求,本文提出并分析了一種利用空間信息提取區域數據的方法和相關的關鍵技術,且在此基礎上,展望了后續的應用前景和發展方向。
法人單位基礎信息庫(以下簡稱“法人庫”)是我國電子政務領域的四大核心信息資源基礎數據庫之一,隨著電子政務建設向“資源整合,業務協同”的方向邁進,法人庫的重要性已愈加明顯,日益受到有關方面的重視,全國各地也紛紛開展相關的建設和研究工作。
在建設法人庫、特別是后續應用法人庫的過程中,大量政府部門的業務系統、數據中心需要從法人庫中獲取數據,如果向這些系統不加區分地提供全部數據,不僅會加重系統、網絡的負擔造成資源的浪費,也會埋下信息安全和信息外泄的隱患,換言之,只有解決了法人庫信息的有效提取問題,才能談的上后續的法人庫數據分發和應用,這是所有的法人庫建設單位、應用單位都面臨的一個共性問題。為此,北京市相關政府部門針對這一問題,結合北京市法人庫建成應用中的突出問題,協同開展了系列研究和實踐工作,取得了可以工程化的系列研究成果,其中較有特色是利用空間信息提取法人庫的區域數據,特別擷取該成果的目的也是為了拋磚引玉,意在為促進我國電子政務領域的建設和自主科技的發展盡些綿薄之力。
概括來說,北京市法人庫于2009年完成一期工程建設,該庫以法人單位的組織機構代碼為唯一索引,整合了市工商局、市編辦、市民政局三個登記源頭部門80余萬家法人單位的22項基礎信息,覆蓋了在北京市級及區縣級登記注冊的全部企業法人單位、事業法人單位、社團法人單位、民辦非企業法人單位和基金會法人單位,其中數據量最大的企業法人登記數據能夠進行每天更新,相關政府部門通過部署在北京市電子政務外網上的電子政務基礎設施“北京市政務信息資源共享交換平臺”(以下簡稱“共享交換平臺”),可以較為及時準確地獲取法人庫中的基礎信息。
北京市法人庫建成后,需要向全市各區縣提供服務,在此過程中首先需要提取區縣的屬地數據,在此過程中,提取北京經濟技術開發區的屬地數據是一個典型的特殊需求。北京經濟技術開發區(以下簡稱“開發區”)是北京市的國家級經濟技術開發區,跨越大興、通州、朝陽三個行政區,開發區管委會作為主要行使經濟管理職能的政府管理機構,希望及時獲取屬地法人單位的基礎信息,以便在此基礎上建成包含屬地擴展信息的開發區法人庫,對于北京市的18個區縣行政區,可以按照企業所在地的行政區劃代碼從市法人庫中提取信息,但由于開發區不是獨立的行政區劃,因此,需要尋找特殊方式進行數據提取,經過分析研究,最終利用空間信息成功地提取出了市法人庫中開發區的屬地數據。
一、數據提取方式
可以將這種新的提取方式歸納為“利用空間信息的三層數據過濾提取方式”,所謂“三層過濾”,即坐標判定過濾、地址判定過濾、差異點判定過濾,圖1顯示了這種數據提取方式的全過程。
(一)首層數據提取方式
首層數據過濾提取通過對單位地址的空間坐標進行分析來完成。進入共享交換平臺中的法人庫數據,會根據應用需求,與“北京市政務地理空間信息共享服務系統3.0”(以下簡稱“空間服務系統”)中的空間數據進行地址匹配,如地址匹配無誤,則會附加上該法人單位的北京市地方坐標信息。
共享交換平臺在分發處理新的法人庫數據之前,會首先利用開發區規劃部門提供的開發區區域邊界坐標數據,判定該法人單位與區域邊界的空間拓撲關系,如果單位坐標投影在開發區邊界之內,則將該法人單位數據標識為首層過濾出的需向開發區提供的數據。
(二)后兩層數據提取方式
上述法人庫數據與空間服務系統數據地址匹配過程中,單位地址信息不完整、空間數據庫信息現時性不足等因素會導致法人單位最終缺乏坐標信息,這種情況會造成首層數據過濾出的屬地數據量少于實際數據。
為此,對于首層數據過濾出的法人庫剩余數據,還需要進行第二層數據過濾,這層數據過濾通過對單位地址特征值進行分析來完成。為進行第二層數據過濾,共享交換平臺會利用開發區規劃部門提供的開發區街道名稱和空間服務系統地址庫數據,對首層數據過濾后的單位進行地址比對,如果該單位地址所在地址屬于開發區管界,則將該法人單位數據標識為第二層過濾出的需向開發區提供的數據。
在實踐中,我們發現,開發區規劃邊界、規劃街道的數據與現實的開發區管界數據存在一定程度的偏差,為了精確查找這部分數據,還需要將這些偏差數據提取出來,形成差異點數據,也可稱為興趣點數據,我們可以利用這些周遍興趣點地址信息和坐標信息進行的數據過濾進行第三層數據過濾,將過濾出來的數據標識出來后,全部數據提取過程即告結束。
(三)提取結果的標識
值得注意的是,在整個數據提取過程中,所進行的數據結果標識過程非常重要,通過這種元數據標識,可以大大提高法人庫數據提取過程的靈活性和數據的復用性,后續應用系統通過利用這些元數據,可以方便地定位信息、開展應用。
二、交互架構、關鍵子過程及實現原理
在實際工程部署中,上述方式的實現涉及到多個大型信息系統的交互,其交互的總體架構見圖2。
上述提取方法中,空間分析、地址分析是兩個關鍵子過程,可以充分利用現有成熟的數據庫技術加以實現。
(一)空間分析過程及實現原理
空間分析主要包含兩項工作:一是根據開發區規劃局提供的原始空間邊界,利用空間信息服務系統中的航空遙感影像庫、衛星遙感影像庫和地址庫數據,識別出屬于開發區管界且跨越規劃邊界的建筑物和院落,據此對原始空間邊界數據進行調整,形成用于判定企業是否屬于開發區的判定邊界;二是利用法人單位的組織機構代碼、注冊地址與北京市空間數據庫進行數據關聯,通過空間信息服務系統數據接口獲取法人單位的北京市地方坐標,并完成該坐標與判定邊界的空間拓撲關系運算。通過空間分析,可以知道該法人單位的坐標是否在開發區邊界內。
在開發過程中,主要有兩類技術實現路徑:一類是利用數據庫的空間功能,如Oracle Spatial加以實現;一類是利用專用的GIS系統,如ArcGIS加以實現。經過對比,北京市法人庫的空間分析最終是采用Oracle Spatial實現的。除無需新購專門的GIS系統外,直接利用已經部署了大量應用的現有Oracle數據庫,較易于與其它系統功能進行集成,同時,使用Oracle數據庫自帶的SHAPE數據類型、空間元數據、空間索引及空間數據入庫工具,可以方便地開發將判定邊界數據入庫的應用程序,最后,空間拓撲分析直接運行SQL語句就可以完成,經測試,采用這種方案,在小型機部署環境下,10000對坐標構成的封閉邊界內的坐標判定響應時間穩定在毫秒量級,可以滿足定期批量處理和數據更新的業務需求。
(二)地址分析過程及實現原理
地址分析也需要完成三項主要工作:一是對原始地址進行解析,從中提取街道、樓宇、門牌號信息,并與空間信息服務系統中的標準地址庫進行數據關聯,將原始地址轉換成內容和格式規范的、可供數據比對用的規范地址;二對開發區規劃部門提供的街道信息進行解析,通過與空間信息服務系統中的標準地址庫進行數據關聯,從中提取出規范的、用于數據比對的街道信息庫;三是比對法人單位的地址是否在開發區街道庫中。通過地址分析,可以知道該法人單位按地址劃分是否在開發區管界內。
完成地址分析,除必需使用數據庫技術外,核心是使用分詞技術,如原始地址為“北京市開發區榮華中路18號”,利用分詞技術,就可以將識別轉化為“北京經濟技術開發區榮華中路18號”的規范名稱,進而判定該地址屬于開發區管界。目前,分詞技術種類繁多,但由于缺乏合適的商用產品,在實際開發過程中借鑒了各類研究成果,其中也包括開源的分詞方案。
三、應用效果及前景展望
在實際應用中,已經利用這種方式實現了市法人庫數據向北京經濟技術開發區管委會信息系統的持續數據提取和分發,已累計篩查出5413家屬于開發區屬地管理的法人單位,其中,首層數據過濾篩查數據為1702家,占總數的31.4%,次層數據過濾篩查數據為3711家,占總數的68.6%,第三層數據過濾待周遍興趣點數據確定后也可進一步發揮作用,實際效果比較令人滿意。
在電子政務建設中,各類非空間基礎庫信息與空間庫信息進行融合已是大勢所趨,利用空間信息,實現針對特定區域的非空間基礎庫信息提取將極大地方便各類應用的開展,今后在電子政務領域將會發揮重要的基礎作用。
(一)可以滿足法人庫提取更多區域性數據的需求。
以北京市為例,范圍較大、區域組成復雜的如一區十園的中關村科技開發區,區域組成簡單的如北京市18區縣各自設立的經濟技術開發區,以至于空間范圍有限的街道、社區,都可以利用這種方式從法人庫中獲取所需的數據。
(二)可以滿足跨行政區法人庫數據融合的需求。
如在規劃跨行政區經濟區的發展,如環渤海經濟區、長三角經濟區、珠三角經濟區時,都需要了解特定區域內的企業總量和規模,需要從多個行政區的法人庫中提取信息,在此方面只有充分利用空間信息才能完成數據的提取。
(三)可以滿足人口庫等更多基礎庫提取數據的需求。
人口庫等非空間信息庫也存在著提取特定區域信息,向各類政務系統進行共享的巨大需求,并且數據量會更大、運算會更復雜,完全可以借鑒法人庫的做法進行優化提升。
通過多方努力,北京市有關部門牽頭,通過產學研的協作機制,當前已經在利用空間信息提取法人庫數據方面取得了階段性的實用成果,目前配套的關鍵技術還在不斷改進完善,我們也希望,隨著有關部門對電子政務建設重視程度的不斷提高、對自主產權技術的持續投入,電子政務的眾多參與者們能夠在這個領域分享到更多、更好、更適用的應用成果。
(作者單位:單武 北京市信息資源管理中心 史亞威 鄭超 北京經濟技術開發區管委會信息中心)