摘要:本文簡述POI,結合馬鞍山市的相關調查與采集項目,討論此項技術及其運用。分別闡述POI技術的具體應用流程以及在該項目中的運用成果、缺陷。以供業內討論分析。
關鍵詞:POI;網絡爬蟲;數據預處理
引言
城市測繪結果,直接體現該城市的建設規劃、整體面貌的現狀。在城建中,對于此類數據的需求極為明顯,通過準確測繪資料,為規劃決策建設提供有力的數據基礎。
1. POI簡介
POI內包括名稱及類別、分類、坐標,屬于導航地圖上必要的內容。而其目前分成兩級,各分類均對應不同行業代碼與名稱,利于記錄及區分采集到的數據。其處于地理信息系統內,能代表某棟房屋、某個商鋪或者郵筒等[1]。
2.馬鞍山市POI(興趣點)調查與采集項目
2.1概述
項目開展的工作涵蓋全市,涉及地理面積有4049km2,采集的數據資料包括名稱地址、商業及公共設施、衛生社保、批發零售、居民服務、交通運輸、農林牧漁等十余個大類以及數百個小類,通過現場地位與獲取地理坐標數據實現。本次調查及采集項目的重點是全市基礎設施與公共服務、高樓大廈等,普通民眾較為重視的內容。將采集到的名稱、地址與電話號碼等對應的屬性數據,實施匯總整理入庫。技術員運用2000國家大地坐標系下,全市全域在2018年的衛星影像資料當成調查采集工作開展的地圖,此分辨率等級達到0.8m。并且本次采集結果,會直接提交至相應的成果數據庫內,以mdb的格式錄入,結果轉化成WGS84以及1980西安,兩套坐標系,單位是度。
2.2完成結果
測繪技術院在2019年的8月初,組織啟動該項目,歷經一個月左右,結束全部工作任務,如簽署合同、收集資料、外業調繪、內業整理數據及項目驗收等事項。其中,項目合同在當年九月份簽署,明確雙方需要完成的工作及技術標準等內容,以給項目作業開展,提供統一化的依據。本項目的技術方案由測繪技術院負責編寫,概述立項背景、需求情況、項目定位、技術操作流程、保密管理、進度管控等。
3. POI(興趣點)試驗數據預處理技術的運用
3.1 POI技術分析
3.1.1提取POI數據
根據本市原有的基礎地理信息內容,從相應數據庫內獲取點要素數據,完成提取的任務工作。其中提取到的數據信息包括居民地點與附屬設施、農業、公共服務、工況、名勝古跡、科學觀測點、道路構造物等,從包含海量信息的要素圖層內,獲取POI興趣點的資料。下一步則針對所得興趣點,完成分層及分類處理,設置預定義的類別代碼,而后查找有無重復的數據文件,確定各信息屬性齊全的興趣點,還在能力匯總入庫。

3.1.2 POI爬蟲技術
此處所指的網絡爬蟲表示基于確定規則標準,自動化完成抓取萬維網內數據文件的程序及腳本,其在國內被大范圍運用在互聯網的搜索引擎及相似形式的網站,支持自動獲取全部可以訪問的頁面信息,繼而達到取得及更新對應采集網站的頁面資料與檢索形式。以功能的角度而言,爬蟲技術能分出采集及處理、儲存三項功能[2]。本項目正是借助網絡爬蟲,取得POI興趣點內容,以保證采集結果的覆蓋率以及更新效率,利于控制項目執行的成本投入。該類技術手段,在規模化的POI信息生產中,展現高水平的運用成效,把其定為此項目獲取更新數據的關鍵依托。
該項目所用的爬蟲手段主要借助JAVA以及python等常見編程語言,生產爬蟲代碼。基于互聯網數據,獲取全市交通、網絡、旅游、城管、能源、房產、土建、公共服務等多項應用類領域的POI興趣點資料。同時借助python的代碼編寫,從部分地圖資料的開放渠道中,獲取有關的POI資料,并且借助數據采集器,獲取部分行業領域的相關信息,可用的地圖開放渠道有順豐快遞、高德地圖、騰訊地圖等。本項目借助爬蟲手段,取得的全市POI分布情況如圖3。

3.1.3外業采集POI
一般情況下,外業采集數據的任務過程是借助RTK及便捷式GPS等儀器,針對各POI興趣點的實地點位,實施的采集行為,以取得相應的信息資料。通過現場采集工作的安排,是對采集POI數據資料的真實補充,確保其類型劃分、地址、電話等屬性資料完整可信,對于地理信息的公共服務平臺內POI數據而言,通過外業采集,能保證其完備程度。在構建公共服務平臺的過程中,需對全部興趣點,開展內外業的采集處理工作,以支持普通民眾及政務方面對此的查詢需求。圖4為本項目外業采集POI信息的流程圖。
采集技術員所用的工作底圖基本要求為:底圖所示內容需清晰且簡潔;在設置POI興趣點對應重要程度的前提下,針對重點及非重點的POI,以不同色彩進行標注,方便區分;以表格的形式,進行POI數據整理,并完成上圖處理;底圖出圖與POI數據表的印制處理。

3.1.4實驗數據的預處理
在實驗數據的預處理中,具體分成四個環節。首先是去除重復的內容,如果有相同記錄,根據入庫時間,選擇保留的數據。其次是匹配,辨識若干空間內,各數據源可能相關的POI實例,也就是確定在不同數據集內的兩項記錄,是否實際表示同一位置。再次是融合,通過將屬性信息合并或者把匹配內容設置成錨點,支持信息融合。最后是評估,基于設定參數,對采集處理結果進行檢查,保障融合信息的準確性。
鑒于POI數據在地理坐標上有不一致的情況,而為確保POI信息的可用性,需實施去除重復的內容及坐標糾偏預處理。一方面,在去重處理中,具體涉及到的要點為:名稱一致的兩個或多個對象,按照入庫時間進行判定;如果空間屬性也一致,此處是指經緯度,則能被定義成重復項,按照入庫時間,清理對于信息記錄。另一方面,糾偏處理坐標中,需借助特定算法,對POI興趣點進行經緯度加密處理。考慮到WGS84,會引起非線性的偏移,所以為提升匹配效果,直接運用地圖服務平臺的API接口,完成此項任務。
3.1.5數據處理并入庫
本項目全部涉密資料都通過保密機處理,以防信息泄露,同時制訂保密機房的管理機制,確保信息的完整性及安全性。數據采集過程涉及到前期準備與外業調繪。在數據處理中,需完成業內整理、數據自檢等多項工作。具體來說,前期準備及采集中,通過網絡爬蟲取得數據文件,并保證POI記錄均有對應的名稱、行業類別、地址與地理經緯度。通過地圖服務平臺,取得POI記錄的經緯度,此類信息直接轉變成WGS84的坐標系。倘若在不同主域內,取得名稱一致的POI信息,需評估各主域置信度,從中挑選評分最高的主域,保留其數據,其余主域記錄篩除。在某一主域內,借助數據集,測試提取到的數據,假設某條POI記錄能在同一主域內取得名稱一致的數據,需比較二者經緯度,在二者均處于預設區間中,則標記成可信記錄。把設定的可信記錄和本市原本數據庫資料加以對比測試,以進一步驗證數據的可信度。最后,通過實地采集,進行數據補充[3]。
在數據匯總處理中,POI資料需根據采集及內業整理后,統一安排記錄入庫,以經緯度的形式,全部轉變成CGCS2000坐標系。對于數據源的處理,需先完成坐標轉換,讓數據源能處于相同空間基準中。通過轉換處理后的數據源,如果從平面來看依舊有明顯誤差,需借助高精度數據源糾正低精度記錄。在后續的數據處理中,需統一整理記錄屬性結構,按照要素空間聯系等,完成圖形幾何規整。而對于要素空間,需確保各要素空間,無論是同類或是異類,均要確保邏輯相同、關系合理。在融合處理及圖幅中,要針對屬性及幾何接邊加以合理化處理調整。并在全部處理工作完成后,針對融合結果實施質量檢測。
本項目涉及到的圖像資料有正射影像及瓦片等。單就前者而言,要求數據源的分辨率優于1m,分成真彩色與灰度的資料,整體顯示結果帶有層次感,能夠準確讀取,色調勻稱,反差適度,沒有明顯的拼接、失真等情況。此外,為提升影像數據的可用性,還需避免攜帶噪聲以及水印,和路網基本一致,不標注處理涉密內容以及固定興趣點。本項目的影像數據,以非壓縮的TIFF、IMG格式保存,并確保各數據在50GB以內。對于黑白影像,按照灰度情況進行保存;彩色影像則通過RGB色彩進行保存。
3.1.6 POI的大數據分析
其一,基于采集到的基礎POI數據,進行大數據融合。將調查采集到的資料,添加自然資源施工、城鄉建設等信息,以擴展數據的信息量,既包含結構化的資料,又有視頻及地理點位等非結構化的內容。融合物聯網及公共交通中的刷卡裝置等機器技術,結合分析算法等,取得所需目標數據,達到數據動態更新的目的。其二,借助大數據的分析融合,利用其多元化與動態化等屬性,在宏觀到微觀各個層面上,了解居民活動形式及規律,總結分布特點,預測未來發展動態。利用大量采集的數據源與深度分析算法,促使空間數據有效結合,從多維度區域及城市空間建設軌跡,為今后的規劃決策,給予可靠的預測支持。借助POI信息,對全市各關鍵區域的聚合度評估及預測,輸出各關鍵區域的規模與能級、輻射水平,由此得到功能性空間結構,實現多尺度的大數據評價描述。
3.2技術運用成果
根據各項檢查處理,評估POI的實驗數據效果。將POI點位和全市影像圖比較,檢查是否存在遺漏及有誤的記錄,檢查電子文件的格式與精度等,保證所得信息實現正確轉換;在檢查文檔資料中,相關人員需查看技術設計書、項目合同等,判斷其所示信息的規范性及邏輯性等,及時糾正;針對信息數據實施單層與多層疊加的檢查處理,判斷圖形內容的準確性,其中單層檢查事項包括點狀圖層,不可出現重疊及冗余點等現象。
3.2.1成果質量
首先,在數據完整性方面。所得數據的地名分類覆蓋滿足本項目的任務標準,并且對應的空間及屬性資料均比較完整,沒有缺漏的部分。另外,地點名稱與地理實體之間的連接總量,達到項目標準。其次,規范性的問題。經過全面的檢查,數據信息在數學基礎、名稱標注、屬性結構與代碼、必填項等方面,均滿足基本的質量標準。再次,地名空間位置。在空間位置處于相應正確點位的前提下,數據精度不足4m。經過二次采集,實體的相交點位正確。最后,數據關系的邏輯性。空間信息資料為超過本市行政地域范圍內,地名及相應標志未出現相同記錄。地理實體和地名標志的點位,擁有相同的信息結果[4]。
3.2.2運用問題
在引用POI興趣點中,發現牽涉到的數據規模過大,導致實際調查采集操作期間,發生數據相似性重復的情況,不利于數據處理。而且在歸類編碼中,少數POI記錄名稱的概念并不清晰,難以確保分類結果的準確性。此外,還有POI便利中心點位的情況。
結語
總之,POI技術在實際運用中,所得數據具備較高的可用性。同時,相關單位及研究人員等,需注意該技術存在的問題,在項目運行中盡可能規避。通過未來的深化研究,改進POI處理手段,為相關領域提供更好的技術支持。
參考文獻:
[1]井晨睿,亓協興,馬寶紅,等; Matlab在牛頓環實驗數據預處理中的應用[J].教育教學論壇, 2020, (52): 391-392.
[2]朱贊生.三種類型試驗數據預處理方法研究[D].南昌大學, 2020.
[3]王喆.基于哨兵2和POI數據的城市邊界劃定方法研究[D].河南大學,2020.
[4]田晨睿.基于眾源POI匹配與融合的實體庫構建方法研究[D].武漢大學,2020.