郭劍橋 張強 楊鑫 王宵 王遙 許彥



摘要:在智慧水務、管網攻堅戰等項目的建設與運營中,管網數字化工作至關重要。當前管網數字化行業內的質檢功能普遍是基于關系型數據庫采用數學計算的方式進行判斷,而基于圖技術實現管網數字化質檢的研究較少,且未有城市級實際應用。為此,介紹了一種基于圖技術的城市排水管網質檢方案,該方案從底層優化數據治理效率,提升系統整體響應速度,減少用戶等待時間與服務器計算負荷。將該管網數據質檢算法應用到六安市的真實數據中,應用效果表明該算法提高了管網質檢的綜合效率,應用場景廣闊,可滿足萬km長度級管網秒級質檢需求。
關鍵詞:城市地下管網; 地下管線探測; 智慧水務; GIS; 數字化; 長江流域; 六安市
中圖法分類號: TP399
文獻標志碼: A
DOI:10.16232/j.cnki.1001-4179.2024.S1.048
0引 言
近年來隨著技術的提升,國家對于城市資產數字化的重視程度越來越高,其中地下管網是城市資產的關鍵組成部分[1]。提升管網數據質檢能力,不僅能提升管網數字化成果數據質量、精準定位數據問題與類型,更是智慧城市、管網攻堅戰等國家戰略成功的關鍵。
國內外對排水管網GIS數據質檢相關領域已有較為成熟的研究。美國數字制圖數據標準委員會(NCDCDS)對數據質量做了規定[2];中國國家測繪局也制定了有關質量標準,論述了GIS 數據庫開發項目的質量控制方法[3];國內外已建立基于文本關系型數據的管網質檢信息化質量控制算法[4-5]。但仍存在功能分割、效率低下、與實際的工程應用關聯性不強等問題。本文結合管網數字化一線與管理工作中的思考與實踐[6],介紹了一種基于圖技術的管網質檢分析技術,融合圖拓撲解析能力,通過社區算法[7-8]等,構建從數據規整化輸入到數據倉庫[9]及拓撲網絡創建的毫秒級高級質檢能力,豐富管網異常問題庫[10],并將研究成果應用于長江流域城市地下管網實際數據中。該技術突破原有的關系型數據質檢模式,對非結構型的管網復雜拓撲關系進行更好的存儲、查詢、分析,提高了管網質檢的綜合效率;通過節點、關系、向、權等靈活構建問題清洗與修復算法,擴大使用場景;形成一種真正可落地應用的海量管網數據高效質檢功能,可提升管網數據準確度,進而滿足現場巡檢、分析等業務需要。
1管網文本數據至圖數據的轉換
1.1圖數據的優勢
相比傳統關系型數據庫,基于圖結構的圖數據庫具有以下優勢[11-12]:存儲量大,圖數據庫能夠以圖的形式存儲數十億的節點和關系;存儲靈活度更高,數據在圖數據庫中存儲時不限于預定義的模型;可以實現數據在深度和廣度上的恒定時間遍歷,深度查詢用時遠優于傳統關系型數據庫[13]。其中,深度關系指兩個節點間的連接數,如圖1所示,由一條管道相連的節點A和節點B之間的深度為1,由兩條管道相連的節點A和節點C之間的深度為2,以此類推。
由表1可知,關系型數據庫的查詢時間隨著查詢深度的增加會呈指數增加;而基于圖的圖數據庫查詢時間隨著查詢深度的增加呈線性增加,相同深度下的查詢用時遠優于關系型數據庫。當需要對城市級海量管網數據進行多深度分析時,關系型數據庫并不適用于存儲和計算管網數據,圖數據庫對關系復雜且呈低結構化的數據要求與智慧城市業務更加契合。
1.2轉換原理
(1) 對象概化。在圖數據庫中,將管網對象用節點和關系兩種要素來進行區分[14],將管井、箅子、化糞池、排水口等點對象概化為節點來表示;將管道、管渠等線對象概化為關系來表示。每個關系都具有起點、終點和方向,其方向即為管網流向。
(2) 屬性分類。將節點和關系的屬性分為數值型數據和文本描述型數據[15]。數值型數據包括節點的坐標、高程等和關系的管徑、管長、埋深、坡度等,用于后續設置閾值計算分析;文本描述型數據包括節點與關系的編號、類別、所屬分區、所在街道等,用于后續設置條件分析。
(3) 標簽種類。在圖數據庫中,將節點通過標準化的標簽體系進行區分,將關系通過標準化的種類體系進行區分。比如對檢修井節點添加“檢修井”標簽;對排水口節點添加“排水口”標簽;對管道關系添加“管道”種類。由此現實中的城市排水管網在圖數據庫中被概化為由頂點(節點)和邊(關系)組成的圖,且其屬性以鍵值對的形式存儲在節點和關系之中,屬性示例見圖2。
數據準備完成后,本次研究選取Neo4j作為管網數據存儲、分析的基礎圖數據庫[16],通過轉換腳本將傳統關系型管網數據轉換為圖數據庫管網數據,并可基于Cypher語言實現高效查詢、檢索、管理圖數據庫數據集[17]。
2圖數據庫質檢修復技術
基于傳統關系數據庫的管網質檢算法均可通過圖數據庫實現。本文選取相較傳統關系數據庫有顯著優勢的質檢算法進行詳細介紹。
2.1多深度重復節點質檢修復
在該場景中兩個或多個節點的橫縱坐標偏差極小,在GIS中的表現為多個節點重合在一起,這種情況通常是由同一地點重復勘測或使用設計軟件一點雙號導致的。圖數據庫支持對于多深度重復節點進行質檢與自動修復,以深度為5為例,重復節點所在的拓撲鏈路分為3類。
(1) 兩個重復節點,一個位于深度大于5的鏈路上,而另一個位于深度小于5的鏈路上。清洗前后示例如圖3所示,“重復點”處重疊有兩個節點E和X,其中E節點的上下游分別只有一個節點,其上下游節點數小于5;而另一個節點X的上下游節點數大于5。數據修復方法為刪除深度小于5的節點及其連接管線。
(2) 兩個重復節點均位于深度大于5的鏈路上。“重復點”處重疊有兩個節點E和X,兩個重復節點的上下游節點數據均大于5,數據修復方法為將兩個重復節點上下游深度為5以內的節點數進行對比,刪除節點數少的重復節點,將其與管線的連接關系集成至另一個節點數大的重復節點上。
(3) 兩個重復節點均位于深度小于5的鏈路上。第三類兩個重復節點的上下游節點數據均小于5,數據修復方法為刪除兩個重復點所在鏈路的所有節點以及與節點連接的管道。
2.2外圍框線點異常質檢修復
在管網探測工作中,有時會出現普查人員將井室輪廓線、化糞池輪廓線等范圍線錯誤地使用實際管線進行表示的情況[18]。這種外圍框線點(3個點以上,多為4個點)并不是真實存在的管點、管線,且會導致數字化管網的拓撲關系與實際不一致,對數據質量影響較大,需要進行質檢修復。
外圍框線點數據修復時,分為兩種情況:一種為外圍框線點不與其他任何管線點有連接關系,只是孤立的一系列環狀線,此種情況可以判定其為多余的范圍線,修復方法為將其直接刪除;另一種為外圍框線點與其他管網有連接關系,此種情況一般由于普查人員將多余的范圍線與實際點線搞混導致連接關系錯誤,修復方法為在外圍框線點的幾何中心處創建一個新的概化節點,將外圍框線點的連接關系轉移到所創建的概化節點上,刪除外圍框線點及其連接關系。
2.3多鏈路質檢分析
在該場景中,兩個直接相連的節點還有其他的連接關系,這種情況通常是由同一地點重復或者管線錯誤連接導致的。圖數據庫支持對于多深度重復鏈路進行質檢與修復,以深度5為例,多鏈路情況分為3類。
(1) 不對流向進行限制,兩個直接相連的節點還存在另一條或多條深度為2~5的連接關系。數據修復方法為只保留深度為1的連接鏈路,刪掉其他鏈路上的節點及其連接管線。
(2) 對同向流向進行限制,兩個直接相連的節點,還存在另一條或多條深度為2~5的連接關系,且其流向與直接相連的鏈路流向一致。數據修復方法為只保留深度為1的連接鏈路,刪掉其他鏈路上的節點及其連接管線。
(3) 對逆向流向進行限制,兩個直接相連的節點,還存在另一條或多條深度為2~5的連接關系,且其流向與直接相連的鏈路流向相反。此種情況下,可能為環狀管線或其他形式,一般不會單獨處理此類情況。
3工程應用實例
3.1項目概況
以六安市為例,介紹圖數據庫質檢分析算法的應用情況。轉換后,圖數據庫中共計管線267 770個,其中排水管257 558個,排水渠-明渠1 950個,排水渠-暗渠8 262個;共計管點289 406個,其中井類99 923個,一般管線點26 579個,排水口1 588個,箅子69 495個,立管42 883個,化糞池1 952個,閘門11個,閥門33個,排水泵站59個,調蓄池5個,污水處理廠8個,進水口847個,儲水設施134個,其他特征附屬物45 889個。項目數據見圖4。
3.2實驗環境配置
基于試點城市管網數據,對比PgSql關系型數據庫的質檢算法與Neo4j圖數據庫的質檢算法。實驗環境配置如表2所列。
3.3質檢條件與分析結果
質檢算法的運行效率及質量依賴于管點及管道屬性數據的完整性[19],然而在應用城市實際的管網數據普查過程中,現場勘測條件的限制或普查人員的誤填以及漏填等情況,導致關鍵屬性數據存在缺失及錯誤[20]。以一般管線點為例,有492個管點的底高程數據缺失,進而導致與該管點相關的管點底高程質檢、管點與連接管線高程質檢、管點出入流落差過大質檢、管線埋設坡度質檢等無法順利進行,最終會導致質檢的結果存在誤差。對于這一類數據,傳統的質檢算法通常會統一以數據缺失將該點作為缺陷待定數據進行返回[21],本研究提出的圖數據技術除了標注待定外,還會根據其連接關系的相關數據及試點城市加權參數對缺失字段進行補充。
對于該城市26萬個管點、25萬條管線、3 000 km長管網的海量管網數據,使用Neo4j圖數據庫算法與PgSql關系型數據庫進行質檢,運行12個質檢算法,共發現問題102 469個?;趥鹘y關系型數據庫的質檢算法,往往幾十km的管網數據質檢就需要3~5 s,數量級達到一定程度后,甚至會導致服務器卡死,而圖數據庫質檢算法由于數據存儲結構靈活、對復雜拓撲關系分析能力強大,僅用時9.3 s即完成該城市管網數據的質檢計算,并進行數據修改清洗與標定。質檢速度情況對比見表3。
該城市共804條道路/地塊,抽取約5%管網數據(41條道路)的質檢結果進行比較。圖數據算法的查全率、查準率均優于或等于關系型數據算法。選取第三方團隊對數據進行外業復核抽檢,抽檢出的問題數作為現實中全部問題數;將兩種算法得到的質檢結果反饋給原普查單位進行人工核實,核對后的問題數作為內業質檢真實問題數。通過查準率、查全率來評判算法的質檢質量,其中查準率為質檢真實問題數與算法質檢問題總數的比例,查全率為質檢真實問題數與全部問題數的比例。質檢質量情況對比見表4。由表4可知,算法質檢的結果部分少于全部問題數,這主要是由兩個原因導致的:① 不同的閾值會導致不同的質檢結果,尤其是人工普查時也存在主觀性判斷;② 某些數據缺少屬性值,尤其是用于設置閾值的數值型屬性,算法在運行時會自動判斷為屬性缺失,進而導致質檢結果小于全部問題數。
4結 語
本文基于圖架構對管網數據進行重構,并基于Neo4j數據庫進行數據搭建與質檢算法實現,搭建了通用化管網圖數據庫標準化映射路徑及高效轉換模式,并針對管點線數據的屬性、深度、業務邏輯等制定數據質檢規則和流程,基于六安市的管網數據治理業務的實際應用對算法進行了驗證。相較于傳統的文本以及地理空間的關系型數據庫,本文介紹的方法從數據底層對質檢算法進行提升,可以更高效地實現拓撲復雜、數據量大、多深度管網數據的查詢與分析,提高質檢效率與質量,有效降低問題定位與數據修改成本。
參考文獻:
[1]徐昊旻,張強.長江大保護智慧水務實踐[J].建設科技,2023(10):46-49.
[2]YOUCAI H,WENBAO L.Building the estimation model of digitizing error[J].Photogrammetric Engineering & Remote Sensing,1997,63(10):1203-1209.
[3]嚴玉瑤.城市管網空間數據質量檢查系統設計與實現[D].北京:中國地質大學(北京),2012.
[4]陳琪.淺論城市排水管網GIS系統的數據質量控制[J].給水排水工程,2010,28(1):84-86.
[5]DEVILLERS,R,BEDARD Y,JEANSOULIN R.Multidimensional management of geospatial data quality information for its dynamic use within GIS[J].Journal of the American Society of Photogrammetry,2005(2):205-215
[6]秦立為.排水管網GIS系統數據質量評價與控制[D].上海:同濟大學,2008.
[7]WAN Y,TAN X,SHU H.Finding and evaluating community structures in spatial networks[J].ISPRS International Journal of Geo-Information,2023,12(5):187.
[8]BAGHER Z,REZA M M,BEHROOZ M.Chaotic memetic algorithm and its application for detecting community structure in complex networks.[J].Chaos,2020,30(1):013125.
[9]王克龍,王玲,王平立,等.數據倉庫中ETL技術的探討與實踐[J].計算機應用與軟件,2005(11):32-33,80.
[10]董坤乾.城市供水管網GIS系統設計及數據質量評價[D].廣州:華南理工大學,2018.
[11]劉宇寧,范冰冰.圖數據庫發展綜述[J].計算機系統應用,2022,31(8):1-16.
[12]楊振,萬為清.圖數據庫的研究和應用[J].電腦編程技巧與維護,2020(12):91-93.
[13]解春欣.大規模圖數據庫上的模式匹配[D].上海:復旦大學,2010.
[14]陳舒.關系數據庫中圖查詢優化方法的研究[D].上海:上海交通大學,2023.
[15]崔陽.基于空間數據庫的城市地下管網知識發現研究[D].北京:首都師范大學,2006.
[16]王紅,張青青,蔡偉偉,等.基于Neo4j的領域本體存儲方法研究[J].計算機應用研究,2017,34(8):2404-2407.
[17]李寒雪.基于Cypher的圖數據庫查詢編譯器實現與測試[D].成都:電子科技大學,2022.
[18]范沖.城市地下管線數據的質量控制探討[J].四川測繪,2006,22(2):31-33.
[19]賀文蓮.地質圖空間數據庫的數據質量保證措施[J].華北國土資源,2012,26(1):33-35.
[20]吳波.城市地下管網信息系統的設計與實現[D].西安:西北大學,2002.
[21]秦立為.排水管網GIS系統數據質量評價與控制[D].上海:同濟大學,2008.
(編輯:鄭 毅)