羅紹輝 黃平友
摘要:該文通過分析、梳理城建檔案信息化現(xiàn)狀,綜合城市人文、歷史、空間地理信息等數(shù)據(jù),以“人-房-地”一體化框架為基礎(chǔ),提出了城建檔案知識(shí)圖譜服務(wù)平臺(tái)的總體架構(gòu)和功能設(shè)計(jì),通過數(shù)據(jù)挖掘分析,將城建檔案中海量數(shù)據(jù)結(jié)構(gòu)化,構(gòu)建集城市設(shè)計(jì)、建設(shè)、規(guī)劃、管理與社會(huì)治理、人文服務(wù)于一體的綜合性城建檔案知識(shí)圖譜服務(wù)平臺(tái)。該平臺(tái)通過多維數(shù)據(jù)自動(dòng)關(guān)聯(lián)、圖譜網(wǎng)格多元聯(lián)系以及空間信息協(xié)同分析,可以實(shí)現(xiàn)信息處理、檢索與展示、智能查詢與分析統(tǒng)計(jì)等知識(shí)圖譜服務(wù)。
關(guān)鍵詞:時(shí)空數(shù)據(jù) 知識(shí)圖譜 城建檔案 平臺(tái)
城建檔案是在城市規(guī)劃、建設(shè)及管理活動(dòng)中形成的具有保存價(jià)值的文字、圖紙、圖像、聲像等,是城市建設(shè)發(fā)展的真實(shí)歷史記錄。[1]各檔案館要利用當(dāng)前技術(shù)深入挖掘城建檔案價(jià)值,首先應(yīng)建立海量城建檔案信息數(shù)據(jù)庫(kù),編制相應(yīng)標(biāo)準(zhǔn),如重慶市城建檔案館于2017年頒布了《建設(shè)工程檔案信息數(shù)據(jù)采集標(biāo)準(zhǔn)》[2];其次應(yīng)制定電子檔案接收制度,如上海市浦東新區(qū)檔案局2018年開展了“基于BIM技術(shù)的三維城建檔案接收保管和應(yīng)用模式研究”[3];最后應(yīng)引入大數(shù)據(jù)、地理信息、數(shù)據(jù)挖掘等技術(shù),如青島市檔案局于2017年開展了“大數(shù)據(jù)背景下檔案信息資源挖掘策略與方法研究”[4]。
時(shí)空地理信息系統(tǒng)使人們能夠更好地實(shí)現(xiàn)地理實(shí)體時(shí)間和空間信息的動(dòng)態(tài)表達(dá)與建模,是地理空間分析、地理知識(shí)表達(dá)和挖掘的基礎(chǔ)。[5]國(guó)內(nèi)開展的基于地理信息技術(shù)(GIS)的城建檔案管理系統(tǒng)研究[6],未將時(shí)空數(shù)據(jù)充分與檔案的歷史、現(xiàn)在、未來相結(jié)合形成四位一體的管理模式。知識(shí)圖譜(Knowledge Graph)則可以彌補(bǔ)以上不足,它是一種基于圖數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu),使用三元組形式組織數(shù)據(jù),將實(shí)體表示為頂點(diǎn)的集合,實(shí)體之間的關(guān)系表示為邊的集合,以結(jié)構(gòu)化的形式對(duì)知識(shí)進(jìn)行展示。
目前某市城建檔案館在這方面的做法值得借鑒。某市城建檔案館館藏檔案超過140萬卷,均已完成數(shù)字化掃描和電子目錄著錄,并且其已將檔案中的重要信息提取、掛接到城市地理信息數(shù)據(jù),形成關(guān)聯(lián)關(guān)系,構(gòu)建了全市范圍的城建檔案時(shí)空大數(shù)據(jù)庫(kù),形成了某市城建檔案知識(shí)圖譜服務(wù)平臺(tái)。該平臺(tái)整合某市城建大數(shù)據(jù)平臺(tái)現(xiàn)有城建檔案數(shù)據(jù),融合人員、單位、公共設(shè)施、歷史文化、政策法規(guī)等多種數(shù)據(jù)源,將異構(gòu)、稀疏、多樣和海量的數(shù)據(jù)轉(zhuǎn)化成知識(shí)圖譜,利用圖數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、信息分析等關(guān)鍵技術(shù),形成以圖的形式表現(xiàn)客觀世界中的實(shí)體(概念、人、事物)及其之間關(guān)系的知識(shí)庫(kù)。本文通過梳理城建檔案知識(shí)圖譜的實(shí)體、屬性和關(guān)系信息,提出建立城建檔案數(shù)據(jù)和各級(jí)用戶的交互知識(shí)圖譜服務(wù)平臺(tái),以期為城建檔案“知識(shí)化”提供新思路。

(一)平臺(tái)總體架構(gòu)
以城建檔案可視化服務(wù)為目標(biāo),城建檔案知識(shí)圖譜服務(wù)平臺(tái)采用分層思想和模塊化結(jié)構(gòu),高內(nèi)聚低耦合,總體設(shè)計(jì)上分用戶層、業(yè)務(wù)層、數(shù)據(jù)層和硬件層四層。該平臺(tái)充分結(jié)合城建檔案管理特點(diǎn),以工程建設(shè)全過程檔案歸集為主線,使數(shù)據(jù)自底向上流動(dòng),總體架構(gòu)圖如圖1所示。用戶層按不同角色區(qū)分系統(tǒng)設(shè)計(jì)的各種用戶;業(yè)務(wù)層是系統(tǒng)建設(shè)的核心,含城建檔案關(guān)聯(lián)分析、城建檔案異常檢測(cè)、智能問答以及可視化分析與展現(xiàn)等業(yè)務(wù)模塊以及基礎(chǔ)數(shù)據(jù)管理和系統(tǒng)管理等系統(tǒng)模塊;數(shù)據(jù)層包括源數(shù)據(jù)管理、數(shù)據(jù)清洗、知識(shí)圖譜框架管理、知識(shí)圖譜構(gòu)建等模塊;硬件層是系統(tǒng)提供各項(xiàng)服務(wù)并實(shí)現(xiàn)正常運(yùn)行的基礎(chǔ),通過相關(guān)的硬件設(shè)施來提供基礎(chǔ)服務(wù)。
(二)平臺(tái)體系架構(gòu)
該平臺(tái)在功能設(shè)計(jì)上采用可擴(kuò)展的多層體系,共分為五層:表示層、業(yè)務(wù)邏輯層、通用構(gòu)件層、資源訪問層和資源層。表示層提供數(shù)據(jù)展現(xiàn)服務(wù),將業(yè)務(wù)層提取的業(yè)務(wù)數(shù)據(jù)展現(xiàn)給系統(tǒng)用戶;業(yè)務(wù)邏輯層由各業(yè)務(wù)邏輯模塊組成,實(shí)現(xiàn)系統(tǒng)的業(yè)務(wù)功能;通用構(gòu)件層將系統(tǒng)公用的功能抽取出來,以構(gòu)件的方式實(shí)現(xiàn)模塊的重用,提高系統(tǒng)重用性;資源訪問層提供對(duì)系統(tǒng)數(shù)據(jù)資源的訪問接口,通過調(diào)用接口訪問相應(yīng)數(shù)據(jù)資源;資源層由系統(tǒng)涉及的各種數(shù)據(jù)資源構(gòu)成,包括基礎(chǔ)數(shù)據(jù)、字典數(shù)據(jù)、知識(shí)圖譜等。
(三)“人-房-地”知識(shí)圖譜模型設(shè)計(jì)
知識(shí)圖譜模型設(shè)計(jì)是構(gòu)建知識(shí)圖譜的關(guān)鍵,采用實(shí)體-聯(lián)系模型(E-R圖模型)構(gòu)建“人-房-地”的知識(shí)圖譜基本框架,展示實(shí)體集合和聯(lián)系集合。每個(gè)En? tity代表一個(gè)實(shí)體類型,字段則為實(shí)體屬性,如果字段為外鍵字段,則代表與其他實(shí)體的一種關(guān)系。
圍繞著“人-房-地”知識(shí)圖譜基本架構(gòu),我們將其梳理成三個(gè)數(shù)據(jù)域的數(shù)據(jù)源:城建檔案數(shù)據(jù)源、城市地理信息數(shù)據(jù)源(包括“點(diǎn)-線-面”地理信息數(shù)據(jù))和住建基礎(chǔ)數(shù)據(jù)源,并基于Power Designer設(shè)計(jì)了數(shù)據(jù)源的表結(jié)構(gòu)。之后,我們以城建檔案數(shù)據(jù)源為核心來構(gòu)建城建檔案知識(shí)圖譜,形成城建檔案數(shù)據(jù)源物理模型。
城建檔案知識(shí)圖譜平臺(tái)基于館存城建檔案中房建、用地?cái)?shù)據(jù)標(biāo)準(zhǔn)化處理,使住房用地空間位置與公共服務(wù)、市政、交通設(shè)施匹配,形成以地塊為基本空間單元的“人-房-地”體征數(shù)據(jù)庫(kù)。這樣“人-房-地”對(duì)應(yīng)后,就可以形成在同一空間單元具有唯一性的人口、建筑和用地相互關(guān)聯(lián)關(guān)系。
該平臺(tái)通過將城建檔案中海量的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,構(gòu)建城建檔案知識(shí)圖譜,并且通過基于知識(shí)圖譜的信息檢索和推理,提供面向城建檔案業(yè)務(wù)人員的城建檔案流程智能關(guān)聯(lián)、地塊歷史數(shù)據(jù)關(guān)聯(lián)等知識(shí)服務(wù)。
該平臺(tái)利用知識(shí)圖譜技術(shù),將分散在住建、城建檔案、城市地理信息等各領(lǐng)域的數(shù)據(jù)進(jìn)行匯聚融合,并構(gòu)建以“人-房-地”為核心的城建檔案知識(shí)圖譜系統(tǒng),提供智能應(yīng)用服務(wù)。
(一)知識(shí)圖譜Schema可視化

該平臺(tái)可以實(shí)現(xiàn)按需求可視化調(diào)整知識(shí)圖譜結(jié)構(gòu),我們可在平臺(tái)上通過拖拽的方式自助創(chuàng)建圖數(shù)據(jù)庫(kù)集群、創(chuàng)建圖的Schema、導(dǎo)入圖數(shù)據(jù),設(shè)計(jì)知識(shí)圖譜的實(shí)體、屬性和關(guān)系信息,如圖2所示。對(duì)于實(shí)體,我們可設(shè)計(jì)其實(shí)體名稱及實(shí)體屬性信息,包括屬性名稱、屬性類型(數(shù)值型、字符型、布爾型、時(shí)間日期型等)、最大最小值、是否必需、是否為顯示字段等,通過在實(shí)體之間連線操作,實(shí)現(xiàn)實(shí)體間關(guān)系的設(shè)計(jì)可視化。
(二)逐級(jí)探索及雙實(shí)體關(guān)聯(lián)分析
該平臺(tái)對(duì)知識(shí)圖譜中的“項(xiàng)目-地塊-單位”等信息進(jìn)行關(guān)聯(lián)分析,并可視化展示其分析結(jié)果,實(shí)現(xiàn)城建檔案信息逐級(jí)探索功能。我們通過輸入檢索條件確定起始節(jié)點(diǎn),即可獲得該節(jié)點(diǎn)屬性信息。
實(shí)體類型包括單位、項(xiàng)目、地塊、小區(qū)、樓棟5類共10種組合,我們通過選擇實(shí)體類型并在系統(tǒng)中輸入實(shí)體名稱可查詢?cè)搶?shí)體所有屬性的信息,并了解實(shí)體(檔案名稱、屬性等)之間的關(guān)系。
(三)基于地塊的知識(shí)圖譜可視化展示
通過將可視化展示功能與南寧市城建大數(shù)據(jù)平臺(tái)融合,可以在電子地圖上展示地塊的關(guān)聯(lián)圖譜信息。如圖3所示,查詢結(jié)果關(guān)系圖可列表顯示圖形中所有實(shí)體,并且我們選擇某個(gè)實(shí)體后,可以獲得該實(shí)體的所有屬性信息。
(四)異常檢測(cè)分析
平臺(tái)通過圖譜推理,設(shè)置異常檢測(cè)規(guī)則閾值,判斷異常數(shù)據(jù)。該功能可用于項(xiàng)目合規(guī)性檢測(cè)、樓棟的安全性檢測(cè)(如檢測(cè)電梯過保或者幕墻過保的樓棟信息)、危房預(yù)警分析(根據(jù)預(yù)設(shè)的危房判定規(guī)則對(duì)所有建筑物進(jìn)行危房判定,預(yù)警提示符合條件的建筑物)、相似事故預(yù)警分析(通過分析歷史安全事故信息,抽取其特征值,并將特征值在知識(shí)圖譜中進(jìn)行近似匹配,對(duì)近似度較高的建筑物或項(xiàng)目進(jìn)行預(yù)警提示)。
在“存量數(shù)字化,增量電子化”的信息化進(jìn)程中,檔案“知識(shí)化”越來越引起人們重視。[7]基于圖數(shù)據(jù)庫(kù)的知識(shí)圖譜在處理海量數(shù)據(jù)多對(duì)多的復(fù)雜實(shí)體聯(lián)系場(chǎng)景中有著高性能、靈活、敏捷的天然優(yōu)勢(shì)。城建檔案知識(shí)圖譜服務(wù)平臺(tái)有別于一般的城建檔案系統(tǒng),具有深度知識(shí)推理能力和逐步擴(kuò)展的認(rèn)知能力,基于知識(shí)圖譜服務(wù)平臺(tái)提供的信息檢索和推理能力提供城建檔案檢索、智能關(guān)聯(lián)、異常檢測(cè)分析等知識(shí)服務(wù),可以有效提高服務(wù)效率,擴(kuò)展城建檔案在各行業(yè)的應(yīng)用,進(jìn)而可以拓展服務(wù)領(lǐng)域。伴隨“互聯(lián)網(wǎng)+”與城建檔案的深度融合,后續(xù)我們可以基于知識(shí)圖譜去探索圖學(xué)習(xí)、圖計(jì)算的能力,為平臺(tái)用戶提供更多挖掘城建檔案圖數(shù)據(jù)價(jià)值的功能,推動(dòng)城建檔案管理朝著智能化的方向前進(jìn)。

*本文系2020年國(guó)家檔案局科技項(xiàng)目“基于時(shí)空數(shù)據(jù)的智慧城市檔案知識(shí)圖譜構(gòu)建及應(yīng)用服務(wù)體系研究”(項(xiàng)目編號(hào):2020-X-053)階段性研究成果。
注釋及參考文獻(xiàn):
[1]王靜巖.淺談關(guān)于海量城建檔案數(shù)據(jù)的深度挖掘和分析[J].土木建筑工程信息技術(shù),2018,10(3):108-111.
[2]徐惦耕,張穎.大數(shù)據(jù)時(shí)代城建檔案在城市建設(shè)管理活動(dòng)中的作用[J].重慶建筑,2019,18(9):41-43.
[3]楊繼東.基于BIM技術(shù)的三維城建檔案接收保管和利用模式研究[J].數(shù)字與縮微影像,2017(3):11-15.
[4]楊來青.大數(shù)據(jù)背景下檔案信息資源挖掘策略與方法研究[J].中國(guó)檔案,2018(8):60-61.
[5]鄔群勇,孫梅,崔磊.時(shí)空數(shù)據(jù)模型研究綜述[J].地球科學(xué)進(jìn)展,2016,31(10):1001-1011.
[6]黃歡宏,陳啟文.基于GIS的城建檔案管理系統(tǒng)研究與開發(fā)——以城建檔案空間導(dǎo)視管理系統(tǒng)建設(shè)項(xiàng)目為例[J].城建檔案,2018(11):36-38.
[7]孫沁.“互聯(lián)網(wǎng)+”時(shí)代檔案利用服務(wù)工作變革的幾點(diǎn)思考[J].北京檔案,2020(2):32-34.
作者單位:1.南寧市勘測(cè)設(shè)計(jì)院集團(tuán)有限公司2.南寧市城市建設(shè)檔案館