施基炳,廖驊,羅紹輝
(南寧市勘察測繪地理信息院有限公司,廣西 南寧 530022)
推進電子檔案管理信息系統建設,與辦公自動化系統、業務系統等相互銜接是新時期檔案管理的迫切需求[1]。城建檔案館作為城建檔案數據的存儲地,應該發揮更加全面及深刻的價值,達到“善于獲取數據、分析數據、運用數據”的要求。
以南寧市為例,城建檔案涵蓋城市勘測、規劃、建設管理、市政公用、民用建筑等各類檔案超過100萬卷。目前,傳統的檔案管理存在檔案查閱周期長,檔案接收業務協同不足、工作量大等問題。本文基于GIS和BIM技術搭建了城建檔案大數據平臺,通過制定數據標準,實現數字化檔案及工程類聲像檔案多維度查詢、聯合接收,滿足城建檔案精細化管理,同時開展城建檔案地理信息掛接與信息提取工作,借助平臺規范業務流程、提升服務質量和精細化管理能力,為城市建設管理提供決策輔助能力。
城建檔案大數據平臺采用B/S架構進行搭建,架構圖如圖1所示。

圖1 系統平臺架構圖
基礎設施層提供平臺運行所依賴的共享存儲設備、網絡設施、安全設施等,是支撐平臺穩定運行的技術集成環境;數據層在統一的數據標準和技術規范的規定下,結合數據分類和業務流程,將平臺的信息資源進行整合劃分,構建七大數據庫,是整個平臺的信息資源中心;服務層集成了提升業務效率、優化業務流程所需的新型信息技術,支撐平臺的開發和一體化集成;應用層建立在支撐服務層之上,結合具體業務和應用需求,開發并集成三大子系統:多維度查詢檢索子系統、聯合接收子系統、時空及屬性信息提取子系統,是平臺的軟件實現和表現層。
平臺的數據庫設計需考慮檔案業務流程的定制、維護和流轉,還應結合檔案目錄、檔案掃描件、聲像資料等海量檔案數據的管理需求,并實現對檔案信息的時空化和深度挖掘,讓豐富的館藏檔案活起來。因此平臺共構建7個數據庫,數據庫設計圖如圖2所示。

圖2 數據庫設計圖
系統支撐庫:作為平臺有效運行的必要保證,存儲了平臺運行的相關環境配置信息、用戶權限信息、流程配置和相關日志等信息;
檔案目錄庫:以檔案檢索的高效化、便捷化、準確化為原則,結合紙質檔案結構和實際工作需求,構建一個以卷組目錄、案卷目錄和文件目錄為主要組成的樹狀結構目錄數據庫,包含項目名稱、檔案卷號、開竣工時間、建設單位、地址等。以檔案卷號作為索引建立與檔案掃描文件、聲像資料文件的關聯屬性,實現圖文檔一體化;
掃描文件庫:針對海量檔案電子掃描文件,構建掃描文件庫,其中掃描文件表負責記錄掃描件名稱、路徑、檔案卷號、序號,掃描統計表負責記錄檔案掃描件的數量、完整度、缺失情況等。為滿足檔案掃描件的調閱、打印、下載提供數據支撐;
聲像檔案庫:城建聲像檔案的展示形式有照片、影像、電子文件(Word、Excel)等,具有真實性、依據考察性和原始記錄性等檔案屬性和有較高的保存價值[2],因此平臺構建聲像檔案庫,涵蓋聲像檔案基本資料表、照片表、影像表、電子文件表,實現聲像檔案數據與其他城建檔案數據的融合,使檔案數據更加有聲有色;
業務信息庫:基于實現數字化檔案及工程類聲像檔案多維度查詢、聯合接收的業務需求,
構建業務信息庫,其中檔案查閱信息表,用于記錄查閱人、查閱時間、查閱文件;檔案接收信息表,負責存儲檔案接收流程記錄;檔號管理信息表,用于檔案卷號的發放、管理;證明打印記錄,主要記錄檔案接收過程中產生的證明文件;
時空地理數據庫:由于檔案數據沒有和地理信息掛接,沒有和其他城市管理數據深度對接,利用效率和利用效益受到很大局限。構建時空地理數據庫,使檔案數據與用地、建筑地理數據掛接、落地、形成關聯關系,形成具有時空特性的城建檔案數據庫;
信息提取庫:城建檔案是城市建設工程項目開始、發展、結束的全過程記錄,能夠全面反映工程的真實情況,是寶貴的城市建設信息資源[3],具有深入的數據挖掘和信息提取的價值,因此結合建設工程全生命周期過程,對檔案數據進行有效的提煉、分類、分級管理,建立信息提取數據庫,作為多源數據管理、開發應用、輔助決策的核心資源。
為了提升平臺的易用性及運行效率,平臺采用了工作流引擎、搜索引擎、表單引擎、視頻轉碼、圖像識別等技術。其中,工作流引擎技術用于優化館內現有業務流程,實現館內各科室業務并聯流轉;搜索引擎技術用于提升檔案查閱檢索效率,多級檔案目錄聯合查詢達到秒級響應;表單引擎技術用于管理檔案信息提取標準,快速構建館內檔案信息提取模板;視頻轉碼技術用于提升聲像檔案查閱的效率,實現聲像檔案在線預覽;圖像識別技術用于掃描數字化檔案信息提取,加快存量檔案的信息提取工作。
平臺功能涵蓋檔案管理工作的查閱利用、收集、立卷、歸檔、維護、時空化、信息提取、深度挖掘等內容,分為3個分工明確且相互銜接的子系統:多維度查詢檢索子系統、聯合接收子系統、時空及屬性信息提取子系統,以達到業務流程完善、功能模塊合理、人機交互體驗優秀的目的。
兼容主流的BIM數據標準,通過賦予BIM模型精確地理坐標,關聯建設工程檔案數據,可直觀展示建筑內外部結構和位置坐落,同時可快捷地調出對應建筑的電子檔案與提取信息,實現BIM模型和GIS信息、建設工程檔案的一體化管理、查詢、展示、提供利用的解決方案,如圖3所示。
系統可從檔案電子目錄、地圖多個維度進行檔案查詢利用。
檔案電子目錄搜索方面,針對龐大的檔案體量,傳統的數據庫檢索查詢已無法滿足對檔案高效可操作利用,平臺集成了ElasticSearch搜索引擎,基于高性能數據存儲系統構建,集海量異構數據分析處理、元數據提取、索引數據統一構建管理、通用化檢索接口于一體[4],系統由分布式的全文搜索引擎和海量數據索引服務組成,實現千萬級檔案數據的秒級查詢,如圖4所示。

圖4 電子檔案目錄查詢
地圖查檔方面:基于具有時空特性的城建檔案數據庫,實現由檔查圖,由圖查檔,降低檔案查詢門檻,提高檔案查詢利用效率。相對于條目繁雜的電子城建檔案來說,清晰直觀的地圖、可視化表達能夠為檔案查詢提供更加方便快捷地瀏覽應用體驗,如圖5所示。

圖5 地圖查檔
基于工作流引擎,梳理檔案對外查詢的審批流程,縮短檔案利用流程,通過流程配置,將登記、查閱、審批、打印、下載等工作流程串聯起來,可根據時間段對檔案查閱量進行統計分析,提高檔案利用效率。
聯合接收子系統涵蓋檔案接收工作的收集、預覽、審核、立卷、歸檔、入庫等內容,檔案接收內容包括紙質檔案、紙質檔案掃描件、紙質檔案電子目錄、聲像檔案、聲像檔案電子目錄。以提升檔案歸檔率、完整率和質量為目的,基于工作流引擎,通過流程再造的形式,實現紙質檔案、聲像檔案聯合接收,通過檔案卷號定時自查,嚴格管理檔案號發放;基于轉碼技術將聲像檔案作為流程附件,提升檔案質量檢查效率;紙質檔案、聲像檔案電子目錄在審批完成后自動入庫,公眾可及時查閱檔案信息;聯合接收流程完畢后,系統自動輸出檔案移交證明;根據時間段分類統計檔案接收數量,實時展示檔案接收分析成果,如圖6所示。

圖6 檔案聯合接收審批
時空及屬性信息提取子系統為平臺的核心,立足于檔案行業信息化發展的高度,統籌城建基礎數據資源,以規劃審批、城市管理業務需求為指引,編制檔案信息提取標準,充分挖掘城建檔案內容,如規劃審批、勘察設計、建設施工、竣工運營等階段性資料,工程地質、地下工程、地上建筑的詳細信息等。平臺集成表單引擎技術,將已編制的信息提取標準程序化、界面可視化。通過人工判讀、OCR文字識別,在系統中實現檔案重要信息的提取、入庫,并定制地理信息數據掛接功能、檢查糾錯功能、增量數據更新功能,在日常檔案查詢、接收業務中形成信息提取庫的常態化更新機制,如圖7所示。

圖7 檔案信息提取
以地理數據為主線,串聯信息提取數據,包含項目名稱、地址、建設單位、建筑性質、高度、層數、開竣工日期等。集成GIS技術,以地圖形式進行數據展示,并實現自定義區域范圍內多指標統計,統計指標包含如建筑高度、建筑使用功能、人防等級、防火等級、總戶數等。
以信息提取數據為核心,通過知識圖譜技術,通過概念與概念、概念與實體、實體與實體、實體與屬性等之間的關系[5],形成一個圖狀知識庫,為檔案查詢利用,以及更深層次的城建檔案應用提供數據支撐。
通過本平臺的建設,提升了南寧市城建檔案館檔案查詢、接收業務效率,以信息提取的方式建成了城建檔案數據庫,為城市規劃、建設、管理提供數據支撐。下一步將開展智慧城建檔案應用服務體系的建設,以智能問答應用方向為例,自然語言處理與知識圖譜相結合,通過“智能機器人”客服,為公眾提供檔案查詢服務。