文| 住房和城鄉建設部科技與產業化發展中心 曹吉昌 /北京建筑大學 王佳儀
2014年,中共中央辦公廳、國務院辦公廳印發的《關于加強和改進新形勢下檔案工作的意見》指出要加快推進傳統載體檔案數字化,從人力、財力、物力上統籌安排,切實推進檔案存儲數字化和利用網絡化,方便人民群眾利用檔案。2016年,國家檔案局印發的《全國檔案事業發展“十三五”規劃綱要》指出了到2020年初步實現以信息化為核心的檔案管理現代化的發展目標,全面推進檔案資源存量數字化、增量電子化、利用網絡化。
現如今,現代信息技術被廣泛應用到各行各業,帶來了革命性變革,深刻影響著人們的生產生活方式。時代的發展與技術的進步也為城建檔案管理工作提供了絕佳的契機與條件,“科技興檔”,讓大數據、云計算等信息技術手段助力城建檔案管理工作,提高檔案工作效率,最大限度地實現城建檔案的價值。
城建檔案作為城市建設信息資源的載體,是城市規劃、建設、管理的重要依據。雖然傳統的城建檔案館保存著海量的城建數據,卻存在著數據不能被充分分析利用的情況,導致一條條承載了海量信息的“數據巨龍”仍然長眠于庫房中,借閱方式繁瑣、查詢不便、利用率低、管理效率低下,急需借助信息化、智能化手段將之“喚醒”,使城建檔案更好地為城市建設、社會發展服務。
建設城建檔案大數據分析平臺,可以使城建檔案數據得到有效利用,采用大數據挖掘、分析技術,結合不同用戶群體的需求,通過量身定制分析模型,借助多種可視化組件,將分析結果以直觀的圖表方式進行展示,如圖1 所示。
平臺提供一套豐富的統一數據接入入口,支持各類常規的關系庫、Hadoop 提供的數據、非結構化數據、外部導入數據(如excel、json、xml 等)以及流數據接入。

圖1 檔案管理大數據平臺界面展示
平臺對于接入數據進行一系列的特征分析和加工處理,為后續數據分析與挖掘提供高質量的數據。最初采集存儲的數據并不是十分完美的,其中可能含有大量的垃圾數據、錯誤數據、缺失數據、無法直接計算的數據,故需要對數據進行分析,并采取一些處理措施后才能進行后續分析。
1.數據采樣
通常可通過實驗測試來對學習器的泛化誤差進行評估并進而做出選擇,測試樣本是從樣本真實分布中獨立同分布抽樣而得,測試集應該盡可能與訓練集互斥,即測試樣本盡量不在訓練集中出現,未在訓練過程中使用。常用的采樣算法有:留出法(Hold-out)、交叉驗證法(cross validation)、自助法。
2.數據質量分析
對于數據加工前,必然需要對數據的特性進行摸底了解,好在加工時選擇合適的算子。平臺提供了一套便捷的可視化分析套件,直接對數據進行多方位的視查。可以進行缺失值情況分析、離散值分析、連續值域分布分析、離群點分析等數據質量分析。
3.數據加工算子
平臺提供一套加工算子,在作業管理中直接進行拖拉即可完成相關的運算。對于一些未采集全的數據,我們則通過相關字段進行初步預測。對于一些明顯偏離實際意義的數據,在送入計算前,進行排除,以防止對結果的干擾。
城建檔案大數據分析平臺設計有BI 分析功能。通過儀表盤、靈活查詢、電子表格、多維分析、數據挖掘等方式,監控關鍵指標,分析并掌控業務發展趨勢,保持與戰略的步調一致。儀表盤旨在讓用戶了解完整的業務活動,能夠以個性化的方式來監控KPI、衡量KPI,管理預警和異常;靈活查詢平臺,可以滿足用戶在不需要復雜培訓的條件下,能夠自己創建查詢報表、圖表;電子表格可滿足各種復雜格式的監管報表、內部管理報表的需求;基于多維分析技術,用戶可以從任意角度探察和分析以任何形式組合的數據;系統集合了大量數據挖掘的算法,支持多種挖掘模型,并提供圖形化的操作方式。
數據碰撞分析面向業務人員,提供便捷高效的可視化業務模型開發能力。所開發的模型主要是基于一個或多個數據源進行數據碰撞分析,最終計算得到業務人員期望的目的數據。數據能夠支持固化落地,便于其價值長期保留,并為進一步的數據分析提供基礎。
數據碰撞分析工具整體架構基于大數據平臺運行,通過spark 計算完成分析并輸出結果,用于支撐應用系統的數據展現。核心功能分為模型編排、模型執行、模型共享、算子以及數據目錄,如圖2 所示。
1.檔案資源數據統計
提供單一數據的統計分析功能,主要針對城建檔案的資源數量情況進行統計和分析,通過下述各類單一的數據統計結果,組合形成不同的分析決策主題,主要統計如下:文件數量的分類統計和分析、同類工程案卷數量的對比分析、現行權重文件產生量與歸檔量的對比分析、永久檔案與定期檔案數據的對比分析、不同類型載體檔案數量的對比分析、不同地域不同系統檔案移交量對比分析、不同時期檔案數量對比分析、不同密級檔案數量對比分析。上述8 項單一統計,皆可自由組合,根據需求形成組合性的統計報表,或者上述單一統計多項組合形成不同的業務應用分析專題。

圖2 數據碰撞分析設計架構
2.檔案資源質量統計
主要是對館藏或者主管范圍內的檔案質量情況進行統計和分析,包括:檔案資源載體和信息完好度分析、檔案全文數據質量分析、檔案縮微情況分析、檔案修復情況分析、檔案著錄情況分析、目錄數據庫情況分析等。
3.檔案數據分析應用
通過上述“檔案資源數據統計”和“檔案資源質量統計”等十多個類型單項或者組合統計,可以直接形成面向檔案館業務管理方面的分析應用,包括:檔案資源的豐富度鑒定、數據質量問題處理分析、可能存在的檔案資源分布點一覽、電子文件著錄和檔案目錄數據庫優化、檔案質量優化分析、年度業務數據統計分析等。
面向社會公眾,平臺可進行檔案利用效益統計和分析,例如采集被搜索、被下載、被查閱的“案卷題名”“案卷類別”、文件相關的“主題詞”、聲像相關的“文件題名”等,統計查詢、下載、搜索的次數,為社會公眾搜索檔案提供方便。還可以進行檔案檢索效率統計分析,例如針對某類檔案資源在某一特定時間內檢索次數和頻率較高的情況,在這一時間階段內優化該類數據資源的檢索效率。此外,該平臺還可以預測檔案利用趨勢,例如對每年的熱點(如人大會議、抗日紀念等)會涉及的檔案數據需求量進行預算,精確定向生成相關數據利用熱點和趨勢分析,并具備提供相應檔案數據的能力。
面向建設單位,平臺可以根據業績擇優推送單位(機構),驗證核實中標單位,預測分析工期等。面向勘察單位,平臺提供已建建筑的改擴建項目的勘察及設計、項目地塊周邊地址分析等,勘察單位通過參考以前工程的勘測報告,可以為今后的項目地勘提供數據經驗。面向設計單位,平臺提供快速設計模型參考、設計影響數據分析、質量維護保養信息等。面向施工單位,平臺提供工期規模和工期預測分析、投標策略分析、現場設備材料核實分析、施工問題輔助方案等。面向監理單位,平臺提供企業資質業績核實、施工問題輔助方案等。
面向主管部門,平臺提供從業主體數據統計、項目工程數據分析、誠信數據比對分析、項目全生命周期監管、綜合性決策分析等分析模型。從業主體數據統計主要實現數據匯總、主體類型占比和地域分項統計數據等信息;工程項目數據分析,通過大數據分析系統匯總各類項目數量、金額、標段數等,通過數據圖表方式進行展示;誠信數據比對分析,按照不同的企業類型進行分析排名統計,并形成均分進行比對,為領導決策提供匯總結果;項目全生命周期監管,整合建筑市場各業務節點現有數據及信息資源,通過有效的數據串聯關系,記錄工程項目從市場到現場所有業務環節中的行為與表現,并在平臺中進行立體和形象化的展示;綜合性決策分析,系統提供統計業務執行過程中的異常情況,并按各年度各月份進行顯示,為監管部門綜合性決策提供參考。
城建檔案在城市規劃建設中發揮著重要的指導作用,它記載了城市建設的過去,也能影響城市可持續發展的未來,利用好城建檔案可以少走彎路,避免資源浪費,助力科學決策。在大數據時代背景下,建設城建檔案大數據分析平臺可以改變傳統的檔案接收管理模式,提高檔案利用率,推進城建檔案數字化的進程,使城建檔案更好地為人民服務,對城市規劃建設乃至社會的發展都有著長遠而積極的影響。