趙磊
一、建筑施工領域大數據研究現狀與前瞻
建筑業是數據量最大、業務規模最大的大數據行業,但同樣是當前數據管理最落后的行業。客觀地說,建筑業信息化、大數據始終難發展起來,與這一行業的本質也有較大關系。建筑業生產的復雜性,導致互聯網充分應用、大數據成為生產力的技術難度十分巨大。我國建筑行業已經針對施工建造行為、物項實現了集成管理,并積累了海量數據。目前很多企業開展了大數據咨詢項目,旨在根據業務現狀制定出切實可行的大數據平臺方案,將新時代的科技成果與企業的業務相結合,實現數據挖掘和分析利用,充分發揮出建筑數據的價值。
(一)技術標準的制定與優化的現狀
通過長期的建設實踐,我國建筑施工行業正在建立健全標準體系。
然而,在大數據時代下,行業標準體系、企業標準體系建設仍然有很大的改進空間。一方面源于對該項工作的認識程度所限,另一方面傳統定額測定方法費力、耗時。基于經驗數據、現場測定、工作視頻等,結合大數據的理念,針對特定群體、特定組織文化,有可能實現工效的真實反映乃至于實時反映。
(二)現場施工的技術服務保障中大數據的應用前瞻
相比于國外先進的建筑業企業,我國最優秀的技術力量、最富經驗的技術人才大部分沉淀在項目上,圖紙及規格書以外的廣義數據、處理質量事故的經驗數據也都分散于項目之中,并隨著項目任務的結束而逐漸消散。
建造施工必須采用精細化管理方式,專業分工程度非常高,這種結構已經為數據的積累提供了天然的基礎。通過分析這些數據,我們可以找到質量缺陷的共模因素,通過適當的統計分析我們也可以找出影響質量穩定性的關鍵因素。甚至可以通過移動終端的APP應用,即時指導現場的施工作業。
在高質量的完成工作任務,需要進一步挖潛大數據資源,發現并盤活信息資產,重新定義并持續打造企業的核心競爭力。
(三)安全文化行為大數據應用前瞻
我國建筑施工行業擁有幾十萬人的從業大軍。這些從業人員每人每天都與互聯網發生關系,在互聯網上存儲了大量的公開信息。此外,通過一定途徑可以掌握從業人員的教育背景、成長環境、心理素質、駕駛習慣、規則的遵守情況、無人監督下的公德行為、即時通訊工具的信息統計等等廣義數據。這些數據通過計算機完成定量轉化,并結合有關案例進行相關性分析后,有可能揭示質量事故偶然性與必然性之間的聯系,可以用于實時評價個體的行為趨勢,進而做出預測和判斷。
未來,有必要建立企業核心競爭力的直觀化、可視化評價體系,便于自我評價和改進,進而提高客戶的滿意度,最終提升客戶的忠誠度。
二、建筑施工領域數據特點
客觀地說,建筑施工領域信息化發展緩慢,與行業的本質有較大關系。建筑施工領域生產的特殊性與復雜性,導致其進行信息化改造的技術、制度難度十分巨大。其數據存在以下特點:
首先,數據維度比較復雜,數據結構多樣,簡單來看,既有建筑類數據,如建筑造價類數據、建筑結構類數據、建筑施工工藝類數據、建筑材料類數據,也有管理類數據,并且不同數據的形態也不盡相同。
其次,行業鏈條多,參建方多,數據資源分散在不同單位手中,數據資源的整合存在一定困難。例如,管理類數據包括人力資源數據、財務數據、質量數據、安全數據、項目數據等等,由于關注點及顆粒度的不同,以月報等類型分散在從總部到各成員單位以及項目部的各個層面。而對于業務類數據來說,主要的設計數據都存在于業主或設計單位,大量的甲供物資采購信息及供應商信息也都在業主手中。
再次,隨著建筑信息化建設的升級,其施工管理系統歷經了幾代發展,各系統之間的數據繼承性較差。另外,還有大量的技術性文件以CAD、紙質文檔等方式分散于各單位。
最后,隨著信息化技術的發展,“十三五”期間,移動互聯、物聯網等新技術逐步應用于建筑施工領域,由此帶來了數據量的爆發式增長,也為建筑施工領域數據的管理帶來新的考驗。
三、建筑施工領域數據初步質量分析
本文對信息系統涉及的施工項目管理數據進行質量分析,為建筑施工領域大數據平臺的設計提供參考,同時為集團數據質量標準的進一步完善提供依據。
(一)數據質量概念
數據質量是保證數據應用的基礎,它的評估標準主要包括四個方面:完整性、一致性、準確性、及時性。評估數據是否達到預期設定的質量要求,就可以通過這四個方面來進行判斷。
1. 完整性
完整性指的是數據信息是否存在缺失的狀況,數據缺失的情況可能是整個數據記錄缺失,也可能是數據中某個字段信息的記錄缺失。
2. 一致性
一致性是指數據是否遵循了統一的規范,數據集合是否保持了統一的格式。數據質量的一致性主要體現在數據記錄的規范和數據是否符合邏輯。邏輯指的是,多項數據間存在著固定的邏輯關系。
3. 準確性
準確性是指數據記錄的信息是否存在異常或錯誤。和一致性不一樣,存在準確性問題的數據不僅僅只是規則上的不一致。最為常見的數據準確性錯誤就如亂碼。其次,異常的大或者小的數據也是不符合條件的數據。
4. 及時性
及時性是指數據從產生到可以查看的時間間隔,也叫數據的延時時長。及時性對于數據分析本身要求并不高,但如果數據分析周期加上數據建立的時間過長,就可能導致分析得出的結論失去了借鑒意義。
(二)分析方法介紹
本文使用RapidMinerStudio免費版進行建筑施工數據質量的分析。
1. 分析工具使用方法
下圖為RapidMiner的主界面。
下圖為RapidMiner的數據加載界面,本課題將通過系統組裝之后的數據導出為CVS文件,通過本地文件加載的方式導入到RapidMiner中。
數據加載完成之后,通過拖動的方式,將需要分析的數據源置入流程中,并選擇符合要求的處理算子,本課題選擇filter算子,將算子也拖入流程中,如下圖所示。
選擇算子之后,需要對算子的參數進行設置,filter算子可以過濾出符合字段要求的數據。
算子參數設置完畢之后,點擊菜單欄的運行按鈕,下圖為運行結果。
運算結果也可以通過可視化的方式進行展示,如圖6所示。
2. 分析過程與結果
1)數據來源
對目前建筑施工管理系統的各類數據進行質量分析,本次分析選取其中的關鍵數據進行分析,如下表所示。
(三) 數據質量分析
基于數據質量的定義,利用分析軟件及人工檢查的方式做以下項目的檢測:
空值:數據值域為空的數據
唯一性:數據本應唯一,但卻重復出現的數據
1. was拆分數據分析
根據上述指標項定義,was拆分數據存在如下問題:
存在某些指標項實際錄入時漏錄或不錄的數據;
存在全部為空的字段;
存在重復記錄。
主要指標數據指標項檢查,問題如下:
2. 托盤安裝進度數據分析
根據上述指標項定義,托盤安裝進度數據存在如下問題:
存在某些指標項實際錄入時漏錄或不錄的數據。
主要指標數據指標項檢查,問題如下:
3. 主地線進度數據分析
根據上述指標項定義,主地線進度數據存在如下問題:
存在某些指標項實際錄入時漏錄或不錄的數據;
存在未填充數據的字段。
主要指標數據指標項檢查,問題如下:
4. 預計數據管理分析
根據上述指標項定義,預計數據管理數據存在如下問題:
存在某些指標項實際錄入時漏錄或不錄的數據;
存在未填充數據的字段。
主要指標數據指標項檢查,問題如下:
5. 預計數據管理分析
根據上述指標項定義,預計數據管理數據存在如下問題:
存在某些指標項實際錄入時漏錄或不錄的數據;
存在未填充數據的字段。
主要指標數據指標項檢查,問題如下:
四、結論及建議
(一)結論
通過以上的數據質量分析,結合人工檢查中發現的問題,可得到如下結論:
系統開發人員離職造成數據文檔丟失,很多數據庫表及字段的定義、數據規則丟失,給數據理解帶來很大不便;
某些業務功能對應的數據庫表字段結構改變,從業務軟件組裝、導出數據時出錯;
數據漏錄或不錄的情況普遍;
存在重復保存的數據;
某些字段的默認數據設置規則不一致,如有的日期字段默認為“0000-00-00”,有的則為空;
存在大量字段為空的情況,有的表中的某些字段全部為空;
數據錄入規范不一致,例如有的人員姓名字段為漢字,有的為漢字拼音。修改狀態字段,有的為漢字,有的為數字,有的則為英文編碼。
(二) 建議
數據質量問題貫穿于項目的整個生命周期,對企業的實際生產運行影響巨大,結合以上發現的問題,建筑施工領域信息化管理中的數據質量控制要從技術、流程和管理三個方面進行:
從技術層面上,建筑建設管理信息系統存在噪音數據、遺漏數據和不一致性數據,需要進行數據清洗,同時需要對源數據做稽核。
在流程層面上,對于源數據的抽取要遵從一定的業務規則,數據的抽取和轉換需要很多步驟來完成,這就需要將過程流程化,并且流程可通過配置來實現。
在管理層面上,要求生產系統報送數據,按照“誰提供數據,誰負責”的原則由生產系統保證源數據的完整性、準確性、一致性、時效性。