文|廣州市建設工程質量安全信息化管理行業協會 黃儉 廣州粵建三和軟件有限公司 萬普華
工程質量安全事關人民群眾切身利益和經濟社會發展。由于工程項目建設時間跨度大、施工工序多、責任主體和相關單位多、質量安全影響因素復雜、管理難度高,任何一個環節或要素的疏忽都可能對工程質量和安全造成影響,因而加強工程建設過程中的信息共享和信息交流就成為有效控制工程質量和安全的重要條件之一。廣州市建設行業近年來大力推進工程質量安全管理信息化工作,先后建立了工程質量檢測監管系統、混凝土質量追蹤和動態監管系統、地下工程和深基坑監測預警系統、起重機械安全監測監管系統、高支模安全監測系統等,將工程質量安全管理的主要關鍵節點基本都納入了信息化管理,取得了較好的應用效果。但由于各系統是由不同職能部門負責并陸續建成投入運行的,各系統數據的完整性、一致性和實時性都不一樣,對系統運用效果形成了制約,尤其是在處理跨部門或跨區域的質量安全問題時更難以形成監管合力。因而,利用大數據技術實現全行業信息充分共享和管理聯動已是迫在眉睫。
大數據技術是指從體量大、類型復雜的數據中快速獲得有價值信息的技術,具有體量大(volumes) 、數據類別復雜(variety)、數據處理速度快(Velocity)和數據真實性高(Veracity)等4V特點。其關鍵技術主要包括數據采集、數據預處理、數據存儲及管理和數據分析及挖掘等:
1)大數據采集技術:通過利用RFID、二維碼、傳感器等物聯網及移動互聯等方式獲得各種類型的結構化、半結構化(或稱之為弱結構化)及非結構化的海量數據。
2)大數據預處理技術:對已接收的具有多種結構和類型數據的辨析、抽取、清洗等操作,從而提取出有效數據。
3)大數據存儲及管理技術:把采集到的數據有序、高效地存儲起來。
4)大數據分析及挖掘技術:利用數據挖掘算法從海量數據中分析并獲得有價值信息。
目前,廣州市建設行業已建成并在運行的信息系統有幾十個,其中多個系統都與工程質量安全管理相關,僅在最新投入運行的“廣州市建設工程一張圖管理信息系統”就分別從各系統中抽取了十六類有關工程管理信息,基本覆蓋了全市2000多個工程、3000多家企業,而且大部分數據均自動采集、實時更新,其中僅就起重機械安全監測監管系統一個數據源來看,每天通過安裝在工地現場各起重機械上的傳感器自動采集的數據量就達到2G,并且這些海量的、來自不同信息系統、結構各異的數據不是簡單地匯總,而是要從中找出關聯性并為行政主管部門和各類企業提供有價值的信息服務。因此,工程管理本身所具有的特點就決定了工程質量安全數據服務平臺所面臨的數據處理要求完全符合大數據技術的4V特點。
根據ESM國際電子商情針對2013年大數據應用現狀和趨勢的調查,結果顯示:被調查者最關注的大數據技術中,排在前五位的分別是大數據分析(12.91%)、云數據庫(11.82%)、Hadoop(11.73%)、內存數據庫(11.64%)以及數據安全(9.21%),大數據分析成為最被關注的技術。大數據分析的理論核心就是數據挖掘算法,即利用各種統計方法深入數據內部,挖掘出隱藏在海量數據背后的有價值信息。因而,利用大數據技術,尤其是各類數據挖掘算法,實現工程管理領域的智能化具有重要的現實意義。
平臺以大數據技術為核心支撐,以工程質量安全數據服務為主線,體系架構如圖1所示。平臺由應用層、數據服務接口層、數據推送引擎層、大數據存儲和索引層、實時流挖掘層、大數據收集層和質量安全數據源層等組成。

圖1 平臺體系架構圖
工程質量安全數據源包括一切可獲得的工程質量安全相關數據,典型的數據包括工程項目基本數據、工程形象進度數據、分部驗收數據、安全評價數據、深基坑監控數據及數據分析結果數據、高支模實時監控數據及安全狀況判斷結果數據、起重機械實時監控數據及安全狀況判斷結果數據、混凝土生產和施工質量數據、工程檢測數據、綠色施工評價數據、揚塵噪音監控數據、日常監督執法數據以及企業獎懲記錄數據和誠信評價數據等,其中還包括了RFID、二維碼、GPS定位、影像和視頻等各類復雜數據。這些海量的數據由大數據收集器負責收集,收集器的功能包括來源認證、快速接受、預處理以及快速持久化等。收集的數據形成實時流,為了提高數據服務的及時性,會使用過濾、規則匹配、分類和聚類等算法對流數據進行挖掘。預處理的數據和挖掘的數據會進行全文索引,在分布式的集群環境下存儲、查詢和檢索。數據推送引擎使用協同推送、內容推送、上下文推送和社會化推送等推送算法對存儲的大數據進行搜索和分析處理,形成精準的推送數據。這些數據通過普適的接口推送各類建設工程質量安全領域的應用或系統,并最終展現給用戶。數據推送接口層的功能主要包括應用認證、應用授權、數據推送和效用評價等功能。
數據服務平臺的數據來源為所收集的工程質量安全的實時或非實時數據,具有無限性、實時響應性、和不可再現性等特征,因此,實時流處理框架和規則匹配、貝葉斯分類、頻繁項挖掘等流式挖掘算法尤為重要。例如深基坑監控數據、高支模監控數據以及起重機械監控數據均為實時自動采集,系統要求根據數據的實際情況做出實時響應,一旦根據規則匹配判斷出安全隱患狀況需及時作出預警響應。圖2為起重機械監控系統實時監控數據采集界面。

圖2 起重機械監控系統實時監控數據采集圖
數據挖掘主要是利用各種統計方法深入數據內部進行分析,很多算法的應用依賴于大樣本的前提。例如利用ABC分類法,我們可以在通過工程質量檢測監管系統和混凝土質量追蹤系統采集的大樣本數據基礎上,對各施工企業的混凝土工程施工質量控制水平作出評價,即按時間段(年度或季度)匯總統計不同施工企業所有同條件養護試塊的強度值低于設計強度值的組數,按照組數由大到小進行排列并計算出累計頻數和累計頻率,其中累計頻率在0%~80%的施工企業為質量控制水平偏低企業,列為重點監督對象,對其加強檢查并督促整改;累計頻率在80%~90%的施工企業為質量控制一般企業,按正常監督管理即可;累計頻率在90%~100%的施工企業為質量控制優秀企業,可適當放寬檢查力度。
數據服務平臺的關鍵之一是快速準確的從海量數據中搜索出所需要的信息。本平臺采用基于全文索引的大數據搜索。索引就是將數據中具有檢索意義的詞項按一定的方式有序排列起來,以方便檢索。索引是檢索的前提和基礎,實現某種檢索功能,應先建立對應的索引機制。索引技術影響著信息檢索的效率,是支持文本有效檢索的關鍵技術。索引性能的優劣直接影響檢索的質量。因此,全文索引技術在搜索引擎中起著至關重要的作用。本平臺建立了工程質量安全關鍵詞庫,通過倒排索引方式建立了全文索引,實現了對各類專項施工組織設計方案及審查意見、質量安全整改通知及回復等非結構化文件的大數據搜索。
數據服務平臺以海量的數據為信息來源,依賴于對海量數據的有效存儲和查詢。為了能夠滿足海量數據容錯存儲、高效地訪問、高并發的讀寫以及高可擴展性,本平臺采用基于NoSQL列式數據模型的數據庫來存儲、查詢和管理數據,充分吸取了Google Big table和Amazon dynamo二者的優良基因在數據模型上采用了Big table的基于列集(Column Family)的模型,在數據的分布式存儲上,使用了 dynamo 的模式,將數據散列在節點環上,節點數據的復制采用隱式傳送(Hinted Handoff)的方式,節點成員和節點錯誤探測采用稱為 Gossip的協議。通過這些技術的應用,本平臺實現了日增量數據近TB級的大數據存儲。
國家住房和城鄉建設部于2014年9月1日印發了《工程質量治理兩年行動方案》,明確要求健全工程質量監督機制,創新工程質量安全監督檢查方式,對工程質量安全實施有效監督,并提出要在2015年底前完成建筑市場和工程質量安全監管一體化工作平臺建設,實現“數據一個庫、監管一張網、管理一條線”的信息化監管目標。本文所探討的應用大數據技術對質量安全數據進行一致的整合、分析處理和應用,可將企業和行政主管部門的信息化成本降到最低,為工程質量各相關方的協同工作和監管提供支撐和保障,必定能大大加快行業的信息化進程,真正落實《工程質量治理兩年行動方案》。