





關鍵詞:智慧工地;工程智慧建設;數據質量評價;層次分析法
中圖分類號:X82 文獻標志碼:B
前言
中國十分重視數字經濟、數字化轉型改革的深化發展與實施落地。智慧工地作為傳統工程建設方式的轉型升級方向,是通過物聯網、智慧管理平臺實現對于工程現場的數據和信息進行收集、分析及處理,實現作業現場的協同高效管理。隨著工程建設領域的信息化建設不斷深入,大量數據資源不斷積累,為數據分析、知識發現提供了大量的基礎數據資源。但數據異常、冗余與缺失等數據質量問題也日益突出,嚴重影響數據的進一步應用與增值,是工程建設行業數字化升級的一大阻礙。
1研究現狀
通過數據質量評價,可以發現數據中存在的問題,是提升數據質量的動力和風向標。數據質量評價研究由來已久,主要以通用數據質量研究為主。科學評價一般涉及評價模型、評價指標、評價方法和評價應用等重要方面。
賀文嬌提出了基于數據質量評價的目標估計方法。利用目標數據質量評價方法,對不同傳感器得到的目標數據質量進行科學、有效的測度和評價,并根據質量得分動態調整各數據源在目標估計過程中所占的權重,從而減少人工干預,提高目標估計效能。郭莉等針對以能源大數據增值服務的商業模式研究不足的現狀為出發點,提出通過構建多維度數據質量評價指標體系,得出了影響能源大數據增值服務商業模式的關鍵因素,為統籌規劃和科學實施提供參考。劉桂鋒等通過文獻調研和分析,依據“3W原則”,評價對象、評價體系構建視角、評價方法、評價技術等角度對相關研究進行系統梳理和內容述評。曹文章基于當下數據質量研究現狀,結合工程建設業務實際,構建智慧工地揚塵監測數據質量評價體系,對智慧工地的揚塵監測數據質量進行評價。
2建設工程數據質量評價指標體系構建
2.1監測數據特征分析
智慧工地系統采用物聯網技術自動采集工地現場的數據,主要包括揚塵監測、噪聲監測、視頻監控、車輛沖洗監測等數據。其中,揚塵監測每次采集的數據包括PM2.5、PM10、TSP(總懸浮顆粒物,空氣動力學當量直徑≤100μm的顆粒物)、天氣、風向、風力大小等數據,該數據每分鐘一條記錄。揚塵監測數據的采集容易受工地環境、設備電力供應的穩定性、設備的安裝位置、人為因素等因素的影響。
2.2監測數據質量評價一級指標分析
為了保證評價指標體系建設的科學性,文章首先參考中國關于數據質量評價指標的標準GB/T36344-2018,再根據各省市關于工程信息化制定的相關標準規范以及相關領域的數據質量評價的研究,得到了數據質量評價指標框架。
數據規范性:是指信息化工作需要具有統一的標準,能夠與相應的數據準則接軌。
數據完整性:描述在指定業務規則要求下,數據集中應被賦值的數據元素以及數據記錄的賦值程度。
數據準確性:描述屬于是否與相對應的客觀實體之間的特征一致。
數據一致性:描述同一數據在不同存儲位置以及與特定的關聯數據之間無矛盾的程度。
數據時效性:描述數據在時間變化中的正確程度。
數據可訪問性:描述數據在需要時的可獲取性以及有效生存周期的可使用性。
2.3監測數據質量評價二級指標分析
在相似的數據質量評價過程中,針對實際應用場景的分析對這類因素均未納入到構建的指標體系之中,而在實際的數據收集過程中,更能夠實現數據的實際情況。所以文章在構建智慧工地數據質量體系過程中,剔除該方面因素。在構建數據準確性的指標過程中,將數據的準確性轉化為影響工程建設數據質量的異常類型的反向指標。最終構建基礎評價體系見表1。
3智慧工地數據質量評價模型構建
對數據的基礎篩選,先提出從數據的完整性、準確性以及時效性等角度進行分析。根據上述建立的模型計算得到每個評價指標的權重,并得到具體數據的得分計算。
3.1基于AHP的評價指標權重計算
此次專家調研隨機抽取了本領域相關研究專家15名。問卷有效性判斷主要是根據問卷填寫的完整性、答案是否有明顯的連續重復等規則,并以此構造判斷矩陣。
首先對于專家評價結果進行數據分析,得到的一級指標與二級指標的判斷矩陣一致性比率CR均小于0.1,認為判斷矩陣的一致性可以接受,專家的打分比較合理,自洽程度較好,通過了一致性檢驗,最終得到的權重見表2。
3.2評價指標的定量計算
建立以上工程數據綜合評價體系之后,選取了數據的完整性、準確性以及時序性三個層面的8個具體指標采用客觀統計計算每個指標的具體得分。
其中,P1a,P1b分別從數據元素存在固定值異常比重、數據記錄的完整性對數據的完整性評價。
P1a是通過遍歷數據集,計算出缺失值的數量,通過具體占比計算出得分。
P1b則是先以小時為單位,將項目中同一設備的數據按記錄時間進行升序排序并得到每小時的數據記錄完整性得分,再進行加權平均,求出統計時間內數據記錄完整性的得分。
4實證分析
4.1數據來源
文章采用的數據集是來自于N市的13個行政區內2022年9月16日00:00:00至2022年9月22日23:59:00之間工程建設項目上有效運行設備的實時監測數據。項目類型包括房建工程、市政工程、軌道工程、交通工程、水利工程以及園林工程6種。
4.2評價過程
針對于揚塵監測設備采集的數據質量的分析,從上文中劃分的每個得分區間中隨機抽取一組數據進行進一步分析,具體抽取數據結果見表3。
在數據完整性中,該項數據指標的平均得分為95.66分。其中以在數據元素完整性的表現較好的設備1為例,在數據采集區間內目標量為10080條,而實際采集的數據數量為10037條,達到了目標數據量的99.57%。由于施工單位工程建設現場的調整進行的設備更新,導致設備狀態未進行有效更新。數據記錄的完整性,則以小時為單位,考慮在每個時間段的數據量完整程度。以設備4例,其在數據采集區間內同時出現了在部分時間段數據采集過頻,同時9月17日5時至9時之間未采集任何數據。因此數據元素的賦值程度較高,但是數據的記錄在部分時間段出現嚴重缺失的現象。
在數據正確性方面,該項數據指標的平均得分為69.55分。其中數據固定值異常描述的采集的數據集異常懸停在某個數據的時間窗長度在總的時間窗的比重。如圖1(b)所示,設備6采集的結果只在極小的數據范圍內進行上下震蕩波動。數據的重復性異常是在相同的時間點上傳多次重復上傳數據的占總數據量的比重,該指標下,項目設備的整體表現較好。數據相關性異常則是考察采集數據集中各要素之間的相關性,主要由無效采集導致的相關性異常。如圖1(c)為設備3采集的實時采集揚塵記錄值,其中PM2.5與PM10之間的相關性異常率極低,但在TSP的數據采集上,采集數據值恒為0,因此設備3在相關性評分上明顯下降。數據參考性異常則是檢測設備的采集數據與N市中離該設備所在項目最近氣象監測點的實際統計數據的比較。如圖1(d)所示,設備6的PM2.5的采集值在13左右上下波動,且在該時間段記錄值均未超過國標點記錄值。進行完整數據評價后,該項數據的恒值異常指標得分為0.6分,同時參考值異常得分為41.37分,該設備在統計期間盡管持續上傳數據,但采集狀態大部分處于異常狀態。
在數據時序性方面,該項數據指標的平均得分為76.09分。主要描述的是持續變化的時間正確程度。盡管大多數的時間段內數據采集出現缺失值的現象,但是總體取得數據量與目標量之間的差距并不大。基于時間點的正確性,該指標的平均得分為84.75分。是通過判斷相鄰上傳數據頻率是否為1分鐘/次來表現設備上傳的頻率達到要求頻率的程度。
5結論
文章以智慧工地建設為背景,探索智慧工地新背景下數據質量評價的關鍵因素,構建基于領域知識的數據質量評價體系。在理論層面,彌補了智慧建設領域數據質量評價體系的空缺;在實踐層面,對海量時序數據的及時評分,實現了數據驅動的遠程項目監管。工程建設數據質量影響因素在傳統的分析模板中,主要受到數據的規范性、完整性、準確性、一致性、時序性以及可訪問性六個方面的影響。文章結合工程建設的實際情況,通過案例研究驗證傳統數據質量影響因素的可靠性。結論得出數據的完整性、準確性和時序性三方面因素是工程建設中數據管理的關鍵控制因素。