999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據中臺的建筑業數據清洗算法研究

2024-06-03 03:28:24曾莎潔陶興張承雄
信息系統工程 2024年5期
關鍵詞:機器學習

曾莎潔?陶興?張承雄

摘要:數據清洗是對臟數據進行檢測和修復的過程,是進行數據分析應用的前提。對數據缺失、數據重復、數據錯誤這三種數據噪聲的檢測技術進行詳細闡述,按照數據清洗方式對數據修復技術進行分類概述,包括基于規則的數據清洗算法、基于統計的數據清洗算法和人工智能技術的數據清洗算法,并提出了基于數據中臺的數據獲取、清洗、服務架構,結合建筑領域數據特征進行了算法適應性分析,可為建筑領域的數據治理和應用提供重要參考。

關鍵詞:數據中臺;數據清洗;機器學習;ETL;建筑業

一、前言

在建筑業,隨著BIM等數字化技術的發展,工作模式已逐漸向標準化和結構化推進,并依托模型數據實現精細化管理。通過物聯網技術實現多元數據采集和傳輸,極大拓展BIM信息來源,確保數據實時、準確[1]。通過云計算技術實現數據的分布式存儲,使項目不同參與方、不同業務領域、建筑不同階段之間的數據能夠共享與管理,提高BIM的協作能力,為共享、使用BIM數據奠定基礎[2]。數據挖掘技術則可以對海量數據進行高效、深度挖掘,從而充分發揮BIM的作用[3]。比如在識別建筑典型能耗模式、建立魯棒能耗預測模型方面,數據挖掘技術相比傳統方法在診斷制冷空調系統運行狀況方面表現更優異,在處理復雜龐大的建筑運行數據上具有很高的價值。大數據技術正帶領中國建筑行業向管理數字化、建造工業化轉型,而標準化、高質量的可靠數據是這一切的重要基礎。因此,提高數據質量,特別是在建筑行業中,成為提升整個行業數字化水平的關鍵步驟。

二、研究背景

數據分析的基礎是數據清洗。大數據的特點是數據體量大、數據類型多,數據質量參差不齊,將這些臟數據有效轉化成高質量的干凈數據是體現數據價值、發揮數據服務作用的保障。數據清洗可以識別和修復異常數據,將異常對數據的影響降至最低,提高數據的質量。數據清洗算法的研究最早出現在美國,異常數據的類型主要包括數據缺失不完整、數據有重復冗余、數據錯誤或數據之間相互沖突。數據錯誤類型也隨著大數據技術的發展、數據編碼方式的變化、數據傳輸方式的改變而增加。同時,數據清洗技術也面臨新的挑戰,尤其是數據量的指數級增加對數據清洗效率提出了更高要求,傳統的數據清洗算法無法勝任大數據時代的挑戰,尋找高效、精準的數據清洗算法一直是困擾行業多年的難題。

人工智能技術的發展為數據清洗算法的研究提供了新思路。利用機器學習中的非監督學習算法來發現數據清洗決策的隱含規律,可以極大降低人工標注數據的工作量。同時,數據中臺的發展為數據的采集、清洗、運用提供了平臺基礎?;跀祿信_的建筑業數據清洗算法研究被提出,將平臺、數據、算法、行業有機聚合在一起,為建筑業數據質量的提升和運用提供新路徑。

三、數據中臺治理現狀

數據中臺是集數據采集、清洗、共享、數據建模、數據管理和數據服務應用于一體的應用平臺。當數據中臺中的多個數據庫匯聚的時候,表示相同實體的記錄具有不同的表示格式有可能會產生重復或沖突,進而產生重復元組檢測和清除問題。數據清洗是識別并解決元組重復和沖突問題的方法。數據挖掘前需要實現數據的檢查、缺失值和異常數據檢測和校正,因此,數據清洗也是進一步進行數據分析或數據挖掘的基礎。數據中臺面向不同服務均有數據清洗的需求,但是,目前在中臺的數據清洗算法沒有進行有效分離和整合,也沒有建立數據清洗算法庫。

四、異常數據來源分析

建筑領域數據質量問題產生的原因可能在數據生成、傳輸、存儲的任何一個環節。錯誤值包括輸入錯誤和錯誤數據。輸入錯誤是由原始數據錄入人員疏忽而造成的。錯誤數據大多是由一些客觀原因引起的,例如,建筑工地人員的變動等[4]。異常數據是指所有記錄中一個或幾個字段間絕大部分遵循某種模式,其他不遵循該模式的記錄,例如,建筑工地噪音監測數據超過歷史最高紀錄等。此外,由于建筑行業的特點,項目人員的流動性、設計變更、返工、設備故障造成數據的不一致情況,以及計量單位的不一致、建筑地址更新等其他情況也會導致數據質量問題。

五、基于數據中臺的數據清洗架構

(一)總體架構

基于數據中臺的數據清洗架構由四部分組成,包括數據采集、數據存儲、數據清洗、數據服務,其總體架構如圖1所示。

(二)數據ETL

在數據中臺中,數據ETL是對包裝器和監視器提取的數據進行匯聚、轉換,然后形成聚合數據,供后續的數據清洗使用。數據源的數據通過包裝器和監視器抽取到數據倉庫中進行預處理,其過程如圖2所示。監視器監控數據源的變化,包裝器進行數據源數據的抽取。

(三)數據清洗

數據中臺中的數據清洗過程如圖3所示。清洗過程包括四大步驟,數據交互、異常數據檢測、異常數據修復和數據可視化。交互模塊實現與數據湖的數據獲取以及清洗規則的載入。異常數據檢測模塊實現基于檢測算法的噪聲數據檢測。異常數據修復模塊實現基于數據修復算法的數據修復。可視化模塊實現數據清洗結構的可視化展示、與數據倉庫的交互,并最終通過數據中臺提供數據服務。

六、數據清洗算法

(一)異常值檢測與修復

1.異常值檢測

在建筑領域,異常值檢測是數據預處理的一個重要步驟,異常值檢測的方法包括統計方法Z-Score、IQR,以及機器學習方法DBSCAN和Isolation Forest共四種。

Z-Score方法基于統計學原理通過計算數據點與平均值的差除以標準差來判斷數據點是否為異常值。Z-Score適用于符合或近似正態分布的數據集,對于非正態分布的數據,效果會下降。

IQR方法通過計算數據的第一、四分位數(Q1)和第三、四分位數(Q3)之間的距離來識別異常值。在智慧城市的交通流量監測中,IQR可以用來識別異常的交通流量數據。例如,由于事故或特殊事件導致的流量突增或突減,從而幫助城市管理者優化交通流和減少擁堵。

DBSCAN是一種基于密度的聚類算法,能夠識別出高密度區域中的核心樣本、邊界樣本和噪聲點(異常值)。DBSCAN特別適合處理具有復雜形狀和大小的數據集。

Isolation Forest是一種基于樹的異常值檢測算法,適用于高維數據的異常值檢測。該方法通過隨機選擇特征和隨機選擇切分值來孤立觀察值,異常值的孤立程度通常比正常點要高。在安全監控和環境監測項目中,Isolation Forest可以有效識別異常的監控圖像或環境指標讀數。例如,不尋常的溫度變化或空氣質量突變,可能預示著火災、污染事件或設備故障。

2.異常值修復

異常值的修復算法可根據數據的應用場景靈活選擇,以下是常用的異常值修復算法,適用于建筑領域不同的應用場景。

(1)中位數填充

使用中位數進行填充是將一組數據從小到大進行排列,取其中間位置的數進行填充。若數據量為偶數個,則取中間位置的2個數的算術平均值。

在建筑成本估算或城市規劃項目中,中位數填充適用于處理由于缺乏完整記錄或數據收集不一致而產生的缺失數據。例如,若某個區域的建筑材料價格存在缺失值,鑒于價格數據可能因為極端市場波動而出現波動,使用中位數填充可以避免極端值導致的偏差,從而提供一個穩定的價格估算基礎。

(2)眾數填充

用一組數據中出現次數最多的數值進行填充。眾數填充特別適合于處理建筑和智慧城市項目中的分類數據(如建筑類型、設施用途等)缺失。在城市交通流量研究中,如果部分交通節點的類型數據(如車站、十字路口等)缺失,使用眾數填充可以確保數據的完整性,同時保持對城市交通模式分析的準確性。

(3)最近鄰插值填充

最近鄰插值(K-最近鄰,KNN)填充是一種基于相似度的數據填充方法,其基本思想是找到缺失值點最近的K個“鄰居”,然后用這些“鄰居”的數據通過某種方式(如算術平均、加權平均等)來填充異常值。

最近鄰插值可以應用于城市規劃和建筑設計中的空間數據處理。例如,在處理城市熱島效應研究中的溫度數據缺失時,可以利用地理上相近區域的溫度數據進行插值。

(4)前向/后向填充

使用缺失數據的上一條數據或下一條數據進行處理。前向填充和后向填充適合處理建筑工程項目中的時間序列數據,如施工進度報告、材料供應記錄等。在處理這類數據時,如果某一天的記錄缺失,可以假設短期內施工進度或材料需求變化不大,因此使用前一天或后一天的數據進行填充是一種實用的方法。

(5)回歸法填充

根據已有數據和與其有關的其他變量的數據建立擬合模型來預測異常的數值,根據數據建立一個回歸模型,然后使用這個模型來預測缺失數據的值。這種方法特別適合于數據之間存在明顯線性或非線性關系的情況。

回歸法填充適用于數據分析類情況,特別是當數據之間存在明顯的相關性時。例如,在分析城市能耗模式時,如果某些建筑的能耗數據缺失,可以基于建筑面積、使用人數、建筑類型等其他變量建立回歸模型來預測缺失的能耗數據。這種方法可以幫助城市規劃者和建筑設計師更準確地理解能耗分布,進而制定更有效的能源管理策略。

(6)幾何平均值填充

幾何平均值是所有數值乘積的n次方根,用于不同數量級的數值的平均,如增長率。幾何平均值填充適用于處理成倍增長或減少的數值數據,特別是當數據分布偏斜或需要計算平均增長率時。例如,在分析一系列建筑材料成本的年增長率時,如果部分年份的數據缺失,使用幾何平均值填充可以更準確地估計長期趨勢,因為它能夠充分考慮到數據的乘性增長特性。

(7)調和平均值填充

調和平均值是一組數值倒數的算術平均值的倒數,適用于計算平均速率。調和平均值填充適合于處理速率或比例相關的數據缺失,特別是當數值不能簡單通過算術平均來代表整體時。在交通流量分析中,如果某個時間段內的車輛平均速度數據缺失,使用調和平均值填充可以更準確地反映車流的平均速度,尤其是在交通狀況復雜、速度變化大的情況下。

(8)加權平均值填充

加權平均值是每個數值乘以一個權重,然后加總的結果除以權重的總和,適用于不同數值有不同重要性的場合。加權平均值填充考慮了不同數據點的重要性或可靠性差異,適用于數據點具有不同權重的場景。在建筑能耗分析中,如果缺失某些時段的能耗數據,可以根據不同時段(如白天和夜間)的能耗特性和重要性,使用加權平均值進行填充。這種方法特別適合于需要區分數據貢獻度或重要性的復雜分析場景。

(二)缺失值檢測與修復

缺失值檢測的目標是識別數據集中的缺失值,可以使用python中的isnull()和notnull()函數,或者Java中自定義if (value == null)代碼實現缺失值的檢測。缺失值的修復算法與異常值的修復算法相同。

(三)重復數據檢測與修復

重復數據可能由于數據錄入錯誤、數據集成過程中的重疊產生。重復數據處理方法包括基于規則的重復檢測和基于相似度的方法。

1.基于規則的重復檢測

基于規則的方法通過定義一組規則來識別重復記錄。這些規則通?;陉P鍵字段的匹配。例如,姓名、地址或其他唯一標識符。此方法的關鍵在于精確地定義哪些字段組合能夠唯一標識一個記錄,并據此檢查數據集中的重復項。

基于規則的重復檢測應用場景,比如供應鏈管理,建筑項目通常涉及大量的材料供應商和子承包商。通過定義明確的規則(如供應商名稱、合同編號)來識別和合并供應鏈數據庫中的重復記錄,可以確保材料采購和供應鏈管理的準確性,避免重復下單或支付。

2.基于相似度的方法

基于相似度的方法更加靈活,能夠識別在表面上不完全相同但本質上重復的記錄。該方法通常使用文本相似度算法來計算記錄間的相似度得分,并根據這個得分來判定記錄是否重復,包括Jaccard相似度、余弦相似度、Levenshtein距離。

七、結語

數據中臺的建設為數據的獲取、數據匯聚、數據服務打通了數據鏈路,數據清洗算法為數據質量提升、數據挖掘、數據應用提供了根本保障,基于數據中臺的數據清洗算法研究成果為建筑業數字化轉型提供了重要參考和理論技術支撐。鑒于數據總量的持續增長,以及數據質量問題的多元化,未來的研究將不斷探索更高效的數據清洗算法,以應對日益復雜的數據質量問題,數據清洗算法的研究將會是持續發展和深化的過程。

參考文獻

[1] BARACHO R M A, PEREIRA M L, ALMEIDA M B. Ontology, internet of things, and building information modeling (BIM): an exploratory study and the interrelations between technologies [C]//Proceedings of the IX Seminar on Ontology Research in Brazil and I Doctoral and Masters Consortium on Ontologies. Brazil: Universidade Federal do Rio Grande do Sul, 2017: 141-146.

[2] DING L, XU X. Application of cloud storage on BIM life-cycle management [J]. International Journal of Advanced Robotic Systems, 2014, 11(1): 1-10 .

[3] BILAL M, OYEDELE L O, QADIR J, et al. Big data in the construction industry: a review of present status, opportunities, and future trends [J]. Advanced Engineering Informatics, 2016, 30(3): 500-521.

[4]張承雄.一種基于層次分析法的建筑領域大數據質量評價指標體系及評價模型研究[J].建筑科技,2023,7(02):73-78.

基金項目:上海市社會發展科技攻關項目“面向新城建設運營的數字協同與綜合決策關鍵技術及示范”(項目編號:22dz1201500)

作者單位:曾莎潔、張承雄,上海市建筑科學研究院有限公司、上海市工程結構安全重點實驗室;陶興,中國建筑土木建設有限公司

責任編輯:張津平、尚丹

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 色妞永久免费视频| 国产精品99r8在线观看| 日韩精品亚洲人旧成在线| 欧美一区中文字幕| 国产成人精品在线1区| 中文字幕无码中文字幕有码在线| 激情综合五月网| 国产毛片高清一级国语 | 女人爽到高潮免费视频大全| 99热这里只有精品2| av免费在线观看美女叉开腿| 综合社区亚洲熟妇p| 无码中文AⅤ在线观看| 四虎国产在线观看| 国产性生大片免费观看性欧美| 伊人久久大线影院首页| 亚洲国产无码有码| 精品人妻一区二区三区蜜桃AⅤ| 成人国产免费| 精品人妻系列无码专区久久| 色婷婷狠狠干| 午夜小视频在线| 亚洲欧美自拍中文| 91福利国产成人精品导航| 国产亚洲精品资源在线26u| 欧美精品成人| 免费激情网站| 国产H片无码不卡在线视频| 少妇人妻无码首页| 四虎永久在线视频| 国产va欧美va在线观看| 成人午夜视频在线| 亚洲AV无码乱码在线观看裸奔| 99精品免费欧美成人小视频| 国产在线观看人成激情视频| 孕妇高潮太爽了在线观看免费| 欧美yw精品日本国产精品| 色综合狠狠操| 午夜啪啪网| 另类专区亚洲| 91在线国内在线播放老师| 女人爽到高潮免费视频大全| 欧美综合中文字幕久久| 欧洲精品视频在线观看| 九九久久99精品| 久久精品一卡日本电影 | 日韩一二三区视频精品| 亚洲成av人无码综合在线观看| 大香伊人久久| 国产欧美日韩另类精彩视频| 久久久噜噜噜| 黄片一区二区三区| 国产成人亚洲欧美激情| 22sihu国产精品视频影视资讯| 国产福利在线观看精品| 92精品国产自产在线观看| 蜜桃视频一区二区| 国产综合精品日本亚洲777| 99精品国产自在现线观看| a国产精品| 91精品伊人久久大香线蕉| 日本黄色a视频| 午夜毛片免费看| 国产h视频在线观看视频| 精品国产乱码久久久久久一区二区| 99ri国产在线| 久久成人免费| 在线无码私拍| 久久精品人人做人人综合试看| 毛片手机在线看| 亚洲欧美另类日本| 国产粉嫩粉嫩的18在线播放91| 欧美色99| 四虎精品国产AV二区| AV在线天堂进入| 亚洲精品国产日韩无码AV永久免费网 | 国产成人亚洲综合a∨婷婷| 国产精品视频系列专区| 日韩人妻无码制服丝袜视频| 精品国产免费观看一区| 91精品国产一区| 一级毛片在线免费看|