董錦昭 邵靖楠


摘要:大型港機的調配的數據交互系統較為復雜,通常需要對安全控制數據預處理。預處理將原始數據進行集成、挑選和轉換等操作,再對數據進行邏輯區分匯總和數據質量準確度深入控制,創建出適用于港機結構控制的安全體系,建立控制系統數據合集。
關鍵詞:港機;挖掘數據;控制系統;預處理
港機是港口物資交換的主要傳輸工具。港機的工作年限較長,許多港口的港機均存在老齡化的特點,由于港口繁忙的運輸工作,其工作安全性成為了較大的隱患。目前檢測的手段,具體為使材料不同位置受力,繪制各個位置的應力應變曲線,然后根據其強度和韌性,來判斷材料的使用安全性和報廢壽命。但是這種方法需要有專業的測試人員來管理設備,測試周期較長、數據波動大,同時對測試人員的專業素養要求較高。另外在測試過程中可以得到很多有益的信息或者規律,但缺乏專業的研究人員深入尋找規律,導致數據不能充分應用。
現階段,大量檢測數據的處理和分析已經逐漸得到重視,尤其是通過電氣控制模型來實現對于數據的控制與處理,雖然能夠達到較好的安全控制效果,但對數據處理能力依舊不足,對大型港機的檢測數據處理挖掘為當務之急。目前數據挖掘領域研究方向為先設置空白對照模型,此模型為極低噪音、一致性較好的高質量數據。但是在現實數據分析中,數據不可能這么完美,經常會有噪音,甚至有不完整,不一致的情況出現,此時數據預處理的重要性凸顯。
1數據預處理的概念與步驟
1.1數據預處理的概念
數據預處理是數據挖掘系統必要的一個組成模塊,它的目的為發現任務,通過指導引用相關領域的知識,使用全新的算法模型來重新計算原有的數據,將與目標關系弱的部分刪除,使數據的計算更加迅速準確。同時更有利于對數據的分類,有針對的處理,可以減少運算的壓力,優化算法內核。數據預處理可以挖掘到更深的規律,提高港機工作效率和精準度。
預處理的運轉模式大致為理解用戶所需挖掘點,確定起點和任務。隨后將會調用數據源中與任務相關的部分,通過預先輸入的某個知識領域約束規則作為合法判定依據,通過對違規的操作進行數據記錄,最終生成我們所需要的目標數據。目標數據即為最終處理后的二維表,其橫向閱讀為記錄和元組,縱向一般為變量,比如屬性或者字段。這就搭建了最初始的知識信息模板,該模板匯集了所有數據的總特征。
為了便于數據的匯總和此后的分析,可以通過數據預處理階段提高數據的質量。數據的分析主要有可視化分析和數據挖掘質量分析。由于數據并非是按照理想的規則排列,總會存在異質性和非標準性,因此可以通過預處理對數據進行標準化。
1.2數據預處理的過程
(1) 數據預處理的首要工作為數據集成,基層指的是將多個文件或者是多種數據庫中所有的數據進行合并歸類處理。把那些遺漏、波動異常或者是語意不明有爭議的數據刪除。需要注意的是,數據集成并不是數據合并,而是將單位不同字長不一的數據進行整合,將最原始的數據在低層次進行提煉凝聚,這是屬于最初級的信息挖掘。
(2) 通過將源數據噪聲和無關的數據進行清洗,處理掉空白數據庫中的噪點,通過數據選擇對數據庫中的目標進行檢索,數據選擇涵蓋了不同模式數據的變換、匯總和統一。根據時間的先后次序和數據變化的狀況,可以將數據清洗分成兩大類。一類為有監督過程清洗,這種過程是在某領域專業人員指導下,通過處理收集來的各種數據,剔掉明顯錯誤的或者是不用重復的數據。另一類為無監督過程清洗,這種清洗是根據大數據訓練而得的算法,使計算更加智能化向AI方向發展,在處理過程中可以自動的鑒別有問題的地方進行清洗。
(3) 在數據處理中需要有轉換環節,將不同的字段取值轉成數字格式,有利于進行檢索,
數據變換主要是找到數據的特征表示,用維變換或轉換方法減少有效變量的數目或找到數據的不變式,包括規格化、歸約、切換、旋轉和投影等操作。
(4) 通過電氣控制的模式來達到對整個數據的預處理,主要是以人為的方式對其進行干擾,真正實現預處理過程的自動化與智能化水平,電氣控制的主要目的在于對數據中的雜點和亂點進行清除,同時利用其自動化水平來實現進一步操作。
2數據預處理的具體流程
2.1結構安全控制數據集成
建立模型的基礎為調用數據和理解數據。在進行可視化數據分析前,一定要明確關鍵的業務問題和目標。確立目標后,需要對該工作的基本特征有具體的了解,這樣才能保證數據更加真實有效。在隨后的數據抽取過程需要對數據靈活的轉化,以方便進行數據庫的更新和管理。對于大型港口港機的檢測,主要是通過震動信號的反饋,對支撐結構進行運載大型物件時應力應變的情況實時采集,以此為大型港機結構安全控制數據的原數據。隨后在數據分析前,實施數據預處理。
在港機工作時的數據中突出的字段有:載荷、時間、循環,港機的具體數據字段為:尺寸、材料和焊接狀況。因此通過這些字段的含義,可以進行結構疲勞分析,或穩定安全性測試。根據不同的字段就可以提取到有效的數據,在大量數據的積累下,通過預處理刪除掉不合理的數據, 就可以得到一致性較強的結果,可以把不同類型的結果,存放在同一個數據庫中,以便于隨后的深入挖掘。提數據的關聯性靠時間連接,這樣可以方便后續調用數據。
之后在較高準確性和一致性的基礎上,仍要繼續進行檢驗和凈化。
數據的重要部分是在機械進行作業時,通過運輸吊裝貨物現場獲得各觀測點的應力應變情況,但由于現場的變量較多,比如干擾信號、接觸問題或者是間隙配合歸零等誤差,因此數據的準確性或有效性,將受到不同程度的干擾。因此,現在大多為繪制受力時的波形圖。通過對異常信號的處理,剔除掉錯誤的無效數據。具體的分析方法如圖1圖2所示。
比如在對原始信號進行分析的過程中,不難發現圖1在第5個循環處存在異常波動現象,這主要是由于峰值與峰谷之間存在較大的差異性,因此造成整體傳出的信號不同,而預處理模型能夠對此進行識別,根據其預先設置的預處理電控模式將異常數據進行刪除,進而達到優化整體數據的目的。通過圖2我們可知,往往很多數據的波動現象都不是容易被發現的,而電控模型的有效應用可以真正實現對噪點的識別,進而對其進行刪除和優化。
2.2結構安全控制數據挖掘的數據選擇
數據的收集工作較為漫長,需要較多的測試,收集結束后需要進行數據選擇,為后續的可視化數據挖掘提供基礎。在數據選擇的過程中包含數據的轉換和匯總。數據選擇的意義是在于縮小處理區域,提高處理效率,并且能夠更加深入的挖掘數據。
單側點測試數據,是在整個測試作業過程中,根據應力應變繪制載荷圖譜,確定臨界應力。從而進行材料損傷的判斷。在數據挖掘時用到的字段為:屈服強度、抗拉強度、測試時間、應力應變等。針對多測點測試數據,進行數據的挖掘較為復雜,其主要內容是在作業過程中,隨著時間的流逝小車位置變化,在每一時刻對應的都有應力應變的不同狀況。針對強度峰值的指標,分析人員可以確定出危險點。此數據字段主要為:循環次數、測試時間、名稱、小車位置坐標等。選擇不同的字段進行合并和整理形成一個數據庫,以便于可視化分析的讀取。
抽取是從數據集中選擇用于分析的數據段.清洗則是在將數據加入數據集之前,對源數據進行修改.在大型港機結構安全控制中,如果是對單測點進行分析,要對數據進行濾波,濾掉較小的波動,以減少不必要的計算量,簡化計算過程,提高分析效率。圖3為一大型港機結構在測試作業中原始的應力波形圖,我們可以對重復部分進行抽取,一般來說只需要選用500-1500范圍內的數據即可,這就使得原有工作量大大減少,從而有效提升了整個數據分析的工作效率。
3結束語
對于大型港機結構安全控制數據挖掘中的數據預處理的論述,針對的是具體數據挖掘模型的需要,主要目的是為進行結構疲勞壽命的估計與分類模型以及結構擴展壽命的預測模型提供數據依據。隨著對數據質量和有效數據挖掘研究工作的不斷深入,從內容到方法將會不斷完善。
參考文獻:
[1] 劉園, 宓為建. 大型港口機械結構安全控制中的數據挖掘[C]// 上海市國際工業博覽會暨上海市"工程與振動"科技論壇. 2005.
[2] 趙蘊華, 張靜. 基于數據挖掘的專利數據預處理系統的設計與實現[J]. 情報科學, 2011(12):1851-1855.
[3] 菅志剛, 金旭. 數據挖掘中數據預處理的研究與實現[J]. 計算機應用研究, 2004, 21(7):117-118.