汽車零部件數據如何處理?

汽車是一個復雜的系統,其間近千種零部件在工作,這些零部件運轉的數據信息來源多樣,格式不同,因此,對汽車的技術研發人員來說,要掌握這些供研發使用,就必須建設一個可向汽車產業人士開放的多語言多生產體系對應的汽車零部件名稱信息查詢平臺;在這個數據平臺上,同時可以查詢關聯技術、典型圖例、配套車型、零部件編號、產品品牌、生產廠家名稱等信息,形成一個開放性的網絡數據庫服務。
而要對這么多來源的數據源信息進行整合并開發出一個平臺,勢必要進行數據處理——數據清洗、數據轉換、及數據驗證算法。
零部件數據處理的目的,有兩個方面的含義,其一是得到標準的零部件數據,標準指各項屬性符合規范,如日期數據含有年月日信息。品牌數據對于不同的語言如福特,針對中文品牌,Ford針對英文(或國際)品牌。同樣,福特蒙迪歐和福特嘉年華針對的是中文的車型;其二是發現新的零部件詞匯,并將新的零部件名稱添加到詞匯表中,用于零部件搜索。
零部件數據處理主要分為數據格式分析、數據讀取、數據清洗、數據轉換、數據驗證、數據分析、數據入庫等部分。在處理過程中,數據首先需要經過格式分析,以確定數據讀取的方式,數據的讀取根據匹配的格式規則進行;數據清洗和轉換是將數據中的垃圾信息清除,并將數據變為標準數據。如“嘉年華3廂”和“嘉年華三廂”是典型的零部件數據的中文車型,那么到底以那個為標準呢?顯然上述兩個數據需要對應到標準的“福特嘉年華三廂”,我們稱這類標準數據為主數據;最后對轉換后的數據進行必要的驗證,以確保數據的一致性。如零部件數據的車型數據應和品牌數據一致。否則可能出現車型是“福特嘉年華三廂”而品牌卻為“上海通用別克”的笑話。
此外數據分析的目的,是發現零部件新的詞匯,根據固定詞匯搭配及出現的頻率,自動篩選出新的詞匯。
零部件數據處理的總體結構如下圖,淺色部分為處理的數據處理單元。

數據輸入到平臺中,依此經過:數據格式分析——對輸入數據的格式進行分析,以確定數據讀取的對應方式;數據讀取——根據格式分析處理單元得到的格式,讀取數據;數據清洗——根據清洗規則,將數據中含有的非法字符、控制字符過濾;數據轉換——根據轉換規則將數據轉換為標準數據;數據驗證——根據數據驗證規則將一條的數據記錄中不同的數據屬性進行比較,查找屬性相互矛盾的數據記錄;數據分析——根據主數據,及出現頻率達到一定值的數據確定為新出現的詞,供人工審核后入庫;數據入庫——將處理完成的數據如正式庫。
數據處理單元,在處理完成后,會將處理的狀態寫入處理日志。人工控制臺隨后讀取數據處理日志,對相關數據進行人工處理。人工處理根據數據的性質不同主要分為錯誤數據處理和基礎數據的更新。錯誤數據處理,是指對數據本身進行維護,如日期寫成09-01-28,顯然數據指2009年1月28日。此外還需要對基礎數據進行維護,上述數據的出現主要在數據轉換中出現了問題,現有的轉換規則不能識別09-01-28這樣的日期數據,需要將新發現的規則加入到基礎數據的轉換規則中去。
每一個數據處理單元具有相似的結構。實際上在真實的環境中,數據在一個處理單元處理完后,需要將一些相關的信息提交給下一個處理單元,而不僅僅是處理的結果數據。

處理單元輸入由:輸入數據、處理單元報表和數據更新通知三個部分;同樣它的輸出由輸出數據和其他兩類組成。中間部分為處理單元的執行實體。
數據的輸入、輸出:
輸入數據是上一個處理單元處理成功的數據;處理單元報表是本次數據的處理狀態統計,含有本次處理的輸入數據量、處理成功數量、錯誤數據數量、不能識別的數據量、人工更新數量、基礎數據修改數量等信息,它的詳細信息在數據、基礎數據和日志的內部。處理單元報表建立的主要目的是監控數據的處理狀態,使數據處理的過程可以從結果中追述;數據更新通知,是指上一個處理單元中的錯誤數據或不能識別的數據經過人工修改后,成為成功的數據,這類數據在上一個處理單元前次處理中并沒有作為輸入進入到本處理單元中,因此需要本處理單元重新處理。
數據處理的執行實體:
數據輸入到數據處理單元后,首先由數據處理核心單元進行處理,過程中需要讀取基礎數據,并對輸入數據進行運算,將結果數據輸出。然后更新數據處理日志和基礎數據日志。日志中含需要人工處理的信息,人工處理過程中,如需要對基礎數據進行修改,則更新基礎數據。
零部件數據處理平臺針對的是汽車零部件行業,但從結構上來說是可以推廣到其他應用行業的。零部件數據處理或者說數據處理核心價值是提高大批量數據處理的能力,保證數據的準確性。在今后的發展中,還可以放在開發出高效的格式、數據轉換和數據驗證的自適應算法上,減少人工處理的工作量,提高數據數據處理的及時性和準確性。
(本文來源于上海嘉之道汽車咨詢有限公司承接上海市科委“汽車零部件信息資源服務平臺”項目研究成果)