易忱



摘要 對于規律未知數據,利用數據挖掘算法對已擁有的少量真實數據進行模式探索,采用模式注入的方法,將探索得到的數據模式以一定的規范語言描述出來,按數據模式產生的數據約束關系轉換為SDDL規范化語言,生成需要的數據,為設備性能評估提供數據支持。工程實例說明了模式注入數據生成方法的正確性和可行性。
【關鍵詞】模式注入 數據挖掘 數據生成
很多設備的狀態監控和性能評估,通常采用大數據和人工智能的方法,分析挖掘數據規律,對設備系統性能進行科學、準確的評價。但很多工況數據缺失,體量達不到大數據規模,大多是低價值密度的數據,原因主要有:
1)歷史數據積累少;
2)樣本少;
3)安全保密控制;
4)數據無法利用。
為了解決這一矛盾,根據數據特性和應用目的的不同,結合工程實踐經驗,嘗試從數據的特性入手,研究模式注入或特性繼承的數據挖掘方法,為性能評估提供數據支持。
1 模式注入方法研究
在具體應用中,普遍面對的是根據已有知識,無法判斷數據對研究的意義,更不能明確數據蘊含知識的數據集,我們將這類數據稱之為規律未知數據。通過少量歷史數據,采用模式注入方法,生成這類數據。
模式注入的數據生成基本思想是化規律未知為己知,然后通過規律己知數據類似的方式生成數據。在操作步驟上,首先利用數據挖掘算法對已擁有的少量真實數據進行模式探索,然后將探索得到的數據模式以一定的規范語言描述出來,如PMML (Predictive ModelMarkup Language);然后將數據模式產生的數據約束關系轉換為數據生成工具的規范化語言描述, 如SDDL (Synthetic Data DefinitionLanguage),供數據生成工具使用。
PMML是由數據挖掘協會(The DataMining Group,DMG)組織開發的,主要目的是形成一種通用標準,允許應用程序和聯機分析處理( OLAP)工具能從數據挖掘系統獲得模型,而不用獨自開發數據挖掘模塊,為模型的跨平臺、跨系統共享提供一種快速且簡單的方式。同時,PMML還提供靈活的機制支持多個預言模型的選擇和平衡,非常適合于全部學習,部分學習,分布式學習等多種應用場景。PMML基于XML格式,目前己發展到4 2版本,包括標題( header)、數據字典(data dictionary)、數據流(dataflow)、挖掘模式(mining schema)、數據轉換( transformations)、預測模型、模型組合定義( ensembles of models)、異常處理規則(rules for exception handling)等內容。數據生成主要用到兩個重要組成其一是數據字典,遵循一個或多個挖掘模型,包括name(描述數據集字段名),Optype(字段可操作類型),dataType attributes(重用W3C XML schemaatomic types中的名稱和語法)等元素,描述字段類型、操作方式、數據范圍等內容,不依賴于具體的挖掘模型其二是挖掘模式( Miningschema),儲存字段的值分布規律等特殊信息,根據具體挖掘模型的不同存在區別。目前PMML標準支持決策樹、關聯規則、聚集、回歸、nalve貝葉斯、神經網絡、規則集、序列、文本模型、支持向量機等挖掘模型。一個精簡了部分內容及格式后的決策樹挖掘模式如圖2的XML所示。
通過模式探索獲得PMML描述的數據模式后,經過描述轉換形成能夠為數據生成工具直接使用的SDDL文檔。SDDL同樣基于XML文檔格式,能夠表達出最大/最小約束、分布約束、公式約束、字典約束、查詢數據約束、迭代/重復約束等。這些約束間還能夠通過組合形成比較復雜的約束,如迭代/重復約束可以和其它約束組合。圖3的XML為這種約束的一個典型的示例。
數據生成工具按照SDDL表達的約束條件實現大量數據的生成。
2 工程實例
某設備管理綜合信息系統是一個涉及業務廣,功能十分復雜的大型信息系統。系統不僅管理設備終端自動采集數據、業務流轉數據,還需要通過對這些數據的分析,為業務機關提供決策支持。在系統正式上線前,必須利用盡量真實的數據對系統進行充分的測試。在該系統中采用模式注入的數據生成方法進行了工程實踐,取得了很好的應用效果。
主要步驟如下:
2.1 數據定義分析
根據數據模型分析該系統數據定義,確定數據生成的表范圍。按照壽命周期等客觀屬性,該系統的數據表大致可分為基礎數據、業務數據、自動采集數據等大類。其中基礎數據主要包括單位、設備、器材等目錄代碼及一系列的枚舉型應用字典,業務數據主要包括各類計劃、業務流轉過程數據等,自動采集數據主要包括設備、器材自動化測試、環境監控等終端采集的數據。該系統數據劃分及部分表示例如圖4所示。
2.2 準備真實歷史數據
將能夠得到的真實數據經預處理后加載到對應的數據表中,作為必要的基礎。基礎數據變化慢,壽命周期長,有少量的真實數據;業務流程數據變化快,歷史積累多,有較多真實數據;自動采集數據同具體對象相關,重點設備及配備量大的設備數據多,一般設備及配備量小的數據少。
2.3 確定數據生成策略
具體分析數據表,在總體上確定各表數據生成的順序(被引用父表必須在子表數據生成之前生成),確定單表數據生成方式,并通過規范化語言描述,供數據生成工具使用。
2.4 按策略描述生成數據
數據生成工具按照規范化語言描述策略生成數據。規律未知數據的代表如部分設備的測試數據。
2.5 效果分析
某型設備組成件的測試數據歷史積累少,難以支撐系統分析測試要求,我們采用了模式注入的方法進行數據生成。該關鍵件測試數據分為4組22個,其中第一組為Po,第二組為P10~P16,第三組為P20—P26,第四組為P30-P36,表示例如表1所示。
原始數據僅有168條,經過特性繼承的方法生成得到798條。原始數據和生成數據在分類及統計特性上具有很好的相似性,如圖5所示。
由對比分析可見,通過上述方法生成的設備數據同真實數據具有很大的統計相似性,為某設備管理綜合信息系統的用戶試用和質量評測提供了很大幫助。
3 結論
本文理論方法和工程實踐都表明,模式注入的數據生成方法,是正確的和可行的。通過數據生成能夠較好的解決設備使用與保障研究中數據缺少的問題,在一定的場景下具備替換真實數據的能力。
參考文獻
[1]J. White,“American Data Set GenerationProgram: Creat ion,
Applications, andSignicance” [D]. ComputerScience andComputer Engineering Dept., Univ. ofArkansas.2005.
[2]黎方正,羅大庸,謝東.一種海量數據生成方法[J]小型微型計算機系統,2009 (12): 2420-2423.
[3]魏偉杰,張斌,王波等,一種用于數據挖掘算法的數據生成方法[J],東北大學學報(自然科學版),2008 (03): 328-331.