張志兵
摘要:介紹了大數據的概念及應用前景,以熔煉過程中材質的化學成分對鑄件裂紋焊補率的影響為研究課題,選擇合適的挖掘軟件進行數據挖掘,數據分析,找出各個數據之間的關聯,有效地解決數據孤島問題。驗證了大數據分析結果在企業管理中具有參考和控制性作用,大數據分析方法可在中小企業管理中加以應用。
Abstract: This paper introduces the concept of big data and application prospects in foundry enterprises smelting process for casting crack of chemical composition of the influence of welding repair rate as the research subject, selecting suitable mining software for data mining, data analysis, find out the connections between various data, effectively solve the problem of data island. Big data to verify the result has reference and controlling function in enterprise management, large data analysis method can be applied in the management of small and medium-sized enterprises.
關鍵詞:大數據;數據挖掘;信息孤島
Key words: big data;data mining;isolate island of information
中圖分類號:TP274 文獻標識碼:A 文章編號:1006-4311(2016)08-0213-02
0 引言
大數據是維克托·邁爾-舍恩伯格在2008年的著作《大數據時代》中提出的概念,在維基百科中解釋為無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。主要特點為Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。對于技術收益方,大數據的概念顯得通俗易懂,體現在大數據并不在“大”,而在于“有用”、價值含量高。
隨著互聯網的發展,越來越多的企業實行無紙化辦公、數字化管理,在這一過程中,企業各方面的管理包括技術質量、人力資源、財務、現場生產組織等均形成了一定規模的基礎數據。但是,這些數據是獨立的,伴隨企業的發展形成了數據孤島,導致寶貴的信息資源不能得到有效利用。如何以這些連續或者離散的基礎數據為基本保障,進行數據挖掘,形成知識,實現數據的有效利用受到越來越多企業的重視。本文以鑄造企業熔煉過程中材質的化學成分對鑄件裂紋焊補率的影響為課題,對大數據進行研究,探討大數據分析在中小型企業管理中的應用。
1 數據準備
1.1 信息收集
信息收集是根據確定的數據分析對象抽象出在數據分析中所需要的特征信息,然后選擇合適的信息收集方法,將收集到的信息存入數據庫。本文研究的是材質為ZG15Cr1Mo1V的鑄鋼件的裂紋焊補率與熔煉過程中化學成分之間的關系。需要收集的信息包括在焊接過程控制系統中提取目標參數裂紋焊補率,在熔煉過程控制系統中提煉熔煉參數、熔煉過程中檢測到的化學元素、熔點等。
1.2 數據集成
數據集成是把不同來源、格式、特點、性質的數據在邏輯上或物理上有機地集中,從而為企業提供全面的數據共享。由于鑄件號的唯一性,本文的結果參數和影響因子可以通過鑄件號結合在一起,實現了數據集成。
1.3 數據規約
數據規約技術可以用來得到數據集的規約表示,它小得多,但仍然接近于保持原數據的完整性,并且規約后執行數據挖掘結果與規約前執行結果相同或幾乎相同。由于本文使用的數據樣本數量沒有達到百萬級別以上,因此沒有必要做數據規約。
1.4 數據清理
數據庫中的數據有一些是不完整的或者含噪聲的,或者是不一致的,因此需要進行數據清理,將完整、正確、一致的數據信息存入數據倉庫中。
本文在對數據集成完畢存入數據庫后,對基礎數據進行了修訂和清理,將不符合的數據從數據倉庫清理掉,確保數據的真實性和可靠性。
1.5 數據變換
通過平滑聚集,數據概化、規范化等方式將數據轉換成適用于數據挖掘的形式。對于有些實數型數據,通過概念分層和數據的離散化來轉換數據也是重要的一步。
本文所研究課題的目標是找出對裂紋焊補率有影響的關鍵化學元素,由于數據樣本量不是很大,所以對結果裂紋焊補率結果進行了分類。按照中位數進行排列,在中位數以下的樣本定義為低裂紋,中位數以上的樣本定義為高裂紋。這樣的定義避免過大或者過小的因子對整體結果的影響,也更有利于數據挖掘的分析。
2 數據挖掘
根據數據倉庫中的數據信息,選擇合適的分析工具,應用統計分析、事例推理、決策樹、規則推理、模糊集、甚至神經網絡、遺傳算法等方法處理信息,得出有用的分析信息。
2.1 工具選擇
可以進行數據挖掘的軟件有免費和付費兩種。免費的主要有以下:①Weka:其支持幾種經典的數據挖掘任務,顯著的數據預處理,集群,分類,回歸,虛擬化,以及功能選擇。
②JHepWork:其主要是用開源庫來創建一個數據分析環境,并提供了豐富的用戶接口來實現自己的挖掘算法。付費的主要有以下幾種:1)SAS:是一個模塊化、集成化的大型應用軟件系統,可以處理大數據下的挖掘和統計,缺點是價格高。2)SPASS:“統計產品與服務解決方案”軟件,相比于SAS價格較低,操作簡單,但是功能沒有SAS強大。3)SQL Server Business Intelligence Development:是微軟Sqlserver 數據庫自身攜帶的關于商務智能的模塊,能和數據庫非常好的結合起來,提供了線性回歸、貝葉斯算法、關聯、邏輯回歸等算法。本文的數據挖掘工具選擇微軟的商務智能平臺。
2.2 挖掘算法確認
根據不同的目標確立不同的挖掘算法,本文研究課題主要采用以下幾種挖掘算法。
①樸素貝葉斯算法。這是基于貝葉斯定理與特征條件獨立假設的分類方法,它能檢查所研究的實體的每個屬性,從而確定該屬性本身在何種程度上影響了想要預測的那個屬性。
②神經網絡。Microsoft神經網絡算法通過構造多層感知器網絡創建分類和回歸挖掘模型。當給定可預測屬性的每個狀態時,Microsoft神經網絡算法可以計算輸入屬性的每個可能狀態的概率。
③邏輯回歸。Microsoft邏輯回歸算法是Microsoft神經網絡算法的一種特殊形式。邏輯回歸算法用于那些結果是“二選一”的情形的建模,如客戶可能買或不買某種產品,一個人的病情可能會發展也可能不會發展等。
2.3 挖掘過程實施
如圖1,在SQL Server Business Intelligence Development中創建一個Analysis services項目,配置好數據源和數據源視圖,并創建對應的數據源。
結合挖掘算法并分析,得出以下結論:
①W元素的含量是影響材質為ZG15Cr1Mo1V鑄鋼件的裂紋焊補率的貝葉斯關鍵因子。且當其含量<0.0069 時候裂紋焊補率趨向于低裂紋(裂紋焊補率<0.3)。
②Nb元素的含量對鑄件裂紋焊補率影響較大。經過預測,當Nb元素質量分數在0.003%-0.004%之間時,鑄件裂紋焊補率比較低。
③Ca 元素的含量也對鑄件裂紋焊補率影響較大。數據挖掘預測當Ca元素的質量分數在0.002%-0.003%之間時,鑄件裂紋焊補率比較低。
2.4 模式評估
模式評估是從商業角度,由行業專家來驗證數據挖掘結果的正確性。經過對上述數據有效性的驗證,技術部門對相關結論進行分析核實,得出上述結論具有參考和控制性的評估結果。
2.5 知識形成
將數據挖掘所得到的分析信息以可視化的方式呈現給用戶,或作為新的知識存放在知識庫中,供其他應用程序使用。將本文研究課題的實驗結論提供給公司虛擬設計部門,進行相關的實驗研究。需要注意的是:數據挖掘過程是一個反復循環的過程,每一個步驟如果沒有達到預期目標,都需要回到前面的步驟,重新調整并執行。本次實驗針對貝葉斯關鍵因子W元素含量進行了驗證,對鑄件W元素含量小于0.007%的鑄件且其余檢測化學含量項目相似的6批鑄件進行檢測驗證,發現除了1批鑄件的的裂紋焊補率為1.34偏高外,其余鑄件的焊補率均低于0.3,檢驗結果支持了W元素含量對于裂紋焊補率的影響。這使得在以后的熔煉工藝設計中,W元素的含量成為重點關注的項目。
3 整合業務流程
通過本課題的實施,對大數據的工作流程做了整合,具體流程如下:
①確立目標,明確要驗證什么、發現什么;
②數據倉庫的建立,將相關因子進行數據處理并放入數據庫;
③根據目標確立挖掘算法;
④依據挖掘算法得出的結論,并進行理論和實驗驗證;
⑤將經過驗證的結論形成知識。
4 結論
在本課題的研究過程中,數據清理和模式變換是核心。研究初期,由于模式變換不到位,對挖掘得出的結論進行驗證,得到不符合的結論,同時在研究過程中統計理論知識的欠缺,使整個模式評估花費的時間較多。這些都需要在今后工作中加強相應知識的學習。
經過這次課題的研究,驗證了大數據分析結果在企業管理中具有參考和控制性作用,大數據分析方法可在中小企業管理中加以應用。
參考文獻:
[1]拉爾森(Larson,B.).商務智能實戰[M].蓋九宇,趙龍剛,曹玉玲,等,譯.北京:機械工業出版社,2011,9.
[2]數據挖掘技術,百度百科[OL].
[3]維克托·邁爾-舍恩伯格著.大數據時代[M].盛楊燕,周濤,譯.浙江人民出版社,2013,01.