楊軍
摘要:在數字時代的大背景下,越來越多的企業轉型成為數字大師,使用數據來指導整個企業的生產發展、管理決策。而數據挖掘技術無疑是現代企業乘風波浪的一把利器,它能抽絲剝繭地透過現象,看清商業的本質,為企業決策提供強有力的科學依據。本文針對數據挖掘的實現進行了研究,對這項技術在企業相關應用做了指導,在企業數據分析層面上有一定的借鑒意義。
Abstract: In the background of digital era, more and more enterprises become digital master, using data to guide the entire enterprise production development, management decisions. Data mining technology is a tool for modern enterprise development, it can see the nature of the business through the phenomenon, and provide a strong scientific basis for the decision-making of the enterprise. In this paper, the implementation of data mining is studied, the technology application in the enterprise is guided, which in has a certain reference significance for the enterprise data analysis.
關鍵詞:數據挖掘;特征;鑄造企業;應用
Key words: data mining;feature;casting enterprise;application
中圖分類號:F721 文獻標識碼:A 文章編號:1006-4311(2017)35-0209-02
0 引言
現在數字技術已經不是蘋果、谷歌等科技公司的專享技能,在當今數字技術時代,傳統行業與數字技術結合,應用數字技術,挖掘數據價值才是大勢所趨。成熟靈活地使用數字技術,改變并極大地拓寬公司的戰略選擇,所以企業需要不斷利用自己在行業方面的數據,結合現在的數字技術,建立一個企業大師系統,為企業領導層提供戰略指導數據依據。
在數據利用方面,大部分企業都遵循了“整合數據-分析數據-挖掘數據-指導決策”的思路?,F在大部分企業更多的認識是在數據整合這個層面,通過數據總線、數據治理機制等是可以將企業的數據進行合理化地治理、匯總。分析數據和挖掘數據層面就需要更多的專業人士進行統一建模和分析,才能得到合理、正確的戰略決策。這時候數據分析、數據挖掘顯得更加重要。
Data mining,中文名稱叫做數據挖掘。這兩年伴隨著大數據一詞也紅得發紫。數據挖掘人才也成為各大公司爭搶的重要角色。數據挖掘一般分為兩類,一種是預測性,通過分類、回歸的算法將數據的預測性展示出來。另一種則是描述性的數據分析,主要方法有聚類、關聯規則挖掘、時間序列分析等。有了大量的數據為基礎,再根據我們的目標決策,這時候就需要選擇不同的數據分析方法,就可以達到要實現的目標。在實際使用中,又要根據實際的情況使用一種或多種工具進行分析。
1 數據挖掘在企業應用的步驟
1.1 明確問題
在數據挖掘中,需要碰到不同的問題采用不同的方法,有時候如果選錯了方法,就如同緣木求魚。明確問題就顯得非常重要。明確問題的方法主要是圍繞以下幾個問題開展的:
①首先明確問題屬于哪種常見的類型,是分類還是聚合?所要解決的問題是屬于哪個類型,這個涉及到解決問題的方法、后期分析數據采用的工具。如果想要做預測性的問題,一般需要采用分類。同樣數據分析方面,劃歸到聚類方法。
②所挑選的數據集合是否夠大,足夠支撐我們的分析?,F在數據挖掘技術都是針對大樣本量的。包括現在經常使用的樸素貝葉斯算法等使用的模型都比較簡單,學習效率高,在大樣本量下會有很好的表現,當數據集合較小的時候誤差就會變得很大,精度也會達不到要求。
③我們所使用的數據是否滿足設置的問題。這是對數據源進行的驗證,數據源的信息是否可以通過分析得到所需要的結果。一般會對數據的分布情況、數據維度等方面進行校驗。最后得出結論。
經過以上的思考,就可以確定整個分析方案需要達到的目標和后續將使用的大致技術,將會得到企業大師系統構建的藍圖。
1.2 對得到的數據進行預處理
這里就是對得到的數據進行一個簡單篩選。大致分為數據集成,刪除數據冗余、數據沖突,數據采樣,數據清洗、缺省值處理及噪聲處理。其中數據采樣取決于我們研究的問題、數學模型的處理能力和樣本量的大小。這是需要額外關注的地方。在預處理階段要根據自身使用平臺的性能等問題,選取一個大小合適的采樣樣本,之后將數據中的異常值進行過濾,保留對我們的目標影響最大的幾個因子。
這一部分在企業大師系統的架構中,可以結合數據總線等應用進行。對企業資源管理系統中的數據進行篩選,將系統數據中具有不完整、無效的數據進行清理,保留對整個結果最有用的影響因子,再進行建模。這點也是符合六西格瑪管理方法的。
1.3 特征工程
這個階段將最大限度地從原始數據中提取特征以供算法和模型使用,簡而言之,就是對需要解決問題的核心因子的幾個有用屬性進行提取選擇和構造。這里通過將在上一階段中獲取的重要影響因子轉化為特征,更好表示預測模型處理的實際問題,提升對于未知數據的準確性。特征是一個或者一組對象的客觀特性的抽象結果,比如顏色就可以認為是物體的一個特征。在處理文本的時候,需要對文本進行處理,通常使用的步驟是:網頁、分詞、去停用詞、向量化。這樣就可以將一個文本轉化成數據表單。從而符合所要構建的數據模型。endprint
業界流傳著一句話,數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。足見這部分的重要程度。
1.4 數學模型
建立數學模型。就是針對參照某種事物系統的特征或數量依存關系,采用數學語言,概括地或近似地表述出一種數學結構。而這個數學結構關系,反映了特定問題或者特定事物的狀態。
在建立數學模型過程中,需要考慮訓練集大小,特征維度、問題線性可分、特征之間關系等問題。再加上常用的邏輯回歸算法、Ensemble方法等屬于比較專業的領域。邏輯回歸算法主要用在尋找危險因素、預測、判別等方面。這些優秀的數學模型需要相關更為專業的分析人員來建立。
1.5 數據訓練
數據訓練。經過特征工程后,選擇合適的模型進行訓練,根據評價標準選擇最優的模型和參數,就可以對未知的數據進行預測,產出結果。這里面選取要滿足模型性能,所擁有的輸入特征、訓練數據中噪聲、提取特征中的噪聲以及模型的復雜程度等因素。再找出變量之間相互關系的方法就是在不同數據量的訓練數據上訓練模型并繪制學習曲線。這個過程并沒有精確的“正確”答案。處理相關問題,可以先生成很多邏輯回歸問題,然后對生成的每一個問題,研究訓練數據的數量與訓練模型的性能之間的關系。最后通過觀察這一系列問題上的關系總結得出一個簡單的規則。當然這個過程需要專業人員進行分析和研究。
1.6 網站行為中的應用
對于開發系統中使用用戶的行為分析。最常見的就是用戶畫像。對于網站運維人員他需要了解使用該系統的人群是什么樣的,他才能對網站更好的維護,或者下一版的改版。此處我們以購物網站為例,這里已經很明確要了解整個用戶的受眾群體。首先需要收集用戶的登陸時間、在系統中查看的商品、活躍時間等數據,盡可能的全面。在眾多繁蕪叢雜的數據中保留這次分析需要的數據,比如查看的商品和活躍時間。再對用戶進行分析,提取特征,比如男人關注什么,女人關注什么,老人關注什么等等,每個群體的登陸時間也會略有不同。這時候我們根據這些特征,進行建立數據模型,就是那些行為可以讓我們認定這個人是什么年齡段的。建立完成模型,通過大量的數據驗證這些,我們就可以得到一張用戶畫像,比如80%的用戶是年輕的女性,她們喜歡晚上上網,經常購買的是口紅之類的物品。這樣就得到了一張完整的用戶畫像。當然在實際企業應用中,比這個例子更復雜,需要更多的專業人士的輔助。
1.7 生產過程中的簡單應用
在鑄造行業中,經常會遇到質量的問題。首先,同樣需要收集鑄件生產過程中的所有數據,比如鑄件尺寸等鑄件的信息,每道工序的操作員信息,每次工藝的工藝信息。拿到大量的信息之后,可用使用六西格瑪的一些方法,將主要問題進行聚焦。再加上我們之前獲取到的數據,就得到了一個完善的特征庫。同樣用每次生產的信息進行建模,使用大數據進行分析,通過足夠多的數據進行訓練模型。我們甚至可以得出在那些工序環節出錯的概率,及時去糾正相關問題,提高產品質量。當然這也是六西格瑪與數字化手段相結合。
2 結語
數據技術在企業生產、經營等各個方面起到了非常重要的作用,它是企業數字化系統的核心功能,是企業BI系統的重要指導方向,它的分析成功越來越重要。數據挖掘技術的良好應用將可以更好的為企業決策層提供決策依據,從而促進整個企業高效的良性運營,并使得企業更具競爭力。
參考文獻:
[1]Jiawei Han.數據挖掘概念與技術[M].機械工業出版社,2001,8.
[2]朱明.數據挖掘[M].合肥:中國科技大學出版社,2002,5.
[3]陳文偉,等.數據挖掘技術[M].北京:北京工業大學出版社,2002.
[4]劉瑩.基于數據挖掘的商品銷售預測分析[J].科技通報,2014(07).endprint