Bob+Violino
編譯 Charles
數據挖掘是一種自動化的過程,對大量的數據集進行排序,確定趨勢和模式,并建立關系。
當今的企業(yè)正在收集各種來源日益增長的信息,包括網站、企業(yè)應用程序、社交媒體、移動設備,以及越來越多的物聯(lián)網(IoT)設備等。
最大的問題是怎樣從這些信息中獲得真正的商業(yè)價值?這正是數據挖掘大顯身手的地方。數據挖掘是一種自動化的過程,對大量的數據集進行排序,確定趨勢和模式,并建立關系,通過分析數據來解決業(yè)務問題,或者發(fā)現(xiàn)新機會。
這不僅僅是通過檢查數據來看看過去發(fā)生了什么,而是要在當下采取明智的行動。數據挖掘工具和技術使您能夠預測未來會發(fā)生什么,并據此采取行動,順勢而為。
術語“數據挖掘”在IT行業(yè)應用得相當廣泛。它經常應用于各種大規(guī)模數據處理活動,例如收集、提取、存儲和分析數據等。它還可以包括決策支持應用程序和技術,例如人工智能、機器學習和商業(yè)智能。
數據挖掘被用于業(yè)務和研究的很多領域中,包括產品開發(fā)、銷售和市場營銷、遺傳學和控制論,等等。如果應用的合適,數據挖掘和預測分析相結合能夠讓您比那些不使用這些工具的競爭對手更有優(yōu)勢。
從數據挖掘中獲取業(yè)務價值
數據挖掘的真正價值源于能夠挖掘出隱藏在模式和數據關系中的“寶石”,用于做出對企業(yè)產生重大影響的預測。
例如,如果一家公司確定經過某次營銷活動后,某一產品型號在該國某些地區(qū)的銷售要比其他地區(qū)好得多,那么今后就可以重新調整這類活動以獲得最大回報。
技術所能帶來的好處取決于業(yè)務類型及其目標。例如,與航空公司和金融服務行業(yè)相比,零售業(yè)的銷售和營銷經理會以不同的方式來挖掘客戶信息,以吸引更多的客戶。
不論是那種行業(yè),過去應用于銷售模式和客戶行為的數據挖掘可以用來創(chuàng)建預測未來銷售和行為的模型。
數據挖掘還有助于消除可能危害企業(yè)的活動。例如,您可以使用數據挖掘來提高產品的安全性,或者檢測保險和金融服務交易中的欺詐行為。
數據挖掘的應用
數據挖掘幾乎可以應用到所有行業(yè)的各種應用中。
● 零售商可以部署數據挖掘,更好地識別出人們會根據過去的購物習慣來購買哪些產品,或者在一年中的某些時間段哪些商品會銷售得更好。這可以幫助商家做好庫存計劃和店面布局。
● 銀行和其他金融服務提供商可以挖掘與客戶賬戶、交易和渠道偏好相關的數據,以更好地滿足客戶需求。他們還可以收集來自網站和社交媒體互動的數據,以幫助提高現(xiàn)有客戶的忠誠度,并吸引新客戶。
● 制造企業(yè)可以使用數據挖掘來發(fā)現(xiàn)生產過程中的規(guī)律,精確地識別出存在瓶頸和缺陷的方法,找到提高效率的途徑。他們還可以把數據挖掘中的知識應用到產品設計中,并根據客戶體驗反饋進行調整。
● 教育機構能夠從數據挖掘中獲益,例如,分析數據集以預測學生未來的學習行為和表現(xiàn),然后利用這些知識改進教學方法或者課程。
● 衛(wèi)生保健提供商可以挖掘并分析數據,以確定護理病人更好的方式,并降低成本。在數據挖掘的幫助下,他們可以預測需要照顧多少病人,以及病人需要什么樣的服務。在生命科學中,數據挖掘可以用來從大量生物數據獲得深度分析結果,幫助開發(fā)新藥和其他治療方法。
● 在很多行業(yè)中,包括衛(wèi)生保健和零售業(yè),可以使用數據挖掘發(fā)現(xiàn)欺詐和其他犯罪行為——能夠比傳統(tǒng)方法更迅速地識別出此類活動。
數據挖掘的關鍵組成
數據挖掘過程包括幾個不同的組成,以滿足不同的需求:
● 預處理。在應用數據挖掘算法之前,您需要構建一個目標數據集。數據的常見來源是數據集市或者數據倉庫。您需要執(zhí)行預處理才能分析數據集。
● 數據清洗和準備。必須對目標數據集進行清洗和準備,去掉“噪聲”,處理缺失值,篩選無關的數據點(用于異常檢測),以消除錯誤,或者進行進一步的研究,創(chuàng)建分段規(guī)則,執(zhí)行與數據準備相關的其他功能。
● 關聯(lián)規(guī)則學習(也稱為市場購物籃分析)。這些工具搜索數據集中變量之間的關系,例如確定一個商店中哪些產品會被經常一起購買。
● 聚類。數據挖掘的這一特性被用來發(fā)現(xiàn)數據集中在某種程度上相似的群組和結構,而不必使用數據中已知的結構。
● 分類。執(zhí)行分類的工具將已知的結構歸納應用到新的數據點,例如電子郵件應用程序把消息分類為合法郵件和垃圾郵件。
● 回歸。這種數據挖掘技術用于預測某一具體數據集的數值范圍,例如銷售額、住房價值、溫度或者價格等。
● 總計。這種技術提供了一個數據集的緊湊表示,包括可視化和報表生成。
數十家供應商提供數據挖掘軟件工具,一些提供專有軟件,另一些則通過開源工作交付產品。
提供專有數據挖掘軟件和應用的主要供應商有Angoss、Clarabridge、IBM、微軟、Open Text、Oracle、RapidMiner、SAS研究院和SAP。
提供開源數據挖掘軟件和應用的企業(yè)有Carrot2、Knime、Massive Online Analysis、ML-Flex、Orange、UIMA和Weka。
數據挖掘的風險和挑戰(zhàn)
數據挖掘也伴隨著風險和挑戰(zhàn)。與任何涉及使用敏感或者個人身份信息的技術一樣,安全和隱私都是最令人關注的問題。
從根本上講,被挖掘的數據應完整、準確和可靠;畢竟,您使用它來做出重大業(yè)務決策,經常與公眾、管理方、投資方和商業(yè)合作伙伴進行交流。現(xiàn)代形式的數據也需要新技術,例如將各種分布式計算環(huán)境產生的數據集(也稱之為大數據集成)與圖像和視頻、時域數據和空域數據等更復雜的數據集成在一起。
獲取正確的數據,然后把它們整合在一起,這樣就可以對其進行挖掘——IT面臨的挑戰(zhàn)遠不止這些。云、存儲和網絡系統(tǒng)需要高性能的數據挖掘工具。從數據挖掘中得到的信息應能夠清晰地呈現(xiàn)給那些希望采取行動并解釋它的廣大用戶。您需要有數據科學和相關領域技能的人才。
從隱私的角度看,如果挖掘與人們的行為、購買什么、訪問哪些網站等相關的信息,那么這種想法可能會讓人們擔心公司收集的信息太多了。這不僅影響您的技術實現(xiàn),而且還影響您的業(yè)務策略和風險分析。
除了全方位跟蹤個人的倫理問題之外,對于怎樣收集數據、確定個人身份以及共享這些信息等也有法律規(guī)定。美國的健康保險流通與責任法案(HIPAA)和歐盟的通用數據保護條令(GDPR)都是人們所熟知的法規(guī)。
在數據挖掘中,最初的準備活動,例如匯集然后使數據合理化等,能夠發(fā)現(xiàn)可能危及數據機密性的信息或者模式。因此,有可能在無意間與倫理問題或者法律要求相沖突。
數據挖掘還需要數據保護,每一步都是如此,以確保數據不會被竊取、更改或者被偷偷地訪問。安全工具包括加密、訪問控制和網絡安全機制。
數據挖掘是關鍵的不同之處
盡管存在這些挑戰(zhàn),數據挖掘已成為很多企業(yè)IT戰(zhàn)略的關鍵組成,這些企業(yè)希望能夠從他們收集或者訪問的信息中獲取價值。隨著預測分析、人工智能、機器學習以及其他相關技術的不斷進步,這種發(fā)展趨勢無疑會進一步加速。
Bob Violino——目前在紐約,是Computerworld、CIO、CSO、InfoWorld和Network World的特約撰稿人。
原文網址:
http://www.infoworld.com/article/3218151/data-mining/what-is-data-mining-how-analytics-uncovers-insights.html