李沂 石建東
摘 ?要:數據挖掘是日常生活的一部分,雖然我們常常沒有意識到它的存在。但是影響到我們日常生活的各方面,從當地超市供應的商品、網上沖浪看到的廣告,到犯罪預防。通過改進服務和提高顧客滿意度,以及生活方式,為個人帶來許多好處。然而,數據挖掘應用也會嚴重地威脅到個人隱私權和數據安全。數據挖掘系統和應用的開發是目前研究的難題,本文通過文獻綜述的方式對數據挖掘進行討論,其目的是為了引起更多人的關注和更深入的研究。
關鍵詞:計算機;數據挖掘;概念;應用
引言
近年來,數據挖掘引起了信息產業界的極大關注,其主要原因是存在大量數據,可以廣泛使用,并且迫切需要將這些數據轉換成有用的信息和知識。作為一個新興的研究領域,自從20世紀80年代開始以來,數據挖掘在國外已經取得了顯著進展且涵蓋了廣泛的應用。目前,在很多領域尤其是在商業領域如銀行、電信、電商等,數據挖掘可以解決很多問題,包括市場營銷策略制定、背景分析、企業管理危機等。
1、數據挖掘概述
數據挖掘(data mining)其英文名可以翻譯為數據采礦,實際上指的是從大量的數據中獲取所需要的有用信息,數據挖掘在各個行業都有著廣泛的應用。數據挖掘又被稱為“數據中的知識發現”(KDD),顧名思義,也就是通過數據清理、數據集成、數據選擇、數據變換、數據挖掘、模式評估、知識表示等一些列步驟,對數據進行分類、聚類,發現其中的關聯關系或者離群點,來發現新的知識[1]。例如金融大數據領域的信貸機構可以通過數據挖掘實現對用戶的信用評級、零售行業各地區顧客不同種類商品的需求和購買習慣、電信行業數據分析、生物學領域中的基因數據分析等等。至此,便可以簡單的理解清楚數據挖掘的概念。
對數據挖掘有多種文字不同但含義接近的定義,其實顧名思義,數據挖掘就是試圖從海量數據中找出有用的知識。數據挖掘可以視為機器學習和數據庫的交叉,它主要利用機器學習界提供的技術來分析海量數據,利用數據庫界提供的技術來管理海量數據。
2、數據挖掘的特征
2.1基于大量數據
實際上大多數數據挖掘的算法都可以在小數據量上運行并得到結果。但是,一方面過小的數據量完全可以通過人工分析來總結規律,另一方面來說,小數據量常常無法反映出真實世界中的普遍特性。
2.2非平凡性
挖掘出來的知識應該是不簡單的,絕不能是類似某著名體育評論員所說的“經過我的計算,我發現了一個有趣的現象,到本場比賽結束為止,這屆世界杯的進球數和失球數是一樣的。非常的巧合!”那種知識。這點看起來勿庸贅言,但是很多不懂業務知識的數據挖掘新手卻常常犯這種錯誤。
2.3隱含性
數據挖掘是要發現深藏在數據內部的知識,而不是那些直接浮現在數據表面的信息。常用的BI工具,例如報表和OLAP,完全可以讓用戶找出這些信息。
2.4新奇性
挖掘出來的知識應該是以前未知的,否則只不過是驗證了業務專家的經驗而已。只有全新的知識,才可以幫助企業獲得進一步的洞察力。
2.5價值性
給企業帶來直接的或間接的效益。有人說數據挖掘看起來神乎其神,卻什么用處也沒有。這是一種誤解,在一些數據挖掘項目中,或者因為缺乏明確的業務目標,或者因為數據質量的不足,或者因為人們對改變業務流程的抵制,或者因為挖掘人員的經驗不足,都會導致效果不佳甚至完全沒有效果。但大量的成功案例也在證明,數據挖掘的確可以變成提升效益的利器。
3、數據挖掘的應用領域
3.1金融數據分析領域的應用
大部分銀行和金融機構都提供豐富多樣的銀行業務、投資和信貸服務例如交易、抵押、汽車貸款和信用卡等。有些還提供保險服務和股票投資服務。銀行和金融機構收集的金融數據通常相對完整、可靠,并具有高質量,這大大方便了系統的數據分析和數據挖掘[2]。例如,為多維數據分析和數據挖掘設計和構造數據倉庫,可以進行貸款償還預測和顧客信用政策分析,針對定向促銷的顧客分類與聚類,用于洗黑錢和其他金融犯罪的偵破等。
3.2零售和電信業領域的應用
零售業是非常合適的數據挖掘應用領域,因為它收集了關于銷售、顧客購物史、貨物運輸、消費和服務的大量數據。特別是,由于通過Web或電子商務上進行的商業活動日益方便和流行,收集的數據量繼續迅速膨脹。今天,大部分較大的連鎖店都有自己的網站,顧客可以方便地聯機購買商品。如 Amazon. com(htp:∥/ww. amazon. com),只有聯機商店而沒有實體(即物理的)商場。零售數據為數據挖掘提供了豐富的資源。零售數據挖掘可以幫助識別顧客購買行為,發現顧客購物模式和趨勢,改進服務質量取得更好的顧客保持度和滿意度,提高貨品消費比,設計更好的貨品運輸與分銷策略,降低企業成本。
3.3科學與工程領域的應用
計算機科學中的數據挖掘可以用來幫助監測系統狀態、提高系統性能、隔離軟件錯誤、監測軟件剽竊、分析計算機系統缺陷、發現網絡入侵和識別系統故障。軟件和系統工程的數據挖掘可以在靜態或動態(基于流)數據上進行,取決于系統是否為之后的分析提前卸載跟蹤,或者是否必須實時反應,處理聯機數據。由于大量信息數據注入我們的日常生活[3]。這種通信在萬維網和和各種社區網上以多種形式存在,包括新聞、博客、文章、網頁、在線討論、產品評價、嘰喳(twitters)、消息、廣告和通信。它可以分析用戶或讀者關于產品、講演和文章的反饋,以推斷社團的一般觀點和意見。這種分析可以用來預測趨勢、改進工作、幫助決策。因此社會科學和社會研究數據挖掘已經日趨流行。
3.4入侵檢測和預防領域的應用
計算機系統和數據安全一直處于危險中。互聯網的大規模增長,各種入侵和攻擊網絡工具和手段的出現,使得入侵檢測和預防成為網絡系統的關鍵組成部分。入侵可以定義為威脅網絡資源(如用戶賬號、文件系統、系統內核等)的完整性、機密性或可用性的行為。入侵檢測系統和入侵預防系統都監測網絡流量和系統運行,以發現惡意活動。數據挖掘技術的應用,可以開發強大的入侵檢測和預防系統[4]。
結語
當前數據挖掘應用主要集中在電信、零售、農業、網絡日志、銀行、電力、生物、天體、化工、醫藥等方面。看似廣泛,實際應用還遠沒有普及。數據挖掘會成為未來10年內重要的技術之一。而數據挖掘,也已經開始成為一門獨立的專業學科。具體應用方向主要有:對知識發現方法的研究進一步發展,如對Bayes和Boosting方法的研究和提高;商業工具軟件不斷產生和完善,注重建立解決問題的整體系統,例如Weka等軟件。數據挖掘的發展應是挖掘工具在先進理論指導下的改進,而就國內情況而言,還有至少20年的發展空間。
參考文獻
[1] ?Micheling Kamber/Jian Pei.數據挖掘概念與技術[M].機械工業出版社.2012.8.
[2] ?韓秋明、李微、李華鋒.數據挖掘技術應用實例[M].機械工業出版社.2009.
[3] ?邱恩海.計算機數據挖掘技術的開發及其應用研究[J].科技風.2019(17):100.
[4] ?劉芬.基于計算機數據挖掘技術的開發及應用分析[J].數字技術與應用.2018(05):220-222.
作者簡介:李沂;女;(1987.5.12—):研究生;研究方向:計算機科學與技術。