
書名:《數據挖掘概念與技術》
作者:Jiawei Han,Micheline Kamber,Jian Pei
出版單位:機械工業出版社
ISBN:978-7-1113-9140-1
出版時間:2012 年8 月
定價:79 元
在大數據時代,“數據就是一切”。誰能夠擁有更為全面、精準、及時的數據,無疑在社會經濟文化發展中就占據了絕對的優勢。在計算機及其應用技術和半導體技術的持續快速發展、廣泛應用和滲透下,數據生產、搜集、儲存的技術理論也不斷更新,可以說,我們的生活、工作、學習就是處于汪洋的數據“大海”中,與此同時,我們仍然在借助新興技術源源不斷地生產、制造更多的數據。那么,我們應該如何充分、科學、巧妙應用“包裹”我們的海量數據呢?數據挖掘和分析應用可以告訴你答案。
《數據挖掘概念與技術(第三版)》作為數據挖掘領域里程碑式的經典著作,該書系統介紹數據挖掘基本概念和方法,并細致、深入闡述數據挖掘領域最新技術、發展。鑒于數據挖掘領域技術突破和應用實踐需求,該書在前兩版的基礎上進一步優化了該書理論知識結構、脈絡,擴充了數據預處理、分類和聚類、OLAP 和離群點檢測、頻繁模式挖掘相關理論知識,并進一步探討挖掘網絡、復雜數據類型、支持向量機等相關知識;在引入許多數據算法、實例的基礎上,采用偽代碼編寫,便于師生應用于大規模數據挖掘項目。該書整體結構合理,條理清晰,資料翔實豐富、全面,可作為數據挖掘、數據分析等相關專業課程教學材料,也可作為本科、碩士數據挖掘研究導論資料。
參考《數據挖掘概念與技術》中關于數據發展、數據挖掘的闡述,不難發現,隨著大數據相關技術不斷發展,越來越多的人意識到擁有海量數據和擁有有效數據是截然不同的兩個問題,盡管數據庫技術讓海量數據儲存成為可能,但如何處理、分析數據成為掌握關鍵數據、有效數據的關鍵。在過去,我們獲取“有效目標數據”的方式是:相關專家、學者將信息、知識數據依據一些約定俗成的規則和方法進行一系列處理,例如分析、篩選、分類等,然后再以圖書、文獻、資料等多種形式呈現在我們眼前。很明顯,這些數據處理方法有很大缺陷,一方面,這些專家、學者以及知識工程師的知識水平、閱歷、見識是有限的,因而通過傳統數據篩選處理出來的數據信息可信度就會打折扣;另一方面,這種數據獲取的方法耗時耗力,在現代經濟文化產業高速發展的今天,在面對實現多個量級躍升的海量數據時就很難滿足社會現實經濟發展需要,例如科研開發、商業決策、產業調整。于是,面對海量、繁雜、發展的巨量數據庫的數據挖掘技術應運而生。
大數據時代,信息數據的意義不在于“大”,而在于如何運用“數據”。時至今日,經過長期探索、開發,數據挖掘技術已經實現很大進展,僅分類算法就有遺傳算法、決策樹、神經網絡、粗糙集以及模糊邏輯技術等,大數據采集也逐漸呈現自動化、全量采集、方式多樣化等特點。同時,作為大數據應用的重要載體,無論是企業、機構還是個人,都可以以云計算為載體進行數據應用開發。在數據挖掘中,通過大量數據進行算法訓練,建立可以準確預測未知數據類別的科學泛化模型,從而得出反映數據之間內在特性的關系模式,因而可以幫助人們更高效、更快速地處理數據。
在數據庫中能夠以二維表結構來實現邏輯表達的數據稱為結構化數據,結構化數據是大數據挖掘應用中最為常見的數據類型。結構化數據往往用于記錄規模較小、含義明確的數據,例如資產負債表、產品庫存等數據。半結構化數據則用于記錄網站流量、用戶瀏覽時間等。最為復雜的是非結構化數據,非結構化數據也是大數據處理中難度最高的,例如多媒體類的圖像和視音頻等。谷歌、臉書等公司進行的“深度學習”相關技術研發就是對非結構化數據進行挖掘處理的成果。
大數據應用最為直接的方式是數據統計,即企業管理中的“商業智能系統”。隨著數據挖掘技術的應用滲透和發展,數據報表已經從原先的以周、天為單位到以小時、分鐘為單位的跨越,報表細分刻畫能力也實現很大提升。以大數據為依托,充分挖掘用戶個性化需求數據則可以為企業、網站服務提升提供有力保障。例如通過挖掘用戶個性需求,建立用戶需求針對性商品推薦模型,提升用戶購買率,鼎鼎大名的亞馬遜網站上近1/5 的成功交易額都得益于個性化推薦系統;個性化數據挖掘還能節約企業運營成本:通過分析用戶多樣化數據和消費明細,將用戶分為不同的類型,并為不同用戶群制定針對的促銷方式。