李平榮
(隴南師范高等專科學校,甘肅成縣 742500)
2011年5月,麥肯錫全球研究院在《大數據:創新、競爭和生產力的下一個新領域》中指出,數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產要素;而人們對于大數據的運用預示著新一波生產率增長和消費者盈余浪潮的到來.2012年3月29日,美國政府在白宮網站上發布了《大數據研究和發展倡議》,表示將投資 2億美元啟動“大數據研究和發展計劃”[1],增強從大數據中分析提取信息.“大數據”到底有多大?根據統計,僅在2011年,全球數據增量就達到了1.8 ZB,相當于全世界的每個人產生200 GB以上的數據.而且這種增長趨勢仍在快速增長,據估計,在未來,數據將至少保持每年50%的增長速度.
數據挖掘是一門新興的學科,它誕生于20世紀80年代,主要面向商業應用的人工智能研究領域.從技術角度看,數據挖掘就是從大量的、復雜的、不規則的、隨機的、模糊的數據中獲取隱含的、人們事先沒有發覺的、有潛在價值的信息和知識的過程.從商業角度來說,數據挖掘就是從龐大的數據庫中抽取、轉換、分析一些潛在規律和價值,從中獲取輔助商業決策的關鍵信息和有用知識.
分析方法是數據挖掘的核心工作,通過科學可靠的算法才能實現數據的挖掘,找出數據中潛在的規律.通過不同的分析方法,將解決不同類型的問題,在現實中針對不同的分析目標,找出相對應的方法.目前常用的分析方法主要有聚類分析、分類和預測、關聯分析等.
聚類分析就是將物理或抽象對象的集合進行分組,然后組成為由類似或相似的對象組成的多個分類的分析過程,其目的就是通過相似的方法來收集數據分類.它是一種無先前知識,無監督的學習過程,從數據對象中找出有意義的數據,然后將其劃分在一個未知的類.這不同于分類,因為它無法獲知對象的屬性.“物以類聚,人以群分”,通過聚類來分析事物之間類聚的潛在規律.聚類分析廣泛運用于心理學、統計學、醫學、生物學、市場銷售、數據識別、機器智能學習等領域.
聚類分析根據隸屬度的取值范圍可分為硬聚類和模糊聚類兩種方法.硬聚類就是將對象劃分到距離最近聚類的類,非此即彼,也就是說屬于一類,就必然不屬于另一類.模糊聚類就是根據隸屬度的取值范圍的大小差異來劃分類.一個樣本可能屬于多個類.常見的聚類算法主要有密度聚類算法、層次聚類算法、劃分聚類算法、網格聚類算法、模型聚類算法等.
分類和數值預測是問題預測的兩種主要類型.分類是預測分類(離散、無序的)標號,而預測則是建立連續值函數模型.分類是數據挖掘的重要基礎,它是對已知的訓練數據集表現出來的特性,獲得每個類別的描述或屬性來構造相應的分類器或者分類.分類是一種有監督的學習過程,它是根據訓練數據集發現準確描述來劃分類別.常見的分類算法主要有決策樹、粗糙集、貝葉斯、遺傳算法、神經網路等.預測就是根據分類和回歸來預測將來的規律.常見的預測方法主要有局勢外推法、時間序列法和回歸分析法[2].
在自然界,事物之間存在著千絲萬縷的聯系,當某一事件發生時,可能會帶動其它事件的發生.關聯分析就是利用事物之間存在的依賴或關聯知識來發現事物之間存在的規律性,然后通過這種規律性進行預測.如經典實例購物籃分析,就是通過分析顧客購物籃中物品的管理規律,來分析顧客的購物心理和習慣,然后根據這種規律來幫助營銷人員制定營銷策略.
神經網絡通過復雜的大批量數據進行分析,實現對于計算機或人腦而言非常復雜的模式抽取及趨勢分析,它是建立在自學習的數學模型基礎之上的,神經網絡既可以是有指導的學習,也可以是無指導聚類,但無論哪種,輸入到神經網絡中的值都是數值型的.目前在數據挖掘中,最常使用的是BP網絡和RBF網絡兩種神經網絡[3].
在數據挖掘中,遺傳算法經常被用作評估其他算法的適合度.它是一種由生物進化而啟發的一種學習方法,通過對當前已知的最好假設變異和重組來生成后續的假設.每一步,用目前適應性最高的假設的后代來代替群體的某個部分,來更新當前群體的一組假設,以便實現各個個體的適應性的提高.遺傳算法由三個基本過程組成:繁殖(選擇)、交叉(重組)、變異(突變).
可視化技術是數據挖掘中應用非常廣泛的一種輔助技術.它借助圖形、圖像、動畫等手段形象地指導操作、引導挖掘和表達結果等.這種手段很好地解決了數據挖掘中涉及的比較復雜的數學方法和信息技術的表現形式,方便了用戶理解和使用技術,為數據挖掘技術的推廣普及起到很大的作用.
數據挖掘的基本過程如下:

圖3-1 數據挖掘的基本過程圖
數據準備,是從海量的原始數據中準備要據挖掘的數據,它是長期的、無規律的數據積累的結果.由于原始數據不適合數據挖掘,所以要先進行預處理,包括數據選擇、清洗、推測、轉換等操作.數據準備的好壞直接決定著數據挖掘的質量和效率.
數據挖掘是整個程序的關鍵過程,按照數據挖掘的目標要求,選擇合適的算法,來挖掘數據規律,常見的算法有決策樹、分類、神經網絡、Apriori算法等.
對挖掘過的數據結果進行解釋、分析、提取有意義或有使用價值的規律,還原成人們能夠理解的數據語言.
知識運用就是對挖掘的評估結果在現實決策中的運用,這是一個非常重要的過程,也是數據挖掘的最終目標,價值的體現.
市場營銷是數據挖掘技術應用最早和最多的領域.通過分析和挖掘用戶的消費習慣和消費特點,來提高商品的銷售業績.目前,數據挖掘在市場營銷方面已經不僅僅限于超市購物等方面,已經普及到各個金融領域,如保險、電子商務、銀行、電信零售等行業.利用數據挖掘技術來分析顧客的消費行為,為本行業帶來潛在的客戶和效益.
在科學研究中,經常需要分析各種大量的實驗和觀測數據,并找出相關的規律和知識.這些數據分析和挖掘都需要一定的算法,利用數據挖掘技術能科學的找出數據之間的規律以及找出我們未發現的知識.例如,對外空星體的探索、對 DNA數據的分析等等.
在制造業領域,通過對零部件生產的各種數據分析,來提高生產效率和提高良品率,如分析造成產品缺陷的環節及數據,找出生產過程影響生產率的因素,暴露制造和裝配操作過程中變化情況等各種因素,從而通過重點改進相關環節及工藝,來提高企業的生產效率及利益.
近些年,隨著電信業的蓬勃發展,電信業的技術和服務已經成為一個非常龐大的混合載體,它不僅關系市場,也關系到技術及服務.在將企業有效資源整合,實現無縫連接的過程中,將產生大量的復雜數據集合,如何從龐雜的數據中找尋出規律和知識,已成為電信業的重要問題.通過數據挖掘的運用,能很好的解決上述問題,為行業的發展起到很好的作用,如系統負載、數據通信速率和容量、用戶行為、利潤率等;采用孤立點分析和聚類方法,查找出盜用模式和異常狀態;利用關聯和序列模式,找出影響電信發展的相關因素,更好的推動電信業務的發展[4].
目前這方面的應用比較多,如搜索引擎、電子商務等.通過數據挖掘技術在海量的數據中,找到符合用戶需求的信息,例如利用預測分類算法來預知用戶可能需要搜索的信息等.
在教學管理過程中,如何全面掌握學生的學習狀況、心理狀況、選課情況以及教學評價等信息以及教學資源的最優化配置等,都可以使用數據挖掘技術來解決.
伴隨著大數據的數據管理,檢索技術研究的進步,數據挖掘技術將迎來巨大的發展機遇,數據挖掘技術的應用也將更加廣泛,數據挖掘的工具也將更加強大.
[1]胡天狀.數據挖掘技術在教育決策支持系統中的應用[D].杭州:浙江師范大學,2002.
[2]吳文紹.甘肅省教育管理信息決策支持系統[D].蘭州:蘭州理工大學,2006.
[3]丁守哲.基于云計算的建筑設計行業信息系統開發模式與實現技術研究[D].合肥:合肥工業大學,2012.
[4]劉華婷,郭仁祥,姜浩.關聯規則挖掘 Apriori算法的研究與改進[J].計算機應用與軟件,2009(1):146-149.
[5]程軍鋒.Web數據挖掘研究[J].重慶三峽學院學報,2013(3):43-45.