劉陽
哈爾濱職業技術學院
?
基于網絡的數據挖掘技術
劉陽
哈爾濱職業技術學院
摘要:數據挖掘技術是對數據的有效的隱性的提取。數據挖掘技術與網絡息息相關。很多數據信息都是保存在網絡當中,而數據挖掘技術,就是在眾多的數據集合當中進行發現與搜集。本文就數據挖掘如何在網絡中進行工作、數據挖掘的常用技術、以及設計的應用領域進行了詳細的闡述。
在網絡中的數據挖掘,是通過對網絡中共享的信息,存放的海量數據,進行模式探索。把一些具有預測效果和規律性的描述效果的數據信息進行分類總結。把這些重要的數據應用在統計學、分類、預測、描述等等各個方面。數據是網絡中存放的基本單位。網絡中存在海量數據是不爭的事實。但這些數據的收集和有效利用,就是通過數據挖掘來實現的。嚴謹的說數據挖掘是在尋找數據模型。首先獲得數據源,這是網絡的作用。其次進行數據識別與匹配。利用一些專業領域知識將數據轉化為可用
數據挖掘技術總結為十三大類。篇幅有限這里不意義贅述。舉例進行說明。
首先,遺傳算法是其中重要一類。遺傳算法借鑒的是生物學中,對于路徑的尋找、生物的遺傳和變異來進行的規律變化。通過這些變化可以應用于優先級別、權值分配、路徑選擇等多種方面。比如在網絡考試系統中,螞蟻算法就是經常使用的遺傳算法的一種。可以通過它實現試卷難度數值的測定。對于數據挖掘來說,它適用于樣本采集中分類是否準確的判斷。其次關聯規則。熟悉數據庫相關技術的對這一概念應該并不陌生。在網絡數據庫當中,在不同的庫與庫表當中,某個關鍵的字段,在不同的庫與庫表中都可以以產生某種作用。從而產生了相應的規律性。這就是我們所說的關聯。詳細的又可以根據關聯性劃分出不同種類的關聯。在數據挖掘中用于分析數據之間規則的可信程度。再次,粗糙集與模糊集:兩者在概念上好似容易混淆。但二者還是有分別的。粗糙集一般是針對對象或者數據的相關屬性而言。在我們日常總結的屬性中,種類是有限度的,不可能適用于每種數據。因此一些特殊的數據在沒有規范的屬性進行描述的時候采用粗糙集的方式。而對于模糊集來說,主要是針對數據的邊界值。利用某個域值的范圍來進行判讀與預估。
一方面航天應用舉例:在天文學研究以及航天數據分析中,人們遇到了一個很大的難題,即人工對大批量數據分析的無能為力。SKICAT不僅提供對數據庫的管理,并且通過訓練可以對天體進行辨識。它采用了模塊化設計,共有三個主要功能模塊:分類建立、分類管理及統計分析。其中,分類建立是通過有示范的訓練建立對天體的辨識機制。對天體的辨識是進行其它數據分析的前提,只有將天體識別出來以后,如是星系還是星球,才能進行相應的研究。使用SKICAT對天體數據進行分析,一方面是通過機器學習將知識提取過程由學習算法完成,從而可以實現對大批量數據的分析,另一方面是辨識那些亮度很低、人工難以判讀的天體圖像,以進行后續分析。另一方面,Bayesian網是由變量及其關聯組成的有向圖。它主要用于處理實際應用中遇到的不確定信息。圖中還帶有各變量的概率分布,定量的概率信息被表示為條件概率表中在決策前對實際問題的先驗的理解與把握。然而,針對實際問題建立一個應用于決策的Bayesian網絡時存在兩個問題。首先,我們常常是憑個人對問題的經驗與理解來建立模型的,因此建立的模型很難反映問題的客觀實際。其二,在確定Bayesian網中的條件概率表時,我們需要用定量的數值以支持計算,但實際中,人們很難給出一個具體概率值,一般的應用往往是根據經驗,而數據挖掘技術恰恰為我們提供了一系列有效的方法來尋找隱藏于大規模數據之中的有用數據,以解決以上兩個問題。最后,數據挖掘技術還常常應用于商業領域。一個企業對未來的產品的預估,可以通過數據挖掘進行分析。當產品的銷售預測度較高時,可以加大產品開發與生產量。商品銷售企業,也可以根絕用戶習慣數據,進行分析。找出哪些商品是會收到用戶喜歡,或者擁有類似屬性的。這類產品就可以集中采購,而相反情況,就應該減少貨品的采購。保證企業穩速發展。
總之,基于網絡的數據挖掘技術,作用是從網絡海量數據中進行搜集、分類、總結,從而把這些數據通過科學的方法轉化為具有價值的信息和寶貴的知識經驗。數據挖掘不是簡單的搜集、分類那么簡單。在這過程中,它需要使用大量的科學方法與算法來實現。例如文中介紹的遺傳算法、關聯規則、模糊集、粗糙集。當然還不止這些。一些統計技術、人工智能的相關方法也經常使用。通過挖掘技術分類提取后。這些技術可以應用于各個領域。在商業領域判斷企業發展、在航天領域進行大數據分析。在網絡計算領域提出更優方案。綜上所述,基于網絡的數據挖掘技術,發揮了巨大作用。在未來仍然有廣闊打發展空間。
參考文獻
[1]曹秀英.基于粗集的數據挖掘技術及其應用研究[D].哈爾濱工程大學 2003
[2]劉剛.數據挖掘技術與分類算法研究[D].中國人民解放軍信息工程大學 2004
關鍵字:數據挖掘 預測性 相關算法 模式識別 應用領域