何正玲
(西安文理學院 ,陜西西安,710065)
隨著信息通信技術的發(fā)展,人類社會已經(jīng)進入了“網(wǎng)絡大數(shù)據(jù)時代”,各種數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多、價值密度低。如何從海量 的數(shù)據(jù)中探尋數(shù)據(jù)規(guī)律,發(fā)現(xiàn)有意義的信息是迫切解決的難題。作為信息技術自然進化的結(jié)果,數(shù)據(jù)挖掘這一研究領域應運而生。關聯(lián)規(guī)則( Association Rules)的挖掘在數(shù)據(jù)挖掘中扮演著一個重要的角色,對于關聯(lián)規(guī)則的挖掘算法已經(jīng)進行了很多研究。閥值篩選、刪除候選項集,然后進行下一次的合成并生成該層的頻繁項集。篩選之后,候選項集數(shù)減少,提高其挖掘速度。
Apriori算法是一種尋找頻繁項集的基本算法, 其基本原理是使用一種稱作逐層搜索的迭代方法,即用k項集去探索(k+1)項集。Apriori算法使用頻繁項集性質(zhì)的先驗知識,該集合記作L1。Apriori算法的基本思想如下:先找出所有的頻繁1項集的集合L1,然后利用L1找L2(頻繁2項集的集合),利用L2找L3(頻繁3項集的集合),以此類推,直至不能找出的頻繁K項集的集合,結(jié)束。找出全部項集之后利用預先設定的最小支持度
Mining Frequent Patterns without Candidate Generation 一文中提出了一種新型的模式增長算法FP-growth。FP-growth算法是基于FP-tree結(jié)構,不會生成候選項集,挖掘頻繁項集采用模式增長的方法。它是一種關聯(lián)規(guī)則挖掘的新思路。
基本思路:不斷地迭代FP-tree的構造和投影過程
算法描述如下:
1、對于每個頻繁項,構造它的條件投影數(shù)據(jù)庫和投影FP-tree。
2、對每個新構建的FP-tree重復這個過程,直到構造的新FP-tree為空,或者只包含一條路徑。
3、當構造的FP-tree為空時,其前綴即為頻繁模式;當只包含一條路徑時,通過枚舉所有可能組合并與此樹的前綴連接即可得到頻繁模式。
FP-Growth 算法輸入: 對數(shù)據(jù)庫DB 進行最小支持度約束后得到的FP-tree。 輸出: 全部頻繁項的集合。
首先, DB的FP-tree 包含了DB 中為了完成支持度閾值為N的挖掘所需的完整信息。其次, 如果FP-tree包含單一路徑,它可以進行頻繁模式集的生成工作。否則,對頭表中的每個項,產(chǎn)生它的條件模式基,將其與目前的模式合并,并構造新模式下的條件模式樹。如果樹不為空,則繼續(xù)調(diào)用新模式下的函數(shù);否則, 函數(shù)在此結(jié)束。
綜上所述可知,兩種算法中,F(xiàn)P-Growth 算法的表現(xiàn)更好。
我們不直接比較算法的絕對運行時間,因為,不同的機器結(jié)構可能有很大的不同。我們實現(xiàn)自己的算法,最好將不同的算法在同一臺機器上、同一環(huán)境下運行,運行時間這里指總的執(zhí)行時間,即輸入和輸出之間的期間,而不是CPU。此外,在FP增長的運行時的所有報告,包括從原始構建FP樹的時間數(shù)據(jù)庫。
通過對Apriori和FP- Growth算法進行測試,可以看出,隨著最小支持度的逐漸減小,Apriori算法性能急劇降低,而FPGrowth算法性能相對穩(wěn)定,所需時間沒有發(fā)生突變的增加。經(jīng)過多次測試,結(jié)果顯示,F(xiàn)P- Growth 算法比Apriori算法快一個數(shù)量級,且FP-Growth算法對不同長度的規(guī)則都有很好的適應性。
FP-Growth和Apriori算法顯示線性可擴展性與交易從10K到100K的數(shù)量。然而,F(xiàn)P-Growth增長比Apriori算法更具擴展性。由于交易的數(shù)量增長時,兩種方法之間差距變得越來越大。總體而言,F(xiàn)P-Growth在同一個數(shù)量級比Apriori算法在大型數(shù)據(jù)庫速度更快,而且這種差距變寬當最小支持度閾值降低。
數(shù)據(jù)挖掘也是進行商業(yè)決策的輔助工具,數(shù)據(jù)挖掘可一充大嶺的商業(yè)數(shù)據(jù)之中,對各種數(shù)據(jù)進行抽樣、轉(zhuǎn)換、分析以及進行模型化處理,進而從中的出關鍵性數(shù)據(jù)。就此而言,數(shù)據(jù)挖掘在商業(yè)領域有著十分廣闊的應用前景,特別是在市場營銷中的有著十分廣闊的應用空間。通過系統(tǒng)的數(shù)據(jù)局分析,我們可以發(fā)現(xiàn)用戶的消費特點,在此基礎上,作出合理的營銷策略,促進商品的銷售。目前,數(shù)據(jù)挖掘技術在營銷領域的應用以及涉及到了各個領域,如,金融領域、電子商務等諸多方面。利用數(shù)據(jù)挖掘技術發(fā)現(xiàn)顧客的潛在需求,對于促進營銷的發(fā)展意義重大[2]。
學校的教學系統(tǒng)的是由不同的元素想和配合構成的,充分發(fā)揮數(shù)據(jù)挖掘技術來挖掘數(shù)據(jù)庫中的知識,發(fā)現(xiàn)教學系統(tǒng)中個不同的要素之間的關系,可以為師實現(xiàn)學校管理的科學化以及合理化提供科學的根據(jù)[3]。除此之外,通過數(shù)據(jù)挖掘技術,我們可以發(fā)現(xiàn)教師的教學質(zhì)量與教師的經(jīng)驗、教學的職齡以及專業(yè)等因素之間的內(nèi)在關聯(lián)用于提高教師的教學水平。同時,通過數(shù)據(jù)挖掘我們也可以發(fā)現(xiàn),不同年段的學生的學習認知特點,根據(jù)學生的學習特點和學習特征,制定教學過程中,為實現(xiàn)了個性化教學體提供了技術支持[4]。
在我國,農(nóng)業(yè)是基礎產(chǎn)業(yè),農(nóng)業(yè)數(shù)據(jù)信息多而繁雜,具體可能涉及農(nóng)作物生長情況、土地使用情況、水設施情況、收成情況等等。然而,由于地域性、時效性的限制,對這些農(nóng)業(yè)數(shù)據(jù)信息要進行及時、準確的進行整合、提取,需要借助于數(shù)據(jù)挖掘技術,這樣才能夠提高農(nóng)業(yè)數(shù)據(jù)信息處理的實時性,充分發(fā)揮其預測、指導作用。數(shù)據(jù)挖掘技術的在農(nóng)業(yè)數(shù)據(jù)信息中的應用的最大優(yōu)勢就是在保證信息質(zhì)量的前提下,深入挖掘其中作為有效的農(nóng)業(yè)信息,從而為我國農(nóng)業(yè)發(fā)展提供有力的數(shù)據(jù)支持,實現(xiàn)農(nóng)業(yè)部門的科學決策與管理,保證了我國農(nóng)業(yè)的快速、有效、健康發(fā)展[5]。
近年來,社會進入快速發(fā)展時期,大數(shù)據(jù)所帶來的海量信息,對于數(shù)據(jù)挖掘技術來說既是機遇也是挑戰(zhàn),數(shù)據(jù)挖掘技術的更新發(fā)展需要依靠高科技,需要改進處理數(shù)據(jù)的工具進行數(shù)據(jù)挖掘分析、以提高有預測性和決策力,從而保證數(shù)據(jù)信息的及時性、準確性、。數(shù)據(jù)挖掘技術因其自身優(yōu)勢,其應用前景廣闊,必將推動我國經(jīng)濟的快速發(fā)展,實現(xiàn)社會的信息化發(fā)展。
參考文獻
[1] Jiawei Han, Jian Pei, and Yiwen Yin. Mining Frequent Patterns without Candidate Generation[J].In Data Mining And Knowledge Discovery,8.53-87,2004
[2] 李平榮.大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術與應用[J].重慶三峽學院學報,2014.3(3):45-47
[3] 魏萍萍等.數(shù)據(jù)挖掘技術及其在高校教學系統(tǒng)中的應用[J].計算機工程, 2003,29(11):87 -89.
[4] 李汪麗等.數(shù)據(jù)挖掘在中國教育領域的應用研究綜述[J].湖北第二師范學院學報,2012.2(27):55-58
[5] 羅鳳娥等. 數(shù)據(jù)挖掘在農(nóng)業(yè)領域中的應用研究[J]. 農(nóng)業(yè)網(wǎng)絡信息,2009.1(1)55-58