劉武萍
(佛山職業(yè)技術(shù)學院,廣東 佛山 528237)
隨著現(xiàn)代信息技術(shù)的迅速發(fā)展,世界掀起了信息化的浪潮。人們面臨著大量的數(shù)據(jù),但很難找到所需的信息和有益的知識,這是“信息爆炸”引起的混亂。數(shù)據(jù)挖掘技術(shù)是通過人工智能、數(shù)學統(tǒng)計和并行計算等技術(shù)的開發(fā)和集成而研發(fā)的。數(shù)據(jù)挖掘廣泛用于金融、零售和通信等領(lǐng)域[1],已成為有效利用信息資源的方法和途徑。
決策樹主要基于感應(yīng)分類數(shù)據(jù)的屬性值,分類中常用的分層結(jié)構(gòu)是“if-hen”原則,其主要優(yōu)點是直觀。決策樹方法和神經(jīng)網(wǎng)絡(luò)的主要區(qū)別在于它可以解釋決策過程,缺點是在處理復(fù)雜的數(shù)據(jù)時有很多要點,難以管理。同時,數(shù)據(jù)的基本處理也存在問題,其中決策樹的用途是提取分類規(guī)則,進行分類預(yù)測,其決策樹的生成如圖1 所示。

圖1 決策樹的生成
貝葉斯網(wǎng)絡(luò)是基于數(shù)據(jù)統(tǒng)計處理的方法,通過在網(wǎng)絡(luò)上鏈接不確定的事件,可以預(yù)測與其他事件相關(guān)的事件的結(jié)果,可以在培訓(xùn)示例中顯示或隱藏網(wǎng)絡(luò)更改。貝葉斯網(wǎng)絡(luò)具有分類、聚類和分析功能,其優(yōu)點是容易理解,有良好的預(yù)測效果,缺點是對低頻下的事件預(yù)測效果不好。貝葉斯網(wǎng)絡(luò)在醫(yī)療制造領(lǐng)域取得了良好的成果。
粗略的集合論是在1982 年提出的數(shù)學工具。該方法在數(shù)據(jù)挖掘中起著重要的作用,它可以處理模糊和不確定性,檢測與不準確和嘈雜數(shù)據(jù)的固有結(jié)構(gòu)連接,并可用于功能衰退和關(guān)聯(lián)分析。拉塞特可以被認為是模糊概念的數(shù)學模型[2],由于它們不需要有關(guān)的初始數(shù)據(jù),廣泛用于分類和收集不確定、不完整的信息。
關(guān)聯(lián)性分析是一種基于大數(shù)據(jù)檢測數(shù)據(jù)庫中各種信息之間連接的分析方法。關(guān)聯(lián)性分析法分析收集到的數(shù)據(jù)的關(guān)聯(lián)性,挖掘無法直接應(yīng)用的信息,挖掘隱藏信息,實現(xiàn)數(shù)據(jù)的優(yōu)越性。由于該分析方法具有良好的準確性和針對性,因此經(jīng)常用于數(shù)據(jù)的準確分析,如管理歸檔信息。
遺傳算法適合于數(shù)據(jù)的聚類。通過時間相似性對比和空間相似性對比,可以使復(fù)雜的信息數(shù)據(jù)系統(tǒng)化,了解數(shù)據(jù)之間的內(nèi)部關(guān)系,為獲得有用的概念和模式而進行配置。構(gòu)建數(shù)據(jù)模型時,將遺傳算法與神經(jīng)網(wǎng)絡(luò)結(jié)合起來,可以加深對模型的理解。遺傳算法廣泛應(yīng)用于自動控制、機器學習、模式識別、檢索、調(diào)度和組合優(yōu)化。
近年來,數(shù)據(jù)挖掘技術(shù)得到廣泛使用。該技術(shù)可以提升企業(yè)和部門的各項能力甚至是核心競爭力,是未來規(guī)劃和戰(zhàn)略決策中不可缺少的技術(shù)。目前,數(shù)據(jù)挖掘技術(shù)作為電子商務(wù)的核心技術(shù),在信息資源的開發(fā)中具有很大的優(yōu)勢。該技術(shù)被廣泛應(yīng)用在醫(yī)療、工業(yè)、金融等領(lǐng)域。
目前數(shù)據(jù)挖掘技術(shù)的應(yīng)用在零售行業(yè)比較活躍,在數(shù)據(jù)挖掘技術(shù)的幫助下,明確了解顧客的喜好和購買趨勢,對確立零售行業(yè)未來的銷售戰(zhàn)略有重要作用。關(guān)聯(lián)規(guī)則經(jīng)常用于捕獲客戶數(shù)據(jù),根據(jù)客戶反應(yīng)的有效性分析客戶的特性,進行后續(xù)的銷售工作,并作為廣告工作的指導(dǎo)原則。利用數(shù)據(jù)挖掘技術(shù),可以有效分析客戶的忠誠度,根據(jù)分析結(jié)果實時調(diào)整數(shù)據(jù)和產(chǎn)品類型,并根據(jù)客戶喜好調(diào)整銷售服務(wù)[3]。這個過程不僅有助于穩(wěn)定現(xiàn)有顧客,而且有助于持續(xù)探索潛在顧客。因此,在零售行業(yè)應(yīng)用數(shù)據(jù)挖掘方法可以進一步擴大本公司的銷售規(guī)模和范圍,從根本上增加銷售量。
數(shù)據(jù)挖掘技術(shù)首次應(yīng)用于商業(yè)領(lǐng)域以來,數(shù)據(jù)挖掘在金融中的應(yīng)用相對成熟,數(shù)據(jù)挖掘技術(shù)的應(yīng)用在社會和經(jīng)濟上都有著良好的效益。數(shù)據(jù)挖掘技術(shù)基于模型,有效分析金融市場波動的主要因素,據(jù)此建立相應(yīng)的預(yù)測模型,避免市場波動帶來的不利影響,為后續(xù)投資及相關(guān)決策提供合理科學的基礎(chǔ)。預(yù)測模型應(yīng)該綜合客戶培訓(xùn)水平、薪資收入、個人評價等多種因素,分析影響信用的主要原因,以更好的方式調(diào)整貸款政策[4]。另外,根據(jù)信用欺詐等不同類型的信息建立對應(yīng)的預(yù)測模型,有助于銀行潛在地規(guī)避風險,防止銀行資金的不正當損失。通過建立預(yù)測模型,也有助于銀行盡可能利用潛在和寶貴的客戶,進行跨地區(qū)銷售業(yè)務(wù),使用戶與銀行的關(guān)系最大化。在證券交易過程中,可以科學預(yù)測股票,避免嚴重的經(jīng)濟損失,也可以盡快找出會計成本和過高的收益率等問題。
在醫(yī)療行業(yè),醫(yī)療和生物技術(shù)在基因分析的過程中需要處理大量的遺傳數(shù)據(jù)。數(shù)據(jù)挖掘技術(shù)的應(yīng)用,可以探索遺傳數(shù)據(jù)的潛在價值。在醫(yī)療領(lǐng)域,數(shù)據(jù)挖掘技術(shù)可以用于一些不雅疾病的研究,基于此,可以建立相應(yīng)的醫(yī)療數(shù)據(jù)模型。另外,數(shù)據(jù)挖掘技術(shù)也可以應(yīng)用于醫(yī)療記錄數(shù)據(jù)的處理,根據(jù)數(shù)據(jù)的分析,制定相應(yīng)的治療計劃。
近年來,物聯(lián)網(wǎng)和云計算等信息產(chǎn)品記錄了人們的行為軌跡,構(gòu)建了各種大數(shù)據(jù)平臺,促進了數(shù)據(jù)挖掘技術(shù)在各個管理領(lǐng)域的應(yīng)用。例如,數(shù)據(jù)挖掘技術(shù)可以有效地應(yīng)用于大學的管理。大學人口密度很高,在信息化時代,學生的數(shù)據(jù)信息形成了海量的數(shù)據(jù),使得高校難以管理數(shù)據(jù)信息。數(shù)據(jù)挖掘技術(shù)對眾多學生的信息進行挖掘分析,其分析結(jié)果適用于大學入學、教育評價、學生的意識形態(tài)政治工作等[5]。例如,使用數(shù)據(jù)挖掘方法分析教學效果,分析結(jié)果是評價教學效果的依據(jù),也可以監(jiān)測教師是否執(zhí)行有效的教學任務(wù)。數(shù)據(jù)分析有助于教師更好地了解教室里學生混亂的地方,幫助教師改進教育計劃,實施針對性的教育,提高教育效果。另外,應(yīng)用數(shù)據(jù)挖掘方法,使用移動學習模式分析影響在線教學效果的多種因素,包括學生的學習進度、問題學習和其他相關(guān)數(shù)據(jù)。該分析可以幫助教師改進線上教學方法,提高移動學習模式下的教學有效性。
數(shù)據(jù)挖掘方法主要用于挖掘、分析和應(yīng)用存儲的數(shù)據(jù)。首先,它將出現(xiàn)在提高行業(yè)競爭力的領(lǐng)域[6]。數(shù)據(jù)挖掘技術(shù)的分析方法可以發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部價值,大大縮短科學研究的時間,提高產(chǎn)業(yè)競爭力。例如,通過現(xiàn)有的人工智能技術(shù)收集和分析信息,根據(jù)分析結(jié)果向消費者推薦自己喜歡的產(chǎn)品,從而提高行業(yè)的競爭力。
科研機構(gòu)進行科學研究時,需要分析大量非常復(fù)雜的實驗調(diào)查數(shù)據(jù),用于數(shù)據(jù)分析的現(xiàn)有工具已不再適用。數(shù)據(jù)挖掘技術(shù)具有高層次的智能化,是非常強大的自動分析工具,與科學研究領(lǐng)域的數(shù)據(jù)分析工具要求相一致,促進了科學研究領(lǐng)域的應(yīng)用和發(fā)展。
數(shù)據(jù)挖掘技術(shù)的發(fā)展對各個行業(yè)的發(fā)展都有著深刻的影響,該技術(shù)可以帶動各個領(lǐng)域中模式的改變,雖然現(xiàn)在的發(fā)展還不是很好,但該技術(shù)的進步將會帶來多個行業(yè)效率的提高。該種技術(shù)的問世是不易的,但其作用是顯而易見的,為解決當今時代數(shù)據(jù)大爆炸打下了基礎(chǔ),特別是在如今的自媒體時代,數(shù)據(jù)呈指數(shù)增長,這項技術(shù)更是有了用武之地,筆者相信,隨著人們對該技術(shù)的不斷開發(fā),它會給人們一個驚艷的結(jié)局。