999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘開發(fā)及應(yīng)用研究

2015-08-22 16:16:43卓廣平
軟件 2015年5期
關(guān)鍵詞:網(wǎng)絡(luò)數(shù)據(jù)挖掘大數(shù)據(jù)

卓廣平

摘要:數(shù)據(jù)挖掘在當(dāng)今的數(shù)字時代、網(wǎng)絡(luò)時代以及大數(shù)據(jù)時代發(fā)展尤為迅猛,屬于多學(xué)科、多領(lǐng)域的交叉學(xué)科,它在較短的時間內(nèi)取得了令人矚目的研究成果,并在社會的各個領(lǐng)域獲得應(yīng)用,表現(xiàn)了出巨大的優(yōu)勢和潛能。本文對數(shù)據(jù)挖掘的過程和數(shù)據(jù)挖掘技術(shù)進(jìn)行了較為詳細(xì)的介紹,并探討了其應(yīng)用領(lǐng)域和前景,旨在為數(shù)據(jù)挖掘理論與實(shí)踐提供一些借鑒和新的思路。

關(guān)鍵詞:數(shù)據(jù)挖掘;大數(shù)據(jù);網(wǎng)絡(luò)

中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A DOI:10.3969/j.issn.1003-6970.2015.05.017

0 引言

數(shù)據(jù)挖掘是從大量的(或海量的)、不完全的、模糊的、有噪聲的以及具有隨性的數(shù)據(jù)中,對隱含的、具有潛在作用和有意義(有時稱作有趣的)知識進(jìn)行提取的過程。其主要任務(wù)是從數(shù)據(jù)集中發(fā)現(xiàn)模式。通過數(shù)據(jù)挖掘發(fā)現(xiàn)的模式形式可以多樣,根據(jù)功能可分為預(yù)測性模式和描述性模式兩種。在實(shí)際運(yùn)用中,則可根據(jù)其實(shí)際作用劃分為分類模式、預(yù)測模式、相關(guān)性分析模式、序列模式、聚類模式以及數(shù)據(jù)可視化等。數(shù)據(jù)挖掘涉及多種學(xué)科、技術(shù)和領(lǐng)域,因此也會有一些不同的挖掘方法和實(shí)現(xiàn)。根據(jù)挖掘?qū)ο蟮牟煌煞譃殛P(guān)系數(shù)據(jù)庫、空間數(shù)據(jù)庫、文本數(shù)據(jù)源、時態(tài)數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫和萬維網(wǎng)Web等的挖掘技術(shù);根據(jù)挖掘任務(wù)的不同,可將其分為分類或預(yù)測模型發(fā)現(xiàn)、聚類、關(guān)聯(lián)規(guī)則發(fā)掘、數(shù)據(jù)匯總、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等;同時還可以根據(jù)挖掘方法進(jìn)行劃分,大致分為統(tǒng)計學(xué)方法、機(jī)器學(xué)習(xí)方法、數(shù)據(jù)庫方法和神經(jīng)網(wǎng)絡(luò)方法等。

1 數(shù)據(jù)挖掘過程

首先,目標(biāo)定義與數(shù)據(jù)準(zhǔn)備。目標(biāo)定義即是定義出明確的數(shù)據(jù)挖掘目標(biāo),數(shù)據(jù)挖掘的成敗受到目標(biāo)定義是否適度的影響,因此在目標(biāo)定義的過程中技術(shù)人員需要具備豐富的數(shù)據(jù)挖掘經(jīng)驗(yàn),并與相關(guān)專家、最終用戶實(shí)現(xiàn)緊密協(xié)作來實(shí)現(xiàn),在明確實(shí)際工作的數(shù)據(jù)挖掘要求的同時,進(jìn)行各種學(xué)習(xí)算法的對比,最終確定有效科學(xué)的算法。整個數(shù)據(jù)挖掘過程中數(shù)據(jù)準(zhǔn)備占有最大的比例,約60%左右。數(shù)據(jù)準(zhǔn)備階段具體過程分為三步,即數(shù)據(jù)選擇,數(shù)據(jù)預(yù)處理和數(shù)據(jù)變換。(1)數(shù)據(jù)選擇(DataSeleetion):數(shù)據(jù)選擇即是從已有的數(shù)據(jù)庫或數(shù)據(jù)倉庫中進(jìn)行相關(guān)數(shù)據(jù)的提取,并形成目標(biāo)數(shù)據(jù)(TargetData)。(2)數(shù)據(jù)預(yù)處理(DataProcessing):對參與提取的數(shù)據(jù)進(jìn)行處理,從而使數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求。(3)數(shù)據(jù)變換(Data Transformation):數(shù)據(jù)變換的目的主要在于使數(shù)據(jù)維數(shù)得到精簡,進(jìn)而從數(shù)據(jù)初始特征中找出真正有用的特征,減小數(shù)據(jù)挖掘過程中需要考慮的變量個數(shù)與特征。

其次,數(shù)據(jù)挖掘。數(shù)據(jù)挖掘階段屬于實(shí)際的挖掘工作過程,首先需要進(jìn)行算法的規(guī)劃,決定所要采用的數(shù)據(jù)挖掘方法,然后在挖掘方法的基礎(chǔ)上選擇一種算法,待完成上述準(zhǔn)備工作后,對數(shù)據(jù)挖掘算法模塊予以運(yùn)行。數(shù)據(jù)挖掘階段是相關(guān)領(lǐng)域?qū)<摇?shù)據(jù)挖掘分析者最關(guān)心的階段,能夠在真正意義上稱之為數(shù)據(jù)挖掘。

最后,解釋與評估。分析所提取的信息是根據(jù)最終用戶的決策目的所進(jìn)行的,目的在于將最有價值的信息提取出來。在數(shù)據(jù)挖掘階段發(fā)現(xiàn)的模式,還需要采用機(jī)器或者經(jīng)過用戶的評估,其刪除冗余或者無關(guān)的模式,而對于那些無法滿足用戶要求的模式,應(yīng)退回上一階段,重新發(fā)現(xiàn)模式。應(yīng)注意的是,數(shù)據(jù)挖掘所面對的最終用戶是人,所以需要對發(fā)現(xiàn)的模式進(jìn)行可視化,或者將結(jié)果進(jìn)行轉(zhuǎn)換,使用戶能夠明白。

2 計算機(jī)數(shù)據(jù)挖掘技術(shù)的開發(fā)

計算機(jī)數(shù)據(jù)挖掘技術(shù)的開發(fā),一開始就已經(jīng)將數(shù)據(jù)挖掘定位成了以決策服務(wù)為導(dǎo)向的,以及應(yīng)用型的,正是數(shù)據(jù)挖掘的出現(xiàn),使得決策者的知識儲備要求獲得了極大的降低,并且對數(shù)據(jù)挖掘技術(shù)進(jìn)行研究的企業(yè)也越來越多。

2.1 傳統(tǒng)統(tǒng)計法

傳統(tǒng)統(tǒng)計方法主要包括了三種,即抽樣、多元統(tǒng)計分析和統(tǒng)計預(yù)測。抽樣指的是,在海量的數(shù)據(jù)當(dāng)中,為了免于對所有的數(shù)據(jù)進(jìn)行分析進(jìn)而采用的合理抽樣。多元統(tǒng)計分析則是進(jìn)行的因子分析,或者對具有復(fù)雜結(jié)構(gòu)、較高維數(shù)的數(shù)據(jù)進(jìn)行的分析。統(tǒng)計預(yù)測則是指回歸分析、序列分析等。

2.2 遺傳算法

遺傳算法是一種設(shè)計方法的優(yōu)化技術(shù),是基于進(jìn)化理論,并采用遺傳變異、遺傳結(jié)合和自然選擇等實(shí)現(xiàn)的。其主要思想為“按照適者生存的原則,在最適合的規(guī)則下由當(dāng)前群體組成新的群體,并形成這些規(guī)則的后代。”這些規(guī)則的適合度在度典型情況下,采用其對訓(xùn)練樣本集分類的準(zhǔn)確率進(jìn)行評估。

2.3 決策樹法

一系列規(guī)則的劃分為基礎(chǔ)建立的樹狀圖,能夠用于各種分類與預(yù)測。其算法具體包括有C4.5、ID3、CHAID和CART等等;如今又出現(xiàn)了新的算法,如SLIQ和SPRINT,新算法能夠由非常大的訓(xùn)練集歸納決策樹,并對分類屬性和連續(xù)性屬性進(jìn)行處理。

2.4 神經(jīng)網(wǎng)絡(luò)

一個神經(jīng)網(wǎng)絡(luò)從結(jié)構(gòu)上可劃分為輸入層、輸出層和隱含層。在輸入層中,各個節(jié)點(diǎn)都對應(yīng)了一個相應(yīng)的預(yù)測變量;而輸出層節(jié)點(diǎn)則對應(yīng)多個目標(biāo)變量。隱含層位于輸入層與輸出層之間,其層數(shù)和每層節(jié)點(diǎn)的個數(shù)決定了神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度。神經(jīng)網(wǎng)絡(luò)每個節(jié)點(diǎn)除了連接輸入層的節(jié)點(diǎn),同時也與它前面很多節(jié)點(diǎn)向連接,并且各個連接均對應(yīng)權(quán)重Wxy,而該節(jié)點(diǎn)的值,則是通過其所有輸入節(jié)點(diǎn)的值與對應(yīng)權(quán)重乘積的和作為函數(shù)輸入得到的,這個函數(shù)被稱為擠壓函數(shù)或者活動函數(shù)。

2.5 聯(lián)機(jī)分析

聯(lián)機(jī)分析是一種進(jìn)行多維數(shù)據(jù)分析的方法,需要通過聯(lián)機(jī)來實(shí)現(xiàn)。用戶需要積極配合聯(lián)機(jī)分析,主動提出分析要求,篩選分析算法,并對數(shù)據(jù)進(jìn)行由淺入深的探索性分析。

2.6 可視化技術(shù)

由于數(shù)據(jù)特征有時并不明顯,為了解決這個問題便于用戶理解,可采用圖標(biāo)等方式來對數(shù)據(jù)的特征進(jìn)行表述,使數(shù)據(jù)更加直觀明了,如散點(diǎn)圖、餅圖、柱狀圖等可視化方法等,但是高維數(shù)據(jù)的可視化在目前還存在較大的困難。

3 計算機(jī)挖掘技術(shù)的應(yīng)用

3.1 科學(xué)研究領(lǐng)域的應(yīng)用

在科學(xué)研究中,需要對來自各種實(shí)驗(yàn)、觀測的大量數(shù)據(jù)進(jìn)行分析,而傳統(tǒng)的數(shù)據(jù)分析工具已經(jīng)無法滿足現(xiàn)在的數(shù)據(jù)分析需求,為此具有強(qiáng)大功能的智能化自動分析工具也就要求迫切,而這種需求也推動了數(shù)據(jù)挖掘技術(shù)在該領(lǐng)域的應(yīng)用與發(fā)展。如SKICAT(由加州理工學(xué)院開發(fā))數(shù)據(jù)挖掘技術(shù)就幫助天文學(xué)家發(fā)現(xiàn)了16個新的類星體;而在生物醫(yī)學(xué)研究中,也通過數(shù)據(jù)挖掘的序列模式分析和相似檢索技術(shù)對DNA數(shù)據(jù)進(jìn)行了DNA序列間相似檢索和比較;同時還利用路徑分析發(fā)現(xiàn)了疾病不同階段的致病基因等等。

3.2 金融行業(yè)風(fēng)險分析、欺詐甄別

金融企業(yè)具有一定的風(fēng)險性,為此投資風(fēng)險評估是最為重要的一項(xiàng)工作,只有這樣,才能夠最大限度的降低風(fēng)險,獲得經(jīng)濟(jì)效益。為此,金融企業(yè)就通過計算機(jī)數(shù)據(jù)挖掘技術(shù)來對投資項(xiàng)目進(jìn)行評估預(yù)測,并協(xié)助進(jìn)行風(fēng)險評估,做出資產(chǎn)評價、資源計劃、財務(wù)計劃與競爭策略等等。同時還能夠?qū)︺y行、保險客戶的要求以及信譽(yù)進(jìn)行有效的分析,識別諸如惡性透支等欺詐行為,減少經(jīng)濟(jì)損失。在這方面應(yīng)用較為成功的有FATS系統(tǒng)與FALCON系統(tǒng),F(xiàn)ATS系統(tǒng)使用一般的政府?dāng)?shù)據(jù)單,是一種用于識別與洗錢有關(guān)的金融交易的系統(tǒng);而FALCON系統(tǒng)則是信用卡欺詐估測系統(tǒng),由HNC公司開發(fā),現(xiàn)已在一些零售銀行中應(yīng)用用于探測可疑的信用卡交易。

3.3 教育領(lǐng)域的應(yīng)用

首先,學(xué)生學(xué)習(xí)的應(yīng)用。學(xué)校通常會對學(xué)生組織月考、期末考等多種考試,并對學(xué)生的成績進(jìn)行統(tǒng)計,所以學(xué)校可利用計算機(jī)數(shù)據(jù)挖掘技術(shù)通過學(xué)生月考的成績來對徐而生期末大概的考核成績進(jìn)行預(yù)測,這樣教師就能夠根據(jù)預(yù)測的結(jié)果在期末考試前對學(xué)生進(jìn)行針對性的輔導(dǎo),提醒學(xué)生重點(diǎn)復(fù)習(xí)的內(nèi)容。通過這種預(yù)測,既能夠掌握學(xué)生的學(xué)習(xí)情況,同時也使學(xué)習(xí)與復(fù)習(xí)更加具有針對性。同時,學(xué)校和教師可充分利用計算機(jī)挖掘技術(shù)的對大量的數(shù)據(jù)整合的功能,將相關(guān)學(xué)習(xí)資料經(jīng)篩選整合后在校園網(wǎng)上發(fā)布,在為學(xué)生提供方便的資料查找的同時,也能夠?qū)崿F(xiàn)學(xué)校教育方式的與時俱進(jìn),與新信息技術(shù)相結(jié)合,提高了教學(xué)質(zhì)量。大學(xué)校園還利用數(shù)據(jù)挖掘技術(shù)的調(diào)節(jié)功能來調(diào)節(jié)學(xué)生選課情況。此外,學(xué)校可將計算機(jī)數(shù)據(jù)挖掘技術(shù)用于學(xué)校的管理,如食堂整理食堂倉庫的數(shù)據(jù)等,進(jìn)而及時的補(bǔ)給短缺的食材、保障營養(yǎng)均衡,并最大的限度下滿足學(xué)生飲食習(xí)慣。

3.4 電子商務(wù)的應(yīng)用

電子商務(wù)的重點(diǎn)在于網(wǎng)站瀏覽量、點(diǎn)擊率以及客戶成交單子的數(shù)量。而這三個問題也是電子商務(wù)午企業(yè)需要解決的核心問題。因此,電子商務(wù)企業(yè)可利用計算機(jī)數(shù)據(jù)挖掘技術(shù)來對用戶的一系列情況進(jìn)行數(shù)據(jù)整合與分析,包括客戶網(wǎng)頁瀏覽時物品收藏情況、成交記錄情況等,進(jìn)而為用戶進(jìn)行物品的推薦。通過這種數(shù)據(jù)分析來進(jìn)行物品的推薦,即便客戶沒有購買這些推薦的產(chǎn)品,但也會極大的增加點(diǎn)擊量與瀏覽量,增加企業(yè)在該行業(yè)的競爭力。

3.5 煤礦類企業(yè)的應(yīng)用

煤礦企業(yè)通常都需要對地下資源進(jìn)行科學(xué)合理的挖掘,但在實(shí)際生產(chǎn)過程中,很多問題都不僅僅是依靠工作人員自身力量就能夠解決的,為此煤礦類企業(yè)工作人員就需要利用數(shù)據(jù)挖掘技術(shù)來進(jìn)行相應(yīng)的勘測,對獲得數(shù)據(jù)進(jìn)行整合分析并為后續(xù)生產(chǎn)提供依據(jù),對自然資源進(jìn)行科學(xué)合理的利用。同時煤礦企業(yè)通過計算機(jī)數(shù)據(jù)挖掘技術(shù)的應(yīng)用還能夠?qū)ζ髽I(yè)的后期發(fā)展進(jìn)行合理的預(yù)測,即在利用新型媒體技術(shù)基礎(chǔ)上,對煤礦企業(yè)經(jīng)營的過程的數(shù)據(jù)進(jìn)行保存,實(shí)現(xiàn)對后期經(jīng)營的合理判斷。

3.6 軍事領(lǐng)域的應(yīng)用

隨著社會的信息化發(fā)展,科學(xué)技術(shù)水平的不斷提高,軍事領(lǐng)域不再只關(guān)注以往的焦點(diǎn),也注重了新興媒體技術(shù)的利用,來對所需的數(shù)據(jù)進(jìn)行收集、分析和整理。通過數(shù)據(jù)挖掘在掌握本國軍事實(shí)力的同時,對外國敵對勢力的部分情況視線里有效的監(jiān)管。在高科技利用下,實(shí)現(xiàn)對于敵對勢力的經(jīng)濟(jì)、政治和軍事上一定程度的總體的把握,進(jìn)而掌握主動權(quán),為取得可能發(fā)生戰(zhàn)爭的勝利奠定基礎(chǔ)。通過數(shù)據(jù)挖掘技術(shù)的應(yīng)用人們對軍事的理解也從傳統(tǒng)層面上升到新的高度,在對敵對的勢力進(jìn)行精準(zhǔn)數(shù)據(jù)分析的前提下,做出針對性、科學(xué)性的準(zhǔn)備與部署。數(shù)據(jù)挖掘技術(shù)在軍事領(lǐng)域的應(yīng)用,既需要高能力的計算機(jī)人才,也更是需要具備國家榮譽(yù)感的人士,只有在清楚把握住敵人情況下,才能做出正確的作戰(zhàn)方式,由此計算機(jī)數(shù)據(jù)挖掘技術(shù)在軍事領(lǐng)域中的作用最不容忽視。

此外,計算機(jī)數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)中的應(yīng)用主要有兩個方面:一是研制新的更好的索引系統(tǒng),二是利用已有索引(搜索)系統(tǒng)開發(fā)更高層次的發(fā)現(xiàn)(搜索)系統(tǒng)。

4 結(jié)束語

利用計算機(jī)進(jìn)行數(shù)據(jù)挖掘技術(shù)已經(jīng)在人們的社會生產(chǎn)、生活中以及不同領(lǐng)域中發(fā)揮著巨大的作用,包括太空領(lǐng)域、氣象領(lǐng)域、教育領(lǐng)域、電子商務(wù)、企業(yè)生產(chǎn)、金融領(lǐng)域、醫(yī)學(xué)領(lǐng)域、生物領(lǐng)域和軍事領(lǐng)域等。為此深入對數(shù)據(jù)挖掘技術(shù)的理論研究和技術(shù)開發(fā),倍加重視以應(yīng)用帶動理論和技術(shù)創(chuàng)新,才能使之更好的為國家和社會服務(wù),提高我國的綜合國力。

猜你喜歡
網(wǎng)絡(luò)數(shù)據(jù)挖掘大數(shù)據(jù)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
油氣集輸系統(tǒng)信息化發(fā)展形勢展望
基于網(wǎng)絡(luò)的信息資源組織與評價現(xiàn)狀及發(fā)展趨勢研究
基于網(wǎng)絡(luò)的中學(xué)閱讀指導(dǎo)
考試周刊(2016年79期)2016-10-13 21:50:36
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
新形勢下地市報如何運(yùn)用新媒體走好群眾路線
中國記者(2016年6期)2016-08-26 13:02:28
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
主站蜘蛛池模板: 免费在线成人网| 国产一在线| 日本在线欧美在线| 免费在线看黄网址| 国产欧美日韩免费| 国产九九精品视频| 国产aⅴ无码专区亚洲av综合网| 久久国产成人精品国产成人亚洲| 亚洲欧洲美色一区二区三区| 国内精品伊人久久久久7777人| 91午夜福利在线观看| 亚洲精品国产精品乱码不卞 | 国产后式a一视频| 国产成人无码AV在线播放动漫| 久久中文字幕av不卡一区二区| 精品无码一区二区在线观看| 精品福利视频网| 国产第一页亚洲| 国产亚洲欧美在线专区| 国产成人综合亚洲网址| 国产麻豆福利av在线播放| 国产麻豆另类AV| 91无码视频在线观看| 免费激情网址| 热久久国产| 国产AV无码专区亚洲A∨毛片| 97视频在线精品国自产拍| 五月天福利视频| 国产精品视频第一专区| 亚洲欧美日本国产综合在线| 日韩毛片免费| 欧美有码在线| 欧美一级视频免费| yy6080理论大片一级久久| 亚洲无码高清免费视频亚洲| 亚洲天堂视频在线播放| 久久久久国产一级毛片高清板| 久久香蕉欧美精品| 国产视频自拍一区| 国产成人精品男人的天堂| 亚洲天堂日韩av电影| 欧美精品亚洲日韩a| 国产精品福利一区二区久久| 国产精品丝袜在线| 亚洲精品国产首次亮相| 91精品国产综合久久不国产大片| 国产99视频精品免费视频7 | 男人的天堂久久精品激情| 日韩黄色在线| 亚洲男人天堂2020| 91日本在线观看亚洲精品| 在线国产综合一区二区三区| 国产亚洲美日韩AV中文字幕无码成人| 蜜桃臀无码内射一区二区三区| 亚洲成年网站在线观看| 日本人又色又爽的视频| 国内熟女少妇一线天| 91外围女在线观看| 久久免费观看视频| 91九色最新地址| 精品亚洲国产成人AV| 91亚洲国产视频| 国产精品尤物在线| 五月激情婷婷综合| 久草青青在线视频| 日韩国产无码一区| 国产亚洲精| 中文字幕av一区二区三区欲色| 精品无码日韩国产不卡av| 色妞www精品视频一级下载| 99久久这里只精品麻豆| a网站在线观看| 色吊丝av中文字幕| aⅴ免费在线观看| 久久久波多野结衣av一区二区| 欧美激情福利| 中日韩一区二区三区中文免费视频| 亚洲国产系列| 国产网友愉拍精品视频| 国产一区二区三区日韩精品| 成人91在线| 国产免费a级片|