999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RapidMiner的SVM分類方法設(shè)計

2015-02-07 10:40:54貴州師范大學(xué)物理與電子科學(xué)學(xué)院
電子世界 2015年16期
關(guān)鍵詞:數(shù)據(jù)挖掘分類實驗

貴州師范大學(xué)物理與電子科學(xué)學(xué)院 陳 葡

貴州財經(jīng)大學(xué)管理科學(xué)學(xué)院 陳 葵

貴州師范大學(xué)物理與電子科學(xué)學(xué)院 游子毅

基于RapidMiner的SVM分類方法設(shè)計

貴州師范大學(xué)物理與電子科學(xué)學(xué)院 陳 葡

貴州財經(jīng)大學(xué)管理科學(xué)學(xué)院 陳 葵

貴州師范大學(xué)物理與電子科學(xué)學(xué)院 游子毅

大數(shù)據(jù)時代背景下,數(shù)據(jù)挖掘技術(shù)是人們面對浩瀚的數(shù)據(jù)所必備的技能,也是提高數(shù)據(jù)利用的有效方式,使用現(xiàn)有的數(shù)據(jù)挖掘工具可以減少數(shù)據(jù)挖掘的時間,Rapidminer是一個開源的數(shù)據(jù)挖掘工具,其可視化特性,使用者容易學(xué)習(xí)和掌握,其開源性,使用者可以免費使用。本文通過在Rapidminer中使用SVM方法對UCI的一個數(shù)據(jù)集進行分類的實驗,介紹如何使用Rapidminer進行數(shù)據(jù)挖掘。

數(shù)據(jù)挖據(jù);RapidMiner;SVM;分類

引言

大數(shù)據(jù)時代的背景下,如何在龐雜的數(shù)據(jù)中找到針對每個人特點的有用數(shù)據(jù)是大數(shù)據(jù)技術(shù)的一個重要組成部分,這給數(shù)據(jù)挖掘技術(shù)帶來了新的機遇與挑戰(zhàn)。數(shù)據(jù)挖掘是指從大量、雜亂的實際數(shù)據(jù)中,提取隱藏在其內(nèi)部、潛在有用的信息和知識的過程,然后把提取出的信息和知識表示為規(guī)律、概念、模式、規(guī)則等形式[1]。數(shù)據(jù)挖掘過程一般包括以下步驟,依次是數(shù)據(jù)預(yù)處理、特征選擇、模型選擇和模型評估[1]。

RapidMiner是一個可視化開源數(shù)據(jù)挖掘工具,可進行數(shù)據(jù)挖掘、機器學(xué)習(xí)和商業(yè)預(yù)測分析[2]。其可視化特性,較其他開源的數(shù)據(jù)挖掘工具而言,初學(xué)者很容易入門;其開源特性,較其他開源的數(shù)據(jù)挖掘工具而言,使用者可以免費使用。在RapidMiner中將相應(yīng)算子(operataor)進行連接形成流程(process)實現(xiàn)數(shù)據(jù)挖掘功能,整個流程就像是車間的生產(chǎn)流水線,原材料進入流水線生產(chǎn)后生產(chǎn)出成品,在RapidMiner中輸入原始數(shù)據(jù),經(jīng)過流程后輸出模型評價結(jié)果或預(yù)測結(jié)果。算子就像是執(zhí)行某種具體功能的函數(shù),不同算子有不同的輸入輸出特性。大概包括以下幾類算子:流程控制類,實現(xiàn)循環(huán)和條件功能;數(shù)據(jù)輸入和輸出類,實現(xiàn)數(shù)據(jù)交換;數(shù)據(jù)轉(zhuǎn)換類,數(shù)據(jù)抽取、清洗整理功能;建模類,分類回歸建模,關(guān)聯(lián)分析、聚類分析、集成學(xué)習(xí)等;評估類,多重交叉檢驗,自助法檢驗等[1]。

1 數(shù)據(jù)挖掘常用算法

數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)時代背景下占有很重要的地位,為了滿足用戶能在龐大的數(shù)據(jù)中篩選出有用數(shù)據(jù)的需要,數(shù)據(jù)挖掘中的分類技術(shù)是當(dāng)前使用最為廣泛的方法之一[2]。分類分析首先將待處理的數(shù)據(jù)分成訓(xùn)練集和測試集,然后使用分類算法模型分析訓(xùn)練集中的數(shù)據(jù),為訓(xùn)練集中的每個類別做出描述并建立分析模型或挖掘出分類規(guī)則,接著將該模型或分類規(guī)則放到測試集中進行驗證,根據(jù)評價參數(shù)對模型進行評價并進行改進,最后用該模型或分類規(guī)則對未來的或其他數(shù)據(jù)庫中的記錄進行分類的方法。常見的分類算法有決策樹、神經(jīng)網(wǎng)絡(luò)和SVM等,本文采用SVM方法對實驗數(shù)據(jù)進行分類[3]。

SVM算法是建立在統(tǒng)計學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,在通用文本分類領(lǐng)域取得了成功,是眾多分類算法中公認(rèn)的效果最好的方法之一,具有分類精度高、魯棒性好等諸多優(yōu)點[4]。

2.實驗環(huán)境

2.1 數(shù)據(jù)集

本文采用UCI Machine Learning Repository中的Chronic_Kidney_Disease數(shù)據(jù)集作為實驗數(shù)據(jù),該數(shù)據(jù)集中有400條數(shù)據(jù),25個屬性,400條數(shù)據(jù)分為兩類(ckd和notckd),其中250條數(shù)據(jù)屬于ckd,150條數(shù)據(jù)屬于notckd,在Rapidminer5.3中使用SVM進行實驗。

2.2 實驗步驟

實驗步驟如下:step1、將Chronic_Kidney_Disease數(shù)據(jù)集導(dǎo)入Rapidminer5.3后,在主流程(main process)為該數(shù)據(jù)集新建一個庫(Repository);step2、選擇模型(modeling)中的SVM放入主流程(main process)中,因為SVM處理的數(shù)據(jù)不允許有缺失,不允許處理一些特殊的數(shù)據(jù)類型,比如polynomial,所以在選擇模型之前使用數(shù)據(jù)類型轉(zhuǎn)換和用一些特殊值替換缺失值對數(shù)據(jù)進行預(yù)處理;step3、設(shè)置SVM中的相關(guān)參數(shù)(parameter);step4、進行算子連接,實驗流程如圖1所示;step5、點擊運行(Run)按鈕執(zhí)行流程得到結(jié)果。

圖1 流程圖

2.3 實驗結(jié)果

實驗中采用召回率(Recall)、精確率(Precision)、正確率(Accuracy)三個方面作為基本評價指標(biāo)。假設(shè)原始樣本有兩類(0和1),假設(shè)類別1為正例,類別0為負(fù)例,為方便敘述,先定義幾個變量,P:類別為1的數(shù)量;N:類別為0 的數(shù)量。

TP:分類后類別為1的樣本被正確判定為類別1的數(shù)量;FN:分類后類別為1的樣本被系統(tǒng)誤判定為類別0的數(shù)量;FP:分類后類別為0的樣本被系統(tǒng)誤判定為類別1的數(shù)量;TN:分類后類別為0的樣本被系統(tǒng)誤判定為類別0的數(shù)量;P=TP+FN;N=FP+TN。精確度:P=TP/(TP+FP),即正例檢對率,反映了被分類器判定的正例中真正的正例樣本的比重。正確率:A=(TP+TN)/(P+N),所有類別的判對率,反映了分類器對整個樣本的判定能力。召回率:R=TP/(TP+FN),即正例檢出率,反映了分類器正確判定的正例占總的正例的比重。本實驗的精確度、準(zhǔn)確率、召回率如圖2所示。

圖2 實驗結(jié)果

3 總結(jié)

大數(shù)據(jù)時代背景下,為了滿足用戶能在龐大的數(shù)據(jù)中篩選出有用數(shù)據(jù)的需要,數(shù)據(jù)挖掘中的分類技術(shù)是當(dāng)前使用最為廣泛的方法之一。針對現(xiàn)有的數(shù)據(jù)挖據(jù)工具中如果開源那么界面不夠友好或如果界面友好卻是商業(yè)化的工具的問題,本文采用界面友好的開源數(shù)據(jù)挖掘工具RapidMiner進行數(shù)據(jù)挖據(jù)(SVM),可以提高數(shù)據(jù)挖掘中算法的性能與效率,發(fā)揮實際應(yīng)用價值。

[1]I.Mierswa,M.Wurst,R.Klinkenberg,M.Scholz,and T.Euler.Yale:Rapid prototyping for complex data mining tasks.In Proc.KDD‘06, pages 935-940,2006.

[2]王雅軒,頊聰.?dāng)?shù)據(jù)挖掘技術(shù)的綜述[J].電子技術(shù)與軟件工程,2015,4:204-205.

[3]何峽峰.淺析數(shù)據(jù)挖掘中的分類算法[J].電子制作,2015,4: 221-222.

[4]陳葡.基于詞序列核的垃圾郵件過濾[J].武漢大學(xué)學(xué)報(理學(xué)版),2011,10:419-423.

陳葡(1985—),女,碩士研究生,現(xiàn)從事無線傳感器與數(shù)據(jù)挖掘研究。

“基于VANET的最佳路徑選擇研究”,2014年貴州省科學(xué)技術(shù)聯(lián)合基金項目(黔科合LH字[2014]7045)。

猜你喜歡
數(shù)據(jù)挖掘分類實驗
記一次有趣的實驗
分類算一算
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
做個怪怪長實驗
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 久久精品无码国产一区二区三区| 国产午夜看片| 国产日韩欧美黄色片免费观看| 亚洲视频无码| 国产成人AV综合久久| 国产精品一区二区不卡的视频| 99久久国产综合精品女同| 一级一级一片免费| 亚洲AV无码一区二区三区牲色| 久久久久久久97| 99这里只有精品在线| 制服丝袜国产精品| 国产老女人精品免费视频| 日本精品影院| 国产福利小视频高清在线观看| 午夜日b视频| 中文字幕亚洲另类天堂| 福利在线不卡一区| 9丨情侣偷在线精品国产| 国内熟女少妇一线天| 国产精品浪潮Av| 亚洲一区网站| 黄色污网站在线观看| 国产亚洲美日韩AV中文字幕无码成人 | 国产精品任我爽爆在线播放6080| 色九九视频| 精品色综合| 色综合成人| 一级香蕉视频在线观看| 色噜噜在线观看| 国产91特黄特色A级毛片| 五月婷婷伊人网| 亚洲欧美不卡视频| 国产欧美网站| 国产对白刺激真实精品91| 丁香综合在线| 亚洲另类色| 老色鬼久久亚洲AV综合| 精品一区二区无码av| 精品久久香蕉国产线看观看gif| 熟女成人国产精品视频| 亚洲三级片在线看| 精品国产成人a在线观看| 精品无码专区亚洲| 亚洲国产精品一区二区高清无码久久| 国产老女人精品免费视频| 欧美A级V片在线观看| av免费在线观看美女叉开腿| 亚洲国产一区在线观看| 国产性生大片免费观看性欧美| 黄色在线网| 色精品视频| 国产精品自在在线午夜| 色呦呦手机在线精品| 88国产经典欧美一区二区三区| 国产尤物在线播放| 国产美女精品一区二区| 久久综合丝袜长腿丝袜| 成人国产一区二区三区| 久久无码av三级| 国产免费高清无需播放器| 2020精品极品国产色在线观看 | 欧美国产菊爆免费观看| 色综合成人| 久久国产精品无码hdav| 二级特黄绝大片免费视频大片| 国产高清毛片| 免费啪啪网址| 久草视频中文| 在线观看免费人成视频色快速| 国产乱论视频| 伊人久久青草青青综合| 国产成人艳妇AA视频在线| 国产国语一级毛片在线视频| 不卡午夜视频| 亚洲无码精品在线播放| 国产精品一区二区国产主播| 国产黄网永久免费| 亚洲黄网在线| 丰满人妻久久中文字幕| 亚洲国产成人精品无码区性色| 精品无码人妻一区二区|