999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python語言Kaggle的數據集分析

2019-05-13 09:54:34段聰聰柴世一
科技視界 2019年8期

段聰聰 柴世一

【摘 要】本文基于python來進行對kaggle數據集庫中的數據集來進行數據分析,在這個大數據時代,我們的生活早已成為一個數據化的生活,文章的目的是在于用現有的計算機科學技術來預示通過數據分析來進行預判的可行性。

【關鍵詞】python程序設計與開發;數據分析;特征選擇

中圖分類號: TP311.13文獻標識碼: A文章編號: 2095-2457(2019)08-0106-001

DOI:10.19694/j.cnki.issn2095-2457.2019.08.044

【Abstract】This paper is based on Python to analyze the data set in kaggle databases.In this big data era, our life has already become a data life. The purpose of this paper is to use the existing computer science technology to predict the feasibility of data analysis.

【Key words】Python Programming and development;Data analysis;Feature selection

1 簡介

數據集名稱為iris.csv,該數據由kaggle網站獲取而來,數據集的規模為150*6,總計150條數據,數據信息分為6列,列屬性名分別為Id,SepaLength,SepalWidth,PetalLength,PetalWidth,Species.

我們希望利用python語言對數據集中的特征來進行分析,最后可以根據分析結果來較為準確的根據鳶尾花四個屬性判斷出其所屬類別。

2 數據處理

查看數據集

Id顯示為整數類型,之后的是個花瓣花萼長寬均為小數點后一位的小數類型,而Species則為字符串類型,對應著某一行數據所屬鳶尾花的類別

從數據集中可看出

花萼長度最小值4.30, 最大值7.90, 均值5.84, 中位數5.80, 右偏

花萼寬度最小值2.00, 最大值4.40, 均值3.05, 中位數3.00, 右偏

花瓣長度最小值1.00, 最大值6.90, 均值3.76, 中位數4.35, 左偏

花瓣寬度最小值0.10, 最大值2.50, 均值1.20, 中位數1.30, 左偏

按中位數來度量:花萼長度大于花瓣長度大于花萼寬度大于花瓣寬度

當該條數據鳶尾花類別為setosa時,我們讓它在圖中的點的顏色為紅色,versicolor為綠色,virginica為藍色。通過這樣的設置可以在散點圖中明顯的看出三種種類鳶尾花與屬性之間的關系。考慮到有四種屬性,我們讓他們來兩兩相交,選擇了四組屬性來進行測試:分別是品種與花萼長度寬度,品種與花瓣長度寬度,品種與花瓣寬度花萼寬度,品種與花瓣長度花萼長度,這是四組具有參考價值的屬性值。

實驗結果顯示山鳶尾的屬性值和雜色鳶尾,維吉尼亞鳶尾范圍有明顯的差距,而雜色鳶尾和維吉尼亞鳶尾存在屬性值范圍的重疊。

接下來我們想對于鳶尾花三種種類的四個屬性的值范圍有一個較為直觀的顯示,于是我們采用繪制四個圖形的方式來進行顯示,以ID為X軸(因為在數據集中ID屬性的值前50個、中間50個、最后50個分別代表不同的鳶尾花),以四個屬性為Y軸,最后以不同的顏色來明確區分三種鳶尾花的四個屬性值的范圍。

使用seaborn模塊的relplot方法來繪制圖形,函數中的kind屬性值設置為line表示我們要繪制的是折線圖。然后傳入X和Y軸的參數以及數據集對象。

實驗結果顯示在花瓣長度和寬度上,山鳶尾的屬性范圍與其他兩種鳶尾花的屬性范圍有非常明顯的區分,處于一個較小的范圍內,花瓣與分辨山鳶尾有較強的相關性。而在花萼的折線圖中我們看出,雜色鳶尾和維吉尼亞鳶尾沒有很好的區分出,這表示,花萼不能很好作為參數來區分他們,相比較而言,花瓣的屬性值更有利于區分他們。

首先我們將數據集按照8:2的比例隨機分為訓練集, 測試集。我們使用SVM模型來對數據集進行一個預測。

由此可見,該數據集根據SVM模型來判斷種類,正確率高達100%,可見,鳶尾花的種類和其四個屬性值之間存在著一定的相關性,到了這一步我們也可以做出結論,的確可以根據鳶尾花的四個屬性判斷其種類,我們所建立的SVM模型也證實了這一點。

為了驗證上一步的準確性,我們想用兩個模型進行驗證結論,在構建決策樹模型后的準確率也是100%,我們可以得出結論:可以通過鳶尾花的四個屬性值來判斷其種類。

3 分析結果

回到我們最初的目標,我們希望通過鳶尾花的四個屬性值來判別其種類,我們通過散點圖來進行可視化分析,根據四種屬性的交叉顯示,我們得出,鳶尾花的類別與屬性之間存在一定的關系且山鳶尾的屬性值和雜色鳶尾,維吉尼亞鳶尾范圍有明顯的差距,而雜色鳶尾和維吉尼亞鳶尾存在屬性值范圍的重疊。

之后通過折線圖更加具體地顯示三種鳶尾花的屬性值范圍情況,在花瓣長度寬度上,山鳶尾的屬性范圍與其他兩種鳶尾花的屬性范圍有非常明顯的區分,處于一個較小的范圍內,花瓣與分辨山鳶尾有較強的相關性。而在花萼的折線圖中我們看出,雜色鳶尾和維吉尼亞鳶尾沒有很好的區分出,這表示對于這兩種鳶尾花而言,花瓣的屬性值更有利于區分他們。

4 結束語

由于鳶尾花數據集的數據量太少,這導致我們的訓練集遠遠不夠,在調節隨機數參數的情況下才將模型的正確率達到了100%,解決的方法是:使用小數據集訓練卷積神經網絡并加以微調,微調對于沒有足夠訓練樣本時初始化深度網絡參數的一個有效的方法,一般都會選取與之具有相似結構的網絡模型訓練結果進行微調。

【參考文獻】

[1]郭華,陸平.利用python語言對室內熱舒適環境進行數據分析[J].建筑與文化,2018(12).

[2]周洪斌.基于Python的豆瓣圖書評論數據獲取與可視化分析[J].沙洲職業工學院學報2018,21(04).

[3]翟高粵.基于Python的數據分析概述[J].甘肅科技縱橫,2018,47(11).

[4]葉惠仙.Python在學院招生數據分析中的應用[J].計算機時代,2018(11).

[5]王濤.基于Pyhton的軟件技術人才招聘信息分析與實現——以前程無憂為例[J].福建電腦,2018,34(11).

主站蜘蛛池模板: 国产精品观看视频免费完整版| 国产欧美日韩免费| 亚洲欧美自拍视频| 欧美激情视频二区| 欧美成人日韩| 国产一区二区精品高清在线观看| 亚洲男人天堂2020| 亚洲成人免费在线| 中文字幕在线日韩91| 国产美女免费| 国产精品短篇二区| 人人看人人鲁狠狠高清| 免费一级毛片| A级毛片无码久久精品免费| 欧美一区二区精品久久久| 亚洲自偷自拍另类小说| 欧美福利在线| 久久精品aⅴ无码中文字幕| 在线精品自拍| 国产精品久久久久鬼色| 久久国产精品嫖妓| 国产乱人伦偷精品视频AAA| 91精品人妻互换| 激情乱人伦| 国产精品亚洲片在线va| 伊伊人成亚洲综合人网7777| 国产小视频免费观看| 国产小视频a在线观看| 狠狠色噜噜狠狠狠狠色综合久| 激情综合网激情综合| 欧美成人综合在线| 久久无码免费束人妻| 日本精品视频一区二区| 99re66精品视频在线观看| 人妻夜夜爽天天爽| 色网站在线免费观看| 永久免费av网站可以直接看的 | www.av男人.com| 毛片网站观看| 波多野结衣第一页| 亚洲一区二区日韩欧美gif| 国产精品手机在线播放| 国产精品久线在线观看| 国产欧美成人不卡视频| 四虎精品黑人视频| 日韩欧美综合在线制服| 久久semm亚洲国产| 国产9191精品免费观看| 中文字幕无码电影| 日本欧美午夜| 亚洲无码免费黄色网址| 亚洲国产精品人久久电影| 日本在线欧美在线| 国产精品微拍| 婷婷六月综合网| 日韩在线视频网站| AV无码国产在线看岛国岛| 欧美日韩精品一区二区视频| 日本欧美中文字幕精品亚洲| 亚洲精品视频在线观看视频| 亚洲无码精品在线播放| a级毛片免费网站| 超级碰免费视频91| 114级毛片免费观看| 亚洲精品在线91| 日本成人一区| a级毛片在线免费观看| 亚洲国产91人成在线| 亚洲欧美不卡中文字幕| 久久久久亚洲精品无码网站| 大香伊人久久| 国产电话自拍伊人| 亚洲色图欧美视频| 香蕉伊思人视频| 26uuu国产精品视频| 又黄又湿又爽的视频| 波多野结衣在线一区二区| 久久一本日韩精品中文字幕屁孩| 日韩免费视频播播| 激情国产精品一区| 99视频全部免费| 在线国产毛片手机小视频|