999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Pandas實現(xiàn)Excel文件的批量導入與分析

2020-04-10 10:58:09馬孝宗
現(xiàn)代信息科技 2020年1期
關鍵詞:數(shù)據(jù)分析

摘? 要:文章以駐馬店卷煙廠綜合合格率分析為例,詳細闡述了基于Pandas對Excel文件進行批量導入與分析的實現(xiàn)過程。該方法實現(xiàn)了Excel數(shù)據(jù)導入與分析的自動化,有效避免了由于數(shù)據(jù)量大、表格結構復雜造成的人工操作多、數(shù)據(jù)匯總難、易出錯、效率低等難點,該程序也適用于CSV、SQL、TXT、HTML等文件的批量導入與分析,具有良好的實用性與推廣價值。

關鍵詞:Pandas;Excel;批量導入;數(shù)據(jù)分析

中圖分類號:TP391? ? ? ?文獻標識碼:A 文章編號:2096-4706(2020)01-0060-03

Abstract:Combined with practical application,taking the comprehensive qualification rate analysis of Zhumadian Cigarette Factory as an example,this paper elaborates the implementation process of batch input and analysis of Excel files based on Pandas. This method realizes the automation of Excel data input and analysis,effectively avoids the difficulties of manual operation,data collection,error prone and low efficiency caused by large amount of data and complex table structure. The program is also suitable for batch input and analysis of CSV,SQL,TXT,HTML and other files,which has good practicability and promotion value.

Keywords:Pandas;Excel;batch input;data analysis

0? 引? 言

在企業(yè)數(shù)據(jù)分析的過程中,經(jīng)常要對大量Excel表進行數(shù)據(jù)匯總,再計算出綜合的指標。這些Excel表命名類似、結構一致,通常采用復制、粘貼的辦法將各表數(shù)據(jù)粘貼至總表,再對總表進行數(shù)據(jù)核算。由于Excel表數(shù)量多、數(shù)據(jù)結構復雜,數(shù)據(jù)匯總的過程既占用統(tǒng)計人員大量的時間,又無法避免人工操作導致的數(shù)據(jù)缺失、數(shù)據(jù)錯誤、格式錯誤等,嚴重影響數(shù)據(jù)分析的及時性、準確性。為此,需要借助數(shù)據(jù)分析工具對Excel數(shù)據(jù)進行批量導入與分析。Pandas是Python下最強大的數(shù)據(jù)分析和探索工具,提供了高效操作大型數(shù)據(jù)集所需的工具。Pandas不僅提供了計數(shù)、篩選、排序、分組、繪圖、方差分析、數(shù)據(jù)透視、數(shù)據(jù)合并與重塑等常用的統(tǒng)計分析功能,還提供了自定義函數(shù)功能以滿足用戶個性化的需求。下文介紹如何基于Pandas實現(xiàn)Excel文件的批量導入與分析,提高企業(yè)數(shù)據(jù)分析的工作效率。

1? 需求分析

駐馬店卷煙廠質量綜合合格率分析包括數(shù)據(jù)生成、數(shù)據(jù)匯總、數(shù)據(jù)分析等環(huán)節(jié)。在數(shù)據(jù)生成環(huán)節(jié)質檢人員操作質檢儀器自動生成質檢記錄表,每個質檢記錄表都是單獨的Excel文件,其中記錄了本次質檢的詳細數(shù)據(jù)并以系統(tǒng)時間命名保存;在數(shù)據(jù)匯總環(huán)節(jié)統(tǒng)計人員采用復制、粘貼的辦法將符合條件的質檢記錄表匯總為月度總表,并補全其中的缺失值;在數(shù)據(jù)分析環(huán)節(jié)統(tǒng)計人員首先導入各牌號的判定標準,接著判斷每次質檢的質量標偏、吸阻標偏、圓周均值 是否合格,然后統(tǒng)計質量標偏、吸阻標偏、圓周均值的合格率并以0.4、0.4、0.2的比例計算質量綜合合格率,最后計算各機組與班組的月度質量標偏均值、月度吸阻標偏均值、月度圓周標偏均值。

質量綜合合格率分析的核算過程存在以下幾個難點:數(shù)據(jù)的匯總依賴于人工復制、粘貼,易出錯且效率低;質檢記錄表中的“班組”與“機組”列為合并單元格,導致匯總后的月度總表內(nèi)出現(xiàn)大量缺失值,需要人工補全;質量綜合合格率分析包括質量綜合合格率的計算與各項標偏的分類匯總,其計算過程復雜、耗費時間。Pandas提供了導入Excel文件的函數(shù),可實現(xiàn)Excel文件的批量導入,Pandas中的數(shù)據(jù)幀類似于Excel中的工作表,以二維表的形式存放數(shù)據(jù),且其分析功能也與Excel類似,因此基于Pandas可以極大地簡化現(xiàn)有的質量綜合合格率的分析過程。

2? 技術方法

基于Pandas實現(xiàn)質檢記錄表的批量導入與分析,具體流程包括以下5個步驟:

(1)創(chuàng)建路徑:獲取計算機桌面路徑,在計算機桌面檢查并創(chuàng)建質量綜合合格率分析所需的文件夾,統(tǒng)計人員將符合條件的質檢記錄表存放到此文件夾內(nèi)。

(2)數(shù)據(jù)導入與清洗:首先設定合適的文件名篩選規(guī)則,接著掃描文件夾內(nèi)所有文件名符合規(guī)則的Excel文件,通過設定文件的路徑、標題行、索引列將Excel數(shù)據(jù)導入為Pandas的數(shù)據(jù)幀。導入后的數(shù)據(jù)通常包含無效值、缺失值、重復值、錯誤值等,通過數(shù)據(jù)清洗的過濾掉不符合要求的數(shù)據(jù),Pandas中過濾數(shù)據(jù)的常見操作包括刪除、填充、替換等。

(3)數(shù)據(jù)填充與匯總:清洗后的質檢數(shù)據(jù)存在缺失值,采用填充所有空值為上一個非空值的方法將數(shù)據(jù)幀補充完整。接著依次合并填充后的數(shù)據(jù)幀,直至文件夾內(nèi)符合命名規(guī)則的Excel表合并完畢,即可得到質檢數(shù)據(jù)的月度總表。

(4)數(shù)據(jù)分析:從月度總表中篩選出質量數(shù)據(jù)、吸阻數(shù)據(jù)、圓周數(shù)據(jù),采用數(shù)據(jù)透視、計數(shù)、自定義函數(shù)、數(shù)據(jù)合并與重塑等功能對各數(shù)據(jù)幀進行快速分析,計算各機組月度質量綜合合格率、各機組各項標偏月度均值、各班組各項標偏月度均值。

(5)數(shù)據(jù)導出:將月度質量綜合合格率、各機組各項標偏月度均值、各班組各項標偏月度均值三個數(shù)據(jù)幀保存至同一個Excel工作簿,便于統(tǒng)計人員查看、分析、記錄。

3? 程序實現(xiàn)過程

4? 結? 論

對于大量Excel文件的統(tǒng)計分析,如果缺乏自動化、批量化的數(shù)據(jù)匯總方法,數(shù)據(jù)匯總的過程將成為耗時多、易出錯、效率低的瓶頸環(huán)節(jié)。借助功能強大的Pandas工具,統(tǒng)計人員可以快速、準確地從大量結構類似的Excel文件中導入數(shù)據(jù)、清洗數(shù)據(jù)、匯總數(shù)據(jù)、分析數(shù)據(jù)。除了Pandas工具自帶的統(tǒng)計分析函數(shù),用戶也可以方便地自定義函數(shù),實現(xiàn)個性化的分析功能,極大地拓展Pandas的分析能力,有效提高統(tǒng)計人員的工作效率。除了Excel類型的文件,Pandas也適用于CSV、SQL、TXT、HTML等類型文件的批量導入與分析,具有良好的實用性與推廣價值。

參考文獻:

[1] 張良均,王路,譚立云,等.Python數(shù)據(jù)分析與挖掘實戰(zhàn) [M].北京:機械工業(yè)出版社,2015:60-64.

[2] 張若愚.Python科學計算 [M].北京:清華大學出版社,2012:469-471.

[3] 麥金尼.利用Python進行數(shù)據(jù)分析:第2版 [M].徐敬一,譯.北京:機械工業(yè)出版社,2018:10-11.

[4] 馬瑟斯.Python編程從入門到實踐 [M].袁國忠,譯.北京:人民郵電出版社,2016:80-82.

[5] 西格蘭.集體智慧編程 [M].莫映,王開福,譯.北京:電子工業(yè)出版社,2015:156-157.

[6] 張志強,趙越.零基礎學Python [M].北京:機械工業(yè)出版社,2015:85-86.

作者簡介:馬孝宗(1989-),男,漢族,河南駐馬店人,信息管理員,助理工程師,碩士,研究方向:數(shù)據(jù)分析、辦公自動化。

猜你喜歡
數(shù)據(jù)分析
電子物證檢驗的數(shù)據(jù)分析與信息應用研究
基于matlab曲線擬合的數(shù)據(jù)預測分析
商情(2016年40期)2016-11-28 11:28:07
分眾媒體趨勢下場景營銷的商業(yè)前景
商(2016年32期)2016-11-24 17:39:41
佛山某給水管線控制測量探討
科技資訊(2016年18期)2016-11-15 18:05:53
SPSS在環(huán)境地球化學中的應用
考試周刊(2016年84期)2016-11-11 23:57:34
大數(shù)據(jù)時代高校數(shù)據(jù)管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
我校如何利用體育大課間活動解決男生引體向上這個薄弱環(huán)節(jié)
體育時空(2016年8期)2016-10-25 18:02:39
Excel電子表格在財務日常工作中的應用
淺析大數(shù)據(jù)時代背景下的市場營銷策略
新常態(tài)下集團公司內(nèi)部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
主站蜘蛛池模板: 亚洲中文字幕无码爆乳| 国产成人亚洲精品无码电影| 日韩精品亚洲一区中文字幕| 亚洲一区二区三区麻豆| 91视频精品| 中文字幕免费播放| 国产在线观看99| 国产激爽大片在线播放| 欧美成人二区| 亚洲人成电影在线播放| 丰满少妇αⅴ无码区| 国产精品亚洲一区二区三区z| 国产玖玖玖精品视频| 国产成人午夜福利免费无码r| 99久久亚洲综合精品TS| 亚洲欧州色色免费AV| av在线5g无码天天| 香蕉视频国产精品人| 亚洲熟妇AV日韩熟妇在线| 91九色国产在线| 国产精品区网红主播在线观看| 日韩无码视频专区| 国产一区二区三区免费观看| 欧美精品成人一区二区在线观看| 97视频在线精品国自产拍| 99久久精品国产自免费| 日本久久久久久免费网络| 国产亚洲精| 97国产一区二区精品久久呦| 亚洲一区二区黄色| 国产精品香蕉在线| 国产在线精品美女观看| 2020最新国产精品视频| 一级香蕉视频在线观看| a级毛片毛片免费观看久潮| 少妇精品久久久一区二区三区| 免费国产好深啊好涨好硬视频| www亚洲精品| 欧美一区二区三区国产精品| 久久情精品国产品免费| 亚洲激情区| 国产成人凹凸视频在线| 亚洲三级a| 伊人丁香五月天久久综合 | 五月激情综合网| 中文字幕在线日韩91| 色综合热无码热国产| 日本人真淫视频一区二区三区| 很黄的网站在线观看| 2021精品国产自在现线看| av无码久久精品| 高清无码手机在线观看| 欧美日韩激情在线| www亚洲天堂| 欧美a在线视频| 91久久青青草原精品国产| 久久黄色一级视频| 欧美人与牲动交a欧美精品| 亚洲国产成人麻豆精品| 91福利在线观看视频| 久久99精品久久久久纯品| 欧美国产日韩在线播放| 免费观看国产小粉嫩喷水| 欧美一级视频免费| 欧美激情二区三区| 成人毛片在线播放| 亚洲欧美成aⅴ人在线观看| 人妻丰满熟妇AV无码区| 青青操视频免费观看| 国产日韩精品一区在线不卡 | 国产粉嫩粉嫩的18在线播放91| 久久人体视频| 永久免费无码成人网站| 久久精品人人做人人爽| 99er这里只有精品| 国产无套粉嫩白浆| 国产极品嫩模在线观看91| 毛片大全免费观看| 久久99国产综合精品1| 啪啪永久免费av| 又爽又大又黄a级毛片在线视频| 黄色a一级视频|