山東大學管理學院 張向偉
在現代社會中,數據量在不斷的增加,人們也越來越重視數據價值。大數據的數據體積比較大,并且數據類型比較復雜,如何對數據背后的內涵進行挖掘,如何對復雜數據背后的意義進行分析,成為人們所重視的重要話題。Python屬于功能完善、上手簡單、操作性高的工具,其被廣泛應用到數據分析領域。在此背景下,本文基于Python自帶集成庫分析了不同類型數據,并且實現數據可視化,證明了Python在數據分析中的可用性。
在人工智能技術不斷發展的過程中,數據需求量也在不斷增加。另外,信息技術和互聯網技術的不斷發展使人們生活習慣逐漸改變,大數據技術也被廣泛應用到人們社會生產和生活中。人們在使用網絡越來越頻繁的背景下,產生了大量互聯網數據信息,這種龐大數據信息中存在大量虛假、無用的信息,降低了信息的整體質量。為了從數據庫中提取有價值信息,在使用專業數據處理技術過程中,出現了數據分析計算。Python為目前使用較為廣泛的編程語言,其自身具有第三方數據庫,在數據分析過程中能夠提供幫助,應用前景良好。為了使Python技術在數據分析中的使用效率得到提高,本文將數據分析和Python技術作為基礎,對Python數據分析中數據整理進行了探討。
Python屬于計算機程序設計語言,因為其具有較高的可讀性、集成方法全面、上手比較簡單、易于理解掌握,被廣泛應用到計算機領域和非計算機領域中。從廣義上來說,數據分析指的是對大規模數據進行分析,比如數據讀取、計算、存儲、可視化等,通過數據分析發現隱含的并且對于系統決策有參考價值的關聯信息和發展趨勢。所以,數據分析是跨越多個計算機學科分支,也是挖掘數據隱含價值的主要手段。
Python是一種面向對象交互式、解釋型語言,不僅有Java、C++的強大功能,還具有腳本語言簡易性,其主要優勢包括:其一,簡易性。Python語法比較簡單,實現同樣的功能只需要C++和Java代碼量的三分之一。Python設計原則就是簡單,其各方面都將此原則為基礎,從而體現更多優勢。因為語言自身簡單,所以學習Python也更加容易,并且其代碼比較容易維護、閱讀,能夠提高軟件的質量。另外,代碼量比較少,能夠降低輸入,使開發效率得到提高。一條語句能夠實現多條C++語句實現的功能,能夠提高硬件性能,保證開發效率;其二,開放性。Python能夠和現有環境、主流語言進行交互,假如Python解釋型語言速度慢,其能夠通過Python調用C++編寫模塊的Python模塊,實現.Net和COS的交互,還能夠使Python腳本在瀏覽器中調用;其三,可移植性。Python屬于解釋型語言,缺乏編譯連接過程,通過Python解釋器執行,所以Python代碼能夠不經修改就可執行在不同的操作系統;其四,資源豐富。通過www.Python.org可以得到大量資源,能夠有效解決應用過程中遇到的問題。
以上是Python的特點和優勢,本文將選擇Python作為編程語言。
基于Python的數據分析平臺在設計過程中,需要解決數據分析過程時數據收集、可視化、分析和導入等問題,以便實現數據分析處理。利用上述類庫設計平臺,使程序開發過程得到簡化,實際使用需求得到滿足。比如,在設計某產品客戶滿意度問卷分析工具過程中,可以通過本地獲取方式來實現,調查問卷導入之后對數據開展預處理,根據問題的分類提取數據并且轉換格式。之后,通過預先創建的數據分析模型進行分析,得到綜合性評價結果。除了展示目前數據圖形化之外,還要存儲數據,改良產品,對客戶滿意度變化趨勢進行分析,提供給產品設計參考依據。
獲取數據是數據分析的基礎,指的是以需求分析的結果對數據進行收集和提取,主要通過本地獲取和網絡爬蟲兩種方式獲取。網絡爬蟲指的是通過利用Python編寫爬蟲,合法得到互聯網中的語音、文字、視頻和圖片等信息;本地獲取是指利用計算機工具得到在本地數據庫存儲的營銷、生產和財務等系統實時數據和歷史數據。
數據預處理指的是實現數據合并、標準化、清洗和變換,并且可以直接在分析建模中使用的總稱。數據合并指的是使多張相互關聯的表格合成一張;數據清洗指的是將不一致、異常、缺失、重復的數據去掉;數據交換指的是利用啞變量、離散化等技術使后期分析和建模數據需求得到滿足;數據標準化是將特征之間量綱差異去除。在對數據分析時,數據預處理的過程是相互交叉的,先后順序并不固定。
分析建模指的是利用分組分析、對比分析、回歸分析、交叉分析等方法和分類模型、聚類模型、智能推薦和關聯規則等模型,對數據中有價值的信息進行挖掘,并且通過分析得到結論的過程。
模型評價指的是創建一個或者多個模型,針對模型類別利用不同指標對其性能優劣進行綜合評價的過程。模型優化指的是模型性能通過模型評價之后滿足要求,但是在實際生產過程中發現模型性能不太理想,從而實現模型重構和優化的過程。模型部署是指使數據分析結果在實際生產系統中使用的過程,以不同實際需求來部署,其包括針對現狀具體整改措施的數據分析報告、在生產系統中使用和部署的解決方案。在大部分項目中,數據分析員能夠提供一份解決方案和數據分析報告,需求方為實際部署和執行方。
在設計基于Python語言數據分析平臺時,要以軟件應用的需求創建數據通道和數據庫,便于數據調取和使用。另外,還要實現可視化展示模型和操作界面的設計,使用戶對數據設計結果進行觀察。本文在設計時,利用開源Python2.7進行編程,全部的類庫、模塊包括codes、Json、os和Matplotlib等。開源python2.7能夠通過網絡下載,利用pip對模塊和類庫下載。調查問卷為數據處理對象,能夠使調查問卷數據結果在數據庫中存儲,并且通過函數調用錄入數據,實現數據的分類存儲。其次,除了調查問卷中的信息,還會錄入調查對象信息,對調查問卷有效性進行評價,在處理數據時提出無效的問卷數據。在對數據結果展示過程中,可以利用圖表方式將問卷信息與調查對象的結果展示出來,從而方便觀看結論。
在此數據分析平臺功能模塊設計過程中,需要為用戶提供良好操作圖形界面。主界面操作包括調查問卷查詢、導入、結果展示、數據分析等功能,利用主界面對數據庫更新,根據操作限制條件處理結果。此平臺的數據分析能夠給設計人員提供參考,在分析基本數據后,結合設計的要求將結果展示出來。比如:以產品的外觀造型、產品功能、包裝等數據分析結果來展示。隨著產品銷售時間的增加,評估數據的總量會擴大,在數據庫中利用SQL語言編譯,只需要以此創建就能夠重復調用,使數據執行速度得到提高。在數據初始化時,以不同分類結果進行展示,實現數據表自動生成,對可視化模型調用,展示數據結果。用戶在使用數據結果時,可以利用編輯、刪除、查詢、選擇等功能得到自己需要的數據分析結果,并將其存儲在結果數據庫中。
結語:對比一般計算機編程語言,Python語言的主要特點就是免費、上手容易、語法簡單,從而使Python的使用更加廣泛。在數據分析中使用Python的時候,要結合數據的具體類型選擇合適Python數據分析技術,可以提高數據分析的速度和質量,以此對未來發展趨勢的科學預估提供數據支持。