基于Python語(yǔ)言的Web數(shù)據(jù)挖掘與分析研究

2019-09-10 07:31:45楊迎

現(xiàn)代信息科技 2019年23期

摘? 要：現(xiàn)如今，互聯(lián)網(wǎng)技術(shù)和大數(shù)據(jù)處于更新?lián)Q代階段，而在巨大數(shù)量數(shù)據(jù)庫(kù)當(dāng)中及時(shí)收集有用的信息便顯得尤為重要。同時(shí)，這也是目前計(jì)算機(jī)技術(shù)領(lǐng)域迫切需要解決的問題。Python屬于一類高級(jí)編程語(yǔ)言。通過多個(gè)角度對(duì)Python語(yǔ)言功能優(yōu)勢(shì)進(jìn)行闡述，并對(duì)Python語(yǔ)言在挖掘Web信息中具體的應(yīng)用方法進(jìn)行分析，旨在發(fā)揮Python語(yǔ)言的潛在優(yōu)勢(shì)，進(jìn)而完善與優(yōu)化Web信息的挖掘和處理。

關(guān)鍵詞：Python語(yǔ)言;Web數(shù)據(jù);挖掘與分析

中圖分類號(hào)：TP311.13? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：2096-4706（2019）23-0063-03

Web Data Mining and Analysis Based on Python Language

YANG Ying

（Beijing Information Technology College，Beijing? 100018，China）

Abstract：Nowadays，internet technology and big data are in the stage of updating，and it is especially important to collect useful information in a timely manner in a huge number of databases. At the same time，this is also an urgent problem in the field of computer technology. Python belongs to a class of high-level programming languages. This article expounds the advantages of Python language from multiple angles，and analyzes the specific application methods of Python language in mining Web information. The purpose is to make full use of the potential advantages of Python language to improve and optimize Web information mining and processing.

Keywords：Python language;Web data;mining and analysis

0? 引? 言

伴隨著互聯(lián)網(wǎng)技術(shù)發(fā)展速度的不斷提升，Web作為一種互聯(lián)網(wǎng)用戶共享數(shù)據(jù)發(fā)展而來的Internet應(yīng)用，所承擔(dān)的信息量呈指數(shù)增長(zhǎng)，Web的運(yùn)用和發(fā)展給人們的現(xiàn)實(shí)生活與工作帶來了很大的益處，已經(jīng)成為用戶獲取所需數(shù)據(jù)的最佳途徑。現(xiàn)如今，Web信息處于急劇膨脹階段，要實(shí)現(xiàn)信息的有效篩選和運(yùn)用面臨著很大的挑戰(zhàn)。并且Web內(nèi)容的特征在于非結(jié)構(gòu)性與多樣性，使得數(shù)據(jù)的獲取變得更加困難。借鑒Python技術(shù)來進(jìn)行Web信息的提取與挖掘，能夠在諸多領(lǐng)域發(fā)揮效用，進(jìn)而促進(jìn)數(shù)據(jù)的分析與搜集效率的最大化提高，進(jìn)一步提高社會(huì)生產(chǎn)力。

1? Python語(yǔ)言的特征

Python語(yǔ)言屬于一種新型語(yǔ)言，由第四代程序編制，所面對(duì)的是交互性及解釋性對(duì)象，其使用Web技術(shù)和非Web技術(shù)所發(fā)揮的作用是無法比擬的。譬如，Google代碼的編寫就使用了Python語(yǔ)言，國(guó)內(nèi)豆瓣網(wǎng)也運(yùn)用了Python技術(shù)。Python不失為一類腳本型語(yǔ)言，其具有較高的代碼開發(fā)率，通過對(duì)第三方數(shù)據(jù)庫(kù)的運(yùn)用，可利用對(duì)簡(jiǎn)單代碼的閱讀描述其強(qiáng)大的性能。

Python語(yǔ)言中很少有可讀性代碼，同樣性能的代碼C語(yǔ)言占據(jù)1/5。另外，還呈現(xiàn)在其無花括號(hào)或是begin…end…分割語(yǔ)句語(yǔ)塊，運(yùn)用Python語(yǔ)言之中的冒號(hào)能夠?qū)⒋a合理地進(jìn)行分層，如書寫的條件語(yǔ)句：ifTrue：print“Yes”當(dāng)中的if語(yǔ)句尾端使用的就是冒號(hào)，顯示第二行print語(yǔ)句即為下層語(yǔ)句，需滿足相應(yīng)條件才可以繼續(xù)執(zhí)行。

2? Python語(yǔ)言Web的運(yùn)用

Python語(yǔ)言的另外一方面的優(yōu)勢(shì)就是跨平臺(tái)和開源性，在使用了Web程序進(jìn)行設(shè)計(jì)后優(yōu)勢(shì)更大。此種語(yǔ)言所使用的WSGI這一模型隸屬于Python服務(wù)器范圍，所運(yùn)用的程序與中間層二者屬于官方標(biāo)準(zhǔn)，其主要限制在于對(duì)異步模型不予支持。同時(shí)Python語(yǔ)言還逐漸變成網(wǎng)游行業(yè)編程流程中一種主流的語(yǔ)言，替代了原有的C/C++。

Python語(yǔ)言用于云計(jì)算中時(shí)，可以使大部分基層朝虛擬化的方向發(fā)展。云計(jì)算給用戶提供了優(yōu)質(zhì)化的資源服務(wù)，其中涵蓋了Saas/Paas/Iaas等等，譬如，易度Paas平臺(tái)就使用了Python語(yǔ)言。Python可以運(yùn)用標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)對(duì)大數(shù)據(jù)當(dāng)中出現(xiàn)的一系列問題進(jìn)行妥善的解決，良好地處理、轉(zhuǎn)換、分析大數(shù)據(jù)工作，最后提取大數(shù)據(jù)特點(diǎn)并將呈現(xiàn)其結(jié)構(gòu)方式的相關(guān)需要。

3? Wed數(shù)據(jù)的設(shè)計(jì)框架

3.1? Django

Django屬于常見的Python Web設(shè)計(jì)框架。其Web設(shè)計(jì)框架屬于開源性，具體涵蓋諸多組件，能夠保證對(duì)儲(chǔ)存、界面、映射關(guān)系等性能實(shí)施動(dòng)態(tài)管理。開發(fā)Django使用了DRY原則，同時(shí)具備單獨(dú)且立輕量級(jí)的Web服務(wù)器，并能夠迅速開發(fā)運(yùn)用Web技術(shù)。

Django設(shè)計(jì)需要遵守MVC模式的原則，具體涵蓋三部分，如控制、視圖、模型。模型層在使用程度的最基層，其重要責(zé)任就是對(duì)數(shù)據(jù)有關(guān)的事宜進(jìn)行妥善處理，比如說數(shù)據(jù)的驗(yàn)證及儲(chǔ)存等事宜。因Django當(dāng)中用戶輸入的控制模塊全權(quán)交由基本的框架進(jìn)行處理，還被稱作模板層。此層負(fù)責(zé)呈現(xiàn)數(shù)據(jù)，負(fù)責(zé)存取模板和對(duì)模板的合理調(diào)用等有關(guān)業(yè)務(wù)流程。程序?qū)T在使用模板語(yǔ)言對(duì)HTML頁(yè)面進(jìn)行渲染的過程中，給模板體現(xiàn)出需要的數(shù)據(jù)，使用特殊的模板獲取相應(yīng)的渲染結(jié)果。視圖層構(gòu)成應(yīng)用程序的業(yè)務(wù)思維，其重要責(zé)任就是體現(xiàn)頁(yè)面或其他類文檔之中的相關(guān)數(shù)據(jù)。

Django的操作過程：

（1）瀏覽器向Web服務(wù)器傳送HTTP請(qǐng)求。

（2）Web服務(wù)器在接收到請(qǐng)求之后轉(zhuǎn)至使用Django。

（3）Django請(qǐng)求中間層按照URLconf模型實(shí)施匹配及映射到合適的函數(shù);此種函數(shù)使用模板和模型，按需求形成響應(yīng);中間層再把這種響應(yīng)包裝成HTTP響應(yīng)，并將其退回至Web服務(wù)器。

（4）用戶瀏覽器接收Web服務(wù)器發(fā)送的響應(yīng)。

3.2? CherryPy

CherryPy鑒于Python面向?qū)ο蟮腍TTP構(gòu)架，適用于Python的開發(fā)者。使用CherryPy技術(shù)進(jìn)行Web技術(shù)的開發(fā)運(yùn)用與設(shè)計(jì)，但CherryPy沒有提供相關(guān)的語(yǔ)言機(jī)制。其本身內(nèi)置相應(yīng)的Web服務(wù)器，用戶不需要另外搭建Web服務(wù)器，就能直接運(yùn)行于內(nèi)置程序之中。服務(wù)器的職責(zé)：其一，轉(zhuǎn)換基層TCP的套接字信息傳輸方式為HTTP請(qǐng)求，并傳送至處理程序之中;其二，將上層由軟件傳送而來的數(shù)據(jù)封裝為HTTP響應(yīng)，并為下層的TCP套接字進(jìn)行傳遞。

3.3? Flask

Flask適合應(yīng)用于輕量級(jí)Web中。此類服務(wù)器網(wǎng)關(guān)接口正在運(yùn)用Werkzeug，模板引擎也要使用jinja2，F(xiàn)lask運(yùn)用BSD授權(quán)。Flask本身并不具備抽象的數(shù)據(jù)庫(kù)與驗(yàn)證表單的基礎(chǔ)性能，其依靠的是第三方數(shù)據(jù)庫(kù)將相關(guān)工作妥善完成。Flask結(jié)構(gòu)具有可擴(kuò)展性特征，容易為其增加所需的功能。

3.4? Pyramid

Pyramid是一個(gè)開源構(gòu)架，執(zhí)行工作的效率非常高，無須花費(fèi)大量的設(shè)計(jì)時(shí)間。其還包括Python/Perl/Ruby特征，以及快速的開發(fā)性能。

3.5? TurboGear

TurboGear需要建立在別的構(gòu)架的基礎(chǔ)上，其正試圖集結(jié)框架的優(yōu)秀部分。其可以讓設(shè)計(jì)人員從簡(jiǎn)單的文件服務(wù)方面進(jìn)行設(shè)計(jì)，慢慢延伸至全棧式服務(wù)。

3.6? Django與Pyramid、Flask的比較

Flask主要面向簡(jiǎn)單要求的小應(yīng)用，即微框架，但Django與Pyramid則是面向一些大型功能。后二者具備不一樣的靈活性與拓展性。Pyramid比較重視靈活性，設(shè)計(jì)者在具體的工作當(dāng)中可以對(duì)使用工具進(jìn)行合理的選取，比如說在URL結(jié)構(gòu)、數(shù)據(jù)庫(kù)、模板品質(zhì)等選擇流程中。Django為Web設(shè)計(jì)人員供應(yīng)并設(shè)計(jì)了有效的處理方法，其涵蓋諸多模板。

Django中涵蓋單純的ORM模塊，設(shè)計(jì)Pyrami和dFlask的相關(guān)人員可自行選取存儲(chǔ)數(shù)據(jù)的工具，ORM中SQLAIchemy屬于很流行的一類模塊，或選取MongoDB與Dynamo等。

Django屬于一站式處理構(gòu)架，設(shè)計(jì)者無須消耗很長(zhǎng)時(shí)間應(yīng)用于選擇基礎(chǔ)的設(shè)備構(gòu)架方面。其涵蓋管理基本的模

板、表單、路由、驗(yàn)證及數(shù)據(jù)庫(kù)等內(nèi)層的建設(shè)性能。Pyramid性能包含驗(yàn)證和路由，而管理模板和數(shù)據(jù)庫(kù)應(yīng)當(dāng)運(yùn)用需第三方即可完成，或是運(yùn)用Pyramid和Flask才能有效運(yùn)用和建設(shè)，只有設(shè)計(jì)人員自行構(gòu)建選擇，才能顯得其更具靈活性。

4? 基于Python語(yǔ)言Web數(shù)據(jù)的挖掘與分析

目前，Python語(yǔ)言在實(shí)踐設(shè)計(jì)環(huán)節(jié)腳本的使用率最廣泛，通過自身良好的交互性、解釋性及面向?qū)ο笥嘘P(guān)特征，讓Python語(yǔ)言使用腳本編寫出的程度代碼具有很好的可讀性，同時(shí)使用此種腳本語(yǔ)言所編寫的結(jié)構(gòu)代碼還可以使開發(fā)程序與維護(hù)程序變得更加高效。另外，Python腳本語(yǔ)言對(duì)于初學(xué)者來說，簡(jiǎn)單易懂的使用環(huán)境更具活躍性，這樣才能讓Python語(yǔ)言快速成為當(dāng)前比較熱門的設(shè)計(jì)語(yǔ)言。

4.1? 挖掘web數(shù)據(jù)的定義

Web信息的挖掘又稱挖掘Web信息、開發(fā)Web信息以及挖掘網(wǎng)絡(luò)技術(shù)等，基于實(shí)質(zhì)角度而言，指的是將挖掘數(shù)據(jù)與Web領(lǐng)域相結(jié)合后的新型技術(shù)產(chǎn)物。此種技術(shù)具體從大量蕪雜網(wǎng)頁(yè)數(shù)據(jù)中迅速獲得與整理出高價(jià)值性數(shù)據(jù)，并通過對(duì)數(shù)據(jù)的轉(zhuǎn)換、分析和處理模型，對(duì)信息進(jìn)行有效的分析與處理，然后按照研究成果來預(yù)測(cè)與評(píng)估其實(shí)際情況，所以Web數(shù)據(jù)的挖掘具有很大的科研價(jià)值和商業(yè)價(jià)值。此外，挖掘Web數(shù)據(jù)主要利用模擬用戶正常瀏覽的行為，并設(shè)置有效的規(guī)章，從而獲得指定的Web數(shù)據(jù)頁(yè)面。Web數(shù)據(jù)挖掘的最終目標(biāo)就是將非結(jié)構(gòu)化信息從大量信息中提取出來并通過綜合CSV、JSON、XML等方法進(jìn)行存儲(chǔ)。在這樣的流程當(dāng)中，牽涉到數(shù)據(jù)化網(wǎng)絡(luò)爬蟲結(jié)構(gòu)及正則表達(dá)技術(shù)。

4.2? 應(yīng)用挖掘數(shù)據(jù)技術(shù)的優(yōu)勢(shì)

伴隨著我國(guó)互聯(lián)網(wǎng)的不斷普及與發(fā)展，網(wǎng)絡(luò)數(shù)據(jù)資源逐漸豐富化，但多數(shù)信息以非結(jié)構(gòu)形式存在著，使信息的采集和分類顯得非常困難。在進(jìn)行數(shù)據(jù)挖掘前，廣大用戶所采集與分類的信息需選用手動(dòng)的方式進(jìn)行復(fù)制粘貼，這樣不但耗時(shí)耗力，并且數(shù)據(jù)的質(zhì)量不高，無法實(shí)現(xiàn)自動(dòng)化分析與收集數(shù)據(jù)。而基于Python語(yǔ)言的網(wǎng)絡(luò)爬蟲技術(shù)，優(yōu)勢(shì)在于準(zhǔn)確高、速度快，可促進(jìn)分析與數(shù)據(jù)采集效率的有效提高，從而提高采集而來的數(shù)據(jù)的品質(zhì)。同時(shí)手動(dòng)式操作無法避免發(fā)生數(shù)據(jù)遺漏以及錯(cuò)誤數(shù)據(jù)的問題，在實(shí)際統(tǒng)計(jì)大量數(shù)據(jù)的過程中，具有很大的糾錯(cuò)難度，而借鑒網(wǎng)絡(luò)化爬蟲技術(shù)，數(shù)據(jù)的準(zhǔn)確率就會(huì)大大提高，就算存在問題，用戶也可以通過對(duì)程度的適當(dāng)調(diào)整就能讓完成糾錯(cuò)，具備不可比擬的應(yīng)用優(yōu)勢(shì)。

4.3? 比較不同的爬蟲算法

目前網(wǎng)絡(luò)爬蟲的核心算法包含優(yōu)先廣度、優(yōu)先深度、Opic、Partial PageRanK爬蟲算法、不同的爬蟲算法優(yōu)勢(shì)各有不同，需要將實(shí)際的應(yīng)用場(chǎng)景結(jié)合起來進(jìn)行合理的選擇。

（1）廣度優(yōu)先措施。這種措施具體使用web內(nèi)容中的目錄級(jí)別，首先爬取首頁(yè)同樣級(jí)數(shù)的頁(yè)面信息。然后將爬取鏈接置于隊(duì)列之中，進(jìn)而逐漸向外伸展，盡量獲得更多鏈接的信息，提升抓取Web數(shù)據(jù)的速率，所以在爬蟲算法中使用最廣泛的就是廣度優(yōu)先措施。然而，這種計(jì)算方法的問題就是在對(duì)目錄進(jìn)行深層挖掘時(shí)需耗費(fèi)大量時(shí)間。

（2）深度優(yōu)先措施。此種措施指的是網(wǎng)絡(luò)爬蟲按順序?qū)δ壳癢eb頁(yè)面進(jìn)行直至最深層次的目錄，并在完成一個(gè)分支的訪問之后返回，之后爬到另一分支實(shí)施訪問，待遍歷全部鏈接之后，才算爬蟲任務(wù)完成。這種方法能夠?qū)ε老x信息進(jìn)行深層次挖掘，但在對(duì)深層站點(diǎn)消息進(jìn)行挖掘中需要耗費(fèi)很多的系統(tǒng)性資源。

（3）Partial PageRank措施。這種計(jì)算方式屬于爬蟲開始爬取首頁(yè)后，按照計(jì)算Web層面上Partial PageRank的值確定爬取該頁(yè)面的潛在價(jià)值，并優(yōu)先爬取PageRank的最大值頁(yè)面。進(jìn)而促進(jìn)爬蟲效果的全面提高，還能得到很高的遍歷效果，很但可能與具體的遍歷結(jié)果偏差較大，進(jìn)而降低數(shù)據(jù)的準(zhǔn)確率。

（4）Opic措施。此種計(jì)算方式還能被當(dāng)成完善后的一種PageRank計(jì)算方式，開始前階段，各個(gè)頁(yè)面都被賦予同等值，下載完待完成此頁(yè)面之后，其最大值可以均勻地分配在鏈接頁(yè)面上，爬蟲依照該值的大小確定其優(yōu)先級(jí)，并優(yōu)先下載最大值頁(yè)面。此種方法無須迭代計(jì)算，適用于具體的計(jì)算。

（5）數(shù)據(jù)儲(chǔ)存的結(jié)構(gòu)化。很多信息需要儲(chǔ)存在非結(jié)構(gòu)文本當(dāng)中，要想直接分類和應(yīng)用必定會(huì)非常困難，而通過結(jié)構(gòu)化的儲(chǔ)存方式進(jìn)行儲(chǔ)存，即為抽取Web頁(yè)面上沒有結(jié)構(gòu)的信息，利用結(jié)構(gòu)化方式存儲(chǔ)于本地，從而將Web數(shù)據(jù)進(jìn)行規(guī)范存儲(chǔ)。該流程可以自動(dòng)執(zhí)行，無須人工干預(yù)，用戶可以結(jié)合使用場(chǎng)景自主選擇CSV、XML、數(shù)據(jù)庫(kù)等儲(chǔ)存方法。例如，使用數(shù)據(jù)庫(kù)方程的儲(chǔ)存方式時(shí)，Web數(shù)據(jù)以二維表結(jié)構(gòu)方式實(shí)施存儲(chǔ)，此種方式具有速度快、準(zhǔn)確度高等優(yōu)勢(shì)，正好滿足挖掘多線程信息中存儲(chǔ)數(shù)據(jù)的需要。

（6）正則表達(dá)方式。Web頁(yè)面通常以Html的格式存在，而Html頁(yè)面主要由各類語(yǔ)義的對(duì)象組建，不同對(duì)象具有不同的標(biāo)識(shí)，通過分析Html頁(yè)面，并配置相應(yīng)的正則表達(dá)形式，能夠?qū)崿F(xiàn)對(duì)指定字符串?dāng)?shù)據(jù)的有效查詢和提取。比如，在爬取Web頁(yè)面包括“is”數(shù)據(jù)源代碼時(shí)，可通過matchObj=re.match（r（.*）is（.*？）.*，line，re.MIre.I）的方法來提取信息。進(jìn)而自行匹配包括“is”字符串并將相關(guān)內(nèi)容進(jìn)行輸出。在此案例中，（r（.*）is（.*？）.*，line，re.MIre.I）就是正則表達(dá)式的匹配，可以為提取數(shù)據(jù)供應(yīng)有效方式。此外，為了符合網(wǎng)站頁(yè)面的升級(jí)需要，保證穩(wěn)定的匹配，客戶可以自主運(yùn)用Python語(yǔ)言帶有的第三方數(shù)據(jù)庫(kù)與相應(yīng)模塊，有效分析和提取Python頁(yè)面上的內(nèi)容。

4.4? Web Scraping的工作原理和作用

基于工作原理來講，Web Scraping計(jì)算程序在網(wǎng)絡(luò)傳輸層，具體利用TCP協(xié)議和Web服務(wù)器來傳輸數(shù)據(jù)，應(yīng)用層需使用HTYP協(xié)議與服務(wù)器進(jìn)行交互數(shù)據(jù)。基于功能角度來講，此種程序主要分HTML解析與HTTP交互模塊兩個(gè)模塊。在具體的抓取流程中，表示利用交互模塊將TCP鏈接向Web服務(wù)器端口進(jìn)行發(fā)送，待建設(shè)出有效的鏈接之后，交互模塊才可以向Web服務(wù)器端口發(fā)送GTTP請(qǐng)求報(bào)文，交互模塊接收服務(wù)器發(fā)送應(yīng)答報(bào)文后將HTTP進(jìn)行拆封，從中提取HTML信息，然后利用相應(yīng)的模塊對(duì)數(shù)據(jù)進(jìn)行提取與解析，最后將提取數(shù)據(jù)通過格式化方式在數(shù)據(jù)庫(kù)中儲(chǔ)存或存儲(chǔ)在簡(jiǎn)單結(jié)構(gòu)的文本文件當(dāng)中。Internet屬于發(fā)展快速重大信息的數(shù)據(jù)庫(kù)，這些資源存在的方式通常以無結(jié)構(gòu)文本方式，這就給歸類網(wǎng)絡(luò)資源造成了很大的困難。

5? 結(jié)? 論

總之，本文重點(diǎn)分析基于Python語(yǔ)言來對(duì)Web數(shù)據(jù)的原理及方式進(jìn)行挖掘，并對(duì)網(wǎng)絡(luò)爬蟲的計(jì)算方式特征以及應(yīng)用使用環(huán)境進(jìn)行分析，并就數(shù)據(jù)的儲(chǔ)存方法、正則的表達(dá)方法、抓取數(shù)據(jù)的流程、分析方式等進(jìn)行闡述。通過上述分析我們了解到，基于Python語(yǔ)言的網(wǎng)絡(luò)化爬蟲技術(shù)在抓取數(shù)據(jù)使用優(yōu)勢(shì)比較顯著，可以自動(dòng)提取個(gè)性數(shù)據(jù)，最大化提高分析與搜索數(shù)據(jù)的質(zhì)量。在實(shí)際爬取數(shù)據(jù)中，用戶應(yīng)考慮調(diào)整過后和優(yōu)化性的數(shù)據(jù)爬蟲算法，與Python多線程技術(shù)進(jìn)行結(jié)合，進(jìn)而使下載緩存得到優(yōu)化，提升挖掘數(shù)據(jù)的功能。

參考文獻(xiàn)：

[1] 吳爽.基于Python語(yǔ)言的Web數(shù)據(jù)挖掘與分析研究 [J].電腦知識(shí)與技術(shù)，2018，14（27）：1-2.

[2] 劉熠.基于Python的Web數(shù)據(jù)挖掘技術(shù)研究與實(shí)現(xiàn) [D].荊州：長(zhǎng)江大學(xué)，2018.

[3] 齊亞莉，張磊.基于Python的圖像搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) [J].北京印刷學(xué)院學(xué)報(bào)，2010，18（2）：48-51.

[4] 黃雄偉.基于Web數(shù)據(jù)挖掘的客戶行為分析研究及應(yīng)用 [D].武漢：武漢理工大學(xué)，2011.

[5] 楊國(guó)志，江業(yè)峰.基于Python的聚焦網(wǎng)絡(luò)爬蟲數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [J].科學(xué)技術(shù)創(chuàng)新，2018（2）：73-74.

[6] 李彥.基于Python的數(shù)據(jù)挖掘——陽(yáng)光集團(tuán)的具體數(shù)據(jù)挖掘項(xiàng)目 [J].電腦知識(shí)與技術(shù)，2018（2）：15-20，36.

[7] 白雪麗.淺析基于Python爬蟲技術(shù)的特性及應(yīng)用 [J].山西科技，2018，33（2）：53-55.

[8] 代廣珍，徐超.基于Web的數(shù)據(jù)挖掘研究綜述 [C]//2005年“數(shù)字安徽”博士科技論壇論文集.安徽合肥，2005：319-323.

作者簡(jiǎn)介：楊迎（1979-），女，漢族，北京人，講師，碩士，研究方向：信息安全。

現(xiàn)代信息科技2019年23期

現(xiàn)代信息科技的其它文章: 加快數(shù)字經(jīng)濟(jì)與實(shí)體經(jīng)濟(jì)深度融合的方法分析; 協(xié)同創(chuàng)新模式下人工智能技術(shù)的應(yīng)用與發(fā)展; 以O(shè)BE為導(dǎo)向的混合式學(xué)習(xí)模式人才培養(yǎng)探索與研究; 高職學(xué)生網(wǎng)絡(luò)輿情特征分析與引導(dǎo)策略研究; “互聯(lián)網(wǎng)+”背景下以學(xué)生為中心的教學(xué)理念探索; 基于微課程的自主學(xué)習(xí)教學(xué)模式的探究