999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的網(wǎng)頁(yè)信息爬取技術(shù)研究

2021-04-22 17:14:20陳海燕朱慶華常瑩
電腦知識(shí)與技術(shù) 2021年8期
關(guān)鍵詞:內(nèi)容信息

陳海燕 朱慶華 常瑩

摘要:現(xiàn)在是信息時(shí)代,互聯(lián)網(wǎng)為我們提供了豐富的信息資源。只要我們有需要就能通過(guò)網(wǎng)絡(luò)得到。但是正因?yàn)榫W(wǎng)絡(luò)上的資源太豐富了,如果想得到需要的內(nèi)容,用戶(hù)就要做大量篩選和甄別工作。網(wǎng)絡(luò)信息篩選和抓取有很多方法,比如Java、Python等語(yǔ)言,還有一些專(zhuān)門(mén)的公司為用戶(hù)提供網(wǎng)絡(luò)爬蟲(chóng)程序做信息的定向抓取。目前使用較多的是Python語(yǔ)言,文章要研究的內(nèi)容是:通過(guò)使用Python庫(kù)中的Beautiful Soup庫(kù)快速、簡(jiǎn)捷地抓取所需信息。

關(guān)鍵詞:BeautifulSoup;Python;網(wǎng)絡(luò)爬蟲(chóng)

中圖分類(lèi)號(hào):TP393? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)08-0195-02

1 BeautifulSoup介紹

Beautiful Soup是一個(gè)可以從網(wǎng)頁(yè)文件中提取信息的Python庫(kù),它包含在bs4庫(kù)里。需要注意的是下載、安裝bs4時(shí)需要聯(lián)網(wǎng),否則安裝會(huì)出錯(cuò),具體命令為:pip install bs4,如圖1所示。

2 解析HTML流程說(shuō)明

HTML文件是由一組尖括號(hào)構(gòu)成的標(biāo)簽組織起來(lái)的,每一對(duì)尖括號(hào)形式一個(gè)標(biāo)簽,標(biāo)簽之間存在上下關(guān)系,形成一顆標(biāo)簽樹(shù)。因此可以說(shuō)Beautiful Soup是解析、遍歷、維護(hù)“標(biāo)簽樹(shù)”的功能庫(kù)。眾所周知:html由眾多標(biāo)簽組成,如何精確定位標(biāo)簽,從標(biāo)簽中提取到需要的內(nèi)容呢?

在找到對(duì)應(yīng)標(biāo)簽位置后,熟悉html的人知道,信息一般會(huì)存儲(chǔ)在兩個(gè)位置中:

1)開(kāi)始標(biāo)簽和結(jié)束標(biāo)簽中的內(nèi)容;

2) 開(kāi)始標(biāo)簽中的屬性值。

例如下面這行標(biāo)簽:

美食網(wǎng)

這個(gè)標(biāo)簽的含義是:一個(gè)段落中有一個(gè)超級(jí)鏈接,鏈接的地址是:www.baidu.com。我們要做的就是提取之間的“美食網(wǎng)”文字,或者提取標(biāo)簽的屬性值,即鏈接www.baidu.com內(nèi)容。

3 使用python進(jìn)行網(wǎng)頁(yè)內(nèi)容獲取的方法

3.1引入BeautifulSoup庫(kù)

程序開(kāi)始的第1行需要引入BeautifulSoup庫(kù)。如果bs4下出現(xiàn)波浪線(xiàn)表示安裝路徑有問(wèn)題,需要檢查。語(yǔ)句如圖2所示。

3.2 html代碼放入str

將html代碼放入一個(gè)變量中,注意,由于html代碼有換行,需要每一行都加上單引號(hào),這樣比較麻煩,可以把html整個(gè)代碼用三個(gè)單引號(hào)里引起來(lái),這樣就簡(jiǎn)單多了,而且也增強(qiáng)了代碼的可讀性。如下所示:

str = '''西紅柿炒雞蛋

這道菜俺從小吃到大,它是我兒時(shí)的全部味覺(jué)記憶。

美食網(wǎng)免責(zé)聲明。

'''

3.3使用lxml解析器實(shí)例化BeautifulSoup對(duì)象

BeautifulSoup支持Python標(biāo)準(zhǔn)庫(kù)中的HTML解析器(HTMLParser),還支持一些第三方的解析器,如果我們不安裝它,則 Python 會(huì)使用 Python默認(rèn)的解析器,lxml解析器更加強(qiáng)大,速度更快,推薦安裝使用。具體的語(yǔ)句如圖3所示。

3.4獲取title標(biāo)簽里的內(nèi)容

title標(biāo)簽的含義是為網(wǎng)頁(yè)定義標(biāo)題。需要說(shuō)明的是:如果要提取“標(biāo)題”,只需要使用title標(biāo)簽名來(lái)識(shí)別,因?yàn)檎麄€(gè)html文檔中,title標(biāo)簽只會(huì)出現(xiàn)一次。具體的語(yǔ)句如圖4所示。

3.5獲取p標(biāo)簽里的文字

P標(biāo)簽是段落標(biāo)簽,如果要提取p標(biāo)簽里的內(nèi)容,不能像提取title標(biāo)簽一樣只使用p標(biāo)簽,因?yàn)閜標(biāo)簽可以有多個(gè)。因此p標(biāo)簽要和它的class屬性聯(lián)合起來(lái)使用,例如3.2中給出的標(biāo)簽,用'first'或'second'來(lái)識(shí)別p標(biāo)簽。要提取class屬性是first的p標(biāo)簽,語(yǔ)句如圖5所示。

3.6獲取所有p標(biāo)簽里的文字

在進(jìn)行信息抓取時(shí),有時(shí)需要提取所有p標(biāo)簽里的內(nèi)容,這時(shí)就可以使用循環(huán)獲取。具體的語(yǔ)句如圖6所示。

以3.2的標(biāo)簽為例,運(yùn)行結(jié)果為:

這道菜俺從小吃到大,它是我兒時(shí)的全部味覺(jué)記憶。

美食網(wǎng)免責(zé)聲明。

3.7查找ul標(biāo)簽里的li標(biāo)簽

ul是無(wú)序列表標(biāo)簽,它與li標(biāo)簽配合使用,一對(duì)ul標(biāo)簽里可以包含若干對(duì)li標(biāo)簽。因?yàn)閡l標(biāo)簽也可以有多個(gè),因此ul標(biāo)簽也要和它的class屬性聯(lián)合起來(lái)使用,查找class='list1'的ul標(biāo)簽里的所有l(wèi)i標(biāo)簽,可以使用圖7的方法。

以3.2的標(biāo)簽為例,運(yùn)行結(jié)果

  • 食材準(zhǔn)備
  • 制作過(guò)程
  • 同理,也可以先定位到

    主站蜘蛛池模板: 波多野结衣亚洲一区| 欧美专区日韩专区| 青青草一区| 精品一区国产精品| 国产偷国产偷在线高清| 操操操综合网| 亚洲天堂网站在线| 一级毛片在线播放| 国产精品.com| 欧美亚洲欧美| 久久99精品久久久大学生| 国产人在线成免费视频| 无码网站免费观看| 欧类av怡春院| 亚洲天堂日本| 69免费在线视频| 国产极品美女在线播放| 丝袜久久剧情精品国产| 亚洲狼网站狼狼鲁亚洲下载| 亚洲人成亚洲精品| 永久成人无码激情视频免费| 天堂成人在线| 久久久久国产精品熟女影院| 国产福利在线观看精品| 中文字幕乱码二三区免费| 97亚洲色综久久精品| 中文字幕无码av专区久久| 人妖无码第一页| 午夜国产精品视频| 国产一区二区三区视频| 精品黑人一区二区三区| 国产一级视频在线观看网站| 亚洲国产精品人久久电影| 国产鲁鲁视频在线观看| 亚洲国产天堂久久综合226114| 手机成人午夜在线视频| 国产永久无码观看在线| 日韩av手机在线| 青草视频久久| 免费99精品国产自在现线| 国产精品不卡永久免费| a亚洲天堂| 日韩毛片基地| 一级毛片在线播放免费观看| 亚洲视频a| 欧美成人午夜影院| 精品国产香蕉在线播出| 亚洲综合在线最大成人| 精品亚洲麻豆1区2区3区 | 中文字幕精品一区二区三区视频| 波多野结衣中文字幕一区| 77777亚洲午夜久久多人| 免费aa毛片| 亚洲国产理论片在线播放| 欧美国产日韩在线观看| 怡红院美国分院一区二区| 日本成人精品视频| 国产精品自拍合集| 91丝袜乱伦| 国产精品护士| 在线播放国产99re| 国产成a人片在线播放| 呦视频在线一区二区三区| 欧美性精品不卡在线观看| 精品少妇人妻无码久久| 99ri精品视频在线观看播放| 亚洲国产成人综合精品2020| AV天堂资源福利在线观看| 99尹人香蕉国产免费天天拍| 国产精品一区在线麻豆| 9啪在线视频| 日本手机在线视频| 亚洲va在线观看| 性色一区| 999国产精品| 五月天综合婷婷| 任我操在线视频| 色偷偷av男人的天堂不卡| 狠狠色丁香婷婷综合| 欧美一级大片在线观看| 欧美精品在线观看视频| 国产亚洲视频免费播放|