999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的網(wǎng)頁信息爬取技術(shù)研究

2021-04-22 17:14:20陳海燕朱慶華?,?/span>
電腦知識與技術(shù) 2021年8期
關(guān)鍵詞:內(nèi)容信息

陳海燕 朱慶華 ?,?/p>

摘要:現(xiàn)在是信息時代,互聯(lián)網(wǎng)為我們提供了豐富的信息資源。只要我們有需要就能通過網(wǎng)絡(luò)得到。但是正因為網(wǎng)絡(luò)上的資源太豐富了,如果想得到需要的內(nèi)容,用戶就要做大量篩選和甄別工作。網(wǎng)絡(luò)信息篩選和抓取有很多方法,比如Java、Python等語言,還有一些專門的公司為用戶提供網(wǎng)絡(luò)爬蟲程序做信息的定向抓取。目前使用較多的是Python語言,文章要研究的內(nèi)容是:通過使用Python庫中的Beautiful Soup庫快速、簡捷地抓取所需信息。

關(guān)鍵詞:BeautifulSoup;Python;網(wǎng)絡(luò)爬蟲

中圖分類號:TP393? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)08-0195-02

1 BeautifulSoup介紹

Beautiful Soup是一個可以從網(wǎng)頁文件中提取信息的Python庫,它包含在bs4庫里。需要注意的是下載、安裝bs4時需要聯(lián)網(wǎng),否則安裝會出錯,具體命令為:pip install bs4,如圖1所示。

2 解析HTML流程說明

HTML文件是由一組尖括號構(gòu)成的標簽組織起來的,每一對尖括號形式一個標簽,標簽之間存在上下關(guān)系,形成一顆標簽樹。因此可以說Beautiful Soup是解析、遍歷、維護“標簽樹”的功能庫。眾所周知:html由眾多標簽組成,如何精確定位標簽,從標簽中提取到需要的內(nèi)容呢?

在找到對應標簽位置后,熟悉html的人知道,信息一般會存儲在兩個位置中:

1)開始標簽和結(jié)束標簽中的內(nèi)容;

2) 開始標簽中的屬性值。

例如下面這行標簽:

美食網(wǎng)

。

這個標簽的含義是:一個段落中有一個超級鏈接,鏈接的地址是:www.baidu.com。我們要做的就是提取之間的“美食網(wǎng)”文字,或者提取標簽的屬性值,即鏈接www.baidu.com內(nèi)容。

3 使用python進行網(wǎng)頁內(nèi)容獲取的方法

3.1引入BeautifulSoup庫

程序開始的第1行需要引入BeautifulSoup庫。如果bs4下出現(xiàn)波浪線表示安裝路徑有問題,需要檢查。語句如圖2所示。

3.2 html代碼放入str

將html代碼放入一個變量中,注意,由于html代碼有換行,需要每一行都加上單引號,這樣比較麻煩,可以把html整個代碼用三個單引號里引起來,這樣就簡單多了,而且也增強了代碼的可讀性。如下所示:

str = '''西紅柿炒雞蛋

這道菜俺從小吃到大,它是我兒時的全部味覺記憶。

美食網(wǎng)免責聲明。

'''

3.3使用lxml解析器實例化BeautifulSoup對象

BeautifulSoup支持Python標準庫中的HTML解析器(HTMLParser),還支持一些第三方的解析器,如果我們不安裝它,則 Python 會使用 Python默認的解析器,lxml解析器更加強大,速度更快,推薦安裝使用。具體的語句如圖3所示。

3.4獲取title標簽里的內(nèi)容

title標簽的含義是為網(wǎng)頁定義標題。需要說明的是:如果要提取“標題”,只需要使用title標簽名來識別,因為整個html文檔中,title標簽只會出現(xiàn)一次。具體的語句如圖4所示。

3.5獲取p標簽里的文字

P標簽是段落標簽,如果要提取p標簽里的內(nèi)容,不能像提取title標簽一樣只使用p標簽,因為p標簽可以有多個。因此p標簽要和它的class屬性聯(lián)合起來使用,例如3.2中給出的標簽,用'first'或'second'來識別p標簽。要提取class屬性是first的p標簽,語句如圖5所示。

3.6獲取所有p標簽里的文字

在進行信息抓取時,有時需要提取所有p標簽里的內(nèi)容,這時就可以使用循環(huán)獲取。具體的語句如圖6所示。

以3.2的標簽為例,運行結(jié)果為:

這道菜俺從小吃到大,它是我兒時的全部味覺記憶。

美食網(wǎng)免責聲明。

3.7查找ul標簽里的li標簽

ul是無序列表標簽,它與li標簽配合使用,一對ul標簽里可以包含若干對li標簽。因為ul標簽也可以有多個,因此ul標簽也要和它的class屬性聯(lián)合起來使用,查找class='list1'的ul標簽里的所有l(wèi)i標簽,可以使用圖7的方法。

以3.2的標簽為例,運行結(jié)果

  • 食材準備
  • 制作過程
  • 同理,也可以先定位到

    主站蜘蛛池模板: 国产精品xxx| 欧亚日韩Av| 国产95在线 | 91www在线观看| 亚洲IV视频免费在线光看| 国产高清精品在线91| 在线精品亚洲国产| 91色在线观看| 中文字幕天无码久久精品视频免费| 精品无码专区亚洲| 熟妇无码人妻| 看你懂的巨臀中文字幕一区二区| a亚洲天堂| 久久夜色精品国产嚕嚕亚洲av| 国产在线观看精品| 日韩国产一区二区三区无码| 91毛片网| 91久久夜色精品国产网站| 操国产美女| 欧美在线伊人| 91在线高清视频| 88av在线播放| 国产精品尤物铁牛tv | 国产一区二区色淫影院| 99视频在线免费看| 一本大道香蕉中文日本不卡高清二区| 亚洲国产日韩在线成人蜜芽 | 最新午夜男女福利片视频| 欧美色图久久| 91热爆在线| 成人久久精品一区二区三区| 一级片一区| 日a本亚洲中文在线观看| 久久伊伊香蕉综合精品| 国产凹凸一区在线观看视频| 中国丰满人妻无码束缚啪啪| 欧美日韩一区二区三区在线视频| 国产亚洲现在一区二区中文| 中文一区二区视频| 在线亚洲小视频| 国产午夜一级淫片| 99成人在线观看| 亚洲国产精品一区二区第一页免| 高清免费毛片| 欧美成人精品一区二区| 国产精品无码作爱| 好久久免费视频高清| 日韩国产欧美精品在线| 亚洲欧洲日韩久久狠狠爱| 91久久偷偷做嫩草影院电| 久久久久亚洲AV成人人电影软件| 亚洲精品无码AV电影在线播放| 粗大猛烈进出高潮视频无码| 91精品啪在线观看国产60岁 | 人妻中文字幕无码久久一区| 免费看av在线网站网址| 玖玖精品在线| 91 九色视频丝袜| 无码精品福利一区二区三区| 好紧太爽了视频免费无码| 无码高潮喷水在线观看| 欧美国产菊爆免费观看| 色天天综合| 欧美激情视频一区二区三区免费| 亚洲精品制服丝袜二区| 国产精品福利在线观看无码卡| 成年av福利永久免费观看| 看国产毛片| 日韩精品久久无码中文字幕色欲| 国产成+人+综合+亚洲欧美| 99国产在线视频| 日本成人在线不卡视频| 久久国产精品夜色| 国产JIZzJIzz视频全部免费| 国产精品成人不卡在线观看 | 色婷婷成人网| 亚洲欧美不卡| 在线观看国产精品一区| 久爱午夜精品免费视频| 欧美激情一区二区三区成人| 嫩草国产在线| 一级毛片a女人刺激视频免费|