盧寧



摘要:為了更好地開展數字科學普及教育,下載更多數字科學普及電影的相關信息和影片資源服務于數字科普工作,滿足廣大青少年對科普知識的渴望.文章基于Python語言以在百度上獲取的科普電影片名為文件名新建一個文件夾,以將獲取的影片相關資料(如科普電影圖片的URL地址)放入新建文件夾為例,介紹了獲取科普電影相關信息的思路流程和知識要點,為獲取科普電影相關信息奠定理論基礎、確定操作流程、提供關鍵代碼,以及為后續的數據分析提供原始資源。
關鍵詞:數字科普;科普電影;數據獲?。籔ython
中圖法分類號:TP393 文獻標識碼:A
1 引言
數字科普電影是為普及科學文化知識而特攝,利用數字電影為傳媒以淺顯、通俗易懂的表現形式讓公眾了解自然科學和社會科學,從而推廣科技的應用、倡導科學方法、傳播科學思想、弘揚科學精神。影片內容在解釋自然現象和社會現象時,力求做到深入淺出、形象生動,使觀眾易于接受。科普電影表現范圍極為廣泛———自然科學、人文科學均可涉及。數字科普電影常用于科普場館的科普教育。
2 Python 獲取數據的優勢
請求模塊、解析模塊豐富成熟, 有著強大的Scrapy 網絡框架,代碼簡潔,代碼量少。數據獲取的方法可采用自動索引、模擬程序,按照一定的規則自動抓取萬維網信息。該程序或者腳本從萬維網上下載網頁,是搜索引擎的重要組成。然后通過對數據進行處理,得到有價值的數據,傳統算法從一個或若干初始網頁的URL 開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL 放入隊列,直到滿足系統的一定停止條件。
用Python 語言可以實現如下功能:以在百度上獲取到的各科普電影片名為文件名新建文件夾,在此文件夾下,以各科普電影片名為文件名、以.txt 為擴展名建立文本文件,將爬取到的與這部電影有關的信息(以獲取的此科普電影圖片的URL 地址為例)放入此文本文件中。
3 方法
步驟1 導入本程序要用到的模塊。
在PyCharm 編輯器中編寫程序代碼:import csv # csv 文件格式是一種通用的電子表格和數據庫導入導出格式,用此文件存放獲取到的科普影片片名import os # 包含普遍的操作系統功能import re # 正則表達式用于提取有效的內容import requests #網絡訪問模塊用于得到頁面源代碼步驟2 獲取頁面源代碼。
在百度搜科普電影,如圖1 所示。