張建根 于耀祖



關鍵詞:網絡爬蟲;工程項目;數據分析
一、緒論
工程項目建設是社會經濟活動的重要組成部分,反映社會基礎建設資金投入方向,如果一段時間內社會資金集中投向某一行業,說明該行業處于發展上升期間,反之,則說明該行業處于停滯甚至衰退期。因此工程項目建設是社會行業發展的晴雨表,甚至在一定程度上影響未來宏觀經濟運行趨勢,所以對擬在建工程項目的統計分析不僅對社會企業發展,而且對社會治理都具有十分重要的意義。
中項網(https://www.ecpe360.corn/)依靠健全的信息渠道和強大的信息收集加工能力,經驗豐富的強大調研跟蹤團隊和扎實的團隊作風,采集一線實際項目投資建設實況數據,形成了全面系統、精準高效的擬在建項目信息匯總發布平臺。本文通過爬蟲技術對中項網項目信息進行抓取,并對項目數據進行匯總分析,以期對行業分析、區域發展、社會治理提供一定的幫助。
二、相關技術介紹
網絡爬蟲是一種按照提前設定好的規則,自動地抓取互聯網信息的程序或者腳本。從互聯網網站抓取公開信息并保存至本地數據庫,從而解決難以大量獲取互聯網數據的困難。最初被用于搜索引擎抓取網站數據。而在當今信息化時代,得數據者得天下。因此網絡爬蟲廣泛用于各種互聯網應用。一方面,網絡爬蟲使數據獲取變得容易;但另一方面,網絡爬蟲不僅消耗公共網絡資源,而且損害互聯網服務站點,被爬取的服務站點需要消耗大量的物理資源應對網絡爬蟲,甚至發生宕機事故。因此一些網站采取措施防止被網絡爬蟲,比如驗證碼、IP限制、用戶行為檢測、JS渲染等。網絡爬蟲技術在數據量爆發式增長的機遇和反爬蟲制約的挑戰雙重環境下不斷發展,促生了大量應用框架的誕生。
Python是一個高層次腳本語言,具有解釋性、編譯性、互動性和面向對象、跨平臺等特點,已經成為一種非常流行的計算機程序設計語言。因其開源、簡單、易學、可移植、可擴展、易維護的特點,催生了多種網絡爬蟲框架,例如:Scrapy、Crawley、Portia、Newspaper、Python-goose。其中,最為流行的開源框架是Scrapy,可以快速、簡單、高效的爬取Web頁面并提取出結構化數據,已經被廣泛用于各類應用。
三、工程項目信息爬取
本文爬取的項目信息為中項網項目信息(https://www.ccpc360.com/xiangmu/),上述頁面采用表格方式展現項目的基本信息,包括項目名稱、領域類型、地區、投資金額(萬元)、進展階段、行業/類型、發布時間等內容。由于項目信息條數太多,不利于在單一頁面展現,該頁面采用了分頁技術。項目信息爬取是指由程序自動獲取項目信息的過程,其流程圖如圖1所示:
四、工程項目信息分析
本文爬取2019年7月至2020年12月18個月內中項網發布的項目信息(如圖2所示),共17061項條,去除848項境外項目,剩余169769項國內項目,分別處于土建施工、施工圖設計、施工招標、設計招標、暫停、取消等共27個進展階段,其中處于取消階段項目535項,處于暫停階段項目476項,去除以上兩項無效階段項目,國內有效項目共168758項。項目屬地覆蓋東北、華北、華東、華南、華中、西北、西南七大區域;項目分屬輕工紡織食品、石油化學工程、機械電子電器、電力、環保、能源工業、制藥工程、倉儲物流、建筑房地產、建材、市政、冶金礦產、農林水利、交通設施等20個行業分類;涉及碼頭港口、水庫、鐵路、醫院、食品、設備制造風力發電、污水等243個領域。
(一)項目區域分析
18個月內東北、華北、華東、華南、華中、西北、西南七大區域項目數分別為:8604項、24846項、55812項、17113項、27852項、13133項和21398項。可以看出華東擬在建項目數最多,這與華東地區經濟發達,市場活動活躍有直接關系;東北地區擬在建項目數最少,這與東北地區近年來經濟發展速度較慢,市場經濟活動較少相關。
從圖3可以看出,各地區在2020年上半年擬在建項目數量均有不同程度下降。2020年下半年經濟復蘇,市場行為開始活躍,因此擬在建項目數量開始增加。明顯可以看出華東地區在擬在建項目基數較大的情況下,仍實現了最快的增長率,反映出華東地區經濟基礎好,市場成熟度高,經營主體活躍等特點。
(二)項目行業分析
18個月內環保、輕工紡織食品、石油化工工程、電力、機械電子電器五類行業位居擬在建項目的前五位,分別達到24692、20372、18938、18447、16973項,占項目總數的58.91%,詳見圖4。
從圖4可以看出環保在項目建設中占據了首要位置,充分體現了綠色發展、持續發展的理念;建筑房地產項目雖然也占據了較為靠前的位置,但其整體比例并不高,體現了“住房不炒”的理念;但是農林水利方面的項目數量明顯偏少,與鄉村振興戰略地位明顯不符。
(三)項目領域分析
18個月內化學制品、生活污水、醫院、食品、設備制造5個領域位居擬在建項目的前5位,分別達11237、7795、7573、6988、6516項,占總數的23.8%,且前20個領域內的項目建設已超過全部項目的50%,詳見圖5。
從圖5可以看出生活污水、環境綜合治理、污水、太陽能發電、風力發電、垃圾處理等于環保相關領域項目建設占據較大比例,說明社會發展在環保領域的持續發力。充電樁(680項)、5G建設(458項)、工業互聯網(257項)、大數據中心(184項)等新興領域則顯得投入不足。
五、結語
針對中項網項目發布信息,利用爬蟲技術設計了項目數據采集程序。分析采集到的2019年7月至2020年12月共18個月內項目信息顯示,2020年下半年,我國項目建設活動較2020年上半年有較大幅度增加,說明我國經濟發展具有堅實的基礎和頑強的韌勁;同時也應注意到當前項目建設投資動向與國家發展方向大致相同,但是在一些行業和領域仍需政府機構加強宏觀調控和政策引導。