孫國強 趙歡 王芝芝
摘 要:文章采用Python網絡爬蟲技術在中國政府網采集區塊鏈與企業網絡相關數據,使用Jieba庫實現分詞、去停用詞及高頻詞統計,并繪制高頻詞條形圖,基于TfidfVectorizer庫獲取分詞權重,實現可視化。通過文本挖掘方式獲取基于區塊鏈與企業網絡相關國家政策新聞的關鍵詞,從而整體把握政策核心內容與潛在聯系,為相關人員進一步研究奠定基礎。
關鍵詞:爬蟲 中國政府網 區塊鏈 企業網絡 文本挖掘
中圖分類號:F062.4? 文獻標識碼:A
文章編號:1004-4914(2024)05-011-03
一、引言
隨著科學技術和網絡空間的發展,作為比特幣的底層技術,區塊鏈已被廣泛應用到各個領域中,成為當前研究的熱點。區塊鏈被我國的“十三五”規劃作為三項重大任務和重點工程之一,而且在國內,阿里巴巴、騰訊、華為等大型企業紛紛著手區塊鏈技術的應用研究使之落地。盡管區塊鏈技術應用領域頗為廣泛,但區塊鏈和企業合作網絡結合起來的研究卻鮮有學者提及并探究其相關影響。企業發展一直以來受到融資難、融資貴、融資慢等問題的阻礙和制約,尤其是中小企業深受影響。正是由于具備過程可信和去中心化的特點,區塊鏈才能在多利益主體參與的場景下以低成本的方式構建信任基礎,目標是重塑社會信用體系。區塊鏈具有“不可篡改、分布式記賬、智能合約、透明可溯”等技術屬性,可從根本上解決企業網絡信息轉移和價值交換過程中的搭便車行為,從而降低交易的成本和風險,是解決企業合作問題的有效手段。本文基于Python語言,在中國政府網爬取基于區塊鏈和企業合作網絡這一主題的政策新聞并繪制詞云圖。詞云圖是通過字體的大小凸顯文本中出現頻率較高的關鍵詞,可在頻數統計的基礎上更加美觀地展示數據。通過對國家政策關鍵詞進行數據可視化,可以動態把握趨勢,為學者進一步研究指明方向。
二、國家政策數據爬取
(一)相關技術
re模塊,匹配字符串的模塊,唯python獨有。正則表達式是對字符串進行模糊匹配,提取所需的字符串部分。該模塊基于正則表達式可以實現很多功能,對所有語言通用。
wordcloud庫,是第三方庫,用于展示詞云圖。以詞語為基本單位,詞語的詞頻越高,在詞云圖中顯示越大。
jieba庫,是一款優秀的Python第三方中文分詞庫,它的庫語料以人民日報為基礎,冗余度比較低,用于實現分詞,返回中文文本分詞后的列表變量,支持三種分詞模式:精確模式、全模式、搜索引擎模式。精確模式是盡可能把一個句子按照最為可能的分詞結果最為準確地分割開來,這樣獲得的分詞結果通常更接近句子原意。本文使用精確分詞模式來對國家政策做文本分析。
(二)網頁源碼抓取
本文通過中國政府網網址進行目標數據的爬取。從中國政府網的政策點擊進去,再點高級搜索,然后在搜索欄輸入搜索詞“區塊鏈與企業網絡”,就可以發現有16份中央有關文件和35份國務院文件。將搜索詞“區塊鏈”替換成與其意思相近的詞語如“智能合約”和“共識機制”。同理,將“企業網絡”替換成“企業合作網絡”“經濟合作”“產業聯盟”“集群”“創新網絡”“供應鏈”“模塊化網絡”與“企業間合作”。之后將兩類詞語兩兩組合后進行搜索,整理后統計共有444份政策文件。具體情況見表1。
本文目標網址http://sousuo.gov.cn/a.htm?t=zhengce。通過該網址進入政策的高級搜索頁面,輸入搜索詞“區塊鏈與企業網絡”。通過分析URL發現q=后面即為搜索的詞語。相應的網址頁面可借助Python找到,然后就可以抓取網頁源碼,再提取關鍵信息。通過網頁右擊點檢查,就可以看到源代碼,繼而進行相關的一系列操作。
(三)BeautifulSoup解析網頁數據
BeautifulSoup模塊用于解析html和xml文檔中的內容,相比正則表達式,其更好的利用了html這種結構性文檔的樹狀結構,解析起來更加方便。解析的第一步是構建一個BeautifulSoup對象,通過點號操作符,可以直接訪問文檔中的特定標簽。本文通過解析代碼,獲取所有p標簽里面的內容即可獲取新聞文本。
(四)數據處理
Python中迄今為止最好的中文分詞組件是Jieba分詞器,可很好地協助使用者完成潛在主題發現和主題詞獲取等任務,特別適用于中文文本分類。故而,本文采用Jieba分詞器進行政策新聞文本數據的一系列處理。
首先,通過Pandas庫的read_excel()方法導入爬取下來的鏈接即444個URL;其次,循環遍歷URL訪問對應內容,通過BeautifulSoup中soup.find_all('p')獲取網頁源代碼所有p標簽的內容,即所有段落對應的內容,同時采用正則表達式進行數據清洗,如用re.sub('<.*?>','',paragraphs[i])清洗掉所有‘<>里面的內容;再次,將處理后的每篇政策新聞放到一個字符串里面,444篇新聞就是444個字符串,把這些字符串放到一個列表con_list444里面;而后,通過Jieba庫的jieba.cut()方法實現對新聞文本的分詞操作,獲取長度大于等于3且小于等于4的分詞結果;之后,采用sklearn中的TfidfVectorizer方法獲取分詞權重;再之后,采用for循環,通過jieba.del_word(word)手動刪除意義不大的詞,如平方公里、符合條件等;最后,通過collections模塊的 Counter()方法獲取top100的關鍵詞及權重。
三、高頻詞統計與數據可視化
完成數據采集和數據處理后,調出并應用WordCloud庫和 Jieba庫來實現高頻詞統計和數據可視化。同時借助collections模塊中的Counter()方法來實現詞頻統計,分別統計兩個字、三個字和四個字分詞的top20,詞頻統計結果如表2。
(一)分詞TF—IDF權重統計
TF—IDF是一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。本文對444篇基于區塊鏈與企業合作網絡相關主題的政策新聞進行Jieba分詞,然后通過Python采用TF—IDF算法進行分詞的權重統計,之后將分詞權重降序排列,剔除停用詞后其結果如表3。
(二)高頻詞條形圖制作
基于詞頻統計結果來制作水平條形圖,可以獲得更加明了清晰的詞頻統計效果,讓人耳目一新。接著,調用matplotlib 模塊的子模塊pyplot的barh()方法來繪制水平條形圖。對三個字和四個字分詞分別繪制詞頻條形圖結果如圖1和圖2。
(三)WordCloud詞云圖繪制
詞云圖是一種數據可視化圖表,視覺沖擊性很強。通過對文本中大量無實際意義的低頻詞匯進行過濾、并對出現頻率較高的“關鍵詞”予以不同顏色和大小進行視覺效果上的突出。本文使用wordcloud庫和imageio融合圖形圖片繪制詞云圖展示444份基于區塊鏈與企業合作網絡相關搜索詞的政策新聞文本的關鍵詞。三字以上排名前130的分詞對應的詞云圖繪制結果如圖3。
四、結論
基于區塊鏈與企業合作網絡相關政策的詞云結果顯示:綜合來看,相關實踐重在“試驗區”和“示范區”;“人工智能”“互聯網”和“信息化”排列靠前,與當今時代發展保持一致;“創新”“改革”“制度”“資源”“管理”和“政策”是重要著力方點;“現代化”“服務化”“數字化”“智能化”“標準化”和“市場化”是重要向;“基礎設施”“公共服務”“生態環境”“知識產權”“自由貿易”“交通運輸”“網絡安全”“服務平臺”“科技成果”“管理制度”“外商投資”和“科研院所”是硬實力;“技術”“關鍵技術”“技術創新”“核心技術”和“創新能力”成分說明創新技術的重要性;“高質量”與新時代我國社會的主要矛盾相吻合。
本文通過爬取中國政府網的政策新聞文本,進一步證明了網絡規則的規范性。爬蟲可以方便地獲取數據,擁有廣闊的應用前景。相較于傳統數據,中國政府網的政策新聞具有更清晰的指向性以及更強的前瞻性,本文通過對政策新聞的文本挖掘來探索隱藏在大量數據背后的關鍵詞信息。本實驗結果顯示,通過爬蟲、正則化數據清洗和數據可視化等步驟后,獲得的高頻詞條形圖和政策新聞詞云圖結果較好地呈現了新聞的指向與發展焦點,這對于把握未來發展走向具有一定的現實意義。
[基金項目:國家自然科學基金項目“企業網絡權力的形成機理、配置效率及其對合作行為的影響研究”(71872014);山西省基礎研究(自由探索)項目“區塊鏈與戰略性新興產業集群深度融合研究”(202303021211141)。]
參考文獻:
[1] 王君宇,吳清烈,曹卉宇.國內區塊鏈典型應用研究綜述[J].科技與經濟,2019,32(05):1-6.
[2] 王莉,段婷,董珺.區塊鏈與企業網絡融合:機遇、挑戰與對策[J].經濟問題,2021(04):23-30.
[3] 宋華,楊雨東,陶錚.區塊鏈在企業融資中的應用:文獻綜述與知識框架[J].南開管理評論,2022,25(02):34-46.
[4] 曾詩欽,霍如,黃韜,等.區塊鏈技術研究綜述:原理、進展與應用[J].通信學報,2020,41(01):134-151.
[5] 李曉娣,原媛,黃魯成.政策工具視角下我國養老產業政策量化研究[J].情報雜志,2021,40(04):147-154.
[6] 黎曦.基于網絡爬蟲的論壇數據分析系統的設計與實現[D].華中科技大學,2019.
[7] 汪言.基于Python的詞云生成及優化研究——以“十四五”規劃為例[J].電腦知識與技術,2021,17(19):23-28.
(作者單位:孫國強,趙歡,山西財經大學管理科學與工程學院 山西太原 030006;王芝芝,山西省科技成果轉移轉化促進與數據監測中心 山西太原 030001)
[作者簡介:孫國強,博士,山西財經大學管理科學與工程學院教授,研究方向為組織創新與網絡治理;趙歡,碩士,研究方向為組織創新與網絡治理;王芝芝,山西省科技成果轉移轉化促進與數據監測中心副研究員,研究方向為政府信息化。]
(責編:賈偉)