基于Python的海外工程政策信息采集研究與實現

2020-08-16 13:53:29林藝馨周弋焜張策其樂木格

科技創新與應用 2020年23期

林藝馨　周弋焜　張策　其樂木格

摘? 要：本研究通過聚焦爬蟲爬取我國海外工程政策信息相關網站建立數據庫，創建我國海外工程政策信息專業搜索引擎，并利用自然語言處理、知識圖譜等技術實現對檢索詞的近義詞與相關詞的推薦，降低對用戶輸入檢索詞的要求，優化用戶的搜索體驗。本研究構建了完整的搜索引擎，提供了一套針對于工程專業領域信息搜集與整合的方法，同樣可應用于其他領域的信息收集與處理。

關鍵詞：Python;數據庫;搜索引擎

中圖分類號：TP311.13 文獻標志碼：A? ? ? ? ?文章編號：2095-2945（2020）23-0037-02

Abstract： This study establishes a database by focusing on Crawler crawling the website of overseas engineering policy information of our country， creates a professional search engine of overseas engineering policy information of our country， and uses natural language processing， knowledge map and other technologies to realize the recommendation of synonyms and related words of search terms， so as to reduce the requirements for users to enter search terms and optimize the search experience of users. This research constructs a complete search engine， provides a set of methods for information collection and integration in engineering fields， and can be applied to other fields of information collection and processing.

Keywords： Python; database; search engine

1 概述

隨著“一帶一路”“走出去”戰略不斷發展，我國承包的海外工程越來越多，國家也不斷出臺相關政策進行調控。但我國海外工程政策信息在搜尋過程中仍然存在很多問題，具體包括：第一，政策信息來源分散，有多個網站發布政策部令，但各個網站互相交叉重復，也互有遺漏，沒有一個針對于海外工程集中的網站;第二，關鍵詞索引不便，無法分辨近義詞，也無法提供相關聯詞方便用戶搜索;第三，查詢被引文件的不方便性，被引文件可能需要去其他網站搜索。

因此本研究提出相應的解決方法，首先為解決政策信息來源分散的問題，本文利用聚焦爬蟲爬取海外工程政策信息相關的網站建立數據庫，并搭建了專業性更強的搜索引擎。其次，為改善用戶檢索體驗，本文利用自然語言處理技術實現了近義詞推薦功能，并且構建知識圖譜實現了檢索詞的相關聯詞推薦功能。最后，由于搜索引擎的專業性較強，故可以直接對部分政策的條款中涉及引用其他的政策信息，進行檢索并準確檢出相關結果。

2 文獻綜述

2.1 聚焦爬蟲

聚焦爬蟲屬于網絡爬蟲的一種，是為了解決隨著大數據時代到來和數據形式越來越多，而通用網絡爬蟲抓取深度淺，且無法處理含量密集的結構化信息而開發出來，針對于搜索范圍相對較小且極具針對性的結構化信息數據。聚焦爬蟲按照一定的規則自動提取網頁超鏈接，并下載相應的網絡信息，從而為用戶提供特定主體的數據信息，并不一味追求高覆蓋率[1]。

2.2 數據庫

數據庫也稱為數據結構模型，是用于數據信息組織、存儲、管理等方面工作安排的資源控制條件[2]。數據庫的發展可以被視為計算機技術和信息技術的發展，數據庫技術作為數據管理與運用的有效工具，它為我國任何行業提供了極佳的信息服務體驗。

2.3 自然語言處理

自然語言處理，是計算機科學與人工智能領域的一個重要方向。自然語言處理有文本檢索、機器翻譯、文本分類、信息抽取、序列抽取、文本摘要、問答系統、對話系統、知識圖譜、文本聚類等等多個領域。涉及分詞、詞性標注、句法分析、詞干提取、命名體識別指代消歧、關鍵詞提取、詞向量等等基本技術[3]。本研究中的文本分詞以及近義詞推薦功能，都利用了自然語言處理技術。

2.4 知識圖譜

知識圖譜是一種用可視化技術描述知識資源及其載體，挖掘、分析、構建、繪制和顯示知識及它們之間的外在關聯和內在發展規律，以圖形圖像為表現形式的一種研究方法[4]。主要特點是對大量數據的深度挖掘和圖像的可視化[5]。運用知識圖譜提取各網頁關鍵詞之間的關聯，可以提供相關詞的推薦。

2.5 搜索引擎

搜索引擎是指根據一定的策略、運用特定的計算機程序從互聯網上搜集信息，在對信息進行組織和處理后，為用戶提供檢索服務，將用戶檢索相關的信息展示給用戶的系統。一個搜索引擎由搜索器、索引器、檢索器和用戶接口四個部分組成。搜索器的功能是在互聯網中漫游，發現和搜集信息。索引器的功能是理解搜索器所搜索的信息，從中抽取出索引項，用于表示文檔以及生成文檔庫的索引表。檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔，進行文檔與查詢的相關度評價，對將要輸出的結果進行排序，并實現某種用戶相關性反饋機制。用戶接口的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制[6]。

3 研究內容

3.1 聚焦爬蟲

聚焦爬蟲在本研究的項目中是數據庫建立的重要工具，其功能主要是把網站上的內容從服務器下載到本地，作為數據庫的資料來源。

本研究編寫的網絡爬蟲步驟如下：（1）挑選出中華人民共和國商務部、中國一帶一路等官網的首頁網址作為帶爬取的隊列queue。（2）從queue隊列中挑出第一個的網址，判斷是否已經爬取，即與已爬取的網址隊列visited進行查找，如果沒有，說明為爬取，則可以利用網絡爬蟲將內容下載下來，并把這個網址從未爬取隊列queue移入已爬取隊列visited。（3）對爬取的網址內容進行解析，利用正則表達式匹配出所有的網址，并且進行刪選后補全網址，存入待爬取的隊列queue。（4）進行下一個循環，確認queue列隊清空。

3.2 數據庫的建立

在爬蟲爬取到數據之后，并不是直接存入數據庫之中，即使是爬蟲爬取到的內容也不一定都是本研究所需要的;其次本研究的目的并不是將網站內容從服務器下載到本地作為鏡像，所以對數據進行清洗是非常必要的。

本研究采用自然語言處理、正則匹配等方式將無用信息去除，將這些信息按照一定的數據結構進行存儲，以便于檢索器查找，本研究選擇了關系型數據庫mysql，在其中新建了兩個表doc、word來存儲信息，并通過軟件SQLiteSPY查看數據庫。

3.3 檢索器

檢索器主要功能是按照用戶的需求在索引庫中找出相似文檔，對文檔與用戶需求的相似程度進行評價，返回相似度和某一方面相似的文檔集合[6]。

本研究將用戶輸入的語句進行分詞處理，同樣是利用了jieba分詞，得到了查詢關鍵詞，然后檢索器通過建立向量空間，對倒排索引列表中，關鍵詞所對應的文檔利用向量空間模型的TF-IDF算法進行相似度計算，按照相似度排序后返回給用戶。

3.4 近義詞與相關詞推薦

本研究通過自然語言處理和知識圖譜實現了近義詞與相關聯詞的推薦。其中近義詞的推薦是調用了自然語言處理的synonyms中文近義詞庫，在用戶使用界面推薦給用戶，而知識圖譜的構建是利用TextRank算法將數據庫中的每個網頁信息提取出十個關鍵詞，并對關鍵詞進行篩選和刪減，然后設計代碼將關鍵詞轉為EndNote格式，導入SATI進行處理，生成共現矩陣，進而繪制成為知識圖譜。最后通過分析知識圖譜繪制原理，利用代碼將知識圖譜中的對應關系提取出來，并轉化為.json格式，形成相關聯詞結構化數據庫，在用戶使用界面調用。

3.5 用戶使用界面

用戶接口主要是給用戶提出搜索條件的輸入和查詢結果的輸出[7]。本研究利用python中的PyQt5進行編寫用戶界面，支持用戶進行語句輸出，通過檢索器進行處理，返回的結果也會在界面中得到展示，并顯示出結果文檔的相似度得分以及URL，并通過復制URL到跳轉一欄中，可以實現調用chrome瀏覽器打開目標網站進行瀏覽，如下圖1。

4 結論

本研究最終的成果為海外工程政策信息搜索引擎，該搜索引擎首先通過派出“蜘蛛”程序，利用聚焦爬蟲對中國一帶一路網等網站，關于海外工程政策的相關信息進行爬取并且下載到本地，用于構建數據庫。由于這些數據不僅數據量很大而且其中含有較多的非關鍵信息，所以必須通過自然語言處理程序進行數據清洗。最后與搜索引擎相結合，實現了對中國海外工程方面相關政策的收集。除此之外還利用知識圖譜和自然語言處理在用戶使用界面為用戶提供了相關聯詞和近義詞推薦，優化了用戶搜索體驗。

參考文獻：

[1]周立柱，林玲.聚焦爬蟲技術研究綜述[J].計算機應用，2005（9）：1965-1969.

[2]張瑋.探析計算機網絡數據庫中的安全管理技術[J].計算機產品與流通，2020（05）：40+78.

[3]宗成慶.統計自然語言處理[M].2版.北京：清華大學出版社，2013.

[4]官思發.基于科學知識圖譜的知識共享研究進展分析[D].武漢：華中師范大學，2012.

[5]何瑋，齊鳳青，鄭斐.淺議將知識圖譜融入查新工作以推動學科化服務[J].圖書情報導刊，2012，22（2）：99-101.

[6]童明.基于HDFS的分布式存儲研究與應用[D].武漢：華中科技大學，2012.

[7]趙明宇.基于web中數據檢索技術的應用與研究[J].自動化技術與應用，2015，34（01）：30-32.