李駿 張鴿 紀海婷 于翔



摘? 要:檢驗檢測機構傳統手工標準查新的方法,工作量大,效率低,且查新周期長,為提高工作效率,文章提出了一種基于Python的標準查新方法,并以實例描述其工作過程,實現了一種高效的標準查新方式。
關鍵詞:標準查新;大數據;Python;網絡爬蟲
Abstract: In order to improve work efficiency, a new method of standard search based on Python is proposed in this paper, and its working process is described by an example. An efficient method of standard search is realized.
標準是檢驗檢測機構開展工作的主要依據之一,檢驗檢測工作需要標準的支持。執行現行有效的標準才能保證檢驗檢測工作的準確性、有效性和公正性,而對標準的查新則有效保障了使用標準的現行有效性,降低了檢驗檢測過程中的風險。檢驗檢測機構查新員傳統的手工查新方法對查新人員的經驗及技術有著較高要求,且查新時間周期長,工作量大。隨著大數據時代的發展,為減輕檢驗檢測機構標準查新的工作成本及負擔,本文運用Python程序實現互聯網自動匹配搜索查詢,從而實現標準的自動查新,縮短標準查新周期,極大提高檢驗檢測機構標準查新的效率。
1 實施標準查新的必要性及常用方法
1.1 實施標準查新的必要性
1.1.1 資質認定的要求
《檢驗檢測機構資質認定能力評價? 檢驗檢測機構通用要求》(RB/T 214-2017)4.5.3款規定:“檢驗檢測機構應建立和保持控制其管理體系的內部和外部文件的程序,明確文件的標識、批準、發布、變更和廢止,防止使用無效、作廢的文件。”[1]
《檢驗檢測機構資質認定評審準則》4.5.4款規定:“檢驗檢測機構應建立和保持控制其管理體系的內部和外部文件的程序,包括法律法規、標準、規范性文件、檢驗檢測方法,以及通知、計劃、圖紙、圖表、軟件、規范、手冊、指導書。這些文件可承載在各種載體上,可是硬拷貝或是電子媒體,也可是數字的、模擬的、攝影的或書面的形式。應明確文件的批準、發布、變更,防止使用無效、作廢的文件。”[2]
1.1.2 標準化體系建設推動發展的要求
2015年12月,國務院辦公廳發布了《國家標準化體系建設發展規劃(2016-2020年)》,明確指出 :“完善標準制定程序。優化標準審批流程,落實標準復審要求,縮短標準制定周期,加快標準更新速度。”[3]在這個大背景下,老標準的修訂和新標準的制定工作步伐大大加快,檢驗檢測機構使用標準更新周期明顯加快,為保證檢驗檢測機構工作的準確性、有效性和公正性,實施標準查新工作作用更為突出。
1.2 實施標準查新的常用方法
檢驗檢測機構標準查新的方法主要有委托專業機構查詢和自行手工網絡查詢兩種。
(1)委托專業機構查詢:檢驗檢測機構委托具有查新資質的標準信息研究機構,對其使用的標準內容的有效性進行審驗和確認,并最終出具標準查新報告。
(2)自行手工網絡查詢:檢驗檢測機構查新員手工以網絡查證的方式對其使用的標準內容有效性進行查證,并根據查詢結果形成書面記錄。目前,標準查新的網絡資源主要有:國家標準化管理委員會網站(http://www.sac.gov.cn/)、中國標準化研究院網站(http://www.cnis.ac.cn/)、中國標準服務網(http://www.cssn.net.cn/)、國家標準全文公開系統(http://openstd.samr.gov.cn/)、中華人民共和國生態環境部-科技標準(http://bz.mee.gov.cn/)、水利部國際合作與科技司-標準查詢(http://gjkj.mwr.gov.cn/jsjd1/bzcx/)、中華人民共和國農業部-農業標準(http://jiuban.moa.gov.cn/zwllm/nybz/)、工標網(http://www.csres.com/)、標準認證與檢驗檢測公共服務平臺(https://www.scidcn.com/)、之江標準信息平臺(http://www.zjsis.com/)等等。
2 基于Python的標準查新方法
隨著信息產業的飛速發展,網絡信息規模急劇膨脹,大數據時代已然來臨,網絡已成為人們獲取信息的重要來源,檢驗檢測機構標準信息的來源也絕大部分來自于網絡。
網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。[4]它可以通過網頁鏈接地址抓取網頁內容,并根據用戶需求返回所需信息數據,而不需要人工登錄瀏覽器查詢獲取信息。Python中的urllib、requests、urllib3、scrapy、lxml和BeautifulSoup4 等第三方庫被廣泛應用于爬蟲開發[5],因此,在大數據時代應用Python程序完全可實現對檢驗檢測機構標準的互聯網自動匹配查詢工作,實現標準查新工作的自動化,快捷更高效。
下面以之江標準信息平臺(http://www.zjsis.com/)為例,介紹Python程序標準查新實現的過程。
2.1 查新標準整理
工欲善其事,必先利其器。標準查新前,必須對正在使用的標準進行系統梳理,將需要查詢的標準進行整理,填入相應的excel模板,以備Python程序標準查新使用。相應的excel模板見圖1。
圖1中,第一列為關鍵字查詢,可以填入需查詢的相應標準名稱,如總磷的測定方法,可填入“鉬酸銨分光光度法”或者“總磷”;第二列為標準號查詢,如總磷的鉬酸銨分光光度法標準號為“GB/T 118393-1989”,可填入相應的標準號即可。兩列填寫一列即可。
2.2 查詢網頁分析、抓取
(1)打開之江標準信息平臺網頁,分析其API接口數據,得到請求頭部信息,包括目標地址(GET)、主機域名(Host)、用戶代理(User-Agent)、Cookie信息(Cookie)等信息。(如圖2)
根據API接口分析結果,網頁內容抓取的請求頭代碼如下(部分):
(2)導入上述已整理好的需標準查新的excel模板文件,實現相關標準網頁信息檢索及相關網頁內容的抓取,網頁抓取過程界面見圖3。實現代碼如下(部分):
2.3 標準信息整理保存
對上述抓取到的網頁數據,通過正則表達式,提取有用的信息,主要包括標準號、標準狀態(現行或作廢)、標準中文名稱、標準英文名稱、標準中標分類、標準ICS分類、標準分類標號、標準語種、標準頁數、標準發布日期、標準實施日期、標準作廢日期、被替代標注號、代替標準號、采用標準、引用標準、起草單位、歸口單位、標準范圍、標準查詢的網址等25項內容。取得相應的查詢信息后,數據以excel文件類型進行保存。實現代碼如下(部分):
保存的excel文件可直接作為檢測檢測機構的標準查新報告。同時為方便檢驗檢測機構人員,查詢作廢的標準進行了標記處理,并提供了相應的替換標準號,提醒檢驗檢測機構人員及時對相應標準進行替換更新。標準信息查詢成果見圖4。
應用Python程序進行標準查新,可完全實現計算機自動查詢,檢驗檢測機構工作人員僅需整理好需查新的標準方法名稱或者標準號,且該方法查詢速度快,50條標準信息僅需3-5分鐘就能查詢完成,大大提高了標準查新的工作效率。
3 結束語
本文針對傳統人工標準查新工作,工作量大,查詢周期長等問題,利用Python的第三方爬蟲庫實現檢驗檢測機構標準查新,并通過實例描述了其工作流程及應用效果。通過實際應用,基于Python的標準查新方法,具有自動化、快捷、高效的特點,在檢驗檢測機構標準查新工作中能大大提高其工作效率。
參考文獻:
[1]中國國家認證認可監督管理委員會. 檢驗檢測機構資質認定能力評價 檢驗檢測機構通用要求:RB/T 214-2017[S].2018:5.
[2]中國國家認證認可監督管理委員會. 國認實[2016]33號 關于印發《檢驗檢測機構資質認定評審準則》及釋義和《檢驗檢測機構資質認定評審員管理要求》的通知[S].2016.
[3]國務院辦公廳. 國辦發〔2015〕89號 關于印發國家標準化體系建設發展規劃(2016-2020年)的通知[S].2015.
[4]謝克武.大數據環境下基于Python的網絡爬蟲技術[J].電子制作,2017(9):44-45.
[5]胡松濤.Python 網絡爬蟲實戰[M].北京:清華大學出版社,2017.