汪亦星+曹楷
[摘 要]加強供應商資質信息智能化審核、選擇優質合作供應商是電力企業實現可持續發展的基礎和前提。文章從供應商資質信息數據來源視角切入,具體落實至“供應商強制性產品認證”信息,從文本信息抓取、網絡信息抓取以及信息核實三大維度,對欲開發的供應商資質信息審核系統的相關技術開展深入研究,并最終確定了相關技術選取,為后期供應商資質信息審核系統的順利開發奠定堅實基礎。
[關鍵詞]審核;資質信息;供應商;電力企業
[DOI]10.13939/j.cnki.zgsc.2017.09.183
1 引 言
近年來,隨著電網工程建設規模的迅猛發展,電力企業的招標采購范圍不斷拓展。相應地,合作的供應商群體也越來越大。供應商是電網設備的直接供應者,其生產管理水平直接關系到所采購物資的價格、質量、交貨期以及售后服務整體水平。而作為供應商選擇的第一道關卡,供應商資質信息審核的重要性毋庸置疑。因此,如何加強供應商資質信息審核的力度、深度和廣度,在眾多供應商中選出真正適合的合作伙伴,實現電網工程的安全、可靠運行,已成為電力企業目前亟須解決的重大課題。
2 現狀分析
隨著企業的不斷發展壯大以及市場競爭的日趨激烈,越來越多的企業和學者已經意識到了供應商管理對企業生存發展的重要性,并開展了一系列的研究與實踐。電力企業因其本身的央企屬性以及采購數量、金額規模巨大等特性,更是眾多學者關注和研究的重點,相關研究層出不窮。如部分學者致力于構建全面、科學的電力企業供應商評價模型,通過定性、定量相結合的方法對投標供應商進行審核;部分學者依托電子商務平臺,從供應商投標響應信息、資質業績核實信息以及評標要點之間的映射關系切入,構建供應商資質能力數據模型;部分學者嘗試借助信息化手段,通過開發相關系統,實現供應商資質信息的在線核實;部分學者則從預審視角切入,通過開發預審投標系統來提高供應商資質信息審核工作的效率和準確率。
通過研究分析,可以發現供應商的資質信息審核是目前的研究重點,真實、有效的資質審核是選擇優質合作供應商的前提和基礎。現有的相關研究主要聚焦于實現供應商資質信息的在線審核,對供應商資質信息的來源重視不足,雖然有部分學者通過投標響應信息和資質業績核實信息的映射關系來進一步加強資質信息的真實性,但鑒于資質業績核實工作的復雜性以及不同標段的技術特征,仍存在相當一部分的供應商資質信息數據尚未涵蓋在資質業績核實庫內,在實際的評標過程中,這部分數據的審核完全依賴于供應商提供的投標文件以及評標專家的主觀判斷,存在一定的評標風險。
基于此,本文從供應商資質信息數據來源視角切入,落實至“供應商強制性產品認證”(以下簡稱“3C”認證)信息,嘗試開發供應商資質信息審核系統。該系統旨在自動抓取認證認可業務信息統一查詢平臺的供應商公開認證信息,并與供應商投標文件中的“3C”認證信息進行真實性核對,進而為評標專家提供科學參考。為保證供應商資質信息智能化審核系統的順利開發,本文從文本信息抓取、網絡信息抓取以及信息核實三大維度,對現有的相關技術展開研究,并最終確定相關技術選取。
3 電力企業供應商資質信息審核技術研究
3.1 文本信息抓取技術研究
3.1.1 關鍵詞提取技術
關鍵詞提取技術不僅是一系列自然語言處理任務的基礎步驟,也是信息檢索和文本分類領域的基礎與關鍵技術之一。在文檔信息中,關鍵詞能夠反映一篇文檔主題內容的詞語或與文檔所在領域高度相關的文檔。關鍵詞提取技術的產生與應用,有效解決了通過人工標注尋找關鍵詞耗時、困難的問題,并且成為了網頁瀏覽、文本分類和信息檢索領域的技術基礎。目前,關鍵詞提取方法主要有基于規則和基于統計兩個分支,其中,基于統計的提取方法比較通用。
3.1.2 FSO技術
FSO是指文件系統對象,在文件系統處理領域,FSO對象模型提出了一種有別于傳統的、應用文件操作語句處理的全新模式。該模型提供了一個基于對象的工具,通過它提供的一系列屬性和方法,工作人員可以比較簡單和更加靈活地對文件系統進行各種操作。FSO技術可以利用應用程序創建、改變、移動和刪除文件夾,或者監測是否存在該文件夾,若存在,指出文件夾所在路徑。此外,FSO技術還可以使用戶獲取關于文件夾的某些信息,如名稱、創建日期、最近修改日期等。
3.2 網絡信息抓取技術研究
3.2.1 網絡爬蟲技術
網絡爬蟲也稱“網絡蜘蛛”,作為搜索引擎系統中非常復雜但很關鍵的部分,具有較強的專業性。網絡爬蟲技術是指在網絡上根據事先給定的規則,自動爬行和抓取信息的程序或腳本。目前,網絡爬蟲按照系統結構和實現技術,大致可分為通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲四種。其中,通用網絡爬蟲是指爬行對象從一些種子URL擴充到整個Web,主要為門戶站點搜索引擎和大型Web服務提供商采集數據;聚焦網絡爬蟲是指選擇性地爬行那些與預先定義好的主題相關的頁面的網絡爬蟲,有效節省了硬件和網絡資源,很好地滿足一些特定人群對特定領域信息的需求;增量式網絡爬蟲是指對已下載網頁采取增量式更新和只爬行新產生的或者已經發生變化網頁的爬蟲,它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面;深層網絡爬蟲可以獲取一些不能通過靜態鏈接獲取的、引出在搜索表單后的、只有用戶提交一些關鍵詞才能獲得的Web頁面。
3.2.2 驗證碼識別技術
驗證碼是讓用戶輸入一個扭曲變形的圖片上所顯示的文字或數字,扭曲變形是為了避免被光學字符識別之類的電腦程序自動識別出圖片中的文字或數字而失去效果。總體來說,驗證碼識別系統的功能流程一般包括圖像采集、圖像處理以及模式識別三個階段,其技術基礎主要是圖像處理技術和模式識別技術。目前,驗證碼廣泛應用于論壇,許多論壇為防止有人利用計算機程序大量在論壇上張貼廣告或其他垃圾信息,要求留言者必須輸入圖片上所顯示的文字或數字或是算術題才可完成留言的提交。此外,一些網絡交易系統為了避免計算機程序以暴力法大量嘗試交易也會有驗證碼識別。
3.3 信息核實技術研究
3.3.1 精確匹配技術
字符串匹配在計算機領域有著廣泛的應用,涉及數據處理、數據壓縮、文本編輯、信息檢索等多方面。精確匹配技術是指在數據序列中找出與一個或一組特定的模式串完全相同的所有串的出現位置。在精確匹配過程中,會有一個搜索窗口,其長度與搜索模式串長度相同,搜索窗口沿著文本從左向右滑動進行搜索匹配字符串。精確匹配技術主要應用在文本檢索和網絡安全的入侵檢測領域中。
3.3.2 中文模糊匹配技術
模糊匹配技術可以通過計算句子之間的相似度反映句子的匹配程度。由于很多句子雖然表達形式不同,但是表達的意思卻差不多,采用模糊匹配技術可以有效識別匹配相應的字符串,打破計算機只能逐字對比來判斷它們的意思是否一致的局限性。目前,常用的模糊匹配技術有基于關鍵詞信息的相似度計算方法、基于語義信息的相似度計算方法、基于語法結構的相似度計算方法等。
3.4 技術選取
通過對信息抓取技術和信息核實技術的對比分析,結合電力企業的業務實際和相關要求,選取合適的信息化技術來實現供應商投標文件資質信息的自動核實。
一是文本信息抓取技術,采用FSO技術,有效實現標書中供應商“3C”認證信息的直接抓取,并可以在使用者授權的情況下在目標目錄下的Word文件中實現信息抓取。
二是網絡信息抓取技術,采用深層網絡爬蟲技術,盡可能多地訪問和收集互聯網上的網頁,更便捷地抓取網站信息,同時,結合圖像驗證碼識別技術,將驗證碼解讀成文字,提高信息抓取安全性。
三對于信息核實技術,采用精確匹配技術,將抓取的兩類關鍵信息進行精準比照,準確辨識出供應商所填信息的真偽。
4 結 論
加強供應商資質業績審核是防止流標、提升招標效率的有效手段。本文通過對電力企業供應商資質信息審核現狀的研究分析,具體落實至供應商“3C”認證信息的審核,從文本信息抓取、網絡信息抓取以及信息核實三大維度開展相關技術研究,并最終確定了FSO、深層網絡爬蟲、精確匹配等信息技術,助推供應商資質信息審核系統的開發進程。
參考文獻:
[1]馬忠媛.電力設備公開招標過程中供應商的選擇研究[D].保定:華北電力大學,2007.
[2]李屹,賀紹鵬,張婧卿.供應商資質能力核實的信息化管理[J].中國電力企業管理,2016(15):68-69.
[3]柴建軍.電力設備招投標管理系統的設計與實現[J].中小企業管理與科技:上旬刊,2011(12):237.