徐松柳
(佛山科學技術學院,廣東佛山528000)
目前我國在將政策傳達到企業時,一方面由于政策數據分散在各主管部門系統中,難以流通共享;另一方面,目前注冊企業成千上萬家,各企業性質和政策訴求等不一樣,僅靠人工進行政策解讀和傳遞,人力成本高,政策也難以精準傳達到相應目標企業。如何用足、用好、用活各項政策,推動各項政策的落地落實,為企業發展賦能,為我國民營企業高質量發展提供優質服務和制度保障,是目前需要解決的難題。為此,本文設計了一種企業扶持政策推薦系統。
如何構建企業數據和資源數據之間的聯系,實現一對一精準推薦成為該系統設計的難點。該系統以企業需求為核心,全面獲取政府各政策文件,然后進行分析解讀,準確判斷出該政策的目標對象,并結合對企業的標簽信息及大數據分析,借助推薦算法,利用企業數據和政策數據之間的聯系,實現涉企政策的精準化和主動服務化,從而將政策通過推薦系統精準推送給需要的企業,使政策落到實處。
企業扶持政策推薦系統的數據處理流程如圖1所示。

圖1 數據處理流程
數據的流轉過程主要包括數據的獲取、匯聚、清洗、建模計算、可視化、鏡像備份等6個步驟。
從外部渠道獲取企業數據和政策數據的途徑主要包括:用同步方式獲取政府公共數據平臺的共享數據,通過爬蟲引擎從互聯網爬取并導入數據,以及通過API導入業務部門數據和第三方未公開數據。API導入方式為政府提供數據導出接口,通過搭建通道獲取數據并將其存入數據庫中。
將從外部渠道獲取的企業數據和政策數據,通過數據庫的形式傳入大數據匯聚系統內,在系統中進行數據的存儲。大數據匯聚系統主要起到中間庫的作用,保存外部數據并作為后期業務數據的抽取和傳輸的數據源。
從外部渠道獲取的企業數據和政策數據的復雜度較高、數據量較大。其中,不是所有數據都是系統所需要的,本環節主要通過大數據清洗過程常用的ETL工具,對復雜的外部數據進行簡化與集成,并且對其中異常的數據進行刪除或填充,為后面數據分析與應用提供可靠、穩定的數據源,同時也能有效提高系統的運作效率。經過這一環節之后,中心庫的數據為較為全面、完善的業務數據。
將中心庫中清洗好的企業數據和政策數據作為樣本數據,結合系統邏輯計算所需,抽取相應維度的數據,政策智能分析平臺對數據進行指標計算以及算法計算,并將計算出來的結果數據處理好導入外部系統的接口中。其中,政策智能分析平臺主要存儲的是經過包裝的靶向模型的算法邏輯,數據從模型接口中傳入,通過計算將結果導出。
根據系統功能需求,將中心庫中的基本數據和政策智能分析平臺導出的結果數據合并,同時導入系統的接口中,由系統對數據進行進一步加工,將晦澀難懂的數據庫數據加以文字修飾,將其組成平常所看到的推薦信息,優化數據的展示效果。
為防止企業數據和政策數據在處理過程中,因為個人或者系統的錯誤操作而導致數據丟失,在大數據匯聚系統抽取數據過程中,同步將數據導入鏡像庫中進行鏡像備份。一旦數據出現問題,可隨時用鏡像數據庫對問題數據庫進行數據覆蓋。
政策解析可以分為三步走,在很大程度上,它們之間是相互依賴、相互遞進的關系。第一步:政策解讀員對新政策進行解讀,他們熟悉政策的特點,能及時對接發布政策的科室,了解第一手政策信息,從而把握政策的核心內容并準確無誤地提煉出來,為第二步數據對政策關鍵字的提取打下堅實的基礎;第二步:在解讀的政策內容上提煉可用于構建模型的政策關鍵字,在此步過程中還需要返回至最原始的政策中去提煉部分政策的關鍵字;第三步:利用機器學習算法,系統自動提取政策的關鍵字。
政策關鍵字的提取是政策大數據智能推薦系統中最核心的部分之一,政策關鍵字的提取質量直接影響項目的質量。政策關鍵字提取流程如圖2所示。

圖2 政策關鍵字提取流程
關鍵字是代表文章重要內容的若干組詞,對文本聚類、分類、自動摘要等起重要的作用。現實中大量文本不包含關鍵詞,如果可以準確地將所有文檔內容都用簡單的關鍵字描述出來,就能使人們便捷地獲取文章信息。
構建企業標簽體系是政策大數據智能匹配服務中最核心的部分之一,它是政策關鍵字提取工作和企業信息爬取工作的后續結合和升華。一個充分而又精煉的企業標簽體系,可以促進達成政策信息與企業信息的雙向匹配,實現政策的精準推送。
構建企業標簽體系,一方面需要通過政府、爬蟲引擎和系統平臺注冊填寫等方式獲取企業信息,另一方面也需要以之前提取的政策關鍵字信息作為輔助數據。因為企業的標簽不僅包含一般意義的企業信息,還包含政策對企業的專項要求信息。
因此,企業標簽體系的構建,需要對大量的企業信息和政策關鍵字信息進行綜合的數據分析,以便提取豐富的企業特征標簽,進而提升政策推送的準確率。
企事業單位標簽體系是指對政策扶持對象涉及的企業單位和事業單位的特征信息的提煉。企事業單位是占比最大的市場主體,也是最為常見的政策扶持對象。因此,政策對此類用戶的信息要求最為多樣,甚至有的政策對數據的廣度和深度都有專項要求。
企事業單位標簽體系通過對爬取的大量企業信息以及政策關鍵字信息的綜合分析之后,將企事業單位的標簽體系框架分為16個模塊,包括企業的工商登記信息、工商變更信息、股東及高管人員信息、分支機構信息、司法及行政執法信息、股權質押及對外擔保信息、知識產權信息、資質榮譽認證信息、經營業務情況、經營數據信息、稅務數據信息、社保數據信息、人才數據信息、參與項目信息、主辦或承辦活動信息以及其他政策要求信息。
企事業單位標簽體系如圖3所示。
推薦系統的核心是通過算法實現企業、政策的匹配,即關聯企業信息,幫客戶找到合適的政策,可以給不同的客戶定制個性化服務,提高企業的信任度和黏性。推薦系統一共分為數據層、策略層和應用層。
數據層主要包括搭建專題數據庫,設計不同企業標簽體系表與政策關鍵字表,將政策關鍵字信息和企業標簽體系信息存儲到對應的表中,同時,對接業務系統進行兩表數據的實時更新。
策略層是從存儲的政策關鍵字信息表和企業標簽數體系表中,選取有用的數據,利用靶向模型計算各類數據之間的關聯性,計算企業與政策的契合程度,并根據契合度的大小為企業推薦合適的政策。在準備推送之前,系統將自動生成匹配報告,并把匹配報告中的關鍵信息填入推文當中,企業在收到推文之后,能夠對政策有一個初步的了解,明白自身與政策扶持對象相契合的點以及未契合的地方。
系統可根據企業的需要,在推文中填入政策的發布網址、政策發布時間以及截止時間、辦理政策的意見以及申請的流程等,充分對政策進行解析并引導企業進行政策申請。
前期人為根據系統推送政策信息給企業之后推送的效果,計算召回率與準確率,并記錄這類信息為后期系統模型算法的優化更新提供依據。
召回率:通過系統識別出來的政策適用對象以及實際政策的適用對象的數量比。
準確率:系統推送成功的客戶數量與系統總推送客戶數量的比。

圖3 企事業單位標簽體系
應用層主要涉及系統的運行過程,當模型算法計算出政策的適用對象之后,可根據實際需要選擇推送的途徑,目前主要的推送途徑包括郵箱、QQ、微信、短信等幾大主要平臺,也可以根據企業提供的數據接口,為企業推送政策信息。在推送的內容中為客戶提供反饋機制,客戶在使用過程中的不解之處或對系統的準確性不夠滿意,可以通過反饋機制將意見反饋回系統后臺。后臺運維人員會定時收集客戶的反饋,為客戶進行疑難解答。同時,應用層收集錯誤推送的信息并保存到數據庫中,方便模型進行優化。
企業扶持政策推薦系統的應用服務能夠讓企業只需動動“指尖”,就能夠隨時隨地查政策、辦業務,可改善企業申報環境,為推動政府扶持資金更好地支持和引導實體經濟發展發揮了重要作用。該系統統一在平臺及時更新各類產業對接信息,對外公示政府的產業對接事項的政策文件、辦事指南等,方便市民和企業了解和查詢,有效減少了市民和企業獲取信息的時間成本,而且通過規范的信息公布和展現,進一步有效提升政策宣傳效率,同時確保產業對接政策信息的公開、透明、規范。