符 寧
(上海萬達信息系統有限公司政務事業群,上海 201112)
隨著互聯網技術的發展,社會生產和生活產生了大量的數據,這些數據已成為一種新型的信息資產。大數據具有大量(Volume)、高速(Velocity)、多樣(Variety)、低價值密度(Value)和真實性(Veracity)的特性[1],其含義早已超越了數據規模定義,更代表著信息技術進入了一個新時代。需要新技術和新方法將大規模數據中隱藏的信息和知識挖掘出來,提高運行效率,提高整個社會經濟的集約化程度[2-3]。
由于大數據處理需求的迫切性和重要性,近年來大數據技術受到學術界、工業界和各國政府的高度重視。美國和歐洲一些發達國家政府從國家科技戰略層面提出一系列大數據技術研發計劃,并開放交通運輸、天氣、健康等方面的核心公共數據庫[4],以推動政府機構、重大行業、學術界和工業界對大數據技術的研究與應用[5-7]。目前大數據應用還處于初級階段,描述型和預測型分析應用居多,決策指導型應用很少,而且大數據應用的廣度和深度明顯不足[8]。
政務領域是大數據技術的一個重要應用場景。隨著相關技術在該領域的應用,政務大數據表現出以下幾個明顯發展趨勢:
(1)政務決策科學化。把大數據技術運用到政府決策與管理中,能夠為決策提供依據,優化政府決策以及跟蹤決策實施,使決策更加精準。
(2)管理精細化。大數據促進政府設置更為詳細的績效指標體系,進一步對關鍵難點指標進行深度分析,使實時績效測量成為可能,有利于優化資源配置,提高整體績效。
(3)服務個性化。大數據技術能夠整合多源數據,通過大數據分析挖掘算法,為政府、企業和民眾提供個性化服務。
(4)運轉協同化。大數據技術可以幫助政府建立一個跨部門、跨平臺、跨數據結構的信息處理平臺,促使政府各部門實現數據共享。
科技政務大數據管理和應用中,除了存在大量的結構化數據匯集管理以外,還存在與之相關的信息量更龐大的半結構化和非結構化數據,諸如流媒體、圖片、知識產權、科技文獻等。政府科技管理部門職能包括貫徹執行科技相關法律法規、制定政策和計劃、編制并實施科研項目等,建設了項目管理、行政審批、行政運行等應用系統,這些系統存在以下問題:①服務決策弱。信息化工作處于“流程軟件”開發階段,難以進行特征分析、科技運行態勢研判等,不能為科技宏觀決策提供大數據決策支撐;②個性化需求無法滿足。各個處室業務工作嵌鑲在4 大綜合辦公業務平臺系統中,但系統的個性要求難以滿足,降低了應用系統的適應性;③各子系統相互獨立,整體性差。調研結果顯示各個系統之間沒有數據交互,各自為政。
本文立足政府的政務數據建設成果,通過研究國內外政務大數據采集、匯聚和運營管理機制與應用模式,著眼各級政務體系中的數據互聯互通和共享共用,加強大數據應用的頂層設計,對已有政務數據運行模式充分調研,構建一個適用于科技管理的平臺,在研究中逐步推演有價值、能落地的模型和方法。
大數據技術相關研究較多,如大數據的治理平臺[9]和大數據技術轉移平臺[10]等,但這些研究沒有針對具體的業務進行調整,沒有面向政務進行適配。文獻[11]設計了一套由基本政策、具體政策、保障政策等構成的政府數據開放體系;文獻[12-14]針對政務大數據的共享、集成、治理等提出了相關框架;文獻[15]強調了政務領域多部門的信息協同化,期望構建無邊界化的智慧政務;文獻[16]設計了政府大數據的高性能計算框架,完成數據的分布式存儲和訪問、多任務管理和運行;文獻[17]研究了政務異構數據融合過程中網絡安全的監測方法,實現安全數據的全自動化采集、人工智能的安全事件分析和分析結果的多維度場景化展示;文獻[18-19]以廣東省為例展示了大數據技術在政務方面的應用成果。
上述相關研究工作中,文獻[9-10]主要闡述普適的大數據技術和平臺建設方案,并不針對具體應用場景。本文所提出的科技政務大數據平臺是立足于政務領域的現有數據,面向政務應用場景所設計的,更加具有針對性;文獻[11,19]主要是梳理大數據技術現狀和相關政策,沒有展示具體技術實現,其他文獻只涉及政務大數據治理的一個方面,例如只包括數據存儲和處理、高性能計算、大數據安全、上層應用、智慧政務平臺推進機制中的一項,而本文的大數據平臺涵蓋了完整的數據鏈路,從數據產生到數據存儲和預處理到數據分析與挖掘,以及上層應用的完整過程;文獻[14]的研究內容與本文最為接近,但其主要研究了數據的匯聚和共享技術,數據的分析和挖掘主要體現在人口流動狀況分析方面,與本文的應用場景和分析挖掘技術不同。本文研究面向科技政務場景,設計了相關的大數據治理和挖掘平臺。與上述相關工作比較,本文創新性地提出了多時間粒度的殘差網絡預測模型和基于深度神經網絡的科技政策推薦模型。
科技政務大數據研究主要面向科技信息系統,需要將共享獲得的數據加以清洗、分析、整合和利用,建立一套運行管理機制,包括采集方式、數據清理、數據檢查、質量分析及更新相關工作。本文提出科技政務大數據管理與挖掘框架,如圖1 所示,包括科技政務數據采集、面向科技政務的大數據服務平臺和應用示范3 個部分。
數據采集指利用Web、App 或者傳感器等形式搜集數據,并將數據通過網絡上傳并保存到數據庫中,其主要特點是數據多源異構和數據規模大。本文結合科技部門業務和科技政務數據特點來設計數據采集方式。
科技部門是主管科技工作的政府部門,其主要職能包括:起草、制定、貫徹執行與科技工作相關的法律、法規、規章、方針和政策;制定和組織實施科技發展規劃;負責科技重大專項的組織實施和綜合協調平衡;制定人才發展規劃和相關政策等。其產生的科技政務數據主要來自如圖1 中框架底層科技政務數據資源所示的幾個方面:科研項目管理系統的項目申報記錄;行政審批系統的辦事記錄;行政運行系統的員工考核等數據;科技114 平臺的用戶訪問數據;國家層面和其他部門的外部數據;網絡獲取的輔助數據等。

Fig.1 The framework of big data platform for the science and technology administration圖1 科技政務大數據平臺整體框架
新型的科技政務大數據框架的數據采集過程需要考慮采集方式、傳輸協議、保密3 個方面的問題。采集方式可以包括用戶填寫、門戶網站提供、傳感器獲取等。考慮不同數據特征,還需要選取合適的傳輸協議,如針對傳感器網絡獲取的數據,由于其數據冗余度高、數據量大,需要選取有自組織性,支持動態拓撲、功耗低的數據傳輸協議;而針對項目信息等的傳輸,數據量不大,可以選取高可靠性的協議。對于比較隱私的內容,需要考慮對傳輸數據進行加密。
本文設計了面向政務的大數據服務平臺,進行接收數據、存儲數據、挖掘信息、安全保護工作,并對外提供統一訪問接口。
首先,科技政務大數據資源中心接收來自不同系統的數據,并對這些多源異構數據進行初步處理,涉及到數據接口的訪問控制和數據融合;然后,利用分布式數據庫或者分布式計算集群來對存儲于其內的海量數據進行普通分析和分類匯總,以滿足常見的分析需求。在數據存儲過程中還需要對數據進行一些治理工作,如數據的清洗、數據融合等。構建科技政務大數據分級分類資源目錄,形成全局化的數據資源視圖。
科技政務大數據智能計算平臺利用人工智能、機器學習、模式識別等理論對數據進行分析和處理,從而獲得數據中隱含的知識。比如,分析企業發展時序數據中的因果關系,挖掘企業發展過程中多種因素之間的相互關系等。
設計新型應用,將科技政務大數據技術落到實處,可以為政府制定科技政策、布局科技戰略、指導科技發展提供支持,從而提升我國產業的科技競爭力,達到政務決策科學化、管理精細化、服務個性化的目的。根據應用所針對的使用對象,可將政務大數據應用分為三大類,即面向政府的科技決策、面向企業的科技扶持和面向人才的科技培育。面向政府應用主要是提供有效的數據分析和可視化操作,為科技部門的宏觀決策提供大數據決策支撐;面向企業的應用主要關注的是企業相關科技政策和項目推薦。根據企業特征個性化推薦相關政策內容,降低企業工作量;在面向人才的應用中,針對人才的特點進行個性化項目推薦,進行人才認定,分析人才成長路徑等。
面向科技政務的大數據服務平臺主要包括科技政務大數據資源中心和科技政務大數據智能計算平臺。
科技政務大數據資源中心用于科技政務大數據的統一存儲,對數據初步處理,為上層應用提供統一訪問接口。如圖1 所示,科技政務大數據資源中心分為5 個功能模塊:①多源異構科技數據整合匯聚模塊;②科技大數據資源池模塊;③多源高維數據治理模塊;④科技數據分級分類資源目錄模塊;⑤科技數據訪問控制模塊。
首先要把多源異構的科技政務數據進行整合匯聚,涉及的數據總體分為關系數據、平面數據兩大類,采用不同的技術與方式實現對數據的整合匯聚。關系數據是主要的業務數據源,數據量巨大,每日更新的數據量也很大,包括公文流轉記錄、行政審批專家評分、科研項目申報信息等。平臺利用基于大數據技術的數據采集工具Sqoop,根據時間戳標志定時訪問數據源,將最新的科技數據導入平臺。平面文件數據帶有一些格式化索引,但數據量的主體是無格式的平面文件。把平臺文件加載到HDFS,同時將文件索引信息插入到索引數據表中。
本文提供分布式文件系統(HDFS)、關系數據、內存數據庫、列式數據庫等不同的數據存儲方案,保障基于此數據的應用(或分析)能夠獲得良好的性能和使用體驗,形成全量數據存儲、專題庫。專題庫劃分為政策法規庫、科技項目庫、專家庫、科技人才庫、企業信息庫、知識產權庫、成果轉化庫等,以方便科技人員使用。
多源高維的科技政務大數據在數據分析應用前要進行處理,因為其可能存在某些域的缺失以及異常值等。本文設計了多源高維數據治理模塊,對存儲在科技大數據資源池的數據進行數據清洗和數據質量評估,以提高存儲數據的質量,方便對其進行分析應用。
設計科技政務大數據分級分層分域的數據管理體系與機制,研究多源異構業務數據資產統一描述、管控、展示方法,通過對數據的業務屬性、數據量級等信息進行描述,根據業務邏輯對數據資產進行目錄分層,實現數據資源的分級分類,形成科技政務大數據資源目錄,然后提供給科技政務大數據智能計算平臺進行數據挖掘,服務科技管理部門各業務科室、外部委辦局等不同用戶。
建設數據訪問審計功能,在數據訪問之前部署安全審計工具,在數據訪問過程中持續生成多方可信的原始審計數據,為數據訪問全流程的回溯與取證服務提供支持。
科技政務大數據智能計算平臺在科技政務大數據資源中心基礎上進一步處理科技政務大數據,并使用數據挖掘技術對科技政務大數據進行分析與挖掘。
科技政務大數據智能計算平臺包括以下6 個模塊:
(1)自動問答引擎。面向科技政務的自動問答引擎包含知識存儲、知識表示、信息抽取、自然語言處理等多方面技術,其體系結構包括問題處理、信息檢索和答案抽取3 個部分。根據用戶輸入的問題進行語義分析,尋找知識庫中的相關文檔和結果,排序后展示給用戶。
(2)語義分析引擎。以科研項目管理系統、行政審批系統、互聯網等多源異構數據為基礎,構建實體與文本的對應關系。語義分析引擎會面向人才、專家、企業等實體進行簡歷、報告等描述文字的語義分析,提取研究方向、科技成果、科研評價等,面向政策文件提取戰略目標、戰略任務等,建立實體關聯關系。
(3)科技創新知識圖譜。幫助使用者透視科技領域知識體系結構的形成、關聯與演變,洞察社會進步與技術更替、企業發展以及人才、政策等資源的多方關系,構建人、時間、技術等多維度視角的知識表示網絡,活動分布與競爭的最新態勢與趨勢,使研究者能概貌與深入了解和發現科技發展、研究前沿以及新興、熱點領域、學術水平等重要信息,并從科技研發、產業需求等方面精準篩查具有產業價值的科技創新成果。
(4)推薦引擎。在電子政務方面的研究與應用還比較欠缺,尤其是針對科技政務,政府每年都會出臺很多政策,對企業和各行業的人才進行資助或者扶持,但是用戶對政府的政策和服務關注較少。政府政策和服務涉及社會各行各業,種類繁雜,導致用戶獲取與自己相關的政策和服務信息比較困難。本文設計了為企業推薦相關科技政策、為人才推薦相關項目、為政府推薦合適的項目評審專家等功能。
(5)預測模型。是對數據、標簽之間的關系進行建模,挖掘出量化的時間變化關系、變量因果關系等,從而對未來發展進行科學預測。建立企業成長預測模型,對區域內科技企業的成長偏向、成長潛力等屬性進行預測分析。
(6)特征畫像。分為人才畫像、專家畫像、企業畫像3部分,采用的技術均為“用戶畫像”。用戶畫像標簽在證據強度上分為兩層:①強數據標簽:主要是直接獲得的具有比較強的證據作用標簽;②弱數據標簽:利用人工智能算法所構建的統計類、預測類標簽。
科技政務大數據應用包括面向政府的科技決策、面向企業的科技扶持和面向人才的科技培育。
本文通過對科技發展趨勢的預測、對科技投入績效的分析以及對人才的發現和評定,為政府制定科技政策、布局科技戰略、指導科技發展提供支持。
科技發展趨勢預測及布局利用面向科技政務的大數據服務平臺整合科技政務數據資源,運用科技創新知識圖譜、人才畫像、企業畫像等大數據技術,幫助科技管理部門了解企業和學術界的研究應用熱點,洞察科技企業特色與優勢、調配區域人才科研力量、預測科技發展趨勢,綜合評價科技資源布局合理性,為科技部門制定政策和發展規劃提供依據。
科技投入績效分析應用示范需要建立完整的評估指標庫,除考慮科技投入和產出的經濟效益指標或財務指標外,還必須考慮生態效益指標和社會效益指標,切實關注科技創新對生活質量、資源節約、環境優化及社會和諧的正面與負面影響。
基于事實型數據挖掘實現科技專家評價與發現,通過梳理現有科技系統專家庫,收集非體制內、非高校等人才信息,如科技小巨人企業、高新技術企業技術骨干等信息,運用大數據手段,從專業人才庫中挖掘專家人才,多角度分析判斷不同人才的技術能力,建立專家數據挖掘與分析數據模型,對現有專家進行評定,從被動主觀的挖掘評價模式轉化為主動、較客觀的挖掘評價模式,為專家挖掘與評價提供參考。
本文通過企業成長預測、科技政策推薦為企業提供科技支持。針對科技類企業進行成長預測,主要考察科技領域企業近期、遠期的發展規劃、目標與措施,科技產品的地位與市場競爭能力,企業在科技研發方面投入等。
企業成長預測模型包含4 個部分,如圖2 所示,分別為一個信息抽取神經網絡和3 個殘差深度學習神經網絡[20-21]。首先將各企業的財務指標按照時間展開,如圖中最上面的塊組。考慮到時間序列在不同頻率上具有不同特征,如短期的接近性、中期的周期性和長期的趨勢性,將不同頻率的財務指標拆分組合,構造3 個深度殘差網絡。利用殘差網絡深度深和卷積網絡范圍廣的特點,設定每一個網絡層數,使其最后一層隱藏層能夠學習到最原始輸入的所有信息。同時為了確保信息不會丟失,在每一層殘差單元中縮減時間步長時同時考慮增加數據維度。3 個殘差網絡的輸出做一次拼接操作并接入全連接網絡學習組合后的特征。此外,將企業相關的額外信息通過嵌入層與上述殘差層輸出相加,經過激活函數得到預測值。企業可根據下一階段的預測值確定自身成長趨勢;政府可將多個企業的預測值進行排序,選出最有影響力的企業。
本文基于某省市所有企業歷史月營收數據(2017-2019 年)驗證該模型的有效性。以該省市所有企業的最后一個月營收作為測試集,其他數據作為訓練數據。實驗結果顯示,本文提出的方法相比于經典的ARIMA 模型在預測誤差指標MAE 上降低約12%。

Fig.2 Structure of the proposed prediction model圖2 預測模型結構
科技政策推薦應用示范有用戶畫像、科技政策庫、推薦算法3 個重要模塊。推薦引擎把用戶模型中興趣需求信息和科技政策庫中的特征信息匹配,同時使用相應的推薦算法進行計算篩選,找到需求方可能感興趣的科技政策信息推薦給企業和個人。
通過人才成長路徑分析和人才服務推薦,基于科技政務大數據管理平臺,創建面向人才的科技培育應用,提高科技核心競爭力。
科技人才成長路徑分析,從人才管理機制角度考慮入職、任用、晉升等環節,完善和更新專家庫信息,方便日常工作開展;就人才個體而言,通過構建相關指標,分析人才成長過程所需資源和政策信息,主動提供服務和政策引導,增強科技人才的歸屬感和滿意度。將優秀人才的成長路徑作為典型模式,指導他人的科研道路。
人才服務推薦根據用戶和企業信息分別畫像和抽取特征。對政府發布過的服務和政策采用自然語言處理等方法對內容進行抽象表達,然后根據用戶使用過的政府服務歷史記錄、企業感興趣的政策記錄,使用協同過濾方法對用戶和企業分別進行個性化服務和政策推薦[22-23]。推薦系統架構如圖3 所示,面向科技政務的大數據服務平臺架構分為3 個層面:最底層是科技政務大數據資源中心,匯集各類大數據;第二層推薦系統使用相應的數據接口,獲取相應數據。這些數據首先經過預處理模塊,比如特征工程等。處理過的數據分別進入政府服務推薦模型和政策推薦模型中[7]。為了更精確地表現用戶和企業特點,大數據智能計算平臺的畫像模塊用來獲取人才和企業特征,經過推薦模型,提供針對企業和個人的個性化推薦。

Fig.3 Framework of the proposed recommender system圖3 推薦系統架構
基于神經網絡的推薦模型如圖4 所示。以對人才進行政府服務推薦為例,將用戶和服務信息作為輸入,在第一層的神經網絡中分別轉換成低維度的向量表達。然后將用戶向量和服務向量合并,輸入到多個隱藏層疊加起來的網絡中,最后輸出得到匹配程度的估計值。針對每個用戶,使用模型估計得到所有服務的匹配程度,進行排序推薦。

Fig.4 Structure of the proposed recommendation model圖4 推薦模型結構
本文以某省市近兩年用戶訪問政府網站政策的數據為基礎驗證推薦模型的有效性。把每個用戶最近訪問記錄的20%作為測試集,針對每個用戶推薦10 項政策文件計算精度和召回率。實驗結果顯示,本文提出的基于深度學習的方法相比于經典的矩陣分解方法在召回率上要高出8%左右。
本文通過對科技政務現有系統和業務的深入研究,發現目前科技政務系統存在的一些缺陷,如多個子系統共存、子系統之間相互獨立、信息不能互通;主要以業務流程完成為主,缺乏數據分析和輔助決策的能力;無法面向用戶提供個性化服務等。針對這些問題,本文提出面向科技政務的大數據管理和挖掘平臺框架,集數據采集、數據管理、分析挖掘和上層應用為一體,推動科技服務便利化。通過數據挖掘組件,特別是提出的基于多時間粒度的企業成長預測模型和基于深度學習的政策推薦模型,有效提升了科技政務系統輔助決策能力和個性化程度。該平臺能夠幫助政府轉變服務理念,創新治理方式,由電子政務向智慧政務升級。在未來的工作中,將結合業務場景和相關數據設計更多的數據分析與挖掘組件,如根據相關企業的發展狀況和政策制定情況,客觀評價政府對經濟的促進能力;根據市民每年事務辦理的數目、投訴情況、微博輿論情況等,對政府服務公眾能力進行評價等。