關鍵詞:數據交付,元數據,智能領域,標準化,標準貫徹
DOI編碼:10.3969/j.issn.1002-5944.2024.013.003
0 引言
科研數據是國家科技創新發展和經濟社會發展的重要基礎性戰略資源[1]。為保障科研數據安全,完善科技成果評價體系,促進科技與經濟社會發展更加緊密結合,國務院辦公廳先后于2018年3月、2021年7月,發布了《科研數據管理辦法》和《關于完善科技成果評價機制的指導意見》,規范了科研數據的管理、評價和復用過程,充分肯定了科研數據的價值地位。2022年10月,黨的二十大報告中提出了要加快實施創新驅動發展戰略,加強基礎研究,突出原創,鼓勵自由探索[2],強調了在新形勢下,加大科研投入、提高科技創新能力、提升核心競爭力的迫切需求。
現階段正處于人工智能第三次浪潮[3],世界各國相繼在智能領域加大投資和規劃力度[4],圖1[5]為美國防部發布由美國防部首席數字與人工智能辦公室(CDAO)制定的最新版《2023年數據、分析和人工智能采用戰略》,旨在推動對智能領域自主智能技術的額外投資。作為新一輪科技和產業革命的重要驅動力,智能領域科研數據有助于促進國家經濟、社會、軍事等領域發展,提高國家競爭力;同時智能領域科研數據也對基礎數據管理提出了更高的要求。
數據交付作為科研數據管理過程的首要環節,是后續數據入庫、評價、復用、共享的重要基礎。科研數據交付可以從數據驅動的角度,為企業提供決策制定的科學依據,加強產品和服務的質量,提高企業生產力;同時幫助企業發現新的機會和潛在的增長領域,使企業更好地規劃業務戰略和創新方向,推動新產品和解決方案的開發,推動企業研發良性循環。
由于現階段智能領域工程項目成果數據交付的標準化工作未經歷體系化地分析與設計,缺乏權威、統一的數據標準指導與有效的工具手段支撐,填報的科研成果數據內容、格式混亂,數據質量不高,難以匯總管理與復現復用,造成“數據孤島”“數據煙囪”等諸多問題[6]。因此,解決企業中智能領域科研成果數據交付面臨的問題勢在必行。本文提出了一種智能領域科研成果數據標準化交付策略,通過制定統一的數據交付標準,研發配套的支撐工具軟件,解決上述問題,為企業智能領域科研成果數據的共享共用奠定理論基礎。
1 智能領域科研成果數據標準化交付必要性分析
1.1 智能領域科研成果數據標準化交付現有問題分析
隨著企業對智能領域科研成果投入的增加,對投入與產出進行有效管理的需求也不斷增加;數據作為數字化時代核心的生產要素和成果資產,更是科研管理的重中之重。然而,由于缺乏統一的數據標準和工具手段進行規范和支撐,不同項目來源、研發團隊、成果類別的科研數據在交付、管理和復用等環節均存在諸多問題,這主要體現在以下方面:
(1)數據類別多,缺乏提交規范
智能領域科研成果可能包括:數據集類、軟件類、模型類等,每類成果的數據主體及需要提交的附屬文件要求不盡相同,同時不同成果的提交流程也有所差別,缺乏標準規范來約束各類成果的提交過程。
(2)屬性結構雜,缺乏統一描述
由于未規范科研成果元數據結構、內容、格式等信息,不同研發團隊與個人的理解差異會導致對科研成果管理、存儲、共享等數據的描述不一致,使得數據質量下降。成果數據描述語言的缺乏,增加了科研成果的匯聚、管理與共享難度,阻礙了科研成果的價值發揮。
(3)推廣復用難,缺乏貫徹機制
由于缺乏數據標準貫徹的方法手段,不同人員的經驗、知識水平等因素會對標準內容的解讀和理解造成影響,從而降低科研成果數據交付質量和效率,無法保證科研成果標準化工作落地實施。
(4)填報要求高,缺乏工具支撐
為達到規范填報、科學管理和科研成果數據的共享共用,每類科研成果需交付和評價的信息較多,且各有具體的提報要求,現階段缺乏基于填報要求研發的配套支撐工具,導致填報質量和效率低下。
上述問題出現的本質原因是智能領域的科研成果數據沒有規范化、結構化和流程化,導致科研成果數據的填報和交付過程效率低、質量差,數據在不同組織部門或機構之間交互共享過程受限,產生了“信息孤島”“數據壁壘”等嚴重問題,因此智能領域科研成果數據交付規范工作勢在必行。
1.2 智能領域科研成果數據管理的意義
在現代企業面臨全球化和人工智能變革的大環境下,數據管理扮演著重要角色??蒲袛祿肮芎谩薄坝煤谩睂⒒菁捌髽I的多部門、多階段、多任務,全面提升企業管理效能和核心競爭力。
針對現階段企業科研成果數據面臨的問題,規范數據管理在智能領域科研成果數據資產建設中至關重要,其必要性主要體現在以下方面:
(1)對企業決策層
規范智能領域科研成果數據管理能夠為企業決策層提供經費投向投量依據,輔助項目立項決策,優化技術布局,促進企業科研良性、可持續發展。
(2)對市場銷售部門
規范智能領域科研成果數據管理能夠使市場銷售部門掌握企業數據分析技術及規范產品貨架等數據資產,開展成果的推廣銷售,為企業帶來經濟效益。
(3)對實施交付部門
規范智能領域科研成果數據管理能夠使實施交付部門更好地把握科研項目進度,提高項目實施與驗收質量,規范化項目申報、歸檔,為企業規避風險。
(4)對產品研發部門
規范智能領域科研成果數據管理能夠讓產品研發部門復用有價值的科研成果數據,縮短研發周期,降本增效,優化資源配置。
2 智能領域科研成果數據交付管理框架設計
智能領域科研成果數據交付管理框架以促進智能領域科研成果共享共用為原則,基于智能領域科研成果數據標準建設、手段建設的需求分析,開展科研成果數據交付要求標準、科研成果數據核心元數據標準的研究編制。標準的編制包括框架設計、程序設計、編制標準等步驟;基于標準內容,開展標準貫標研究工作,明確貫標對象、貫標方法、貫標機制;在標準研制及貫標研究的基礎上,開展配套工具軟件研發,通過需求分析、架構設計,實現工具軟件使用即標準的目標;最后,開展標準及工具軟件試點應用,征求試用意見作為輸入,指導標準及工具軟件的迭代更新。智能領域科研成果數據交付管理方案的思路和流程如圖2所示。
3 智能領域科研成果數據標準化交付策略
3.1 科研成果數據交付要求標準編制
針對智能領域科研項目中形成的數據集類、軟件類、模型類等多類科研成果數據,研究制定科研成果數據的類別、交付內容及交付程序等相關要求,形成科研成果數據交付要求標準,保證智能領域科研成果數據交付的充分性、完整性及規范性,支撐科研成果數據資源高效率、高質量建設。本文提出的科研成果數據交付要求標準編制,主要包括以下四個步驟:
(1)規范科研成果數據定義
參考關于“成果對象”“數據資產”以及各類科研成果等概念的現行標準,分析標準內容,甄選在本部分標準中適用的術語和定義。在此基礎上,分析調研相關智能領域項目科研成果數據現狀,把握智能領域科研成果數據總體定位,剖析科研成果數據的工程性質和數字化資產內涵,明確各類科研成果數據相關的術語和定義。
(2)明確科研成果數據分類
在數據集類、軟件類、模型類各類科研成果分類的基礎上,分析各類成果的范圍和內涵,參考相關標準和數據資源,并根據自身項目背景,將各個類別細分到三級分類。
以數據集類為例。本文參考現行標準,并查閱如UCI機器學習數據庫、Kaggle數據分析大賽等公開數據資源,同時根據歷史項目經驗將數據集類成果細分為“算法數據集”“試驗數據集”等類別;根據算法訓練的通用過程將“算法數據集”進一步細分為“訓練數據集”“測試數據集”等類別。
(3)梳理成果數據交付內容
以科研成果能夠復現和共用共享為核心原則,確定科研成果數據交付內容的共性和特性要素。
參考關于“成果交付”“信息歸檔”“數據匯交”相關的現行標準,同時學習關于數據交付管理的先進做法,如國家基因組科研數據中心發布的《國家基因組科研數據中心數據匯交指南》等數據交付規范[7],分析其中關于成果交付內容的要求,結合自身項目特點,梳理科研成果數據共性交付內容的組成,包括如成果數據主體、配套交付文檔、配套軟件工具及環境、描述信息等內容。
以數據集類為例,參考關于數據集成果交付的現行標準,分析標準中對數據集類成果主體,以及驗收文件的交付要求,提煉補充數據集類成果特性的交付內容,如數據字典等。參考關于“交付元數據”“庫表數據元”等數據集交付基本信息的現行標準,分析標準中對于數據集類成果交付所需字段項信息及對應的填寫要求,形成數據集類成果數據交付信息表。參考關于“數據集歸檔”“數據字典”等數據集成果歸檔的現行標準,解讀其中關于數據集說明書、試驗大綱、仿真報告、數據字典等文檔的格式、要素、內容框架和提交要求,剪裁適用本項目的條款,按數據集類別匹配并規范各類配套文檔的交付要求。
在項目及合同信息數據交付方面,分析標準庫中的現行標準,并基于自身項目、合同管理需求,結合科研項目、合同模板,分析提煉描述項目及合同的信息要素;此外,根據歷史項目管理經驗,同時參考項目、合同管理軟件等平臺,調研項目通用的評審材料,進一步細化項目、合同信息描述的字段項及填寫要求。在項目與合同相關文件方面,檢索分析“文檔分類”“檔案管理”的相關現行標準,結合科研項目驗收實際需要,篩選項目、合同交付所需的文檔,劃分類別、范圍并明確交付要求。
(4)確定成果數據交付程序
參考關于“成果管理”“驗收流程”的現行標準規范,分析提煉其中關于科研成果數據交付程序的要求與原則。依據自身項目管理流程的基本要求和實際需要,明確各類科研成果數據交付的共性流程步驟,并細化各步驟中相關方的權責要求,形成科研成果數據交付程序。
3.2 科研成果數據核心元數據標準編制
針對數據集類、軟件類、模型類等多類智能領域科研成果數據目錄建設與檢索需求,研究并提出各類科研成果數據核心元數據內容、結構、格式、管理、分類、交換等方面的信息,形成科研成果數據核心元數據標準,包括編制要求研究、通用基礎研究與各類智能領域科研成果數據核心元數據研究等內容。本文提出的科研成果數據核心元數據標準編制,主要包括以下兩個步驟:
(1)形成核心元數據編制要求
參考關于“元數據”“核心元數據”的現行標準,把握科研成果數據核心元數據編制要求的整體思路;檢索元數據的標識、命名、屬性描述等方面的資料,歸納其中元數據命名、標識、屬性描述相關的規則、約定;調研各組織單位對于元數據注冊、管理的經驗做法,結合工程實際需求,給出科研成果數據核心元數據的擴展要求,以及元數據管理的相關方、職責與流程。
(2)梳理各類成果核心元數據
基于“科研成果數據核心元數據編制要求”,梳理項目、合同以及各類科研成果的共性與特性的核心元數據。
在都柏林核心元數據元素集的基礎上,以描述科研成果數據核心信息為目標,同時考慮科研成果數據管理、存儲、定位、獲取、共享的需要,劃分通用基礎與各類科研成果核心元數據實體,并給出屬性描述模型。
參考關于項目、合同、科研成果數據描述的現行標準,總結提煉項目、合同、科研成果等相關文件中的內容要素,借鑒各類數據資源元數據提取的經驗做法,調研項目、合同、數據資源管理系統中相關元數據的選用情況,針對不同類別梳理出通用基礎與各類科研成果的核心元數據。
3.3 標準貫標方案制定
為減少人員的經驗、知識水平等因素對標準內容的解讀和理解差異,降低對科研成果數據交付質量和效率的影響,需要確定數據標準貫徹的方法和手段,建立問題的響應機制,支撐科研成果數據標準化工作落地實施。此外,標準貫徹方法研究將重點關注標準在配套工具軟件中的實現,使用戶更便捷、順暢地完成符合標準的科研成果數據交付任務。本文提出的標準貫標方案制定策略,主要包括以下四個步驟:
(1)調研項目現狀與需求
針對臨近節點評估與驗收等環節的智能科研項目,從當前進展、指標要求、標準依據、支撐手段、預期目標、存在的問題等方面設計調研問卷,開展科研成果數據加工準備、采集提報情況的調研。
基于調研情況,分析項目主管部門、合作部門在科研成果數據交付階段步驟、計劃安排、協調溝通等方面存在的問題。
基于問題分析,提出解決方案,明確貫標需求,如為減少人員的經驗、知識水平等因素對標準內容的解讀和理解差異,開展標準宣貫,統一對標準內容的理解。又如為解決傳統的交付手段降低了科研成果數據信息填報效率及規范性的問題,提供簡單易用的工具軟件,減輕科研成果數據信息填報人員的負擔。
(2)總結歷史做法與經驗
借鑒國內外數據標準貫標的先進經驗和做法,為科研成果數據相關標準的貫徹執行提供參考。如美國航空運輸協會(ATA)發布的SPEC系列標準,從數據字典各項數據項的定義、格式等方面對航空裝備進行了詳細規定,同時美國聯邦航空局(FAA)采取適航條令、適航頒證等準入控制方式,約束航空裝備供應商遵循ATA相關標準。又如北約(NATO)物資編目相關的數據標準—物品標識號(NIIN)[8],按數據標準研制實施部署了NATO編碼系統,采取注冊、共享的方式,實現了各國注冊裝備的信息項一致、格式統一。再如我國的全國組織機構統一社會信用代碼數據服務中心編制發布的GB 32100—2015《法人和其它組織統一社會信用代碼編制規則》,通過明確組織的主要職能,配套制定了實施流程,開展培訓解讀,并在互聯網上部署登記審批平臺[9],取得了良好效果。
(3)明確貫標對象與范圍
明確“科研成果數據交付要求”“科研成果數據核心元數據”標準的貫標對象,如項目主管部門、合同主管部門的科研成果數據信息采集填報人員及涉及的業務信息系統。明確“科研成果數據交付要求”“科研成果數據核心元數據”標準的貫標范圍,如結題項目、在研項目、新立項目,又如在用系統及新研系統。明確“科研成果數據交付要求”“科研成果數據核心元數據”標準的貫標時間,如根據科研成果數據管理要求,結合項目管理,確定標準的貫標時間。
(4)形成貫標方法與機制
通過分析標準貫標的關鍵要素,進一步明確貫標工作的方法和原則。首先明確科研成果數據相關標準貫標的各方,如歸口管理、實施支撐、監督檢查、落實使用機構及人員等,統一對于貫標工作重要性的認識,明確各方關于貫標工作的具體職責,如歸口管理機構負責擬制貫標工作規劃,督促貫標工作進度等。其次梳理分析相關頂層文件,尋求標準貫標的制度支持,以促進和支持標準的貫徹實施和貫標檢查工作。然后從滿足科研成果數據標準化交付需求,且減輕承研單位工作量負擔的角度,確定貫標方法,如提供標準宣貫以及有效統一的工具軟件,滿足項目、合同、科研成果數據信息的高效采集提報,開展試點應用以驗證貫標的效果。最后依據標準貫標要求、檢查方法、考核指標,對貫標情況進行監督檢查。
3.4 配套工具軟件研發
結合標準貫徹研究,本文將智能領域科研成果數據交付要求及核心元數據等標準中的要求嵌入到工具軟件的使用中,實現符合標準的智能領域科研成果數據采集工具軟件設計。工具軟件需具有項目信息、合同信息、成果數據管理及標準閱讀下載等主要功能,滿足國產自主可控要求,具有一定的運行環境適應性和兼容性;工具軟件應當提供對外標準數據接口,便于其他系統對接并獲取相關數據。本文提出的配套工具軟件研發,主要包括以下三個步驟:
(1)明確軟件需求
工具軟件主要用于科研項目信息、合同信息、科研成果數據信息的采集交付。工具軟件依照“科研成果數據交付要求”系列標準規范進行開發,實現了項目信息、合同信息、科研成果數據信息的規范化、便捷化及高效率地提報,使得填報數據過程與數據標準落標過程融為一體,方便項目管理部門后續開展智能領域科研成果數據信息的審核查驗,支撐科研成果復現及數據共享的目標。
(2)設計軟件架構
基于需求分析的結果,進行軟件的概要設計工作。確定軟件的模塊劃分、界面設計、數據結構等方面的設計方案,并繪制相應的概要設計文檔。根據概要設計,對軟件各個模塊的詳細設計進行進一步規劃和細化。包括功能模塊的具體設計、數據結構與算法的選擇和設計,以及界面交互細節的設計等。
(3)實現模塊功能
根據架構設計對軟件需求進行功能實現。項目信息方面,允許項目主管部門管理項目下的合同,匯總、查看并維護各合同中的科研成果數據。
合同信息方面,允許合同主管部門編輯合同信息,編輯、整理合同下的科研成果數據信息,提交合同級科研成果數據。科研成果數據信息方面,支持合作部門進行科研成果數據信息(對應的數據集、軟件、模型類)填報、相關文件上傳,支持填報數據校驗與打包,用于交付項目主管部門統一管理。此外,軟件還需為用戶提供數據標準和用戶手冊的在線預覽及下載功能。
4 試點應用實施工作建議
基于前述智能領域科研成果數據標準化交付策略,在標準及工具軟件形成較為完善的版本后,可開展標準及工具軟件部署及試點應用,提供相應的咨詢與培訓服務,以促進數據交付工程實施落地;同時在試用過程中,廣泛征求意見并如實記錄使用問題,作為新的輸入指導標準及工具軟件的持續更新,提升標準及工具軟件的使用效果。本文提出的試點應用工作實施建議,主要包括以下兩點:
(1)宜形成試點機制,促進貫標落標
基于標準貫標方案,開展項目現狀與需求調研時,可優先選取重點智能科研項目,調研其項目進展、里程碑節點、參與人員組成、科研成果數據分布等情況,梳理項目主管部門所需參與的人員,明確相關職責,形成具體的貫標范圍與試點流程。
可在宣貫培訓試點的多個方面開展策劃準備,形成試點工作機制,促進標準貫標落標。如在宣貫材料方面,可包括宣貫手冊、標準文本、工具軟件、使用手冊、征求意見函等材料準備。在人員分工安排方面,可考慮標準宣貫、軟件演示、問題解答、運行維護等方面人員,如支撐“科研成果數據交付要求”標準講解及答疑的編制組人員,以及支撐工具軟件部署及操作講解的技術人員等。宣貫演示工作安排方面,具體工作可按照標準宣貫及軟件演示、用戶單位答疑、標準及工具軟件使用開展征求意見的順序開展。問題及意見收集反饋方面,可針對標準使用和軟件操作,提供現場答疑和線上答疑等方式,總結歸納其中典型問題,并收集整理相關人員對于典型問題的規范解答;收集整理用戶在標準和工具軟件試點過程中提出的問題、需求,作為新的輸入不斷迭代修改標準和工具軟件,提高標準和工具軟件的操作性、便利性。
(2)宣貫培訓及征求意見
可根據試點流程的宣貫培訓部分,開展標準宣貫和軟件培訓工作。標準宣貫方面,基于“科研成果數據交付要求”和“科研成果數據核心元數據”系列標準開展宣貫演示,為科研成果數據提報人員解答科研成果數據“是什么”“交什么”“怎么交”“怎么描述”等問題,建議重點講述科研成果、合同及項目數據的范圍界限、交付內容、描述方式等,統一科研成果數據提報人員對標準的理解。在軟件培訓方面,需制作演示材料從不同角色的視角(項目主管部門、合同主管部門、合作部門等)對工具軟件的使用要求進行講解,增加科研成果數據提報人員對工具軟件的熟悉程度,提高科研成果數據信息采集效率。
根據試點工作機制,可針對“科研成果數據交付要求”“科研成果數據核心元數據”系列標準、配套工具軟件,廣泛征求用戶試用意見。按照標準修訂和軟件修改兩個類別將意見整理,作為過程材料和版本更新依據,為標準和軟件迭代提供輸入。
5 結語
智能領域科研成果數據交付規范旨在管理智能領域科研成果數據的交付過程,提高交付質量與數據價值,促進科研成果數據共用共享。本文通過分析現階段智能領域科研成果數據面臨的問題,引出智能領域科研成果數據管理的必要性,提出了一種智能領域科研成果數據交付管理框架,并給出了規范智能領域科研成果數據交付過程的實施工作建議。
隨著智能領域的投入不斷增加,智能領域科研成果數據的交付和管理的重要性日益凸顯。隨著數據資源建設的不斷成熟,智能領域科研成果數據管理也將向著高效化、規?;⒊B化的方向發展,為國家智能領域的綜合實力提升奠定數據基礎。
作者簡介
杜佳誠,通信作者,碩士,助理工程師,研究方向為航空標準化與質量、大數據技術、數據治理、數據分析。
宋恒,博士,工程師,研究方向為航空標準化與質量、大數據技術、數據治理、數據分析。
閆弋,聯合培養碩士,研究方向為航空標準化與質量、軟件工程、圖像識別、數據治理。
張馳,博士,高級工程師,研究方向為航空標準化與質量、大數據技術與人工智能、航空裝備大數據治理及分析挖掘,數據標準化、數字圖像處理等識別、數據治理。
(責任編輯:張佩玉)