趙望強 柳毅 譚青
摘 要:在大數據的基礎上,針對目前各類科技咨詢專家庫管理信息系統建設現狀和應用存在的問題,結合大數據存儲和分析技術,對專家庫管理信息系統進行了框架設計和系統功能設計的研究。通過對專家庫管理信息系統的構建探討,從而實現科學管理專家信息和抽取專家。該構建方法有利于盤活數據,讓數據說話,為專家信息服務提供支撐。
關鍵詞:大數據 專家信息 專家庫管理信息系統
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1672-3791(2018)10(c)-0012-03
Abstract:On the basis of big data,Aiming at the current situation and application problems of various types of science and technology consulting expert library management information system construction, combined with big data storage and analysis technology, the framework design and system function design of expert database management information system are studied.Through the discussion of the construction of the expert database management information system, scientific management expertinformation and extraction experts can be realized.Thisconstruction method is conducive to revitalizing data, allowing data to speak and providing support for expertinformation services.
Key Words:Big data; Expert information; Expert library management information system
隨著科技創新咨詢與決策環境的日益復雜化以及科技創新咨詢與評審項目的層出不窮,科技評審專家其咨詢意見和建議對于促進科技成果轉化,減少科技決策失誤,提高科技發展水平和科技創新具有重要作用。而專家庫管理信息系統(以下簡稱“專家庫管理系統”)作為收集各行業專家的信息智庫,為發揮專家在科技創新戰略咨詢決策中的重要作用,及提高科技管理和決策的科學化、規范化水平提供重要平臺條件保障。
數字化時代下,特別是在科技行業中,現科技項目存在著多學科的交叉和融合,如何根據科技項目特點抽取合適的專家已成為專家庫管理系統建設難點。
針對上述問題,通過介紹專家庫信息系統的應用現狀,本文提出了基于大數據技術下專家庫管理系統的總體框架和系統設計及如何在建設中應用大數據技術。
1 科技專家庫管理信息系統建設現狀
1.1 目前建設現狀
科技專家庫信息系統的建設是一個動態建設和管理過程,目前,基本的建設現狀如下。
(1)承擔建設主體多。各省市科技業務部門均不同程度開展了專家庫的建設,均建有自己的科技咨詢專家庫管理系統[1]。因各個專家庫建設的標準和評審業務類型不同,這些專家庫相互獨立,分別由不同的部門管理和使用,而且相互間難以共享。
(2)專家標準規范多。現已建各類專家庫管理系統按照各自管理需要對專家進行標準分類入庫,各類專家的信息標準規范基本上能夠符合本級所屬業務需要或使用需要,
(3)抽取專家方法一致。對評審項目中按照項目所屬技術領域或學科大類對項目分組,根據分組統一對入庫專家進行匹配,從而實現專家抽取。
1.2 應用存在問題
(1)專家基礎資源少,難以找到需求數量。雖然專家信息系統建設主體多,但相互獨立,導致科技專家資源過度分散、不便交流,難以聯通。專家信息來源方式單一,由專家自我填寫。一旦當參評項目數超過庫有專家一定比例要求時,就會存在難以找到更多的專家滿足項目評審的需求。
(2)專家類型單一,難以滿足精準需求。專家標準規范多,分類類別標準不一,以及在數據庫專家信息關系上結構單一,常用關系數據庫線性表存儲,容易造成僅是數據量的疊加,不是信息的展現。一定程度上影響項目對評審專家的精準匹配需求。
2 大數據技術下專家庫管理信息系統構建
2.1 專家庫管理信息系統架構
大數據環境下,以科技項目、成果、專家等為代表的科技數據發展著不可或缺的作用,以科技大數據為基礎,將科研項目、專家、成果、大型儀器、科技文獻等科技創新要素進行有機結合,可以為科技管理者、科研人員、社會公眾等各類用戶開展專家管理、專家推薦等輔助決策服務。系統架構設計如圖1所示。
(1)基礎數據層。專家庫管理系統主要依托專家信息基本庫和接入各類科技計劃管理系統的現有或歷史的項目基礎數據及其他各類數據,如:人員信息庫、論文資源庫、機構信息庫等。這些數據具有海量、標準規范不一、結構各異的特征。
(2)數據存儲分析層。數據存儲分析層是基礎數據匯聚(包括數據識別、數據傳輸、數據感知等過程[2])后,在數據管控和數據安全前提下運用大數據處理技術對數據進行標準清洗及加工形成數據中心庫。在數據中心庫中對數據進行計算、數據分析及關聯關系,將結果提供給數據服務層,支撐系統業務。
(3)數據服務層。數據服務層主要是根據業務的實際需要,整合互聯網的可視化互動交流技術實現前端的顯示和應用。具體業務應用有專家管理、科技項目咨詢、評審等。
2.2 大數據關鍵技術
(1)數據存儲技術。
對于從各種類型庫來源的數據,如有專家信息、項目信息(項目申報書、任務書、驗收書、科技報告等)、視頻、圖片、音頻等,這些數據類型可分為結構化和非結構化,結構化數據一般使用關系型數據庫進行存儲和管理。而管理非結構化數據就非常復雜,海量異構管理方面存在著一定的問題[3]。在這種情況下,就需要用到大數據存儲技術將零散數據整合到一起管理。
主要運用存儲技術有分布式文件系統(HDFS)、NoSQL數據庫(HBase)、大數據倉庫(Hive)、MPP數據庫等存儲系統,實現對結構化數據、非結構化數據的存儲和數據實時處理。
(2)大數據挖掘分析技術。
各類基礎數據里隱藏著無窮的價值,但直接從里面獲取有效的信息,是非常困難的。主要是因為數據分散且數據規模大,難以處理且難以消化等。因此,在數據已經收集存儲的基礎上,通過對帶數據挖掘技術對這些數據進行挖掘分析,大數據技術不是一款簡單的數據分析軟件,而是要從大體量、多類別數據中獲取價值。常用的大數據分析方法:回歸分析、聚類分析、網絡分析、關聯分析等。
本文主要采用關聯分析和文本分析。文本分析屬于自然語言處理領域,主要包括詞典管理和文本處理。詞典庫是文本分析的數據基礎,文本處理是產生高質量文本的過程,提供了詞性分析、自動摘要、依存文法、關鍵詞提取、詞義聯系、分詞工具、漢字轉拼音、繁體轉換、簡體轉換等功能。根據文本分析形成的數據,進行多維關聯分析,語義關聯與聚合,實現以人為中心的關系圖譜。
2.3 專家管理信息系統的設計
專家庫管理系統使用用戶有科研項目管理者、專家。該系統一方面是為科研管理者提供信息手段管理,另一方面是為專家提供服務。總的原則是以大數據技術為技術基礎,保證科技咨詢專家科學管理的同時,重點強化數據支撐科技咨詢業務的能力建設。專家庫管理系統根據業務需求主要由專家管理和專家推薦兩大部分組成,如圖2所示。
(1)專家管理。專家管理系統以信息標準規范為基準,大數據存儲技術為手段,負責對專家的信息征集,對有效專家信息的入庫,出庫審核。通過大數據信息挖掘與分析技術對專家信息深度化高效動態管理等。
(2)專家推薦。專家推薦以專家管理中對專家數據分析為基礎,并對大數據關聯分析形成的專家多維信息(基本信息、學歷、工作經歷、榮譽、承擔項目、科研成果等)進行標引。經過限制條件(如支撐、人才稱號等)層層篩選,與被評審項目精細化匹配。評審活動結束后由管理者對參與的專家進行進一步評價,以此來提高專家項目評審質量。
3 系統其他方面的建議
(1)加強數據權限和安全管理。專家管理信息系統不僅只是單個管理系統,也是個人信息的大數據資源。信息安全問題也就由此產生。特別是基本信息、知識產權信息等等都面臨著使用權限和安全管理等問題,也就帶來了更高的管理要求。
(2)擴大基礎數據來源。基礎數據不足或有效數據量不多時,系統也就發揮不出特有的數據優勢。建議擴寬信息來源渠道,如從網絡或從其他機構獲取;提高信息質量檢測篩選或以共建共享方式提高數據質量。
4 結語
通過大數據技術對專家庫管理信息系統進行重新構建,為建設資源豐富、運行高效、結構合理、標準規范的科技專家庫提供理論參考。完善了專家推薦能力,提高決策的科學化和民主化水平,以及對科技管理工作水平及項目評審的規范性及客觀公平性具有重要意義。
參考文獻
[1] 陳洪平.科技咨詢專家管理系統的回顧與思考[J].價值工程,2014,33(5):194-195.
[2] 何清,敖翔,莊福振,等.一種基于Hadoop的大數據挖掘云服務及應用[J].信息通信技術,2015,9(6):42-49.
[3] 梁吉業,錢宇華,李德玉,等.大數據挖掘的粒計算理論與方法[J].中國科學:信息科學,2015,45(11):1355-1369.