999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據的科技管理信息分析與可視化應用研究

2024-12-31 00:00:00楊一帆焦長春
河南科技 2024年9期
關鍵詞:數據分析大數據

摘 要:【目的】大數據時代科技管理信息種類多、數量大,給科技管理工作帶來了全新的挑戰。傳統數據分析方法效率低、工作量大,難以滿足分析需求,急需新型科技管理信息分析方法。【方法】提出一種基于大數據的科技管理信息分析方法,運用大數據技術對科技管理信息進行數據預處理;設計數據分析模型,通過模型對數據進行分析;最后運用數據可視化技術展現分析結果。【結果】該方法可對各類科技管理信息進行融合分析,解決數據孤島問題,打造全省科技管理數據一張圖。【結論】該方法可提高大數據時代科技管理信息的分析效率,為科技管理工作提供數據參考。

關鍵詞:大數據;科技管理;數據分析

中圖分類號:G353" " "文獻標志碼:A" " "文章編號:1003-5168(2024)09-0153-05

DOI:10.19968/j.cnki.hnkj.1003-5168.2024.09.032

Analysis and Visualization Application of Science and Technology

Management Information Based on Big Data

YANG Yifan JIAO Changchun

(The Scientific amp; Technological Information Center of Henan, Zhengzhou 450000, China)

Abstract:[Purposes] In the era of big data, there are many types of technology management information and a large amount of data, which brings new challenges to technology management work. Traditional data analysis methods have drawbacks like low efficiency and heavy workload, which are difficult to meet the needs of analysis. Therefore, new technology management information analysis methods are badly needed. [Methods] Firstly,this article proposes a technology management information analysis method based on big data, which uses big data technology to preprocess technology management information; secondly, a data analysis model is designed to analyze the data; finally, the analysis results are displayed by data visualization technology. [Findings] Practice has proven that this method can effectively integrate and analyze various types of science and technology management information, solve the problem of data silos, and create a map of science and technology management data for the whole province. [Conclusions] This analysis method can improve the efficiency of analyzing technology management information in the era of big data, thus providing data reference for technology management work.

Keywords: big data; technology management; data analysis

0 引言

隨著科技的快速發展,伴隨科技管理工作產生的科技管理信息數據越來越多。這些數據大多是由不同的科技業務管理平臺產生的,存儲在不同的數據庫中,數據種類繁多,數據結構、格式也多種多樣[1]。由于數據來源與獲取方式有限,傳統的數據分析方法得到的往往是單一業務類型的數據,對不同業務數據無法進行融合分析;傳統的數據分析方法只對數據進行簡單的統計計算,得到統計數據的占比、走勢等,難以深度挖掘數據的潛在價值。當前,世界已進入大數據時代,大數據處理技術具有速度快、分析方法多樣化以及高復雜性和變化性等特點,打破了科技管理信息間的數據孤島,深度挖掘科技管理信息的潛在價值,提高數據利用率,為科技管理工作提供了數據參考。

1 大數據與科技管理概述

1.1 大數據的定義與特性

隨著互聯網技術的發展,從社交媒體賬號到物聯網傳感器,再到科學研究的數據,數據量的產生和積累呈現爆炸式增長[2]。全球每天的數據量高達數十億GB,且涵蓋多個領域。科技管理信息的數據量也隨著科技的發展急速增長。大數據是無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,具有更強的決策力、洞察發現力和流程優化能力的新處理模式,才能處理海量、高增長率和多樣化的信息資產。新處理模式具有4V特點,即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)[3]。大數據已成為企業、政府和學術界關注的焦點,隨著信息時代的深入發展,大數據將會繼續影響和改變我們的生活和工作方式。大數據的應用領域廣泛,包括但不限于商業分析、醫療保健、科學研究、社交媒體、金融等領域[4]。

1.2 大數據時代科技管理工作面臨的挑戰

在大數據時代,科技管理工作面臨著多方面的挑戰。首先,數據的數量不斷增加,使得科技管理需要處理的數據量呈指數級增長。這種增長不僅體現在數據的數量上,還體現在數據的復雜性和多樣性上。結構化和非結構化數據都在快速產生,加劇了數據的復雜性。這使得科技管理部門越來越難以管理、存儲、分析和保護其數據。其次,數據質量也是科技管理面臨的一大挑戰。不一致、過時、缺失、錯誤、難以辨認和重復的數據可能會降低整個數據集的質量。這種數據質量問題可能引發嚴重的大數據問題,給管理部門帶來錯誤、低效和誤導性的見解,最終影響決策的質量和效果。再次,大數據的來源多種多樣,集成難度大。不同的數據源可能具有不同的格式、結構和質量標準,使得數據集成變得復雜且困難[6]。這就要求科技管理工作具備更強大的數據處理和整合能力,以確保數據的準確性和一致性。最后,大部分科研管理單位對大數據時代的認識不夠充分,仍維持著保守、僵化的管理思想,難以深入發掘大數據的價值。同時,管理單位也缺少相應的信息分析技術,存在存儲空間有限的局限性,使得數據研究工作難以有效開展。

1.3 大數據在科技管理工作中的應用價值

大數據在科技管理工作中的應用價值體現在多個方面,為科技管理工作帶來了顯著的改進和效益。大數據在科技管理工作中的主要應用之一是規范數據管理。在科技項目管理過程中,海量的結構化和非結構化數據產生,通過大數據技術的運用,可以對這些數據進行清洗、加工和統一規范標準,形成科技大數據的標準化管理。這有助于更好地利用這些數據,提升科技管理工作的效率和質量。大數據在科技管理工作中的另一項重要應用是開放數據共享。科技大數據的數據來源廣泛,包括科技項目申報、科技成果公開、共享科技資源、科技文獻、科技政策公開等方面。大數據技術可以實現多源數據的融合和共享,促進科技資源的共享和利用。這有助于推動科技創新發展,提升整個科技領域的競爭力。

此外,大數據還為科技管理工作提供了精準決策支持。通過對大量數據的分析和挖掘,可以揭示科技發展的趨勢、規律和模式,為科技管理部門的決策提供科學依據。這有助于優化科技資源配置,提升科技投入的效益,推動科技創新和產業升級。

2 基于大數據的科技管理信息分析方法

典型的大數據處理流程可分為:數據采集、數據處理與集成、數據分析、數據展示4個階段。數據采集就是從不同的數據源收集數據;數據處理與集成是對采集的數據進行去重、去噪、補缺處理,對數據進一步集成存儲;數據分析是根據業務需求,采用適當的方法或模型,對數據進行分析;數據展示是采用圖表等可視化工具,對分析結果進行展示。本文認為,數據采集、處理與集成可統稱為數據預處理。因此,基于大數據的科技管理信息分析的基本步驟是:首先,對數據進行預處理,對處理后的數據統一存儲;其次,建立數據分析模型,運用數據分析模型對數據進行分析,得到分析結果;最后,使用數據可視化工具對分析結果進行可視化展示。

2.1 數據預處理

科技管理信息數據來自各個科技管理業務系統,直接對這些來自不同系統中的原始數據進行處理存在若干問題:

①存在重復數據。在對各業務系統的數據進行集成時,由于各業務系統可能對同一實體數據在字段定義、格式、名稱拼寫上存在差異,導致同一實體數據存在多條不同的數據記錄,會導致產生錯誤的數據分析結果。因此,在對科技管理信息數據進行分析前,需對數據進行去重處理。

②數據格式不同。各業務系統中的數據格式定義各不相同,數據庫版本、操作系統版本的不同,都會導致數據結構的不同。

③數據缺失。在各業務系統中,由于系統的設計缺陷、操作中的人為失誤、隱私信息保護等原因,往往會存在缺失數據,這些數據的值被標記為空、“unknown”“1”或其他空值符號。這些缺失數據會對分析結果造成影響。

為解決以上問題,要對科技管理信息數據進行分析,構建統一的數據倉庫,對原始數據進行數據預處理。

①統一數據格式:數據抽取、轉換、裝載(Extract, Transformation, Loading, ETL)是構建高質量數據倉庫的重要步驟。借助ETL工具,可以將數據從不同的數據源中抽取出來,并按照用戶的要求,對數據格式進行轉換、合并處理,統一數據格式,存入統一數據倉庫中。常用的ETL工具有:Oracle Warehouse Builder(OWB)、Data Transformation Services(DTS)、Kettle、CloverETL、Flume等[5]。本文選用開源的Kettle作為ETL工具。Kettle是一款使用Java語言編寫的開源ETL工具,可在多個版本的操作系統中運行,安裝簡單,支持多種數據庫,并且提供用戶操作界面,使用方便。

②重復數據清洗。為提高數據的準確度,提高數據分析速度和效率,需要對重復數據進行清洗。最簡單的清洗方式是把每一條數據都與其他數據進行對比,從而發現重復數據。這種方式雖然效果很好,但計算復雜度較高,在實際分析中這種方法的效率很低。目前比較普遍的重復檢查方法是基本近鄰排序算法(Basic Sorted Neighborhood Method, SNM)[6]。該算法的核心思想是:根據指定的關鍵字,對數據進行排序;設置一個大小固定的窗口,在排序后的數據集上移動,僅比較窗口內的數據。基本步驟如下。

①數據排序:選取一個字段作為關鍵字,對數據進行排序,使重復數據盡可能在相鄰區域內。

②合并去重:設置一個大小為m的窗口,在已排序的數據上依次滑動,將每一條進入窗口的新數據與窗口內的其他m-1條數據對比,剔除重復的數據,直到窗口滑動至數據集末尾。

③缺失數據清洗。缺失數據清洗是大數據分析的必要步驟,缺失的數據會影響數據分析的準確性。

目前,缺失數據的清洗方法可大致分為兩類:①基于數據填充的缺失數據清洗方法。②忽略不完整數據的缺失數據清洗方法。

基于數據填充的缺失數據清洗方法是運用數據填充算法,生成近似值來替換缺失數據。數據填充算法有很多,可分為以下幾類。

①基于統計學方法的數據填充算法:這類算法主要是通過對原始數據集進行假設,利用原始數據集的統計學特征填補缺失數據。常見的算法有:回歸分析算法、最大期望(Expectation Maximization, EM)填充算法、多重插補算法等[7]。

②基于機器學習方法的數據填充算法:這類算法是基于機器學習的方法,對缺失數據進行分類或是聚類。其中分類算法是先構造一個分類器(Classifier),使用分類器對缺失數據進行分類,再在每一個類別中對缺失數據進行填補,但當缺失屬性過多時,會導致分類過多,造成填補效率低;聚類算法則是對缺失數據進行聚類,劃分成多個簇,在每個簇內根據相似度進行數據填補,缺失屬性不會影響簇的數量。具有代表性的算法有:k-最鄰近(k-Nearest Neighbor, k-NN)分類填補算法、貝葉斯網絡填補算法、k-means聚類填補算法[8]。

③人工填補法:人工填補就是由數據維護者自行人工對缺失數據進行填補,這種方法無疑是最準確的。但如果缺失數據比較多,那么這種填補方式的工作量將會非常大。

科技管理信息對數據的準確性要求非常高。在數據填報時,省市區三級科技管理部門會對填報數據進行層層審核。因此對于科技管理信息的缺失數據,可直接聯系相關單位進行詢問填補,人工填補較為便捷。綜上所述,為保證數據分析的準確度,科技管理信息的缺失數據宜采用人工填補的方法進行缺失數據清洗。

經過數據預處理后的原始數據,即可存入數據倉庫內。在大數據背景下,科技管理信息的數據量大,常見的MySQL、SQL Sever等關系型數據庫,隨著存儲數據量的增大其性能下降,無法滿足大數據時代科技管理信息數據倉庫的需求。Hadoop數據倉庫是使用Hadoop分布式文件系統(Hadoop Distributed File System, HDFS)構建的分布式數據存儲系統,具有高可靠、高性能、高擴展性的特點,是大數據時代最常用的數據倉庫框架[9]。本文選用Hadoop作為科技管理信息的數據倉庫,便于后續對數據的分析利用。

2.2 數據分析模型建立

在單個科技管理業務系統中,由于數據是單一業務的數據,所以對科技管理信息的分析也往往是單一主題、單一維度的分析。借助大數據技術將各個業務系統的數據集成在一起,可以實現對科技管理信息的多主題、多維度分析。根據科技管理信息的數據內容,須先對模型進行統計主題預設,以便對相應主題數據進行分析。目前科技管理信息數據涵蓋的主題有:

①科技創新統計包括研究與發展(Ramp;D)人員數、每名Ramp;D人員研發儀器和設備支出、有Ramp;D活動的企業占比、研發經費投入、研發經費投入強度、萬人Ramp;D研究人員數、企業Ramp;D研究人員占比、Ramp;D經費支出與GDP比值、地方財政科技支出占地方財政支出比重、專利授權量、技術市場成交合同數、技術市場成交額、財政科技支出、財政科技支出占一般公共預算支出比重。

②創新平臺統計包括實驗室、工程技術研究中心、新型研發機構、野外科學觀測研究站、技術轉移示范機構、國際科技合作基地。

③創新企業統計包括創新龍頭企業、瞪羚企業、高新技術企業、國家級科技型中小企業。

④創新人才統計包括兩院院士、中原學者、領軍人物、國家計劃。

⑤科技創新載體統計包括孵化器、大學科技園、眾創空間、專業化眾創空間、星創天地。

⑥科技園區統計包括高新區、農業科技園區、可持續發展實驗區。

針對不同的主題,可選用不同的維度,其中通用的維度是時間維度和地區維度。這兩個維度限定了區域和時間,可獲取某一區域在某個時間某個主題的統計數據;也可不對主題進行限定,獲取該區域該時間的全部數據。也就是說,該模型具有3個參數,分別是主題、時間和地區。通過輸入這3個參數,在大數據倉庫中進行查詢計算,得到相應的統計結果。

目前,用于大數據分析的工具有很多,其中,Hadoop大數據框架集成了MapReduce計算引擎。但MapReduce計算引擎需要將中間的計算結果寫入磁盤中,這將會導致非常頻繁的磁盤IO(Input Output),從而影響計算性能,因此MapReduce適合大規模的離線計算分析[10]。Spark計算引擎是一種基于內存的大數據計算引擎,其中間計算結果可以直接寫入內存,這大大提高了實時分析的計算速度。并且支持Java、Scala等編程語言,同時提供了Spark SQL工具,對于簡單查詢計算,僅需要編寫SQL語句便可完成,降低了開發難度。因此,模型采用Spark計算引擎,設定3個模型參數,對科技管理信息進行統計分析,得到的分析結果存入數據庫中。

2.3 分析結果可視化

通過數據模型得到的科技管理信息分析結果,可以直接存儲到普通的關系型數據庫中。這里選用MySQL數據庫。數據可視化的工具多種多樣,Apache ECharts是一種開源的、基于 JavaScript的可視化圖表庫。其內置了折線圖、柱狀圖、餅圖等多種圖表,以及地圖、日歷、提示框等組件,擁有豐富的動畫效果,支持多種數據格式,可以滿足大數據科技管理信息分析結果的可視化展示要求。分析結果可視化采用MVC(Model、View、Controller)設計模式。簡化了設計流程,提高了開發效率。

3 實踐與應用

本文提出的基于大數據的科技管理信息分析方法,運用于河南省科技服務綜合體信息管理平臺上,可從多個維度對多個主題的科技管理信息數據進行統計分析,并使用數據可視化技術進行展示。

圖1為2021年河南省科技創新統計圖,可直觀展示河南省各地市萬人研究與發展(Ramp;D)人員數。

除了以年份為維度,對各地市按照不同主題進行統計分析,也可以以地區為維度,對各統計主題的趨勢進行分析。以河南省全省實驗室統計數據為例,圖2為全省實驗室(包括省實驗室、省級重點實驗室、省級國際聯合實驗室)歷年統計數據,橫坐標為年份,縱坐標為實驗室數量,可以直觀地看到全省實驗室的建設趨勢。

河南省科技服務綜合體信息管理平臺運用本文所提出的基于大數據的科技管理信息分析方法,對全省各地市科技管理信息數據進行分類統計分析。通過該方法,可直觀地掌握各地市的科技發展情況,打造全省科技數據一張圖,為科技管理部門決策提供數據參考。

4 總結

本文提出了基于大數據的科技管理信息分析方法,采用該方法對科技管理信息原始數據進行數據預處理,包括數據格式統一、重復數據清洗、缺失數據清洗,將處理后的數據存入Hadoop數據倉庫;建立數據統計分析模型,運用Spark計算引擎進行統計分析;最后運用數據可視化計算,借助ECharts數據可視化工具,對分析結果進行展示,實現對各科技管理業務系統數據的融合分析。

參考文獻:

[1]劉曉晨, 王卓昊. 基于大數據環境的科技管理數據集成平臺研究[J]. 情報學報, 2021(9): 953-961.

[2]李國杰, 程學旗. 大數據研究:未來科技及經濟社會發展的重大戰略領域—大數據的研究現狀與科學思考[J]. 中國科學院院刊,2012,27(6):647-657.

[3]嚴霄鳳, 張德馨. 大數據研究[J]. 計算機技術與發展,2013,23(4): 168-172.

[4] FRANKEL F,REID R. Big data: Distilling meaning from data[J]. Nature, 2008, 455(7209): 30-30.

[5]徐俊剛,裴瑩.數據ETL研究綜述[J]. 計算機科學, 2011, 38(4): 15-20.

[6]MAURICIO A,HERNáNDEZ, STOLFO S J. Real-world data is dirty: data cleansing and the merge/purge problem[J].Data Mining and Knowledge Discovery, 1998, 2(1):9-37.

[7]LITTLE R J A,RUBIN D B. The analysis of social science data with missing values[J]. Sociological Methods amp; Research, 1989, 18(2-3): 292-326.

[8]YU J. General C-means clustering model[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(8): 1197-1211.

[9]何健偉. 基于Hadoop的數據挖掘算法研究與實現[D]. 北京:北京郵電大學, 2015.

[10]李建江,崔健,王聃,等. MapReduce并行編程模型研究綜述[J]. 電子學報, 2011, 39(11): 2635-2642.

猜你喜歡
數據分析大數據
我校如何利用體育大課間活動解決男生引體向上這個薄弱環節
體育時空(2016年8期)2016-10-25 18:02:39
Excel電子表格在財務日常工作中的應用
淺析大數據時代背景下的市場營銷策略
新常態下集團公司內部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
淺析大數據時代對企業營銷模式的影響
基于讀者到館行為數據分析的高校圖書館服務優化建議
科技視界(2016年22期)2016-10-18 14:37:36
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 激情国产精品一区| 一级毛片无毒不卡直接观看| 久久青草热| 伊人久久婷婷| 久久成人国产精品免费软件| 久久96热在精品国产高清| 熟女日韩精品2区| 亚洲无码高清视频在线观看| 日韩精品免费在线视频| 在线观看国产精品一区| 久久久精品无码一区二区三区| 国产91导航| 99青青青精品视频在线| 青草91视频免费观看| 久久人与动人物A级毛片| 国内老司机精品视频在线播出| 老司国产精品视频91| 青草精品视频| 国产第一页免费浮力影院| 日本伊人色综合网| 无码啪啪精品天堂浪潮av| 日韩无码视频专区| 无码AV动漫| 国产精品无码久久久久久| 999国产精品永久免费视频精品久久 | 国产麻豆永久视频| 欧美亚洲中文精品三区| 国产69精品久久久久孕妇大杂乱 | 成色7777精品在线| 91无码网站| 亚洲男人天堂久久| 国产jizzjizz视频| 99热这里只有精品2| 色综合久久无码网| 亚洲男人天堂2020| 欧美a在线| 欧美亚洲激情| 色婷婷天天综合在线| 国产精品所毛片视频| 日韩亚洲高清一区二区| 国产香蕉97碰碰视频VA碰碰看| 国产福利大秀91| 国产麻豆精品久久一二三| 91精品免费久久久| 成人在线综合| 中文字幕无码av专区久久| 久久黄色毛片| 亚洲无限乱码| 一级毛片免费高清视频| 国产真实自在自线免费精品| 日韩精品无码不卡无码| 日韩精品成人网页视频在线| 在线视频一区二区三区不卡| 自拍偷拍欧美日韩| 精品日韩亚洲欧美高清a| AV在线天堂进入| 国产一级在线观看www色| 欧美成人第一页| 国产小视频网站| a毛片免费看| 欧美三级视频网站| 国产精选自拍| 在线中文字幕日韩| 久久精品国产电影| 亚洲无码电影| 韩日午夜在线资源一区二区| 99久久精品免费看国产免费软件 | 亚洲精品不卡午夜精品| 国产91线观看| 91国内在线观看| 18禁色诱爆乳网站| 亚洲伊人天堂| 日韩在线2020专区| 丁香婷婷激情网| 欧美精品黑人粗大| 色婷婷亚洲综合五月| 免费毛片a| 青青国产视频| 国产精品第| 亚洲无码A视频在线| 日韩a级片视频| 爆操波多野结衣|