999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分布式異構科技資源池數(shù)據(jù)融合設計

2021-07-01 05:22:06蔣添任季于東侯愛琴
物聯(lián)網技術 2021年6期
關鍵詞:跨平臺數(shù)據(jù)庫科技

蔣添任,季于東,侯愛琴

(西北大學 信息科學與技術學院,陜西 西安 710127)

0 引 言

各類科技資源種類繁多,由不同機構管理、采集和維護。由于行政管理和信息技術等方面的障礙,存在嚴重的信息孤島現(xiàn)象,大量科技資源無法被用戶共享使用,造成資源的極大浪費。針對專業(yè)科技資源和綜合科技資源的異種、異構、異域、分布式多層等特點,建立開放式跨平臺分布式科技資源池架構,首先需要對各類科技資源進行匯聚、清洗和融合,進而建立科技資源云分享平臺,以便進行精準搜索、智能匹配,及分析、推理、評價和優(yōu)化。

專業(yè)科技資源是一個以標準和規(guī)范為基礎,包含不同層次、不同類型,分散孤立又相互關聯(lián)的資源庫群,在全國各省市建立了眾多分支中心和基層分中心站點,分散建庫為分布式分層科技資源部署形式。不同來源的科技資源數(shù)據(jù)匯聚到資源池必須進行清洗融合。數(shù)據(jù)融合指將來自不同數(shù)據(jù)源的同一實體(如企業(yè)、個人)的不同表象融合成單一表象,消除潛在的數(shù)據(jù)沖突[1]。

本文重點研究基于分布式資源巨系統(tǒng)的資源融合方法,對來自萬方數(shù)據(jù)、東方靈盾及寧波信息院等不同結構的專業(yè)科技資源數(shù)據(jù)進行匯聚融合,以實現(xiàn)跨平臺的科技資源云共享。

1 數(shù)據(jù)融合相關工作

目前數(shù)據(jù)融合方法大多針對多傳感器或無線傳感網的多源數(shù)據(jù)融合[2],相關方法可抽象為數(shù)據(jù)級融合、特征級融合及決策級融合3個層次[3]。文獻[4]研究了對多個異構傳感器數(shù)據(jù)進行數(shù)據(jù)融合時的兼容性問題,提出基于多傳感器決策級數(shù)據(jù)融合的多任務深度學習模型。文獻[5]提出了多源異構大數(shù)據(jù)的融合算法,結合3種數(shù)據(jù)融合功能模型對多源異構大數(shù)據(jù)融合模型進行設計。文獻[6]針對“信息孤島”中的關系數(shù)據(jù)融合問題,提出并實現(xiàn)了多源關系數(shù)據(jù)融合的基本框架(Multi-Source Relational Data Fusion, MSF)??蚣馨?個主要部分,即模式匹配、實體對齊、實體融合。模式匹配面向多源關系數(shù)據(jù)的屬性對齊問題,結合屬性值的多維特征,提出基于匈牙利(Hungarian)算法的屬性間對齊發(fā)現(xiàn)機制,實現(xiàn)了多源關系數(shù)據(jù)的快速模式匹配。實體對齊連接多源關系中的元組對,通過引入多樣性取樣策略和實體特征抽取方法,提升實體對齊的效果。最后將對齊實體融合,為數(shù)據(jù)分析提供統(tǒng)一的數(shù)據(jù)視圖。文獻[7]針對服務數(shù)據(jù)多源異構、數(shù)據(jù)關系復雜的特點,提出基于異構信息網絡的服務聚合方法。該方法構建了服務異構信息網絡,并提出基于服務實體間不同元路徑的相似度度量方法,結合協(xié)同過濾方法,在BPR模型訓練框架下學習面向服務聚合的服務推薦模型。這種將服務數(shù)據(jù)表示成統(tǒng)一的異構信息網絡的方式,有效整合了多源異構數(shù)據(jù)。文獻[8]對面向異構關系模式中關于關聯(lián)數(shù)據(jù)的一致性規(guī)則發(fā)現(xiàn)問題進行研究,說明不論同源數(shù)據(jù)還是異源數(shù)據(jù),數(shù)據(jù)之間是相互關聯(lián)的,可以利用這種關系強化規(guī)則約束中語義含義的表達作用,發(fā)現(xiàn)數(shù)據(jù)中的潛在錯誤。

從分布式科技資源來看,來自不同機構的專業(yè)科技資源數(shù)據(jù)屬于各自的數(shù)據(jù)系統(tǒng),每個系統(tǒng)都有其自己定義的數(shù)據(jù)結構,無法直接跨平臺共享。基于以上問題,本文將探討一種資源池數(shù)據(jù)融合方法,為分布式科技資源數(shù)據(jù)共享平臺提供支持。

2 專業(yè)科技資源數(shù)據(jù)融合

2.1 分布式資源數(shù)據(jù)融合設計

數(shù)據(jù)融合分析最主要的關注點是結構化數(shù)據(jù),結構化數(shù)據(jù)的處理方法中應用最廣泛的工具是Excel,利用Python編程語言對不同類型的數(shù)據(jù)進行分析,并將其可視化。但現(xiàn)實中,共享平臺上的數(shù)據(jù)來源往往較多,無法直接利用上述處理方法。我們需要對不同來源的數(shù)據(jù)進行清洗、融合,使其成為標準化的結構數(shù)據(jù),存儲到相應的數(shù)據(jù)庫中或者直接輸出。

本文對異構分布式數(shù)據(jù)融合方法設計如圖1所示。首先采集分布式資源池原始數(shù)據(jù),由于分布式資源池數(shù)據(jù)存在異構現(xiàn)象,采集得到的數(shù)據(jù)格式各不相同。如萬方數(shù)據(jù)為JSON格式,東方靈盾數(shù)據(jù)為數(shù)據(jù)庫格式,因此需要將采集得到的分布式異構數(shù)據(jù)轉換為統(tǒng)一的標準數(shù)據(jù)庫格式。之后進行數(shù)據(jù)預處理操作,對格式混雜且存在冗余現(xiàn)象的原始數(shù)據(jù)進行亂碼等錯誤字段的清洗和重復數(shù)據(jù)的篩選及互補,并標記資源來源。最后進行異構分布式數(shù)據(jù)的融合,并將融合后的結果輸出到標準數(shù)據(jù)庫中。

圖1 分布式資源數(shù)據(jù)融合設計

本文的數(shù)據(jù)預處理主要采用基于Java的MyBatis數(shù)據(jù)持久層框架。Java面向對象編程語言,語法結構和編程形式簡單易用[9]。MyBatis框架中避免了程序員直接進行JDBC相關代碼操作,與JDBC相比,減少了50%以上的代碼量,消除了JDBC大量冗余代碼,無需手動進行開關連接,實現(xiàn)了Java程序代碼與SQL語句的剝離[10]。

2.2 專業(yè)科技資源數(shù)據(jù)融合

2.2.1 科技資源數(shù)據(jù)庫連接和導入

原始數(shù)據(jù)分為SQL格式和JSON格式,分別如圖2、圖3所示,數(shù)據(jù)來源為東方靈盾、寧波信息院、萬方數(shù)據(jù)網站的模擬數(shù)據(jù)。

圖2 SQL腳本文件數(shù)據(jù)格式

圖3 JSON格式文件

通過數(shù)據(jù)庫將這2種格式文件導入數(shù)據(jù)庫中,再通過MyBatis對數(shù)據(jù)庫的表進行操作,先建立表對應的實體類和對應的數(shù)據(jù)庫訪問接口,如圖4所示。

圖4 對應的實體類和數(shù)據(jù)庫接口

數(shù)據(jù)對象w_patent、d_patent、n_patent分別如圖5、圖6、圖7所示。

圖5 萬方的部分模擬數(shù)據(jù)

圖6 東方靈盾的部分模擬數(shù)據(jù)

圖7 寧波信息院的部分模擬數(shù)據(jù)

2.2.2 科技資源數(shù)據(jù)預處理

讀取出數(shù)據(jù)庫中的信息后,將讀取出的對象轉成w_chinese_patent實體類,部分個別列的數(shù)據(jù)類型需要相互轉換,比如某些表中的日期是字符串類型,而w_chinese_patent中則是日期類。完成轉換操作后,因為不同的表中含有來自不同平臺的數(shù)據(jù),建議在數(shù)據(jù)末端添加該條數(shù)據(jù)的來源,所以轉換完成后在w_chinese_patent實體類中手動添加resource_from。清理代碼、添加來源如圖8、圖9所示。

圖8 數(shù)據(jù)清理代碼

圖9 數(shù)據(jù)添加來源

2.2.3 異構分布式資源的融合及輸出

處理完數(shù)據(jù)后,需要將3個表通過全連接的方式融合在1個表項中,以保證所有數(shù)據(jù)項都會存在新表中,且無遺漏的數(shù)據(jù)項。融合代碼如圖10所示。

圖10 數(shù)據(jù)融合代碼

融合后的數(shù)據(jù)會有重復字段及多余字段,需將這部分字段進行清理,按要求輸出121列需要的數(shù)據(jù)。代碼如圖11所示。

圖11 按要求輸出所需數(shù)據(jù)代碼

將數(shù)據(jù)信息完整導入數(shù)據(jù)庫中,方便其他系統(tǒng)調用。數(shù)據(jù)庫的處理結果如圖12所示。

圖12 數(shù)據(jù)庫中融合后的標準數(shù)據(jù)

3 結 語

本文針對幾種異構專業(yè)科技資源結構化數(shù)據(jù)格式不統(tǒng)一、數(shù)據(jù)冗余、輸出格式混亂等問題,采用Java作為主要工具,利用MyBatis對多個來源的異構數(shù)據(jù)進行數(shù)據(jù)預處理、清洗和融合,并存儲在MySQL數(shù)據(jù)庫中。實現(xiàn)了不同科技資源可視化跨平臺共享。通過對萬方、東方靈盾及寧波信息院等專業(yè)科技資源數(shù)據(jù)的融合實驗證明,該方法可有效實現(xiàn)異構科技資源的融合,支持科技資源跨平臺共享系統(tǒng)的構建。

猜你喜歡
跨平臺數(shù)據(jù)庫科技
跨平臺APEX接口組件的設計與實現(xiàn)
測控技術(2018年9期)2018-11-25 07:44:58
科技助我來看云
科技在線
數(shù)據(jù)庫
財經(2017年2期)2017-03-10 14:35:35
科技在線
數(shù)據(jù)庫
財經(2016年15期)2016-06-03 07:38:02
數(shù)據(jù)庫
財經(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(2016年6期)2016-02-24 07:41:51
科技在線
基于QT的跨平臺輸電鐵塔監(jiān)控終端軟件設計與實現(xiàn)
主站蜘蛛池模板: 国产不卡在线看| 91色在线观看| 国产清纯在线一区二区WWW| 日韩欧美国产区| 亚洲国产精品一区二区第一页免 | 天堂网国产| 欧美区日韩区| 东京热一区二区三区无码视频| 国产人成在线视频| 亚洲天堂精品在线观看| 亚欧乱色视频网站大全| 国产精品理论片| 国产欧美日韩另类精彩视频| 综合色亚洲| 欧美精品一区二区三区中文字幕| 亚洲无码91视频| 久久亚洲国产视频| 亚洲国产精品无码久久一线| 欧美精品在线视频观看| 黄色网址免费在线| 丰满人妻被猛烈进入无码| 欧美日本二区| 欧美一级在线播放| 国产99视频在线| 免费啪啪网址| 99精品福利视频| 五月天久久婷婷| 日韩天堂网| 久久综合丝袜日本网| 国产手机在线ΑⅤ片无码观看| 亚洲精品国产首次亮相| 日韩精品一区二区三区免费| 欧洲欧美人成免费全部视频| 黄色成年视频| a毛片在线| 免费a级毛片视频| 国产成人综合日韩精品无码首页| 日韩毛片免费观看| 国产精品大尺度尺度视频| 色丁丁毛片在线观看| 国产精品视频观看裸模 | 中文字幕亚洲电影| 久久这里只有精品66| 日韩欧美国产中文| 456亚洲人成高清在线| 久久国产黑丝袜视频| 99免费在线观看视频| 亚洲区第一页| 伊人蕉久影院| 成年人国产网站| 波多野结衣无码中文字幕在线观看一区二区| 欧美精品亚洲精品日韩专| 国产精品网拍在线| 国产一区二区三区免费| 亚洲无码日韩一区| 亚洲天堂网站在线| 99在线观看国产| 97在线公开视频| 亚洲国产精品不卡在线| 国产精品欧美亚洲韩国日本不卡| 国产中文一区a级毛片视频| 在线a视频免费观看| 亚洲三级电影在线播放| 色综合久久88色综合天天提莫| 国产美女一级毛片| 国产精品色婷婷在线观看| 久久精品这里只有精99品| 国产亚洲欧美日韩在线一区二区三区| 热re99久久精品国99热| 97狠狠操| 久久亚洲黄色视频| 一本大道视频精品人妻| 中文字幕亚洲综久久2021| 欧美人与牲动交a欧美精品| 欧美不卡视频在线| 欧美精品亚洲精品日韩专区va| 亚洲一区第一页| 国产成人精品在线1区| 国产成人凹凸视频在线| 高清欧美性猛交XXXX黑人猛交 | 久久美女精品国产精品亚洲| 在线观看国产小视频|