999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向服務的數據集成技術研究*

2014-01-16 15:56:32
艦船電子工程 2014年4期
關鍵詞:數據挖掘信息方法

(中國電子科技集團公司第二十八研究所 南京 210007)

1 引言

軍事信息化在未來網絡化和服務化體系結構下,數據集成將面臨分布式異構、海量數據資源共享等諸多挑戰。數據的網絡化部署,不斷擴展和變化,一般通過服務發布和共享;隨著網絡的建設和數字化發展,數據的規模越來越龐大;數據類型更為廣泛,包括半結構/非結構化文檔、流媒體、各類專用格式報文等。傳統的數據集中(實體化方法)或邏輯(虛擬化方法)上集中存儲的方法不再可行,而如何利用各類新技術如大規模分布是數據挖掘、流式數據處理等,來解決網絡化的異構數據庫的數據、網絡化的非結構化數據信息集成問題,為網絡化服務化的各類信息系統提供數據和信息支撐。

2 服務化架構數據集成框架

為實現網絡化數據的集成,從數據和網絡化技術兩個層面相關技術來實現。在數據層面主要通過元數據技術提高信息的可見性;應用層面主要通過信息目錄技術對各類資源進行整合、通過信息搜索技術進行搜索和發現、通過信息聚合及挖掘技術實現信息的二次開發和利用。

基于相關技術和原理提出網絡化基于發現元數據的數據集成框架,見圖1。主要分為兩層:數據及模型支撐層,數據集成服務支撐層。

在數據及模型支撐層,最底層為將進行網絡化共享的原始數據,包括各類多媒體數據、結構化數據、非結構化數據等;在其之上,存儲對結構化數據進行描述的結構元數據,對結構化數據、半結構化/非結構化數據、流媒體等多媒體數據等進行統一的描述發現元數據;以及支撐數據集成服務的各類數據,包括支持信息目錄的目錄庫,支持信息搜素的索引文件和詞庫,支持信息聚合的聚合庫和挖掘庫;在模型方面主要是基于Lucene的搜索引擎模型和Weka模型庫。

圖1 基于發現元數據的數據集成框架圖

數據集成服務支撐層主要建立在Web服務體制上,統一通過信息門戶作為用戶操作的入口;應用軟件主要分為面向直接使用的用戶的應用和面向信息管理的應用;面向信息管理的應用主要包括信息目錄的目錄整編和目錄發布,對元數據的管理,對各類結構化和非結構化數據的信息搜索及索引/詞庫的管理,對信息聚合的需求采集、信息整編及數據挖掘的確定等。

3 關鍵技術原理及方法

3.1 發現元數據技術

信息發現元數據和領域結構元數據是元數據的主要組成,其中信息發現元數據著眼于資源基本屬性的描述,其目的是提高資源的可見性,增強信息的能力,而具體領域內的結構元數據是針對不同業務的數據命名、數據類型、數據結構和數據間基本關系的規范性描述,為數據的重用提供結構信息的參考[1]。

發現元數據是目前網絡上廣泛采用的用于描述信息的技術方法,提高信息資源網絡發現能力和可見性,相關領域的標準較多,較為著名的包括用于網絡化圖書資源的都柏林核心元數據標準和美國國防部的發現元數據標準DDMS(Dod Discovery Metadata Standard)等。

都柏林核心元數據(Dublin Core Metadata)(簡寫DC),1995年3月,由OCLC與國家超級計算應用照哦功能性(NCSA)聯合發起,52位來自圖書館界、電腦網絡界專家公同研究產生。目的是希望建立一套描述網絡電子文獻的方法,以便網上信息檢索。DC的15項著錄項目[2]包括:Title(題名)、Creator(創建者)、Subject(主題)、Description(說明)、Publisher(出版者)、Contributor(其他責任者)、Date(制作日期)、Type(類型)、Format(格式)、Identifier(標識符)、Source(來源)、Language(語種)、Relation(關聯)、Coverage(覆蓋范圍)、Rights(權限)。

元數據在軍事領域也得到了應用,是軍事信息共享和發現的基礎,其中發現元數據成為元數據建設的重要內容,美軍的國防部發現元數據標準DDMS(Dod Discovery Metadata Standard)就是旨在提高數據的可見性,使得用戶能夠更方便的獲得所需的信息,有效的實現數據的共享。美軍2011年DDMS(《Department of Defense Discovery Metadata Specification(DDMS)Version 4.0.1》)[3]主要定義了核心層和擴展層,如圖2所示。

圖2 DDMS的邏輯模型

建設信息發現元數據標準將為軍事信息的一體化奠定基礎,對提高信息共享水平和信息發現能力具有重要的意義。

3.2 信息目錄技術

信息目錄是網絡化信息登記、造冊、發布、發現、定位、實現交換的關鍵組成[4]。發現元數據用于一般性資源描述,特別是互聯網語義信息的描述。通過信息目錄可進一步對信息進行整理,提高信息的可用性和友好性。

其實現步驟包括兩步:元數據目錄部分負責將訪問數據的請求映射為訪問數據載體的請求,實現第一次映射的功能;資源信息目錄負責將訪問數據載體的請求映射到具體的數據載體上,實現第二次映射的功能。

在技術實現方案,主要包括信息目錄的集中存儲或分布存儲;分布存儲涉及信息目錄信息的同步策略及相關技術;存儲方式包括數據庫存儲或基于LDAP的技術實現。

3.3 信息檢索技術

通常,信息檢索需要具備建立索引和提供查詢的基本功能[5],此外還需提供用戶接口、面向互聯網的開發接口、二次應用開發接口等。因此,信息檢索系統應包括索引引擎、查詢引擎、文本分析引擎、對外接口以及各種外圍應用系統。圖3展示了信息檢索系統的基本功能結構[6]。

圖3 信息檢索系統基本功能結構圖

信息檢索系統比較常用的檢索引擎是基于Lucene的搜索引擎模型。它能夠為任何可以轉換成文本格式的數據進行索引和搜索,具有訪問索引時間快,多用戶訪問,跨平臺使用的特點[5]。

對于中文系統來說,文本分析引擎最關鍵的技術之一是中文分詞法。中文分詞算法可分為三類:基于字符串匹配的分詞法、基于理解的分詞法和基于統計的分詞法。目前,基于字符串匹配的正向最大匹配算法是最常使用的中文分詞方法,它由詞典和切分規則構成,遵循“長詞優先”的原則,即從左向右與詞典匹配,要求每一句分詞結果中詞匯量最少。比如,“中”是一個詞,其還可以構成“中國”、“中國人”等一系列詞,當需要分詞的語句中出現“中國人”時,正向最大匹配的分詞結果為“中國人”,而不是“中國”和“人”等其它結果。

3.4 信息聚合技術

信息聚合,指將來自于多個分布的、異構的信息資源中的內容整合在一起。信息聚合技術有面向萬維網,有面向語義網(基于關聯數據Mashup)[7]。

面向萬維網的信息聚合就是通過客戶端軟件或網絡應用程序將諸如新聞頭條、博客、播客等網絡信息聚合到單一地點以方便用戶瀏覽[8]。目前基于RSS的信息聚合服務,發展為社會化聚合服務,如Twitter Feed,Facebook等。其有效解決了網絡信息資源的有序組織、有效傳播,是用戶、技術和服務三者間互動模型的建立與變化過程。

面向語義網的關聯數據技術,是一種用來發布和聯接各類數據、信息和知識的標準,采用RDF(資源描述框架)數據模型,利用URI命名數據實體,并在網上發布,或形成數據網絡。

3.5 數據挖掘技術

完整的數據挖掘過程,是一個不斷調整、修改與循環的過程,包括三大步驟:數據預處理、數據挖掘以及評估與表示,如圖4所示。數據預處理步驟,依次包括數據清洗、數據集成、數據選擇和數據變換四個過程。數據挖掘步驟,主要是通過一系列的數據挖掘算法,對經過處理的數據進行知識發現的過程。評估與表示步驟主要包括模式評估階段和知識表示階段,模式評估是指根據某種興趣度量來識別表示知識的真正有趣的模式;知識表示是指使用可視化和知識表示技術,向用戶展現挖掘的知識。三大步驟之間反復循環、調整,直到得到滿意結果為止。

圖4 數據挖掘的過程

數據挖掘方法可以分為六大類別[9]:

·廣義知識挖掘:被挖掘出的廣義知識可以結合可視化技術以直觀的圖表形式展示給用戶。

·關聯知識挖掘:找出數據庫中隱藏的關聯信息,最著名的是Agrawal提出的Apriori及其改進算法。

·類知識挖掘:主要包括分類和聚類兩類。分類常用的方法有決策樹、貝葉斯分類、神經網絡、遺傳算法與進化理論、支持向量機、關聯分類、類比學習(近鄰學習)、粗糙集、模糊集等。聚類算法主要分為基于劃分、層次、密度、網格及模型的聚類方法五大類別。

·預測型知識挖掘:主要的方法有經典的統計方法、神經網絡和機器學習等技術。

·特異型知識挖掘:揭示了事物偏離常規的異常規律。主要分為孤立點分析、序列異常分析和特異規則發現三類。

·自定義數據挖掘:用戶可以通過此接口將自己編寫的算法保存在平臺上,供日后使用或出售等。此接口使得平臺具有更強的開放性和擴展性。

其中,關聯知識挖掘和類知識挖掘是較為廣泛應用的方法。關聯規則是數據中蘊含的一類重要規律,對關聯規則進行挖掘是數據挖掘中的一項根本任務,甚至可以說是數據庫和數據挖掘領域中所發明并被廣泛研究的最為重要的模型。簡言之,關聯規則挖掘是發現大量數據中項集之間的關系或相關聯系[10]。聚類分析就是按照某種相似性度量,具有相似特征的樣本歸為一類,使得類內差異相似度較小,而類間差異較大[11]。迄今為止。聚類還沒有一個學術界公認的定義,其主要方法包括:基于劃分的聚類方法、基于層次的聚類方法、基于網格的聚類方法、基于密度的聚類方法、基于模型的聚類方法等。

數據挖掘常用方法的開源產品較多,Weka是其中較為優秀的產品。它是由新西蘭懷卡托大學開發的開源項目,具有以下特點:跨平臺、支持結構化文本、支持數據挖掘格式的文件、提供數據庫接口;能完成預處理、分類、聚類、關聯、可視化等任務;提供算法組合、用戶算法嵌入、算法參數設置;能生成基本報告,實現模型解釋;實現數據、挖掘過程、挖掘結果的可視化[12]。

4 結語

傳統的基于實體化(數據倉庫等)和虛擬化(全局視圖等)的數據集成方法越來越不能滿足未來網絡化的海量異構,特別是用戶對大量非結構化、流媒體數據的需求,本文結合各類服務化新技術,提出網絡化數據集成框架和相關關鍵技術,對適應未來不斷發展的服務化架構網絡化的大數據支持進行有意的探討。

[1]伯瓊,趙小燕,等.自動抓取元數據標簽中DC元數據的模塊設計[J].重慶教育學院學報,2010,23(3):9-13.

[2]徐險峰.網絡信息資源的Dublin Core元數據編目[J].農業圖書情報學刊,2009,21(2):52-54.

[3][美]Defense Information Systems Agency.Department of Defense Discovery Metadata Specification(DDMS)Version 4.0.1[M].2011,11:18-21.

[4]陳明文,朱勤東,等.省級政府信息目錄編制實踐與探索[J].電子政務,2010(1):104-110.

[5]劉靜.淺析Lucene的查詢技術[J].電腦知識與技術,2012,11(8):24-25.

[6]葛振國.基于Lucene的數據庫全文檢索研究與應用[D].成都:西南石油大學碩士學位論文,2010:4-8.

[7]丁楠,潘有能.基于關聯數據的圖書館信息聚合研究[J].圖書與情報,2011(6):50-53.

[8]鄧勝利.信息聚合服務的發展和演變研究[J].情報資料工作,2012(1):79-83.

[9]黃章樹,劉晴晴.基于云計算服務模式的數據挖掘應用平臺的構建[J].電信科學,2012:53-57.

[10]歐陽林,譚駿珊,等.經典關聯算法分析和Weka數據挖掘應用[J].探索與觀察,2012(5):8-10.

[11]周濤,陸惠玲.數據挖掘中聚類算法研究進展[J].計算機工程與應用,2012,48(12):100-111.

[12]鄭世明,苗壯,等.Weka環境下基于模糊理論的聚類算法[J].解放軍理工大學學報(自然科學版),2012(1):22-26.

猜你喜歡
數據挖掘信息方法
探討人工智能與數據挖掘發展趨勢
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數據挖掘云服務及應用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
基于GPGPU的離散數據挖掘研究
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲欧美成人在线视频| 欧美综合中文字幕久久| 亚洲一级毛片在线观| 亚洲综合专区| 国产精品妖精视频| 伊人久久大线影院首页| 丁香婷婷久久| 婷婷在线网站| 欧美日韩国产精品va| 亚洲综合亚洲国产尤物| 国产成人久久777777| 美女免费黄网站| 日韩国产综合精选| 午夜久久影院| 国产电话自拍伊人| 亚洲IV视频免费在线光看| 久久久久国产精品嫩草影院| 亚洲精品无码不卡在线播放| AV无码无在线观看免费| 奇米影视狠狠精品7777| 欧美自慰一级看片免费| 国产h视频在线观看视频| 精品福利视频导航| 91免费国产在线观看尤物| 中字无码精油按摩中出视频| 麻豆AV网站免费进入| 91精品国产自产91精品资源| 成人午夜天| 日本免费一区视频| 全免费a级毛片免费看不卡| 波多野结衣视频网站| 成人福利视频网| 日韩无码视频网站| 亚洲欧美成人在线视频| 久久久久亚洲AV成人人电影软件| 国产亚洲精久久久久久久91| 国产在线八区| 中文字幕在线视频免费| 国产女同自拍视频| 国产网友愉拍精品| 免费高清毛片| 制服丝袜无码每日更新| 国产欧美日韩va| 69免费在线视频| 久久免费精品琪琪| 99久久人妻精品免费二区| 97se亚洲综合在线天天| 69精品在线观看| 欧美一区二区三区香蕉视| 亚洲三级成人| 免费人成在线观看成人片| 无码内射在线| 国产91特黄特色A级毛片| 国产欧美日韩在线在线不卡视频| 日本一区中文字幕最新在线| 国产精品久久久精品三级| 波多野结衣无码AV在线| 亚洲成人动漫在线| 高清色本在线www| 在线精品视频成人网| 激情综合网址| 97av视频在线观看| 亚洲日韩精品伊甸| 99久久亚洲精品影院| 人妻丝袜无码视频| 99r在线精品视频在线播放| 九色免费视频| 亚洲男人的天堂在线| 美女被狂躁www在线观看| 国产精品19p| 国产麻豆精品在线观看| 亚洲乱码在线视频| 免费观看成人久久网免费观看| 欧美一级片在线| 国产成人免费观看在线视频| 91麻豆国产在线| 欧美成人国产| 精品小视频在线观看| 人人91人人澡人人妻人人爽| 欧美日本在线| 免费又黄又爽又猛大片午夜| 国产成人一区二区|