999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據下的實體識別算法研究

2015-09-10 11:37:30張風榮
考試周刊 2015年90期
關鍵詞:數據質量

張風榮

摘 要: 大數據下的實體識別是提高數據實體同一性的關鍵步驟。本文概述了實體識別問題,介紹了不同類型的實體識別算法,重點分析了復雜數據類型的大數據實體識別算法,最后對實體識別算法的相關研究進行了展望。

關鍵詞: 數據質量 數據清洗 實體識別

1.引言

在現實信息應用系統中如:多媒體、社交網絡、物聯網等諸多領域每天都積累了ZB級的大數據,這些數據具有規模龐大、涌現的速度快、可挖掘的價值大等特點,但同時有大量劣質數據存在,這些數據具有重復性、不完整性、陳舊性等特點。有關大數據質量的系列問題已經引起產業界和學術界的關注和重視。劣質數據降低了信息的可用性,給用戶提供錯誤的信息,誤導用戶做出錯誤的決策,從而給用戶造成損失。統計數據顯示,50%以上的數據倉庫項目由于數據質量問題而不得不取消或延遲。在典型的信息系統項目中,時間和成本預算的30%~80%實際用于清理數據而非系統開發。專家估算目前數據質量問題平均給每個企業增加的成本是企業收入的10%~20%。

目前,并沒有統一的數據質量的定義形式。有關文獻從六個維度闡述了數據質量的定義標準,包括:精確性(accuracy)、完整性(completeness)、時效性(timeliness)、一致性(consistency)、實體同一性(entityidentity)及相關性(relevancy)。其中,實體同一性指的是數據同應用需求的契合程度,描述同一個現實世界事物的數據冗余程度。實體識別在數據質量管理中有重要作用,是數據質量管理的主流研究方向之一。本文主要從針對各種數據模型總結數據質量中實體識別的算法的相關工作,并就其中的相關算法展開論述。

2.實體識別問題

大數據中的實體識別是指在給定的大數據集中準確發現屬于同一實體的不同記錄并將其聚類,使得每個實體簇在現實世界中表示同一對象的過程。實體識別是提高數據實體同一性方面質量的關鍵步驟。從形式化角度定義實體統一性:給定一個數據實體的集合D和一個物理實體集合O,求解一個集合D的劃分P(其中P是由一系列D的不相交子集合構成,且P中所有集合并的結果與D相同)及P與O之間的一一對應關系。在實際應用中,數據實體D很容易獲得,而物理實體集合O很難獲得。因此在數據量大的情況下評價給定實體解析算法的優劣非常困難。也就是說,只要求將表示同一物理實體的數據實體放入一個集合,而不要求建立P與O之間的關系,該問題則稱為實體識別問題。因此,根據實際具體的需求,借助不同的方法學,針對適合的問題定義,給出系統的解決方案。

在不同的應用領域,有不同的方法描述實體識別的過程。在單數據源中,內部實體使用唯一標識符或特征屬性精確匹配來區別。在分布式系統中,由于不同的設計目的和角度,現實世界中的同一個實體也不可能有相同的標識符或者是相同的特征屬性,因此,必須采樣合適的方法實現實體識別。

3.實體識別過程

實體識別包括預處理階段、特征向量的選取、比較函數的選取、搜索空間的優化、決策模型的選取和結果評估六個階段。

預處理階段是實體識別過程的關鍵階段,在該階段中要實現數據的標準化處理包括空格處理、字符大小寫轉換、復雜數據結構的解析和格式轉換、上下文異構的消除等。隱馬爾科夫模型是在該過程中對數據進行標準化處理的常用方法。

特征向量是指能夠識別實體的屬性的集合。特征向量的選取方法包括領域專家手工指定和機器學習方法。決策模型是在搜索空間中進行特征向量比較中判斷實體是否匹配的決策模型的選取。一種是概率模型如Fellegiandsunter模型,另一種是基于經驗的模型,根據領域專家的經驗設置門限值。

評估結果有匹配、不匹配和可能匹配。不能確定的匹配結果需要人工進行評審,對評審過程中發現的問題進行調整或者改進決策模型,以期獲得更高精度的實體識別效果。

4.實體識別相關研究

早期的實體識別算法主要是利用記錄之間的相似性進行比較,運用規則的方法和閾值確定兩條記錄是否為同一個實體。在機器學習方法中動態生成相似性函數獲取一個分類器,有效結合多個屬性的相似性并且較準確地判定每對記錄是否能被匹配為同一實體。基于規則的方法是根據規則確定不同記錄是否描述同一實體。有學者提出了一個基于Map-Reduce框架的大數據實體識別算法,該算法首先通過屬性值計算記錄間的相似程度,而后基于圖聚類的方法實現實體識別。

復雜數據是指在現實應用中產生的如XML數據、圖數據和網絡數據等。同一實體具有不同的復雜的數據描述方式,為了有效對這些數據實施質量管理,必須對復雜數據進行快速有效的實體識別。復雜數據上的實體識別可以分為成對識別和成組識別。根據識別對象的不同,復雜數據的實體識別分為XML數據實體識別、圖結構數據實體識別和復雜網絡中節點的實體識別。

5.大數據下的實體識別算法展望

單數據源的實體識別算法已經趨于成熟,但在大數據環境下的實體識別技術還是比較少。同時,針對大數據環境下的復雜結構數據的研究剛剛起步,海量復雜數據上的實體識別技術,特別是圖數據上的實體識別技術的研究還處于初級階段,大規模圖集合上的數據實體識別的工作尚未開展。

需要支持更新復雜數據上的實體識別技術,不斷更新互聯網、社會網信息要求設計更新紛繁復雜數據上的增量實體識別技術,為更新的數據確定其所描述的實體。

6.結語

多類型的復雜數據要求設計實體識別技術。對互聯網信息、進行有效的查詢、集成和分析需要多類型復雜數據的實體識別技術。

參考文獻:

[1]王宏志,樊文飛.復雜數據上的實體識別技術研究[J].計算機學報,2011,34(10):1843-1852.

[2]霍然,王宏志,等.基于Map-Reduce的大數據實體識別算法[J].計算機研究與發展2013,11:170-179.

[3]劉顯敏,李建中.實體識別問題的相關研究[J].智能計算機與應用,2013,2(3):2-4.

[4]李明達,王宏志,張佳程,等.PEIF:基于并行機群的大數據實體識別算法[J].2013,11:211-220.

[5]張建中,方正,等.對基于SNM數據清洗算法的優化[J].華南大學學報:自然科學版,2010,41(6):2240-2245.

基金項目:山東省科技計劃(J15ln78),院級課題:2015LG001。

猜你喜歡
數據質量
醫院衛生統計數據質量的影響因素及處理對策
電子商務平臺數據質量控制系統及仿真模型分析
現代情報(2016年11期)2016-12-21 23:41:05
基于大數據背景下提高供電局數據質量對策分析
強化統計執法提高數據質量
淺析統計數據質量
中國市場(2016年40期)2016-11-28 04:58:19
金融統計數據質量管理的國際借鑒與中國實踐
時代金融(2016年27期)2016-11-25 19:02:25
淺談統計數據質量控制
提高政府統計數據質量,增強政府公信力
企業統計工作之我見
統計學在質量管理中的應用研究
商(2016年13期)2016-05-20 09:28:35
主站蜘蛛池模板: 亚洲天堂伊人| 国产精品成人观看视频国产 | 久久精品丝袜高跟鞋| 亚洲欧美人成电影在线观看| 999国内精品久久免费视频| 制服无码网站| 高清无码一本到东京热| 国产香蕉在线| 亚洲成网站| 国产www网站| 亚洲欧洲日本在线| 国产一区亚洲一区| 亚洲午夜国产精品无卡| 欧美第一页在线| 无码国产偷倩在线播放老年人| 亚洲AⅤ综合在线欧美一区| 在线色综合| 久久综合AV免费观看| 亚洲国产成人久久77| 尤物在线观看乱码| 亚洲精品第一页不卡| 在线播放国产99re| 成人福利在线视频| 天天色天天操综合网| 婷婷色在线视频| 久久久久国产精品嫩草影院| 国产91线观看| 麻豆a级片| 秋霞国产在线| 国产午夜在线观看视频| 亚洲精品无码AⅤ片青青在线观看| 中文无码伦av中文字幕| 人妻无码一区二区视频| 人妻丰满熟妇AV无码区| 午夜丁香婷婷| 狠狠色噜噜狠狠狠狠色综合久| 无码一区中文字幕| 国产成人亚洲精品无码电影| 丁香婷婷在线视频| 一级香蕉人体视频| 波多野结衣亚洲一区| 亚洲福利一区二区三区| 香蕉久人久人青草青草| 性做久久久久久久免费看| 国产99视频精品免费观看9e| 国产高清无码麻豆精品| 亚洲第一成年人网站| 亚洲码一区二区三区| 免费人成黄页在线观看国产| 精品国产91爱| 精品综合久久久久久97| 成人av专区精品无码国产| 欧美精品v欧洲精品| 免费毛片全部不收费的| 91精品人妻一区二区| 亚洲av成人无码网站在线观看| 国产精品亚洲天堂| 亚洲综合精品第一页| 亚洲一道AV无码午夜福利| 免费又爽又刺激高潮网址| 国产精品视频a| 色噜噜在线观看| 欧美a级在线| 日本亚洲最大的色成网站www| 国产精品福利导航| 毛片免费观看视频| 狠狠ⅴ日韩v欧美v天堂| 毛片手机在线看| 全免费a级毛片免费看不卡| 国产在线一区视频| 国产伦精品一区二区三区视频优播| 国产青榴视频| 精品亚洲麻豆1区2区3区| 欧美日韩成人在线观看| 2021精品国产自在现线看| 特级毛片8级毛片免费观看| 国产精品视频猛进猛出| 精品福利国产| 91久久国产热精品免费| 国产亚洲欧美日韩在线一区二区三区| 欧美午夜在线观看| 日本在线亚洲|