999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

實例層數據清洗技術研究

2022-05-30 04:33:44胡文瑜應康輝
計算機技術與發展 2022年5期
關鍵詞:排序檢測方法

胡文瑜,應康輝*

(1.福建工程學院 計算機科學與數學學院,福建 福州 350118;2.福建省大數據挖掘與應用技術重點實驗室,福建 福州 350118)

0 引 言

隨著信息技術的高速發展,生成、收集和存儲大型數據集變得越來越容易。雖然通過大數據分析可獲得有價值的信息與智慧見解,但這是建立在數據可用性或臟數據被充分清洗的基礎上。影響數據可用性的因素包括:不一致值、重復值、空值和拼寫問題等。數據清洗是清洗數據中存在的錯誤和不一致等問題來提高數據質量[1]。數據質量問題分為數據模式和實例數據,數據清洗也分為模式層清洗和實例層清洗。模式層的清洗主要是完整性約束、異構模式設計和結構沖突,需要通過程序自動發現或者人工實現清洗。實例層的清洗主要對屬性值和重復記錄進行清洗[2]。數據集中的屬性和重復記錄問題是臟數據的主要構成,均屬于實例層數據清洗目標,所以對實例層數據清洗技術的研究是有意義和價值的。

1 實例層數據清洗

數據清洗主要在數據倉庫、數據庫知識發現和決策支持這三個領域研究。數據倉庫領域中,數據清洗是構建數據倉庫的第一步。作為數據清洗中重要的組成部分,實例層數據清洗顯得更加重要。實例層數據清洗有以下兩個方面研究:(1)屬性錯誤檢測與消除:文獻[3]采用統計方法來檢測數值型屬性;聚類方法來尋找出字段級檢查不出的孤立點;分箱方法用于清洗異常數據。文獻[4]對關系中的數據進行插入、刪除等操作來消除數據冗余問題。(2)重復記錄檢測與消除:采用基于語義和字面的檢測方法來檢測重復記錄;優先隊列、近鄰排序等方法消除重復記錄[5-6]。表1介紹了一些國內外研究方法。圖1描述了實例層數據清洗算法分類。

表1 現有的一些國內外實例層數據清洗方法

圖1 實例層數據清洗算法分類

1.1 屬性錯誤檢測

自動檢測屬性錯誤方法減少了人工操作且效率高,具體的方法有基于統計的方法[12]、聚類方法[13]和關聯規則方法[14]。表2對上述三種方法進行了比較。

表2 自動檢測屬性錯誤方法的比較

1.2 屬性錯誤清洗

屬性錯誤清洗包括3個方面:(1)清洗空缺值:采用忽略元組、全局變量、屬性的平均值和中間值等統計值來填充空缺值[15]。(2)清洗噪聲數據:采用分箱法,“箱的深度”表示不同的箱里有相同個數的數據,“箱的寬度”表示每個箱中數值的取值區間為常數,把屬性值分配到等深或等寬的“箱”中,用箱中屬性值的平均值來替換“箱”中的屬性值[16]。(3)清洗不一致數據:采用條件函數依賴、標準函數庫和匯總分解函數來清洗。例如屬性之間的關系采用函數依賴來清洗不一致數據。表3是關于屬性錯誤清洗方法的比較。

表3 屬性錯誤清洗方法的比較

1.3 重復記錄檢測

檢測重復記錄的方法有:基本的字段匹配方法[17]、Smith-Waterman算法、R-S-W算法、編輯距離方法[18]、基于N-gram的字符串匹配算法、中文字段匹配算法和余弦相似度函數[19]、基于統計的詞語相似度算法、基于語義資源的算法。

基本的字段匹配方法是把兩個分詞串中順序匹配的分詞個數除以所有分詞個數的平均值,計算出匹配度。如表4中兩條記錄中的地址字段值,字段匹配度=k/((|A|+|B|)/2)=0.85,|A|和|B|分別為A,B中分詞的個數。

表4 重復記錄例子

文獻[19]提出改進后的Smith-Waterman算法(R-S-W),該算法對拼寫錯誤和字符串的順序以及縮寫有著深入研究,卻無法應用在中文。文獻[20]提出基于N-gram的字符串匹配算法,對兩個字符串中n個字符進行排序組合及比較兩個字符串的極限閾值,從而得出兩個字符串是否相同。文獻[21]采用改進編輯距離方法來計算中文句子的相似度。文獻[22]提出了基于PMI-IR算法,該方法是搜索引擎來獲取數據并采用點互信息作為詞語相似度計算的指標。文獻[22]提出一種基于知網、面向語義的詞匯語義相似度計算方法,該方法通過概念切分解決知網中未登錄的語義相似度問題。表5是關于常用重復記錄檢測算法的比較。

表5 常用重復記錄檢測算法的比較

1.4 重復記錄清洗

消除重復記錄的算法有:優先隊列算法[23]、近鄰排序算法(SNM)、多趟近鄰排序(MPN)、優化的多趟近鄰排序算法(OMPN)[24]。優先隊列法是由Monge提出,首先數據集會根據關鍵詞進行排序,再對排序后的順序依次掃描數據集。Hernandez[24]提出近鄰排序法,該方法通過關鍵字進行排序,采用固定大小的滑動窗口在排序后的數據集上滑動并重復檢測窗口,減少記錄的比較次數。文獻[13]提出多趟近鄰排序法。該方法要求在排序的數據集上使用近鄰排序方法,但使用的是不同的關鍵詞和較少的窗口,而且還要對MPN算法的結果求傳統閉包。文獻[25]改進了近鄰排序算法,通過比較相似度與閾值來調整窗口值的大小,并加入有效權值來減少字段缺失的影響。文獻[25]中OMPN算法對MPN算法在選取排序關鍵字時過于依賴專家經驗的缺陷進行了改進。衡量三種近鄰排序算法的標準是召回率、誤識別率和精確度。表6是上述各種算法的比較。

表6 常用重復記錄清洗算法比較

上面分別對實例層數據清洗中屬性錯誤、重復記錄各自對應的方法進行比較和分析,屬性錯誤檢測中主要針對結構化和半結構化數據,還需要對非結構化數據進行研究。屬性錯誤清洗中分箱和回歸的方法都相對簡單,容易解決,但準確性不高。重復記錄檢測中的算法都比較簡單直觀,但是中英文和語義的關系不能兩者都實現,下一步還需要實現中英文和語義的結合。重復記錄清洗中近鄰排序、多趟近鄰排序和優化的多趟近鄰排序都是基于窗口大小和排序關鍵字來判別,而優先隊列只是運用關鍵字排序來判定,效果沒有排序算法的好。

2 數據清洗與其他領域的結合

數據清洗可以和其他領域進行結合,獲得更好的應用發展。例如,數據清洗中重復記錄技術或方法應用于電氣工程領域的數據匯聚與數據清洗中。隨著數字電廠的不斷建設、大數據平臺的逐步完善和智能設備的進一步推廣,電力系統數據量急劇增長,需要展開大量的數據分析,然而電力數據在采集、匯聚過程中會出現數據質量問題,造成數據融合困難,這就需要結合數據清洗方法,對電力數據進行實時校驗和清洗,提高數據的可用性[26]。下面介紹了數據清洗的一些應用領域,表7對實例層數據清洗與其他領域的結合情況進行了闡述。

2.1 醫療領域

醫療領域數據是需要進行數據清洗的一個領域,尤其在醫療體檢數據方面,由于醫療體檢中心只對受檢者提供當次的體檢報告,缺乏對受檢者歷史數據的分析,導致醫療機構體檢數據庫中存在基本信息缺失、體檢項目名稱不同、體檢指標參考值范圍不同的問題[27],因此需要對上述出現的問題進行數據清洗,從而保證數據的干凈。林予松等人[28]提出基于分詞和權重的字段匹配算法,解決了體檢數據不一致的問題,但還需要綜合考慮部分重心詞前移和算法準確性不高的情況。此外醫療體檢中數據容易出現唯一標志碼缺失問題,是數據清洗的主要障礙之一。

2.2 電氣領域

隨著電力系統信息化程度的提高和智能電網的加速建設,用戶電力數據量呈指數型增長狀態,但是電力數據量的增長而導致電力數據也出現諸多問題。文獻[29]將電力數據看成時間序列,用ARIMA擬合并迭代檢驗的方法修復缺失數據,但是該方法利用的信息較少,且不適合修復缺失點連續分布的情況。文獻[30]通過訓練RBF神經網絡作為狀態轉移方程,再利用卡爾曼濾波方法對數據進行濾波并修復,但是該方法計算量較大,在細節上把握不夠精確。田英杰等人[31]提出函數型數據分析對錯誤和缺失數據進行修正和補全。通過函數估計方法,將原有觀測個體的離散數據映射到一個新的函數空間,將數據中缺失的成分利用相似的方法修復缺失數據,但是該方法利用的信息較少,且不適合修復缺失點連續分布的情況。隨著用戶電力數據量逐步的增長,使得該領域數據清洗的任務變得更加困難和富有挑戰性。

2.3 交通領域

交通數據的采集和處理技術是智能交通系統的關鍵性技術,無線電和計算機技術的蓬勃發展使得RFID檢測技術作為一種新型檢測技術廣泛應用于道路交通數據采集。由于RFID檢測設備故障、通信系統故障及環境等異常原因,采集到的交通數據存在冗余、遺漏、錯誤和不精確的現象,將導致產生不穩定因素,影響交通狀態估計、預測及評價,進一步影響交通管理和公眾出行信息服務的質量。文獻[32]提出一種基于最大頻繁模式因子的高位孤立點挖掘算法,能解決孤立點挖掘算法中存在的不容易獲取完全頻繁模式和時間復雜度高等問題,并且可以減少占用內存,提高運行效率。為了減少數據的錯誤和冗余,對交通數據的數據清洗得更全面和準確。

表7 實例層數據清洗的領域應用情況

3 實例層數據清洗面臨的挑戰及應用研究展望

實例層數據清洗在某些特定領域的數據質量工程中有許多應用需求和應用研究,這些應用研究針對的是特定行業背景的數據清洗任務,但存在著技術局限和不足。文獻[36]采用四分位法和K-means算法消除異常值,由于K-means算法是一種聚類算法,可能會導致正常數據的錯誤刪除,此外K值的選擇比較復雜,對數據清洗的處理結果有不利影響。文獻[37]采用基于密度的局部離群因子算法將足夠高密度的區域劃分為簇,可以有效地檢測出散亂的離群點,但不適用于高密度的堆積離群點。文獻[38]是根據異常值的位置分布來檢測異常值,它不需要數據樣本訓練而且是普遍適用的。但是對大量堆積離群值的檢測和清除還需要改進,對風速功率曲線離群點的空間分布和形狀研究還待深入。文獻[39]分析了風力渦輪機中風電異常值的分布特征和分類,并提出了一種基于變點分組和四分位算法的聯合數據清理算法。該方法識別風電曲線的疊加異常值和散亂離群值,清洗效果好,效率高,通用性強,可以處理影響數據完整性的異常數據,但是沒有考慮數據校正和數據插值來提高數據質量,沒有根據實際情況來進行數據修正。文獻[40]的方法可以通過文本的重要關鍵詞在一定程度上體現文本的主題,而且統計詞頻處理相對簡單。但詞頻類算法只統計詞語出現的次數,卻忽略了關鍵詞所在文檔結構上的位置情況和上下文關鍵詞的關聯信息。文獻[41]提出結合眾包數據庫的集成機器學習算法,將人類標簽的準確性與機器學習分類器的速度與成本效益相結合,該方法可以提取半結構數據中的有效信息,在一定程度上可以更正數據中存在的缺陷,但是對半結構化數據進行規格化還是無能為力。文獻[42]提出非結構化數據融合方法,該方法降低數據噪聲的干擾,提取剩余數據,整合相關的數據,但是由于非結構化數據本身的特點,多源數據融合分析有很大的難度。

3.1 問題與挑戰

通過研究發現,實例層數據清洗是一個相對成熟但又期待有更多突破和創新的領域,技術發展的空間還很大,包括:

(1)數據相似度檢測的對象主要是數據庫中的短文本,對長文本的數據沒有進行充分研究,主要是長文本語言本身的復雜性和文本中的詞表結構數據有很強的依賴性。

(2)目前的研究成果主要適用于結構化數據,然而待處理的半結構化數據和非結構化數據的規模遠遠大于結構化數據。半結構化數據處理難度大且非結構化數據格式多樣、缺乏實效性、數據含義比較隱性不容易察覺。

(3)實例層數據清洗的算法目前人工參與度較高,不適合大規模數據的清洗。因此需要普適性好、通用性強、計算機能自動識別的實例層數據清洗算法。

(4)通用的數據清洗算法在專用數據集上都需要結合領域知識,因此需要逐步建立起電氣工程、光電技術等特定領域的數據清洗標準規則庫。

3.2 未來展望

就現階段的數據清洗研究工作取得的成績和存在的問題而言,未來可以通過以下幾個方面對數據清洗進行研究:

(1)長文本的相似度檢測:隨著文本信息的增多,長文本的檢測變得越來越需要,例如論文查重、新聞、大規模網頁去重等,采用基于語義信息的相似度檢測算法來去除長文本中多余的內容,并且能夠解決文本中同義詞替換以及一詞多義的問題,但是對可利用的信息數量與質量的要求比較高。因此可以結合已有的語義網、深度學習算法和半監督學習算法來提高數據質量。

(2)半結構化和非結構化數據的處理:目前數據結構多種多樣,不只是結構化數據的情況,非結構化和半結構化數據現在變得越來越多。采用基于正則表達式的屬性集識別方法來識別半結構化數據中的屬性集,并進行規則化操作。其實可以將主動學習優化成果應用在基于正則表達式的屬性集識別方法中,通過該方法加強機器的學習能力,進一步縮減人工參與。非結構化數據采用非結構化數據分析與決策系統能快速分析出來且發現其中隱藏的價值。可以結合Hadoop和機器學習方法來處理非結構化數據中低容錯率以及識別活動數據的情況。

(3)自動識別的數據清洗算法:自動的Web頁面清洗方法可以對相同或相似布局特征的海量Web頁面進行自行清洗,保存有價值的文本和內容。采用樹編輯距離的方法對Web頁面結構進行分類,可以更好地提高Web頁面清洗的準確率。

(4)特定領域的數據清洗標準庫:目前提出的基于編程語言的反射技術和python腳本的銀行領域數據清洗規則庫,有效降低了數據清洗的復雜度。再結合基于分級規則庫的方法來構建規則庫的邏輯關系,可以更好地減少數據清洗出錯率。

綜上所述,需要找到能適用于大數據、流數據、半結構化和非結構化數據集的實例層數據清洗解決方案,能在現有實例層數據清洗技術上找到時空效率高且通用性好的自動化數據錯誤檢測和錯誤糾正算法,能根據應用領域和數據集特點自動的選擇合適的實例層數據清洗技術,允許用戶在通用數據清洗技術上定制特定應用領域(比如電氣工程領域)的專用數據清洗規則。傳統的實例層數據清洗技術仍有研究和發展空間,期待著技術創新、應用創新和突破性進展。

猜你喜歡
排序檢測方法
排序不等式
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
恐怖排序
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲天堂成人在线观看| 极品国产在线| 国产精品手机在线观看你懂的| 青青草原国产| 一本大道东京热无码av| 婷婷六月激情综合一区| 国产在线八区| 国产午夜一级毛片| 中国国产A一级毛片| 无码免费的亚洲视频| Jizz国产色系免费| 小说区 亚洲 自拍 另类| 日本不卡免费高清视频| 亚洲成人播放| 亚洲自拍另类| 国产美女自慰在线观看| 97在线国产视频| 欧美a级完整在线观看| 久久亚洲国产一区二区| 免费在线成人网| 久久精品丝袜高跟鞋| 中文字幕永久视频| 国产极品美女在线观看| 中文字幕无码电影| 国产一区二区福利| 欧美成一级| 成人在线观看一区| 亚洲最大福利网站| 亚洲综合片| 伊人国产无码高清视频| 中文字幕在线观| 国产黑丝视频在线观看| 波多野衣结在线精品二区| www欧美在线观看| 影音先锋亚洲无码| 欧美精品综合视频一区二区| 午夜高清国产拍精品| 亚洲人成电影在线播放| 国产无码制服丝袜| 在线无码九区| 久久香蕉国产线看观看式| 另类欧美日韩| 色精品视频| 亚洲国产无码有码| 国产chinese男男gay视频网| 欧美一区二区精品久久久| 四虎国产成人免费观看| 欧美a在线看| 国产第一页免费浮力影院| 欧美在线伊人| 欧美成人a∨视频免费观看 | 国产午夜在线观看视频| 中文字幕日韩视频欧美一区| 亚洲第一中文字幕| 国产欧美高清| 国产精品成人AⅤ在线一二三四| 国产成人毛片| 亚洲无限乱码| 欧美伦理一区| 激情网址在线观看| 亚洲最大看欧美片网站地址| 亚洲国产精品一区二区第一页免| www亚洲精品| 国内精自线i品一区202| 韩日无码在线不卡| 成人在线观看不卡| 日韩在线播放中文字幕| 国产精品一区二区国产主播| 国产黄网永久免费| 国产精品视频导航| 国产99视频免费精品是看6| 91午夜福利在线观看| 欧美日本激情| 欧美性色综合网| 国产日本一线在线观看免费| 啪啪啪亚洲无码| 亚洲av无码片一区二区三区| 青青青国产免费线在| 九九九九热精品视频| 国产精品视频系列专区| 欧美a在线| 国产精品男人的天堂|