999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于屬性權重的實體解析技術探討

2018-06-27 02:38:48張晏李繼云
無線互聯科技 2018年5期
關鍵詞:大數據

張晏 李繼云

摘 要:大數據時代下,數據呈爆炸式的增長態勢,而這些數據結構本身有一定的差異,這為數據解析帶來較大難題。根據既往研究資料中提及,考慮引入基于屬性權重的實體解析技術,以此使數據解析與處理效率提升。文章對實體解析技術做簡單介紹,分析屬性權重基本模型,在此基礎上提出屬性權重下實體解析的方法。

關鍵詞:屬性權重;實體解析技術;大數據

數據海量的生成與處理為大多企業帶來較多難題,特別因實體表達形式不同,可能使錯誤信息產生,這就使實體解析面臨極多問題。盡管以往實體解析法應用下能夠處理多數據源記錄,且在發展中逐漸將數據預處理、比較函數選取以及特征向量選取等,但操作中仍可能將部分關鍵屬性忽視,降低解析結果準確性。在此背景下,考慮將屬性權重引入,保證實體解析的效率與準確度。因此,本文對屬性權重下實體解析技術的研究,具有十分重要的意義。

1 實體解析技術相關解讀

關于實體解析,覆蓋較多領域,如數據庫領域、機器學習領域、人工智能領域、信息檢索領域與統計學領域,各領域均強調利用實體解析技術做數據源的處理。如單一結構數據集,引入實體解析技術一般做相似度計算,計算方法選擇距離函數模型,如編輯距離,計算中對記錄相似度分析,同時明確實體之間關系,可借助語義信息進行記錄。再如結構不同數據,實體解析技術應強調匹配計算異構數據集,在明確數據集合的情況下,做匹配計算。需注意的是,因數據結構不同,所以引入實體解析方法中可能面臨如何確定屬性權重。從既往研究資料中可發現,一般認為所有屬性均可呈現為匹配屬性,其意味各數據記錄均有相應的屬性,所以在處理記錄匹配上能夠取得較高的效率。但這種處理方式應用下,直接導致部分關鍵屬性被忽視。有研究中也指出在屬性權重分配中,直接由專家指定屬性,雖然滿足匹配屬性要求,但若專家來自不同領域,在數據集觀點上有一定差異,所以最終指定的屬性難以保證一致。針對這些問題,需考慮如何在實體解析技術上優化[1]。

2 屬性權重模型構建

2.1 屬性權重模型基本定義

屬性權重模型是實體解析技術優化的基礎。本次研究中從多個定義對屬性權重模型進行分析,具體定義內容包括:(1)匹配屬性,基于相似度的屬性匹配,例如部分研究中提及記錄中相似度的屬性均作為匹配屬性。(2)最佳分類屬性,主要指按相關的原則由匹配屬性集合內挑選分類屬性,以信息增益方法為例,可計算各屬性信息增益值,這樣便可獲取權重,在此基礎上做最佳分類屬性的確定。(3)信息增益值,通過數據挖掘方法獲取信息增益,若得到的屬性信息增益值較大,意味屬性涵蓋的信息量較多,記錄中內部分特征也會被呈現出來。(4)基本相似度,與匹配屬性概念不同,該定義下的相似度獲取通過基本相似度函數實現,如編輯距離相似度函數,通過做單個屬性計算,獲取相似度。(5)最終相似度,需以基本相似度為基礎,取屬性權重加入,做復合運算便能獲取最終結果[2]。

2.2 屬性權重方法選擇

屬性權重方法常見的有相似度衡量、專家制定方法。以相似度衡量方法為例,強調使匹配記錄保持一定的相似度,特別部分Web數據源較多情況下,實體識別中便需明確匹配記錄,取相似度最小值,這種方式對于確定屬性權重準確度較高,但整個操作過程中涉及較大的計算量,重復匹配,同時在匹配結束后,不會對屬性賦予權重。另外一種方法即專家制定法,應用中要求有相關領域的專家對屬性權重進行確定,結合自身知識經驗對各屬性分配相應比重,最后選擇其中權重較高的屬性計算,獲取相似度結果。盡管這種方法運用下相對簡單,但因不同領域專家在數據集認知上有一定差異,所以所得出的結果準確性難以保證。針對上述兩種方法應用下存在的問題,本次研究中考慮引入其他兩種方式,包括信息增益、概率統計,旨在使權重分配準確率提高。其中信息增益法亦被稱之為IG法,實現的原理在于利用依托于數據挖掘,確定信息增益值后,若結果較大,意味屬性影響作用明顯,所以在最佳分類屬性集合中應選擇信息增益值較高的屬性。而引入概率統計方法,強調借助數據工具將數據集合中的規律挖掘,如在訓練數據集合利用下,檢驗與計算各屬性字段,假定各屬性字段均以單獨匹配屬性形式呈現,此時對屬性準確度對比,可獲取權重結果。

3 屬性權重下實體解析具體方法

3.1 合理分配權重屬性

考慮到屬性權重分配中,因忽略元組屬性加權重,將降低匹配準確度,出現數據信息遺漏情況。所以,本次研究中強調依托于概率統計知識、信息增益方法,滿足賦予權重屬性要求。而具體分配屬性權重中,有相關的要求,包括:(1)數據集預處理。處理中應保證數據集格式的規范,然后通過概率統計或信息增益,確定可以代表所有數據記錄的集合,稱其為最佳分類屬性集合。(2)權重計算。在信息增益方法運用下,可將信息增加量計算出來,然后由數據集內選擇屬性,對各屬性信息增益值計算,在此基礎上完成權重分配計算過程。

3.2 合理選擇最佳分類屬性

屬性權重的獲取借助概率統計、信息增益變可實現,而在最佳分類屬性確定中,則需引入其他相關的方法。本次研究中選擇兩種確定分類屬性的方法,其一為在抽取的所有屬性中,均被當作匹配屬性,各屬性有相應的權重,此時選擇其中權重較大的作為關鍵屬性,使實體解析準確度提高。另外一種方法則細化為閾值與top-k方法,其中閡值方法運用下要求做信息增益閾值α的確定,與α相比屬性信息增益值較大情況下,說明這一屬性能夠充當分類屬性,反之則將該屬性忽略。對于top-k方法,實現的原理在于通過權重排序,將排在前列的屬性納入屬性集合中。通過上述兩種屬性集合確定方法,有助于實體解析召回率的提高以及關鍵屬性的凸顯,實體解析準確度因此得到保證。

3.3 計算相似度

相似度計算中,主要采用編輯距離方法實現。所謂編輯距離方法,指為取兩個字符串,將其中一個向另外一個轉換中需要的編輯次數,若編輯距離較大,意味兩個字符串有較大差異,反之則相近。通過編輯距離相似度函數做基本相似度計算,在此基礎上與對應屬性權重相乘,便會獲取相似度結果[3]。

3.4 引ABlocking技術優化

關于Blocking技術,主要指根據使用記錄已知信息,判斷記錄是否相似,若相似可劃入_組,該過程可稱為Block。從該方法應用優勢看,主要體現在利用快速識別技術,做記錄匹配,由實體解析系統分析兩條記錄是否能夠匹配,假若可在同一聚類中放入可匹配記錄,說明兩條記錄匹配成功,而系統若判定兩條記錄無法匹配,最后的聚類內則無法放入匹配記錄。因此,實體解析中,為使實體解析效率提高,考慮將Blocking技術引入其中,技術運用下在保證解析準確度的同時,將搜索空間縮小,實體或記錄比較此時也因此較少,這對于實體解析效率的提高有積極作用[4]。

為驗證以上方法應用下所得到的結果,本次研究中設定一定的實驗環境,評價解析結果情況。其中在實驗環境方面,取Microsoft Windows7為操作系統,選擇Intel core 2Quad 2.67 GHz CPU為硬件環境,C++編譯環境。同時,選擇10 000條記錄數據集,各記錄被賦予10個屬性,解析后以F-measure綜合評價方法衡量評價,如圖1所示,為最終評價結果。其中IG-W,PS-W,No -W分別表示信息增益方法、概率統計方法、無權重計算方法。由圖中可發現,相比無權重計算方法,利用信息增益方法、概率統計方法取得的實體解析結果優勢明顯。

4 結語

實體解析是當前數據處理中的技術支撐。實際開展實體解析過程中,考慮做好屬性權重確定工作,該過程需引入概率統計與信息增益方法,使個屬性權重明確,與以往專家制定分配權重方法更能保證結果準確性,且對比相似度衡量無需過多的計算量,因此,未來在實體解析研究中應將這些屬性權重方法作為主要研究實踐方向。

[參考文獻]

[1]宮云寶,甘亮,黃九嗚.基于概率軟邏輯模型的實體解析[J]計算機工程,2017(8):188-192,199.

[2]陳遠,康虹,張靜雅.基于IFC標準的BIM模型編程語言解析方法研究[J]土木建筑工程信息技術,2017 (3):85-89.

[3]高勁松,周習曼,梁艷琪面向關聯數據的實體鏈接發現方法研究[J]中國圖書館學報,2016 (6):85-101.

[4]李文鵬,王建彬,林澤琦,等面向開源軟件項目的軟件知識圖譜構建方法[J].計算機科學與探索,2017 (6):851-862.

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 米奇精品一区二区三区| 亚洲综合经典在线一区二区| 亚洲精品亚洲人成在线| 国产一级毛片在线| 91视频免费观看网站| 真人高潮娇喘嗯啊在线观看| 亚洲无码视频图片| 国产精品永久久久久| 免费一级α片在线观看| 欧美精品高清| 亚洲一区二区三区国产精品| 日韩人妻少妇一区二区| 中文字幕va| 国产免费福利网站| 日韩成人在线网站| 第九色区aⅴ天堂久久香| 亚洲欧美日韩中文字幕在线一区| 国产69精品久久久久孕妇大杂乱| 亚洲乱码精品久久久久..| 成人福利免费在线观看| 在线亚洲天堂| 五月婷婷欧美| 国产欧美另类| 麻豆精品在线视频| Aⅴ无码专区在线观看| 国产精品99久久久| 54pao国产成人免费视频| 国产福利一区在线| 啪啪啪亚洲无码| 国产高清免费午夜在线视频| 国产精品久久久久无码网站| 国产区免费精品视频| 亚洲精品在线91| 亚洲三级视频在线观看| 国产成人亚洲综合a∨婷婷| 91亚洲免费| 2020久久国产综合精品swag| 久久网综合| 国产精品丝袜视频| 男女男精品视频| 一本色道久久88| 欧美高清日韩| 午夜久久影院| 亚洲人妖在线| 999国产精品永久免费视频精品久久| 国产91精品久久| 国产一级小视频| 99热这里只有免费国产精品 | 色一情一乱一伦一区二区三区小说| 在线看免费无码av天堂的| 重口调教一区二区视频| 久久国产精品影院| 免费国产好深啊好涨好硬视频| 2021国产在线视频| 欧美啪啪网| 亚洲男人的天堂网| 中文国产成人精品久久| 夜精品a一区二区三区| 久久精品这里只有国产中文精品| 欧美一区二区自偷自拍视频| 中文字幕免费在线视频| 国产欧美视频综合二区| 国产精品无码AV中文| 91年精品国产福利线观看久久| 欧美日韩亚洲综合在线观看| 久久亚洲国产视频| 欧美三级不卡在线观看视频| 国产v欧美v日韩v综合精品| 亚洲va视频| 久草性视频| 2021天堂在线亚洲精品专区 | 久久综合色播五月男人的天堂| 亚洲精品国产自在现线最新| 国产玖玖视频| 久久精品国产999大香线焦| 免费国产在线精品一区| 99久久精品国产自免费| 亚洲精品大秀视频| 亚洲一区免费看| 久久人妻xunleige无码| 国产日韩欧美一区二区三区在线 | 亚洲成人在线免费|