張晏 李繼云

摘 要:大數據時代下,數據呈爆炸式的增長態勢,而這些數據結構本身有一定的差異,這為數據解析帶來較大難題。根據既往研究資料中提及,考慮引入基于屬性權重的實體解析技術,以此使數據解析與處理效率提升。文章對實體解析技術做簡單介紹,分析屬性權重基本模型,在此基礎上提出屬性權重下實體解析的方法。
關鍵詞:屬性權重;實體解析技術;大數據
數據海量的生成與處理為大多企業帶來較多難題,特別因實體表達形式不同,可能使錯誤信息產生,這就使實體解析面臨極多問題。盡管以往實體解析法應用下能夠處理多數據源記錄,且在發展中逐漸將數據預處理、比較函數選取以及特征向量選取等,但操作中仍可能將部分關鍵屬性忽視,降低解析結果準確性。在此背景下,考慮將屬性權重引入,保證實體解析的效率與準確度。因此,本文對屬性權重下實體解析技術的研究,具有十分重要的意義。
1 實體解析技術相關解讀
關于實體解析,覆蓋較多領域,如數據庫領域、機器學習領域、人工智能領域、信息檢索領域與統計學領域,各領域均強調利用實體解析技術做數據源的處理。如單一結構數據集,引入實體解析技術一般做相似度計算,計算方法選擇距離函數模型,如編輯距離,計算中對記錄相似度分析,同時明確實體之間關系,可借助語義信息進行記錄。再如結構不同數據,實體解析技術應強調匹配計算異構數據集,在明確數據集合的情況下,做匹配計算。需注意的是,因數據結構不同,所以引入實體解析方法中可能面臨如何確定屬性權重。從既往研究資料中可發現,一般認為所有屬性均可呈現為匹配屬性,其意味各數據記錄均有相應的屬性,所以在處理記錄匹配上能夠取得較高的效率。但這種處理方式應用下,直接導致部分關鍵屬性被忽視。有研究中也指出在屬性權重分配中,直接由專家指定屬性,雖然滿足匹配屬性要求,但若專家來自不同領域,在數據集觀點上有一定差異,所以最終指定的屬性難以保證一致。針對這些問題,需考慮如何在實體解析技術上優化[1]。
2 屬性權重模型構建
2.1 屬性權重模型基本定義
屬性權重模型是實體解析技術優化的基礎。本次研究中從多個定義對屬性權重模型進行分析,具體定義內容包括:(1)匹配屬性,基于相似度的屬性匹配,例如部分研究中提及記錄中相似度的屬性均作為匹配屬性。(2)最佳分類屬性,主要指按相關的原則由匹配屬性集合內挑選分類屬性,以信息增益方法為例,可計算各屬性信息增益值,這樣便可獲取權重,在此基礎上做最佳分類屬性的確定。(3)信息增益值,通過數據挖掘方法獲取信息增益,若得到的屬性信息增益值較大,意味屬性涵蓋的信息量較多,記錄中內部分特征也會被呈現出來。(4)基本相似度,與匹配屬性概念不同,該定義下的相似度獲取通過基本相似度函數實現,如編輯距離相似度函數,通過做單個屬性計算,獲取相似度。(5)最終相似度,需以基本相似度為基礎,取屬性權重加入,做復合運算便能獲取最終結果[2]。
2.2 屬性權重方法選擇
屬性權重方法常見的有相似度衡量、專家制定方法。以相似度衡量方法為例,強調使匹配記錄保持一定的相似度,特別部分Web數據源較多情況下,實體識別中便需明確匹配記錄,取相似度最小值,這種方式對于確定屬性權重準確度較高,但整個操作過程中涉及較大的計算量,重復匹配,同時在匹配結束后,不會對屬性賦予權重。另外一種方法即專家制定法,應用中要求有相關領域的專家對屬性權重進行確定,結合自身知識經驗對各屬性分配相應比重,最后選擇其中權重較高的屬性計算,獲取相似度結果。盡管這種方法運用下相對簡單,但因不同領域專家在數據集認知上有一定差異,所以所得出的結果準確性難以保證。針對上述兩種方法應用下存在的問題,本次研究中考慮引入其他兩種方式,包括信息增益、概率統計,旨在使權重分配準確率提高。其中信息增益法亦被稱之為IG法,實現的原理在于利用依托于數據挖掘,確定信息增益值后,若結果較大,意味屬性影響作用明顯,所以在最佳分類屬性集合中應選擇信息增益值較高的屬性。而引入概率統計方法,強調借助數據工具將數據集合中的規律挖掘,如在訓練數據集合利用下,檢驗與計算各屬性字段,假定各屬性字段均以單獨匹配屬性形式呈現,此時對屬性準確度對比,可獲取權重結果。
3 屬性權重下實體解析具體方法
3.1 合理分配權重屬性
考慮到屬性權重分配中,因忽略元組屬性加權重,將降低匹配準確度,出現數據信息遺漏情況。所以,本次研究中強調依托于概率統計知識、信息增益方法,滿足賦予權重屬性要求。而具體分配屬性權重中,有相關的要求,包括:(1)數據集預處理。處理中應保證數據集格式的規范,然后通過概率統計或信息增益,確定可以代表所有數據記錄的集合,稱其為最佳分類屬性集合。(2)權重計算。在信息增益方法運用下,可將信息增加量計算出來,然后由數據集內選擇屬性,對各屬性信息增益值計算,在此基礎上完成權重分配計算過程。
3.2 合理選擇最佳分類屬性
屬性權重的獲取借助概率統計、信息增益變可實現,而在最佳分類屬性確定中,則需引入其他相關的方法。本次研究中選擇兩種確定分類屬性的方法,其一為在抽取的所有屬性中,均被當作匹配屬性,各屬性有相應的權重,此時選擇其中權重較大的作為關鍵屬性,使實體解析準確度提高。另外一種方法則細化為閾值與top-k方法,其中閡值方法運用下要求做信息增益閾值α的確定,與α相比屬性信息增益值較大情況下,說明這一屬性能夠充當分類屬性,反之則將該屬性忽略。對于top-k方法,實現的原理在于通過權重排序,將排在前列的屬性納入屬性集合中。通過上述兩種屬性集合確定方法,有助于實體解析召回率的提高以及關鍵屬性的凸顯,實體解析準確度因此得到保證。
3.3 計算相似度
相似度計算中,主要采用編輯距離方法實現。所謂編輯距離方法,指為取兩個字符串,將其中一個向另外一個轉換中需要的編輯次數,若編輯距離較大,意味兩個字符串有較大差異,反之則相近。通過編輯距離相似度函數做基本相似度計算,在此基礎上與對應屬性權重相乘,便會獲取相似度結果[3]。
3.4 引ABlocking技術優化
關于Blocking技術,主要指根據使用記錄已知信息,判斷記錄是否相似,若相似可劃入_組,該過程可稱為Block。從該方法應用優勢看,主要體現在利用快速識別技術,做記錄匹配,由實體解析系統分析兩條記錄是否能夠匹配,假若可在同一聚類中放入可匹配記錄,說明兩條記錄匹配成功,而系統若判定兩條記錄無法匹配,最后的聚類內則無法放入匹配記錄。因此,實體解析中,為使實體解析效率提高,考慮將Blocking技術引入其中,技術運用下在保證解析準確度的同時,將搜索空間縮小,實體或記錄比較此時也因此較少,這對于實體解析效率的提高有積極作用[4]。
為驗證以上方法應用下所得到的結果,本次研究中設定一定的實驗環境,評價解析結果情況。其中在實驗環境方面,取Microsoft Windows7為操作系統,選擇Intel core 2Quad 2.67 GHz CPU為硬件環境,C++編譯環境。同時,選擇10 000條記錄數據集,各記錄被賦予10個屬性,解析后以F-measure綜合評價方法衡量評價,如圖1所示,為最終評價結果。其中IG-W,PS-W,No -W分別表示信息增益方法、概率統計方法、無權重計算方法。由圖中可發現,相比無權重計算方法,利用信息增益方法、概率統計方法取得的實體解析結果優勢明顯。
4 結語
實體解析是當前數據處理中的技術支撐。實際開展實體解析過程中,考慮做好屬性權重確定工作,該過程需引入概率統計與信息增益方法,使個屬性權重明確,與以往專家制定分配權重方法更能保證結果準確性,且對比相似度衡量無需過多的計算量,因此,未來在實體解析研究中應將這些屬性權重方法作為主要研究實踐方向。
[參考文獻]
[1]宮云寶,甘亮,黃九嗚.基于概率軟邏輯模型的實體解析[J]計算機工程,2017(8):188-192,199.
[2]陳遠,康虹,張靜雅.基于IFC標準的BIM模型編程語言解析方法研究[J]土木建筑工程信息技術,2017 (3):85-89.
[3]高勁松,周習曼,梁艷琪面向關聯數據的實體鏈接發現方法研究[J]中國圖書館學報,2016 (6):85-101.
[4]李文鵬,王建彬,林澤琦,等面向開源軟件項目的軟件知識圖譜構建方法[J].計算機科學與探索,2017 (6):851-862.