陳彬,王志英,甘瑩,唐良運(yùn)
(1.中國南方電網(wǎng)有限責(zé)任公司,廣東廣州510663;2.南方電網(wǎng)數(shù)字電網(wǎng)研究院有限公司,廣東廣州511455)
隨著信息化技術(shù)水平的飛速發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)管理已經(jīng)成為目前至關(guān)重要的研究內(nèi)容。互聯(lián)網(wǎng)平臺也逐漸成為人們社會(huì)生活發(fā)展中的關(guān)鍵組成部分,隨著各行業(yè)信息技術(shù)的不斷創(chuàng)新,也逐漸涌現(xiàn)諸多新型數(shù)據(jù),提出更高標(biāo)準(zhǔn)的非結(jié)構(gòu)數(shù)據(jù)管理需求。基于本次研究的非結(jié)構(gòu)化數(shù)據(jù),需建立特征挖掘模型,傳統(tǒng)數(shù)據(jù)關(guān)系模型作為模式滯后式邏輯結(jié)構(gòu),是一種基于代數(shù)關(guān)系基礎(chǔ)形成的數(shù)據(jù)管理方法,不再能有效地處理非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)還擁有海量特點(diǎn),所以為了能夠更好地解決非結(jié)構(gòu)化數(shù)據(jù)管理這一問題,在以往文獻(xiàn)研究中提出了多種方案,譬如基于關(guān)系數(shù)據(jù)庫的非結(jié)構(gòu)化數(shù)據(jù)管理、列存儲(chǔ)管理、Bigtable、數(shù)據(jù)空間技術(shù)等。在梳理匯總以往研究成果基礎(chǔ)之上,從全新研究角度對非結(jié)構(gòu)化數(shù)據(jù)管理問題進(jìn)行觀察分析,引入模糊運(yùn)算建立非結(jié)構(gòu)化數(shù)據(jù)特征挖掘模型,展開深入探索。
非結(jié)構(gòu)化數(shù)據(jù)具有多樣化,譬如常見的網(wǎng)頁、音頻、文本等相關(guān)數(shù)據(jù),以及各企業(yè)的內(nèi)部管理文檔以及生物、地理和天氣等相關(guān)復(fù)雜多樣性數(shù)據(jù)。通過運(yùn)用數(shù)據(jù)對象針對性地描述具體數(shù)據(jù),定義每類集合內(nèi)元素為數(shù)據(jù)對象,在一個(gè)物理或邏輯層面,都可以有效地區(qū)分其他數(shù)據(jù)區(qū)域的實(shí)體,其存在數(shù)據(jù)對象粒度情況,即一個(gè)數(shù)據(jù)對象作為更大數(shù)據(jù)的組成部分或包括更多數(shù)據(jù)對象。一般情況下都需要尋找適當(dāng)粒度,對數(shù)據(jù)集合內(nèi)的獨(dú)立數(shù)據(jù)對象進(jìn)行劃分,所以在一般研究中也假定了其呈現(xiàn)數(shù)據(jù)對象的非結(jié)構(gòu)化數(shù)據(jù)方式。
為了方便表述,定義非結(jié)構(gòu)化特征如下。
定義1:為了表達(dá)某數(shù)據(jù)集或某類數(shù)據(jù)共同擁有的特征共性,根據(jù)應(yīng)用者的使用需求進(jìn)行定義,也可以根據(jù)數(shù)據(jù)自身所表現(xiàn)的特性,以特征需求完成定義。
定義2:假設(shè)G的超模糊運(yùn)算為“0”,那么?a,b∈G,存在了唯一y∈G,想要滿足(aob)(y)>θ,證:由于(aob)(y)=R(a,b,y),假設(shè)?y,y1∈G,使R(a,b,y)>θ,那么可得:
?a,b∈G,?y,y1∈G,R(a,b,y)>θ,并且R(a,b,y)>θ,y=y1,所以存在唯一y∈G,使(aob)(y)>θ。
定義3:數(shù)據(jù)特征。數(shù)據(jù)特征作為形式化抽象性描述數(shù)據(jù)的定義,代表了數(shù)據(jù)所具備的特征意義和具體的取值特征空間域存在的主要度量關(guān)系,假若一個(gè)數(shù)據(jù)對象擁有多個(gè)特征,要讓該數(shù)據(jù)對象擁有該特征類型,則需要滿足以下條件:
1)通過既定依據(jù)方法,能夠完成數(shù)據(jù)對象抽取,成為所屬特征對象的特征數(shù)據(jù);
2)完成特征數(shù)據(jù)抽取,與數(shù)據(jù)對象的代表意義及特征類型相符;
3)這類特征數(shù)據(jù)屬于對應(yīng)數(shù)據(jù)特征的取值范圍。
對于這一特征值域的具體要求是無論任何特征區(qū)域均為值域,而且需要設(shè)定度量空間,滿足值域空間的特征。
以模糊算法模型代碼為例:

在完成建模基礎(chǔ)上,建立基于模糊運(yùn)算的非結(jié)構(gòu)化數(shù)據(jù)特征挖掘系統(tǒng)架構(gòu),如圖1所示。該模型架構(gòu)共計(jì)包括3 類數(shù)據(jù)庫,分別為原始數(shù)據(jù)庫、特征數(shù)據(jù)庫、索引庫。系統(tǒng)對于若干個(gè)數(shù)據(jù)對象處理類型庫進(jìn)行維護(hù),每一個(gè)數(shù)據(jù)對象與其對應(yīng)特征,也與處理類相對應(yīng),能夠完成特征抽象、索引及查詢。

圖1 非結(jié)構(gòu)化數(shù)據(jù)特征挖掘系統(tǒng)架構(gòu)
在系統(tǒng)功能類庫中,又包括了數(shù)據(jù)類型庫、特征庫。其中,數(shù)據(jù)類型庫能夠?qū)?shù)據(jù)類型和相對應(yīng)的特征數(shù)據(jù)類型加以梳理,而特征庫則包括了具備對應(yīng)特征和特征類型的處理類,如表1所示。

表1 數(shù)據(jù)類型與處理類
對于數(shù)據(jù)類型處理類的系統(tǒng)特性操作接口,每類成功定義的數(shù)據(jù)類型與處理類相對應(yīng),那么該類數(shù)據(jù)處理類型在本次系統(tǒng)中所規(guī)定相應(yīng)的數(shù)據(jù)處理接口,能夠成功完成相應(yīng)的數(shù)據(jù)類型操作。并且還可以實(shí)現(xiàn)用戶接口自定義,采用特定操作處理相應(yīng)的操作數(shù)據(jù)類型。
特征類型庫與數(shù)據(jù)類型庫相比,擁有更加復(fù)雜的類庫,主要接口包括以下幾類,如表2所示。

表2 特征類型處理類
一是對于抽取數(shù)據(jù)特征接口,在使用中接口面向特征類型,通過運(yùn)用差異化提取數(shù)據(jù)特征的方法,能夠抽取等同抽樣特征,運(yùn)用該接口也能夠更方便地管理無關(guān)的數(shù)據(jù)特征類型;
二是數(shù)據(jù)特征索引接口,在系統(tǒng)中索引庫的存在必不可少,作為系統(tǒng)核心技術(shù)需要以原本的數(shù)據(jù)特征類型為依據(jù),完成數(shù)據(jù)信息存儲(chǔ),并參照原本數(shù)據(jù)特征,組織統(tǒng)一特征的數(shù)據(jù)對象。作為廣義層面的索引,能夠根據(jù)原本特征索引特征數(shù)據(jù)對象;
三是查詢接口,在對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行查詢檢索的過程中,復(fù)雜化的非結(jié)構(gòu)數(shù)據(jù)所采用的查詢策略通常存在較大差異。但是查詢這種抽象行為本身是不同的,圖2為兩個(gè)類型關(guān)系庫的對比關(guān)系。

圖2 兩類類型關(guān)系庫對比
數(shù)據(jù)存儲(chǔ)部分包括三大組成:
1)原始數(shù)據(jù),任何存儲(chǔ)于原始系統(tǒng)中的指定數(shù)據(jù)對象,能夠組成原始數(shù)據(jù)庫;
2)特征數(shù)據(jù),該數(shù)據(jù)庫與原始數(shù)據(jù)的數(shù)據(jù)庫相對應(yīng),且各類特征數(shù)據(jù)對象也同樣對應(yīng),并包括相應(yīng)的數(shù)據(jù)特征信息。每類數(shù)據(jù)特征也主要由特征名稱和數(shù)據(jù)兩類組成;
3)索引庫,特征空間所對應(yīng)的特殊數(shù)據(jù)庫,在每類特征維度相對應(yīng)的空間特征對象都作為統(tǒng)一數(shù)據(jù)庫,能夠提供具體特征索引和相應(yīng)的查詢結(jié)果。
在數(shù)據(jù)特征挖掘處理中,系統(tǒng)類庫負(fù)責(zé)非結(jié)構(gòu)化數(shù)據(jù)管理,主要面向系統(tǒng)管理員、普通用戶這兩類用戶。系統(tǒng)管理員對于引擎定義及特征類數(shù)據(jù)安裝、定義,處理并添加新型數(shù)據(jù)處理類。對于普通用戶,具體實(shí)現(xiàn)的引擎功能如圖3所示。

圖3 處理引擎功能結(jié)構(gòu)
由圖3可知,該引擎可以成功完成非結(jié)構(gòu)數(shù)據(jù)對象的實(shí)時(shí)接收,并且可以對數(shù)據(jù)類型進(jìn)行自主制定分析;根據(jù)具體的數(shù)據(jù)對象相應(yīng)類型,能夠成功抽取相關(guān)特征,并建立每類數(shù)據(jù)特征對象,并在對應(yīng)數(shù)據(jù)庫中充分存儲(chǔ);在特征空間中存儲(chǔ)特征數(shù)據(jù),能夠構(gòu)建特征索引;完成用戶操作中查詢請求的實(shí)時(shí)接收,一般情況下是在查詢特征基礎(chǔ)之上完成查詢請求的實(shí)時(shí)接收,并對應(yīng)完成特征查詢;對于高級用戶數(shù)據(jù)查詢計(jì)算需求,在處理過程中應(yīng)當(dāng)完成自定義數(shù)據(jù)類型、特征類型。
通過Hadoop 系統(tǒng)存儲(chǔ)原始數(shù)據(jù),該系統(tǒng)作為分布式開放系統(tǒng),對普通PC 端的分布式計(jì)算處理比較適用,且能夠在運(yùn)用過程中有較好的拓展性與容錯(cuò)性,解決了非結(jié)構(gòu)化較大數(shù)據(jù)量的相關(guān)問題。
一個(gè)數(shù)據(jù)共計(jì)包含多類特征,通過實(shí)現(xiàn)以上特征能夠共同組成相應(yīng)的特征對象,主要用于對某類特征數(shù)據(jù)對象的特征信息描述,如圖4所示。

圖4 特征結(jié)構(gòu)表示
通常情況的特征數(shù)據(jù)類型,包括了浮點(diǎn)數(shù)、字符、整數(shù)、二進(jìn)制數(shù),所以運(yùn)用Hadoop 系統(tǒng)能夠完成數(shù)據(jù)特征對象存儲(chǔ),并存放于HDFS 中,依照具體數(shù)據(jù)存儲(chǔ)方式,與數(shù)據(jù)存儲(chǔ)特征正好相符,所以有利于模糊運(yùn)算的非結(jié)構(gòu)化數(shù)據(jù)特征挖掘應(yīng)用。
經(jīng)本次研究,以非結(jié)構(gòu)化數(shù)據(jù)特征視角進(jìn)行分析,建立了基于模糊運(yùn)算的非結(jié)構(gòu)化數(shù)據(jù)特征挖掘模型,能夠提供非結(jié)構(gòu)化數(shù)據(jù)管理的可行性思路,可以靈活方便地應(yīng)用于非結(jié)構(gòu)化數(shù)據(jù)管理。為靈活化處理非結(jié)構(gòu)數(shù)據(jù)特征提供了可行性的數(shù)據(jù)處理思路。