夏驕雄, 韋 琴, 繆 慧, 吳新林, 徐 釗, 金 勇, 高偉山
(1.上海外國語大學 賢達經濟人文學院,上海 200083; 2.上海理工大學 光電信息與計算機工程學院,上海 200093; 3.上海大學計算機工程與科學學院,上海 200444; 4.上海市教育委員會 信息中心,上海 200003; 5.上海市教育評估院 教育評估研究所,上海 200031)
?
數據顯斷層與數據隱斷層的研究與應用
夏驕雄1,2,3,4, 韋 琴2, 繆 慧3, 吳新林5, 徐 釗3, 金 勇3, 高偉山2
(1.上海外國語大學 賢達經濟人文學院,上海 200083; 2.上海理工大學 光電信息與計算機工程學院,上海 200093; 3.上海大學計算機工程與科學學院,上海 200444; 4.上海市教育委員會 信息中心,上海 200003; 5.上海市教育評估院 教育評估研究所,上海 200031)
建立能夠和諧平衡各個信息系統之間數據斷層的機制是實現管理決策變革最關鍵的3大基礎之一,也是智能決策支持系統研究領域的重點內容之一.隨著互聯網+時代的到來,各式各樣的數據資源不斷積累,數據斷層現象在多個領域表現得愈加明顯.通過對數據斷層理論體系的進一步研究與實踐,著重分析微觀層面的數據斷層現象,一方面用顯斷層概念描述各系統之間以及系統內部存在的較為明顯的斷層現象,另一方面用隱斷層概念描述各系統之間以及系統內部存在的非明顯的斷層現象,并在數據顯斷層中引入縫隙的概念來描述主題無關數據對象,采用數據聚合的技術手段來降低縫隙數據的斷層屬性,同時在隱斷層中引入“有效密度”來形象地描繪數據分布情況,通過數據熔合來減少無效數據占用的空間.最后以上海“動感101”音樂電臺的移動客戶端應用日志數據為例,分析了電臺數據中所存在的數據顯斷層和數據隱斷層現象.
智能決策支持系統; 微觀數據斷層; 數據聚合; 數據熔合; 縫隙檢測; 數據顯斷層; 數據隱斷層
IBM的行業咨詢總監趙枏曾經指出:要實現管理決策的變革,關鍵的3大基礎是建設完成符合管理轉型和流程優化要求的信息系統,建立完善能夠和諧平衡各個信息系統之間數據斷層的機制,建構完整滿足實時分析和智能決策需要的支撐體系[1].因此,數據斷層的研究具有與信息系統的建設、智能決策支撐體系的架構同樣重要的地位和應用價值.然而,從現有的文獻資料來看,各行各業都僅僅是在文字描述中提及企業信息化、電子政務、金融投資、醫學成像等領域存在著各種形式的“數據斷層(data faultage)”,卻很少有從定義、體系、算法、模型的角度給予詳細描述的.文獻[2]提出基于數據倉庫的環境,通過借鑒地質學領域斷層的理論體系,將其運用到數據挖掘領域,并通過對其重定義、再分析,使斷層在數據挖掘領域得到了很好的呈現和引申,并對宏觀環境和微觀環境下的數據斷層進行了定量描述,給出了相關算法和模型.
在微觀層面,數據對象是以一定的主題和存儲模式進行聚集的[3],通過滿足用戶特定的需求為目標來分析數據對象,是數據挖掘和智能決策支持的關鍵[4].當數據總量并不大時,可以人為地對影響用戶決策的數據對象進行簡單處理;但是,當數據總量超出人們處理的范圍,這種人為處理就很難達到預期效果[5-6].數據對象聚集以后,不符合要求的數據對象就會以一定規律匯聚形成微觀數據斷層(micro data faultage),這些斷層一方面占用大量的內存空間,另一方面給后續的數據和結果分析帶來一定的干擾.所以,為了提高分析結果的準確性,務必需要對斷層數據作相應的檢測、分析和處理,從而為精確化決策提供最大化支持.
根據數據斷層所依賴的數據類型可以將數據斷層分為數據顯斷層(dominant data faultage)和數據隱斷層(tacit data faultage)兩大類[2].本文借鑒地質斷層領域中的概念和方法,針對數據顯斷層和數據隱斷層引入相應的處理方法,采用縫隙(crack)檢測與數據聚合(data aggregation)的方法來處理數據顯斷層,采用隱斷層檢測和數據熔合(data fusion solution)來處理數據隱斷層,對上海“動感101”音樂電臺的日志數據進行了數據顯斷層和數據隱斷層的分析,達到了預期目的.
定義1 微觀數據斷層 專門用于描述同類型數據對象集合中或者同一數據對象集合中各個數據對象之間隨著各種結構(各個數據對象的存放形式和構造)、成分(各個數據對象的內涵)、數據關系(各個數據對象之間的關系密切程度)等因素變化而變化的相關性質表象,稱為微觀數據斷層.
定義2 數據顯斷層 主要用于描述大部分存在于數據對象集合與數據對象集合之間,受到數據對象集合的結構、主題、時效等因素影響而發生變化的較為明顯的微觀數據斷層稱為數據顯斷層.
定義3 數據隱斷層 主要用于描述大部分存在于數據對象集合內部,受到數據對象集合內部的結構、成分、數據關系等因素影響而發生變化的較為隱秘的微觀數據斷層稱為數據隱斷層.
通過分析數據斷層的表現形式所涵蓋的內在特性,數據斷層都存在必然性、易變性、非均質性(inhomogeneity)等特性[7].數據對象集合與集合之間以及對象集合本身會存在數據斷層現象,這不僅具備了數據斷層的必然性、易變性和非均質性等基本性質,還具有客觀存在性(existence)、隱秘性(mystery)和規律性(regularity)等一些特殊性質.
客觀存在性表現在任何數據對象內部或多或少存在與主題無關的數據,即噪聲數據[8];隱蔽性指那些看上去與文章大意相同的數據對象[9],它們的不一致性表現不明顯,很難被發現;規律性主要是指數據顯斷層和數據隱斷層在一定操作規程的約束下,某種程度上能夠相互轉化.
正確的決策支持需要數據對象的準確性來支撐,必然對數據對象集合的產生和存儲提出了高質量的要求,這就要求數據對象本身應該具有準確性、可靠性、完整性和一致性的基本特征[10].但現實的數據卻不盡如此,由于數據量本身的龐大和雜糅性,必然導致一系列數據問題,包括:不一致值、同一實體的多種描述、拼寫問題、簡寫、打印錯誤、缺失值、未遵守引用完整性規則、不合法值等[11-12].
2.1 縫隙
本文參考基于圖像分析的砂巖孔隙網絡定量分析的模型[13],將結合地質學原理,采用縫隙的概念來描述數據顯斷層中的問題數據對象.
定義4 縫隙 數據對象中的縫隙數據包括與主題無關的所有數據對象,重點有空白數據對象、噪聲數據對象、重復數據對象等,均定義為數據對象集合中的縫隙.
定義5 縫隙度(crack degrees) 針對某一特定主題,數據對象集合中存在的縫隙數量與數據對象集合所含有的所有數據對象數量之間的比值,稱為該特定主題下的縫隙度.
在某一特定主題環境中,數據對象集合中數據對象之間的緊密程度可以通過縫隙度進行反映,即縫隙度越大,數據對象的緊密程度越低.因此,針對不同的主題,同一數據對象集合的縫隙度并不一致.
定義6 總縫隙度(total crack degrees) 數據對象聚合中的所有與主題無關的數據與總體數據的比值,稱為特定主題下數據對象集合的總縫隙度.
通常,總縫隙度可以表示為
(1)
式中:∑de指與特定主題無關的數據量;dr指數據總量;Pt是總縫隙度.
為了滿足某個特定的用戶需求,有時候只需要對數據對象集合的局部進行分析處理即可,而并不需要對整個數據對象集合進行操作.
定義7 有效縫隙度(valid crack degrees) 有效縫隙度指的是在具體的主題下用戶選擇的數據對象的縫隙與總的數據對象的比值.
通常,有效縫隙度可以表示為
(2)
式中:∑di是用戶所選擇的數據對象中存在的縫隙數量;Pe是有效縫隙度.
為了表述簡單,如非特別指出,本文均指有效縫隙度.由于縫隙產生分先后次序,故將縫隙又劃分為既生縫隙和再生縫隙兩種類型.
定義8 既生縫隙(existing crack) 既生縫隙指在數據集合形成的初始就存在的各類縫隙.
任何數據對象集合構建的時候,都必然存在構建此數據對象集合的目標主題,因此,此時數據對象集合內部所存在的縫隙都是既生縫隙.隨著時間的變化,數據對象集合本身的目標主題也會變化,那么將會導致縫隙的消失或者增大,還可能產生新縫隙.
定義9 再生縫隙(newly crack) 數據對象集合隨著時間、主題目標等變化產生的不同于既生縫隙的縫隙稱為再生縫隙.
數據對象中可能存在既生縫隙和再生縫隙的混雜,因為數據的更新會造成原本只存在既生縫隙的數據對象又增加新的再生縫隙的情況.根據數據挖掘的需要,應盡可能降低縫隙度,從而減小縫隙對分析數據的影響.
2.2 縫隙類型
在數據對象集合中,縫隙的類型主要有3種:
a. 缺失數據.
各種應用信息系統經過長期運行所積累下來的數據,均存在不同程度的缺失現象,即包含很多缺失數據.從數據庫的觀點而言,如果某條記錄中的某個屬性存在空缺值,這就是缺失數據[14].按照數據對象集合中數據對象的不完整性,缺失值從缺失的分布來講可以分為完全隨機缺失、隨機缺失和完全非隨機缺失等[15].
b. 噪聲數據.
簡單來說,數據噪聲指在一組數據中無法解釋的數據變動,就是一些不和其他數據相一致的數據[16-17].噪聲數據有可能是數據對象集合中存在的錯誤數據,也有可能是數據對象集合形成過程中記錄下來的隨機錯誤或者偏差[14],也有可能是完全不相關的數據對象或者是沒有實際意義的數據對象[18].
噪聲數據的產生通常有3類原因[19],即:不同數據對象集合由數據集成操作引發;數據對象本身隨著某一因素的改變而自然發生;在數據測量和采集過程中由人為填寫錯誤或者儀器故障等原因引起.
c. 重復數據.
重復數據是指對同一實體對象的多重表述,或者說在數據結構或數據表示上對同一實體對象的不同表達[20].任意的數據對象集合中都有重復數據記錄或數據屬性的可能性,因此,幾乎所有的信息系統都可能存在著信息重復和冗余的現象[21].通常,檢測重復數據的目的是從數據對象集合中識別出那些在表現形式上不同但又表示同一實體對象的記錄[14,22].
2.3 縫隙檢測
縫隙檢測的目的有兩個,首先是判斷有沒有縫隙,再者,若有縫隙,鑒別縫隙大小和位置.現實狀態下,無論是缺失數據、噪聲數據、重復數據等具有代表性的縫隙,還是其他特殊類型的縫隙,都會影響正常的數據預處理工作和數據分析工作,因此,這類問題十分值得研究和分析[15,19,22].
進行正常的數據預處理工作就是對數據對象集合進行篩選操作,盡可能多地剔除縫隙[6].縫隙檢測的常用方法包括:人工神經網絡法[23]、統計判別法[24]、支持向量機法[25]等.
本文借鑒基于能量的概念[26]和基于層次聚類的方法[27],提出了基于能量和層次聚類的縫隙檢測(crack detection on energy and hierarchy clustering)方法.為了定量化進行縫隙查找,引入相關能的概念進行描述,縫隙的檢測問題進一步轉化成在數據對象集合中通過相關能計算獲取較大能值的數據對象過程.
假定d維數據空間Fd中有x和y兩個數據對象.當兩個數據對象一致(x=y)時,合并兩個數據對象;若兩個數據對象不一致(x≠y)時,則計算其相關能值的公式為
(3)

算法1 基于能量和層次聚類的縫隙檢測
Step1 根據用戶需求,選定特定主題,并將數據對象集合分為num個數據分區.
Step2 對數據分區進行層次聚類操作.
a. 在數據分區中,先假定各數據對象相互獨立,然后使用式(3)計算類與類之間的相關能;
b. 設定類合并的條件(根據具體情況設定);
c. 將相關能由大到小排序,將相關能最大(滿足類合并條件)的兩個類合并成一個類;
d. 在數據分區中對新生成的類與其他類重新計算相關能;
e. 重復步驟c和d,直至無法再進行類歸并為止.
Step3 對數據分區進行層次聚類處理后,若數據分區不存在異常,則將其從原數據分區中減除.
Step4 重復執行Step2和Step3,完成num個數據分區的所有檢測.
如果數據分區中存在異常數據對象,則單列該數據分區,以便單獨分析和處理.
基于能量和層次聚類的縫隙檢測方法具有明顯的3大優勢:(a)縫隙檢測的基本單位是數據分區,不需要將所有的數據全部調入內存,只需將要檢測的數據分區調入內存即可;(b)計算數據對象間相關能的計算量取決于數據分區中的數據對象總數,由于分區內的數據對象總數相對較少,因此計算量大大減少;(c)數據對象集合中不存在縫隙的數據分區不需要進行計算,因此整體的計算量也相應減少.
縫隙檢測的目的并不在于通過檢測來消除它,而是在于發現縫隙與數據斷層之間主從關系所折射出來的數據對象之間變化的規律.如果這些數據對象是符合用戶最終需求的,那么縫隙檢測的分析結果就是數據斷層的分析結果;但是如果這些數據對象并不符合用戶的最終需求,則需要進一步的數據聚合操作才能避免數據斷層的危害.
2.4 數據聚合
定義10 數據聚合 為了防止縫隙的存在對后續數據分析造成負面影響而進行的各種操作,就是數據聚合.
數據聚合通過處理數據對象集合中存在的縫隙,降低縫隙對數據分析的不準確性造成的影響.數據聚合操作有:對空白數據對象的處理、對格式不一致數據對象的處理、對重復數據對象的處理等.數據聚合是微觀數據斷層研究中的關鍵步驟,聚合數據對象集合中存在的縫隙是為后續的數據分析與優化決策服務的.
數據聚合的示意圖如圖1所示.圖1(a)為數據對象集合的原始狀態圖,集合中存在明顯的縫隙且集合中數據對象排列混亂;通過數據聚合初步處理后的情形如圖1(b)所示,縫隙已經被消除,數據排列趨于半結構化,數據集合體積總體減小;當對數據對象進一步聚合操作后,就得到了更加統一化、規整化和結構化的數據對象排列,如圖1(c)所示.

圖1 數據聚合示意圖
數據聚合的程度可以使用聚合率來表示
(4)
式中:dc表示通過數據聚合操作刪除的數據對象數量;dt表示數據對象集合中原有的數據對象數量.在實際應用中,聚合率反映數據對象集合對用戶具體需求的滿足程度,即聚合率越低,符合要求的數據對象越多.
在具體應用中,數據質量、縫隙形態、聚合方法都會對數據聚合后的效果產生重要的影響.通常,數據對象結構越良好,數值規范越準確,數據聚合的效果越好;縫隙類型越單一,縫隙內容越關聯,數據聚合的操作越簡單.
基于能量和層次聚類的縫隙檢測方法能夠明確縫隙存在的位置以及縫隙具體的類型,采用不同的數據聚合方法可以處理不同類型的縫隙.
a. 聚合缺失數據.
聚合缺失數據雖然操作簡單,但是選擇過程比較繁瑣,在具體應用中主要有刪除法和填充法兩種可供選擇.對于缺失值的處理,從總體上來說分為刪除存在缺失值的個案[28]和缺失值插補[29-30].通常采用的填充法包括均值、同類均值、缺失值的預測、全局常量和人工等5種.
均值法是使用屬性的均值來填充缺失的數據項,這對于數據缺失現象比較均勻的情況特別適用;同類均值法是針對某種特定類型的數據發生缺失,將數據分類后以特定類型數據的均值作為缺失數據進行填充;缺失值的預測法就是采用一些數據分析方法對缺失值進行合理預測,選擇預測值最大的值進行填充;全局常量法就是對每一個缺失值采用固定的全局常量來填充;在數據缺失情況比較嚴重的時候,通常采用人工操作,但其對于填充人的主觀依賴性過于明顯,存在較大的準確性偏差.
b. 聚合噪聲數據.
聚合噪聲數據通常采用分箱法[31]、聚類法[32]、回歸法[33]等諸多常規方法.
分箱法是對數據周圍的數據進行分析,按照不同的取值方法來平滑數據的值;聚類法是將數據對象集合中的每個數據視為對象,按照相似程度把對象劃分到一個個類中,提高類內對象的相似度,降低類間的相似度;回歸法是盡可能地利用稱為線性回歸方程的最小平方函數對一個或多個自變量和因變量之間關系進行建模,從而推斷出不合理數據可能對應的正確值.
c. 聚合重復數據.
重復數據的處理通常采用把重復數據直接從數據對象集合中刪除的方法來實現消除數據冗余的目的.這不僅有利于降低數據對象的空間占有度,也有利于優化數據對象的存儲容量.刪除重復數據主要有固定塊刪除法與可變塊刪除法兩種[34].
固定塊刪除法就是將數據劃分成長度固定的部分或塊,然后執行刪除操作;可變塊刪除法就是根據一個大小可變的滑動窗口對存在的重復數據進行刪除操作.
不同的數據對象其存儲方式也不同.正是由于存在數據對象維度的差異性,需要引入數據對象集合的數據密度(data density of set)這一概念來描述數據對象的分布情況[7].
定義11 數據對象集合的數據有效密度 假設將整個數據空間分為k個數據對象,假定某個數據對象由{a1,a2,…,an}組成,(n>0),amax和amin是數據對象中的最大和最小值,amax≠amin,則數據對象集合K的數據密度定義為數據對象集合K中所有數據值之和與其最大值和最小值的差值之比
(5)
在定義11的基礎上,進一步定義數據對象集合的數據均值和數據對象集合的斷層概率.
定義12 數據對象集合的數據均值 數據對象集合K中所有數據值之和與其數據對象的數量之比定義為數據對象集合K的數據均值.
(6)
定義13 數據對象集合的斷層概率 對于數據對象集合K中任一數據值aj所對應的數據對象Kaj,定義其在數據對象集合K中發生數據斷層的概率pKaj、數據密度dK和數據均值E(K)的關系
(7)
3.1 隱斷層偵測
隱斷層可能會因為用戶需求不同而不同,所以數據對象集合中某些隱斷層可以很容易地被偵測出來,例如采用觀察法或總結歸納法等,但是有些隱斷層的發現并不簡單.通常,需明確數據隱斷層定義,并計算出數據對象集合的信息熵,并將其與相應閾值進行比較才能得出結果.但是,從定義法來偵測隱斷層也存在著一些缺陷,例如隱斷層的狀態不能依據定義判斷出來.因此,本文采用基于定義與數據密度的斷層偵測(faultage detection on definition and data density)方法來對隱斷層的位置與程度進行確定.
算法2 基于定義與數據有效密度的斷層檢測
Step 1 根據用戶的主題需求,將數據空間劃分為k個數據對象集合.

Step3 再次判斷用戶的實際要求,明確閾值T.
Step4 分別對各個數據對象集合的信息熵H(Xi)與閾值T進行比較.如果信息熵H(Xi)小于閾值T,則判定數據對象集合存在隱斷層,否則不存在.
Step5 對于已偵測出存在隱斷層的數據對象集合,則需要根據定義11~13計算出數據對象集合的斷層概率,判斷隱斷層存在的確切位置.
基于定義與數據有效密度的斷層檢測方法中確定閾值T是至關重要的一步,針對不同的應用情況,其確定的方法也不盡相同,本文不再贅述.不同的隱斷層數據需要不同的處理方法來配套.若隱斷層數據可以為用戶決策所服務,對于這類隱斷層數據則需要將其提取出來進行進一步分析;若隱斷層數據是無意義的,那么采用數據熔合進行處理即可.
3.2 數據熔合
隱斷層的存在并無好壞之分.隱斷層數據的處理方式依據用戶具體需要確定,可以進行分析,也可以進行消除.本文引入數據熔合來消除隱斷層數據.
定義14 數據熔合 對不滿足用戶需要的數據進行處理進而獲得有價值的信息的過程定義為數據熔合.
數據熔合的過程與數據聚合的過程相類似,也主要由3大步驟組成(如圖2所示).但是在數據熔合中,非縫隙數據對象在熔合處理后自身會發生變化,包括隱斷層數據對象的隱藏或轉化.
經過數據熔合初步處理后,邊緣數據對象排列得更加緊湊,同時減少了數據對象所占用的空間.對數據對象集合進行大規模數據熔合后,隱斷層數據得到消除,數據對象按照相同主題進行聚集,數據空間得到充分利用.數據熔合具體操作方法需要依據具體的應用情況而采用合適的方法,大致分為3種[7].

圖2 數據熔合示意圖
a. 人工處理.
傳統的人工處理方法主要是借助類似SPSS,SAS等傳統的數據分析軟件工具來進行.這種處理方法主要適用于數據量不大的情況,當數據量較大時,這種方法效率十分低下,難以有效處理任務.
b. 程序處理.
設計一個程序對存在斷層的數據對象集合進行分析處理,與人工處理方法相比,程序處理方法效率相對提高,可以處理較大容量的數據對象集合.但是,這種處理方法靈活性較差,程序嚴格依賴于數據結構與屬性,不具有通用性,因此這種方式只在數據對象形式固定的情況下比較適用.
c. 領域無關處理.
采用與領域無關的數據熔合方式,表現形式較多,通常有屬性約簡[35]和數據規范化[36]兩種.
通常,數據對象集合中可能包括成百上千的數據屬性,但是數據挖掘只需涉及數據對象集合的極少一部分相關屬性并進行相應處理,從而降低整體的數據數量.
另外,在同一個數據屬性中,其數值波動的范圍可能十分巨大,這種情況會顯著降低一些數據挖掘算法的執行性能和效率.因此,需要利用數據的規范化方法,盡可能把數據的屬性值映射到一個幅度不大的區間中[29].
本文以上海“動感101”頻道的移動客戶端用戶訪問日志數據(以下簡稱“電臺數據”)為研究對象,對日志數據中可能存在的數據斷層進行分析和處理.
本文的實驗數據是“動感101”電臺移動客戶端2013年4月8日0時到2013年4月14日24時的訪問日志數據,來自源IP地址為222.***.***.167,222.***.***.207,222.***.***.208的服務器,總文件大小約為3.1 G.一條記錄為一個切片,且一個切片代表用戶進行連續10 s的訪問操作.鑒于原始電臺數據的屬性較多,根據研究者實際的需求,只選擇了如表1所示的5個數據屬性進行實驗.

表1 選擇的5個數據屬性
4.1 數據顯斷層分析和處理
根據算法1的檢測結果,“動感101”電臺數據的縫隙類型主要有缺失數據、噪聲數據和重復數據.
缺失數據的主要表現為數據屬性ts是空的,這表示用戶并沒有下載切片流;噪聲數據的主要表現為數據屬性mobile顯示LiveRadioEncoder或者ChinaCache等字樣,表示這些記錄是由內部編碼器向服務器發送音頻切片文件所產生的訪問記錄,而非真正的日志訪問記錄;重復數據的主要表現是存在一些每個數據屬性都相同的記錄,這類記錄大多是訪問頁面的信息,并沒有下載任何的切片流信息.
3臺服務器一周內電臺數據所表現的3種縫隙數據統計信息如表2所示.

表2 一周縫隙數據統計
圖3(見下頁)顯示的是對電臺數據縫隙度的統計信息,電臺數據縫隙度基本在6.81%~10.98%之間波動.如圖3所示,4月8日(周一)到4月11日(周四)的縫隙度相對比較穩定,而4月12日(周五)到4月14日(周日)的縫隙度明顯升高,可以猜測是由于用戶從周五開始到周日對電臺的收聽明顯減少,但應用程序總量卻沒變,從而導致縫隙度變大.
對于實驗中提到的3種主要類型縫隙數據,本實驗都分別進行了數據聚合操作,根據特定的情況,主要采取刪除法.
4.2 數據隱斷層分析和處理
完成數據顯斷層的分析和處理后,按照算法2對“動感101”電臺數據進行檢測.
為了擬合用戶的實際需求,將“動感101”電臺數據中國外IP地址訪問的數據記錄進行了刪除,同時按照天為單位,對每天重復的國內IP地址訪問的數據記錄也進行了留一條的刪除操作,然后才對相應遺留的用戶數進行統計,并按照地理位置的劃分將數據對象劃分到9個地區的集合中.

圖3 電臺數據的縫隙度
圖4顯示了按照地理位置劃分的收聽人數分布情況.由于“動感101”是屬于上海地區的電臺,上海的用戶固然很多,再加上臨近上海的江蘇和浙江的用戶人數,使得東部沿海地區的用戶數遠遠高于其他地區的用戶數,從而導致東部沿海地區與其他地區在用戶數量上產生了斷層.

圖4 收聽用戶區域分布及其信息熵
同時,圖4顯示了9個地區集合的信息熵情況,大部分分布在0.30~0.35之間.9個地區的信息熵,其中有7個介于0.30~0.35之間,只有東部沿海和北部沿海低于0.30.如果根據實際需求將閾值定為0.30,那么存在數據斷層的就是東部沿海和北部沿海地區.通常信息熵越大,數據斷層概率相對小,數據斷層數量和規模也相對小.
忽略其他不存在數據斷層的地區,重點看一下存在數據斷層的東部沿海和北部沿海,再根據定義11~13計算各個地區中省市的斷層概率,如表3所示.在東部沿海地區,考慮到在用戶數方面上海是浙江和江蘇的接近9倍,導致上海的數據隱斷層概率高達0.337 5.在北部沿海地區,北京的用戶數是天津、河北和山東的4倍左右,導致北京的數據隱斷層概率高達0.160 4.
斷層概率的確定,對于數據隱斷層的確切位置給予了明確,并進一步揭示了隱藏在數據背后的影響力問題.固然,IP地址標識為上海的電臺數據本來就因為聽眾數量的關系占據著主導地位,但是通過斷層概率分析,IP地址標識為北京的電臺數據盡管在人數上與浙江、江蘇相差較遠,但是其在區域性主導地位方面仍然具有重大影響力.

表3 東部沿海和北部沿海地區的斷層概率
作為實現管理決策變革的三要素之一,建立完善能夠和諧平衡各個信息系統之間數據斷層的機制一直以來是智能決策支持系統建設領域重要的研究內容,并在眾多領域得到初步的實踐與應用[2].本文選擇數據挖掘領域的“數據斷層”概念,分別探討和分析了數據顯斷層領域的縫隙現象和減少縫隙的數據聚合方法,以及數據隱斷層領域的隱斷層現象和減少隱斷層的數據熔合方法,并就具體案例的日志數據分析,對蘊含其中的數據顯斷層和隱斷層進行了細節化論述.
整個數據顯斷層和隱斷層的分析處理過程對于引導用戶根據自身要求得到有用信息并進行智能決策都具有良好的指導作用[37-39].因此,進一步深化數據斷層的研究,有利于強化數據挖掘技術對于智能決策支持領域的支撐作用,有利于創新數據挖掘領域的研究.
[1] 趙枏.智慧的未來供應鏈趨勢展望[EB/OL].(2011-10-15)[2015-07-22].http:∥articles.e-works.net.cn/scm/article91405.htm.
[2] 夏驕雄,汪晶玲,嚴琛瓊,等.數據斷層現象的研究[J].計算機應用與軟件,2013,30(8):9-13.
[3] FLEISCHMANN A,SCHMIDT W,STARY C.Subject-oriented development of federated systems——a methodological approach[C]∥Proceedings of the 2014 40th EUROMICRO Conference on Software Engineering and Advanced Applications.Verona,Italy:IEEE Computer Society,2014:199-206.
[4] SHARMA D,SHADABI F.Multi-agents based data mining for intelligent decision support systems[C]∥Proceedings of the 2014 2nd International Conference on Systems and Informatics.Shanghai:IEEE Computer Society,2014:241-245.[5] ZHENG L,DHU W,MIN Y.Raw wind data preprocessing:a data-mining approach[J].IEEE Transactions on Sustainable Energy,2015,6(1):11-19.
[6] 夏驕雄.數據資源的聚類預處理[M].上海:上海科學普及出版社,2011:11.
[7] 汪晶玲.數據資源中數據斷層現象的研究[D].上海:上海大學,2013.
[8] MILLER L D,SOH L K.Cluster-based boosting[J].IEEE Transactions on Knowledge and Data Engineering,2015,27(6):1491-1504.
[9] ZHANG H,CHEN G,OOI B C,et al.In-memory big data management and processing:a survey[J].IEEE Transactions on Knowledge and Data Engineering,2015,27(7):1920-1948.[10] ALGHASSI A,PERINPANAYAGAM S,SAMIE M,et al.Computationally efficient,real-time,and embeddable prognostic techniques for power electronics[J].IEEE Transactions on Power Electronics,2015,30(5):2623-2634.
[11] QIU F D,WU F,CHEN G H.Privacy and quality preserving multimedia data aggregation for participatory sensing systems[J].IEEE Transactions on Mobile Computing,2015,14(6):1287-1300.
[12] SHORE J E.Relative entropy,probabilistic inference,and AI[C]∥Proceedings of the First Annual Conference on Uncertainty in Artificial Intelligence.Los Angeles:Elsevier,1988:211-216.
[13] BERREZUETA E,GONZLEZ-MENNDEZ L,ORDEZ-CASADO B,et al.Pore network quantification of sandstones under experimental CO2injection using image analysis[J].Computers & Geosciences,2015,77:97-110.
[14] SSALI G,MARWALA T.Computational intelligence and decision trees for missing data estimation[C]∥Proceedings of the International Joint Conference on Neural Networks.Hong Kong:IEEE,2008:201-207.
[15] VATEEKUL P,SARINNAPAKORN K.Tree-based approach to missing data imputation[C]∥Proceedings of the IEEE International Conference on Data Mining Workshops.Miami,Florida:IEEE,2009:70-75.
[16] JIN W,TUNG A K H,HAN J W.Mining top-n local outliers in large databases[C]∥Proceedings of 7th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Francisco:ACM Press,2001:293-298.
[17] WANG Y T,FENG H Y.Outlier detection for scanned point clouds using majority voting[J].Computer-Aided Design,2015,62:31-43.
[18] XIONG H,PANDEY G,STEINBACH M,et al.Enhancing data analysis with noise removal[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(3):304-319.
[19] CHOI J,KIM K E.Hierarchical bayesian inverse reinforcement learning[J].IEEE Transactions on Cybernetics,2015,45(4):793-805.[20] FERRO A,GIUGNO R,PUGLISI P L,et al.An efficient duplicate record detection using q-grams array inverted index[C]∥Proceedings of the 12th International Conference on Data Warehousing and Knowledge Discovery.Berlin Heidelberg:Springer,2010:309-323.[21] BILENKO M,MOONEY R J.Adaptive duplicate detection using learnable string similarity measures[C]∥Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Washington DC:ACM Press,2003:39-48.
[22] ELMAGARMID A K,IPEIROTIS P G,VERYKIOS V S.Duplicate record detection:a survey[J].IEEE Transactions on Knowledge and Data Engineering,2007,19(1):1-16.
[23] HONG Y S T,ROSEN M R,BHAMIDIMARRI R.Analysis of a municipal wastewater treatment plant using a neural network-based pattern analysis[J].Water Research,2003,37(7):1608-1618.
[24] NGUYEN T,PHUNG D,DAO B,et al.Affective and content analysis of online depression communities[J].IEEE Transactions on Affective Computing,2014,5(3):217-226.
[25] ZENG G M,LI X D,JIANG R,et al.Fault diagnosis of WWTP based on improved support vector machine[J].Environmental Engineering Science,2006,23(6):1044-1054.
[26] JOHNSON S.Optimization strategy of energy-description and collision-description clustering[J].Journal of Information and Computational Science,2011,8(8):1251-1260.
[27] BIAN M J,XIA J X,XU J.Database preprocessing with AHP[C]∥Proceedings of the 2010 7th International Conference on Fuzzy Systems and Knowledge Discovery.Yantai:IEEE Press,2010:2805-2809.
[28] MAYFIELD C S,NEVILLE J,PRABHAKAR S.ERACER:a database approach for statistical inference and data cleaning[C]∥Proceedings of the 2010 ACM SIGMOD International Conference on Management of Data.Indianapolis,Indiana:ACM Press,2010:75-86.
[29] KOTSIANTIS S B,KANELLOPOULOS D,PINTELAS P E.Data preprocessing for supervised learning[J].International Journal of Computer Science,2006,1(2):111-117.
[30] BRUHA I,FRANEK F.Comparison of various routines for unknown attribute value processing:the covering paradigm[J].International Journal of Pattern Recognition and Artificial Intelligence,1996,10(8):939-955.
[31] LUANGPAIBOON P,CHINDA K.Computer-based management of interactive data transformation systems using Taguchi’s robust parameter design[J].International Journal of Computer Integrated Manufacturing,2015,28(10):1030-1045.
[33] GHASSABEH Y A,RUDZICZ F.Noisy source vector quantization using kernel regression[J].IEEE Transactions on Communications,2014,62(11):3825-3834.
[34] WAGNER C,MILLER S,GARIBALDI J M,et al.From interval-valued data to general type-2 fuzzy sets[J].IEEE Transactions on Fuzzy Systems,2015,23(2):248-269.
[35] 葛浩,李龍澍,楊傳健.基于相對分辨能力的屬性約簡算法[J].系統工程理論與實踐,2015,35(6):1595-1603.
[36] XU Y W,HOU C H,YAN S F,et al.Fuzzy statistical normalization CFAR detector for non-rayleigh data[J].IEEE Transactions on Aerospace and Electronic Systems,2015,51(1):383-396.
[37] HSU D,JOHNSON S,HUI M.Data faultage in data resource[J].International Journal of Database Theory and Application,2015,8(6):271-284.
[38] 徐俊,夏驕雄,周時強.數據斷層分析在廣播電臺數據處理中的應用[J].計算機應用與軟件,2016,33(9):38-42,158.
[39] 夏驕雄,劉政,劉緒彬,等.基于快速應用開發的功能點增量迭代模型[J].上海理工大學學報,2014,36(6):578-584.
(編輯:丁紅藝)
Research and Application of Dominant Data Faultage and Tacit Data Faultage
XIA Jiaoxiong1,2,3,4, WEI Qin2, MIAO Hui3, WU Xinlin5, XU Zhao3, JIN Yong3, GAO Weishan2
(1.Xianda College of Economics and Humanities,Shanghai International Studies University,Shanghai 200083,China;2.School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China; 3.School of Computer Engineering and Science,Shanghai University,Shanghai 200444,China;4.Information Centre,Shanghai Municipal Education Commission,Shanghai 200003,China; 5.Department of Education Evaluation Research,Shanghai Education Evaluation Institute,Shanghai 200031,China)
As one of the three key bases for the alteration of management decision-making,the establishment and perfection of the mechanism of data faultage between different information systems is also one of the important research content for intelligent decision support systems.With the advent of the Internet+,all kinds of data resources are growing,the data faultage has become more obvious in several areas around our life.For further studies and practices on data faultage intellectual systems,taking the micro data faultage as a main analysis object,the dominant data faultage was defined as the data faultage between different information systems,and the tacit data faultage was defined as the data faultage existing in a single information system.In the dominant data faultage,the concept of pore was introduced as the data object with subject independence,and a data compaction technique was used to reduce the faultage property of pore.In the tacit data faultage,the data density was defined as the distribution of data objects,and a data pressure solution technique was used to reduce the space occupied by data objects.In the paper,the log data of mobile client application of “Shanghai Music Radio FM 101.7” was taken as an example and the dominant data faultage and the tacit data faultage were analyzed finely.
intelligent decision support system; micro data faultage; data aggregation; data fusion solution; crack detection; dominant data faultage; tacit data faultage
1007-6735(2016)05-0487-10
10.13255/j.cnki.jusst.2016.05.012
2016-03-07
國家自然科學基金資助項目(40976108,61303097);上海市重點學科建設資助項目(J50103);上海市第二期(2016年)民辦高校科研項目(2016-SHNGE-08ZD);上海大學研究生創新基金資助項目(SHUCX070037,SHUCX120105)
夏驕雄(1973-),男,研究員.研究方向:數據挖掘、智能決策支持系統、教育信息化、計算機輔助教育.E-mail:jshardrom@shmec.gov.cn
TP 311.131;G 202
A