尤垂桔,邱錦明
(三明學院 信息工程學院,福建 三明 365004;數字福建工業能源大數據研究所,福建 三明 365004;工業大數據分析及應用福建省高校重點實驗室,福建 三明 365004;物聯網應用福建省高校工程研究中心,福建 三明 365004)
隨著Web2.0的廣泛應用,數據開放、共享和聚合已成為網絡發展的一大趨勢。 在開放的Web環境下,網絡信息資源海量增長、用戶貢獻內容不斷擴充,形成數據量大、來源分散、類型多樣、噪聲大、異構無序的Web大數據。Web大數據給用戶帶來資源選擇多樣化和自主化的同時,也面臨著信息選擇過程中主題不明確、特征不清晰的的困境。如何將離散分布、動態的、不確定的“信息碎片”根據主題特征屬性進行篩選、過濾、識別、聚合,形成動態的信息聚合系統,有效提供服務并促進知識共享,成為當前研究的重點領域。
如果把影響信息聚合的因素看作信息元特征(屬性)α,那么信息聚合系統A的信息聚合過程就可抽象為A的特征屬性α通過遷移f函數作用于信息聚合系統A的過程。顯然,信息聚合系統的信息元的變化規律與特征屬性之間存在著某種關系,人們希望通過這個關系掌握信息聚合系統的信息元與特征屬性之間的動態規律,為Web大數據的應用提供理論依據和技術支持。
設 U={u1(x),u2(x),…,un(x)}是信息聚合系統 A 的信息元集合,α={α1,α2,… ,αk}是 U 的特征(屬性)集,如果在α內補充(增加)某些屬性,使α變成αf,那么信息元集合U變成Uf,或者對U的特征屬性集α的f遷移生成了信息元集合Uf。顯然U與Uf存在某種關系,這個過程等價于集合 S 的屬性集 α={α1,α2,… ,αk}受到屬性遷移f的干擾,使得S中的元素發生變化,生成S的內P集合(集合中元素減少)或S的外P集合 Sf(集合中元素增多),(,Sf)稱為集合 S 生成的P-集合。P-集具有動態特征,把這一特征拓展應用到信息聚合管理,那么特征屬性的遷移對信息聚合系統的影響,等價于信息聚合系統受到f-屬性的入侵,引起信息聚合系統的信息元變化。自然產生以下幾個問題:f-屬性遷移與信息聚合系統的信息元變化之間存在什么關系?在f-屬性遷移作用下,信息聚合系統的信息元變化是否存在規律?這樣的關系和規律如果存在,能否被識別?
本文基于P-集理論,利用MapReduce研究Web大數據環境下信息聚合系統的信息元與其特征屬性的變化規律,對f-屬性遷移與信息聚合系統的信息元的變化關系,在f-特征屬性遷移作用下的信息聚合系統信息元的聚合和分離規律展開討論。
約定 U是有限元素論域,V是有限屬性論域,S={s1,s2,… ,sm}? U 是 U 上的有限普通集合,α={α1,α2,… ,αk}是 V 上的有限屬性集,f={f1,f2,… ,fn}是元素遷移族。
給定有限元素集合 S={s1,s2,…,sq}? U ,α={α1,α2,… ,αk}?V 是 S 的屬性集,f={f1,f2,… ,fn}是元素遷移族。α在 f遷移下變成αf,元素集合S變成Sf,稱Sf是S的屬性集α在f遷移下生成的內P-集合(internal packetset),而且

S-稱作 S 的-元素刪除集合。這里,αf? α,Sf? S。
給定有限元素集 S={s1,s2,… ,sq}? U ,α={α1,α2,… ,αk}? V 是 S 的屬性集,f={f1,f2,… ,fn}是 α的遷移族。α在f遷移下變成,元素集S變成Sf,稱Sf是S的屬性集α在遷移下生成的外P-集合(outerpacket set),而且

S+稱作S的f-元素補充集合。這里?α,Sf?S。
P-集的動態特征:P-集是以集合S為原點,由于集合S的屬性集α受到f的遷移影響,引起集合S的動態擴充和收縮。
約定U是有限信息元論域,V是信息元有限特征(屬性)論域,F 是信息元特征(屬性)遷移族。α={α1,α2,… ,αm}? V 表示 X 對應的特征(屬性)集;f={f1,f2,… ,fn}? F是屬性遷移族。
定義 1 設 X={x1,x2,… xk}? U 是信息聚合系統 A的信息元集合,α是信息元集合X的屬性集,稱在α內形成的信息元集合[x]是X在α上形成的α-信息聚合體,記為[x]α。
定義2 設 [x]α?U是信息聚合系統A的α-信息聚合體,α在遷移 f下變成是X在f下生成的內P-信息聚合體。
定義3 設 [x]α?U是信息聚合系統A的α-信息聚合體,α在遷移下變成 af,[x]α變成是X在下生成的外P-信息聚合體。
若 αf和 α分別是和[x]α的屬性集,存在 Δα≠φ ,使得 αf=α∪ Δα,由定義 2,有:。根據定義 5,可得:▽[x]是在屬性遷移f作用下的[x]α的P-分離。

定理3的證明是直接的,證明略。


定義 7 設 x={x1,x2,… xn}? X 是 X 上的信息聚合體,α={α1,α2,… ,αm}是 x 的屬性集,μij(x)為信息元 xi在其屬性 αj的特征值,i=1,2,… ,n,j=1,2,… ,m ,稱 C(x)是信息聚合體x上的信息元特征矩陣,如果

定義 8 設信息元 xi,xj,稱 R(xi,xj)是 xi關于 xj的信息元關系測度,如果

其中,μik,μjk分別是信息元 xi,xj在其屬性 αk上的特征值,且

定義9設是信息元集合[x]的屬性集,δ(α)是信息元集合[x]的信息元關系測度閾值,稱[x]δ(α)是[x]基于δ(α)的信息聚合體。
Web大數據環境下的P-信息聚合體生成過程如圖1所示。

圖1 P-信息聚合體生成過程
Web大數據環境下P-信息聚合體生成算法如下:
1.劃分大數據集X為n個子集
2.特征矩陣構建
對數據子集 [x]i以及數據子集 [x]i的特征屬性α進行匯總規約,構建數據子集[x]i的特征矩陣C([x]i)。匯總所有的C([x]i),形成數據集X的特征矩陣C(X)。
3.特征矩陣C(X)變換,使得C(X)的非零元素值往矩陣的左上角集中。
4.在特征矩陣 C(X)中,選取特征屬性集 α={α1,α2,… ,αk}。
5.在特征矩陣C(X)中,選取與特征屬性集α相對應的特征值非零的信息元集合[x]j。
6.應用 R(xi,xj)計算信息元集合[x]m中信息元 xi,xj之間的關系測度。
7.根據設定的信息元關系測度閾值δ(α),對信息元進行聚合操作,生成信息聚合體[x]δ(α)={x1,x2,… ,xn}。
8.往特征屬性集α增加特征屬性Δα,形成新的特征屬性集 α'=α∪ Δα={α1,α2,… ,αk},k>m 。
9. 重復步驟 5-7,生成信息聚合 體[x]δ(α')={x1,x2,… ,xm},m <n。
10.往特征屬性集α減少特征屬性集▽α,形成新的特征屬性集,α"=α-Δα={α1,α2,… ,αk},k<m 。
11.重復步驟 5-7,生成信息聚合體[x]δ(α")={x1,x2,… ,xl},l>n。
12.根據定義4-6,由于特征屬性的遷移,形成P-信息聚合體([x]δ(α'),[x]δ(α"))。
由于特征屬性Δα的遷入,不具有Δα特征屬性的信息元從[x]δ(α)中分離出來,▽ [x]=[x]δ(α)-[x]δ(α');由于特征屬性▽α的移出,不具有特征屬性▽α但具有特征屬性 α"=α-Δα的信息元被聚合到聚合體[x]δ(α)中。
本部分以搜狗實驗室的新聞數據(SogouCA)的部分數據源為例分析討論P-信息聚合體的生成及應用。數據來自若干新聞站點2012年6月-7月期間國內,國際,體育,社會,娛樂等18個頻道的新聞數據,分為三個數據子集[x]1、[x]2、[x]3。數據格式如下:

(1)為每篇新聞文檔增加序列號docid。
(2)采用結巴分詞器(Jieba)對文檔進行分詞,根據停用詞表進行停用詞過濾,即去掉在語料庫中大量存在,但是與主題特征信息沒什么關聯性的詞。
根據TF-IDF對每個數據子集 [x]i的每條數據進行特征詞提取,其中TF(Term Frequency)是詞頻,表示某個詞在文章出現的頻率,計算公式為:

其中:count表示某個詞在文章中出現的次數,words表示文章的詞的總數
IDF(Inverse Document Frequency)是逆文檔頻率,計算公式為:

其中:D表示語料庫的文檔總數,Dw表示包含該詞的文檔數。
特征值計算公式:

形成特征屬性集 α([x]1)、α([x]2)、α([x]3)。
根據TF-IDF的計算結果,對所有的屬性集α([x]1)、α([x]2)、α([x]3)進行匯總,構建特征矩陣。對特征矩陣的非零元素按照左上角集中化處理,形成如表1所示矩陣C(X)。其中列屬性αi表示主題特征屬性,行xj表示信息元,i=1,2,… ,n,j=1,2,… ,m 。

表1 信息元特征矩陣C(x)Table 1 Information element feature cerfificate C(x)
實驗結果如表2所示。

表2 信息聚合體生成結果表Table 2 Information clustering results
在Web大數據環境下P-信息聚合體的生成提高了信息利用的精準性,其基于屬性的聚合與分離在信息精準推送方面具有廣泛的應用意義。
Web大數據環境的開放性,數據類型多樣化、信息來源分散、噪聲大等因素的干擾使得人們在應用Web大數據的過程中面臨巨大的挑戰。P-信息聚合體揭示了信息元與信息元特征屬性的動態關系,為信息分類、快速檢索、精準推送提供新的方法,為在Web大數據環境下應用數據價值提供新的理論支撐。