王樹明,余 菁,陳 軍
(1.中國煙草總公司湖北省公司;2.武漢楚煙信息技術(shù)有限公司,湖北武漢 430030)
隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)作為重要的企業(yè)資產(chǎn)越來越受到重視,面對紛繁復雜的企業(yè)數(shù)據(jù),如何挖掘和利用其中的信息和知識成為企業(yè)大數(shù)據(jù)分析的關(guān)鍵。數(shù)據(jù)血緣[1]描述了數(shù)據(jù)從產(chǎn)生,并隨時間推移而演變的整個過程,數(shù)據(jù)血緣分析的應用領(lǐng)域非常廣,包括數(shù)據(jù)質(zhì)量評價、數(shù)據(jù)核查、數(shù)據(jù)恢復和數(shù)據(jù)引用等。本文以卷煙營銷系統(tǒng)為研究對象,研究卷煙營銷系統(tǒng)中數(shù)據(jù)血緣分析問題。
卷煙營銷系統(tǒng)龐大且復雜,主要可以分為計劃管理、需求預測、貨源組織、貨源供應、訂單管理、客戶服務(wù)、品牌管理、市場監(jiān)測、網(wǎng)建管理、綜合管理等十大業(yè)務(wù)環(huán)節(jié),各業(yè)務(wù)環(huán)節(jié)之間有著復雜的數(shù)據(jù)引用關(guān)聯(lián)關(guān)系。涉及的主要業(yè)務(wù)平臺系統(tǒng)包括:省級營銷平臺、一體化服務(wù)平臺、市綜合業(yè)務(wù)平臺等。營銷系統(tǒng)中的數(shù)據(jù)有可能來自于其他多個數(shù)據(jù)源,甚至是來自外部第三方應用。同時,即使是同一數(shù)據(jù)集的數(shù)據(jù)也有可能來自不同的數(shù)據(jù)源,這些數(shù)據(jù)關(guān)系的復雜性和不確定性都給卷煙營銷數(shù)據(jù)的血緣分析帶來了巨大挑戰(zhàn)。因此,當前我國省級卷煙營銷系統(tǒng)亟需一種高效、支持細粒度的數(shù)據(jù)血緣追溯分析解決方案。
云計算具有動態(tài)可擴展、按需付費、集中管理和算力強大等優(yōu)點,因此對于企業(yè)而言,將傳統(tǒng)業(yè)務(wù)遷移到云端已成為一種必然的技術(shù)選擇。現(xiàn)有云架構(gòu)大致可以分為公有云、私有云和混合云架構(gòu)。目前,公有云發(fā)展較快,但是公有云屬于托管性質(zhì),云租戶缺乏對物理設(shè)備的控制權(quán),因此,很多企業(yè)和機構(gòu)出于安全性考慮而選擇部署私有云數(shù)據(jù)中心的方式來集成管理企業(yè)內(nèi)部信息系統(tǒng)。企業(yè)選擇部署私有云是由于私有云具有更高的安全性和可控性,但是實際運營過程中,私有云數(shù)據(jù)中心也面臨著安全隱患。現(xiàn)有省級卷煙營銷平臺往往采用混合云的架構(gòu),在外包云數(shù)據(jù)中心環(huán)境下如何保障數(shù)據(jù)血緣分析的安全性和高效性是卷煙營銷數(shù)據(jù)血緣分析面臨的又一巨大挑戰(zhàn)。
數(shù)據(jù)血緣技術(shù)對多源數(shù)據(jù)集成、演化過程進行分析、研究,獲取原始數(shù)據(jù)到目標數(shù)據(jù)的具體生成、轉(zhuǎn)換流程。數(shù)據(jù)血緣包括靜態(tài)的源數(shù)據(jù)信息和動態(tài)的數(shù)據(jù)演化過程。針對數(shù)據(jù)血緣分析,Cui 等[2]從數(shù)據(jù)庫關(guān)系運算符操作出發(fā),定義了數(shù)據(jù)血緣的具體流程,例如SPJ 段是通過查詢、投影和選擇操作構(gòu)成的標準形式查詢。在后續(xù)研究[3-4]中,基于數(shù)據(jù)血緣分析的定義,進一步構(gòu)建數(shù)據(jù)血緣分析的完整體系,從操作對應的元組起源、數(shù)據(jù)起源追蹤查詢、數(shù)據(jù)分割操作、視圖元組起源到數(shù)據(jù)集合起源等,并給出了數(shù)據(jù)血緣查詢的具體系統(tǒng)實現(xiàn),但是該方法需要對全局數(shù)據(jù)模型進行建模,并不能很好地解決多源數(shù)據(jù)應用場景下的數(shù)據(jù)血緣驗證問題。Buneman 等[6]利用輔助數(shù)據(jù)庫對數(shù)據(jù)血緣信息進行管理,根據(jù)使用者對輔助數(shù)據(jù)庫的操作來追溯使用者的操作,這種方法需要額外構(gòu)建輔助數(shù)據(jù)庫,而且在大數(shù)據(jù)量并發(fā)操作場景下,保持事務(wù)一致性給云數(shù)據(jù)服務(wù)中心會帶來很大壓力。Ruan 等[9]針對區(qū)塊鏈設(shè)計一種細粒度、安全、高效的區(qū)塊鏈數(shù)據(jù)溯源系統(tǒng)LineageChain。朱運磊等[10]利用布爾公式、邏輯蘊含和圖模型的性質(zhì)及等價轉(zhuǎn)換機制,將不確定性數(shù)據(jù)的世系表達式等價地轉(zhuǎn)換為貝葉斯網(wǎng)絡(luò),并基于貝葉斯網(wǎng)絡(luò)的概率推理對查詢請求進行應答。
上述方法利用各類輔助數(shù)據(jù)完成數(shù)據(jù)血緣查詢?nèi)蝿?wù),近年來隨著云計算的興起,云數(shù)據(jù)庫成為企業(yè)管理海量數(shù)據(jù)的主要選擇。但外包云數(shù)據(jù)庫服務(wù)模型中云計算中心并不完全可信,如何保障數(shù)據(jù)血緣審計的安全性和可驗證性成為數(shù)據(jù)血緣查詢研究的重要研究方向,利用密碼學方法保證數(shù)據(jù)血緣安全查詢是主要技術(shù)方案。Porkodi 等[11]設(shè)計一種基于混合屬性加密的數(shù)據(jù)溯源方法,該溯源方法可以實現(xiàn)基于區(qū)塊鏈針對物聯(lián)網(wǎng)數(shù)據(jù)流的高效、安全溯源操作。Simon 等[12]針對數(shù)據(jù)存儲優(yōu)化場景,提出了一種基于圖數(shù)據(jù)庫的醫(yī)療應用數(shù)據(jù)溯源方法,保障在云平臺環(huán)境下醫(yī)療數(shù)據(jù)的高效溯源。Marchetti 等[22]提出一種針對網(wǎng)絡(luò)中數(shù)據(jù)泄露的溯源追蹤方法,利用有向無環(huán)圖及Kmeans 聚類等方法對網(wǎng)絡(luò)流量監(jiān)控識別,從而確定大型網(wǎng)絡(luò)中惡意活動的特定主機。Priebe 等[14]利用水印技術(shù)嵌入加密安全標簽和安裝監(jiān)視器的方式使得云租戶能夠?qū)崟r監(jiān)控其數(shù)據(jù)流。Bertino 等[15]將數(shù)據(jù)溯源技術(shù)、機密訪問控制以及可信計算相結(jié)合,提出一種構(gòu)建安全數(shù)據(jù)來源路線鏈圖的方式,確保不影響人員隱私的情況下,實現(xiàn)數(shù)據(jù)來源的高度保證。
然而,上述方法并不能很好地兼顧外包云數(shù)據(jù)服務(wù)中心場景下數(shù)據(jù)血緣分析的高效性和安全性。近年來,大數(shù)據(jù)技術(shù)普遍應用于我國煙草數(shù)據(jù)平臺和信息系統(tǒng)建設(shè)[7-8],我國卷煙營銷系統(tǒng)大多基于云服務(wù)平臺建設(shè),但目前缺乏有效的煙草營銷數(shù)據(jù)血緣分析解決方案。本文借鑒代理重加密方法,研究云環(huán)境下的卷煙營銷數(shù)據(jù)血緣分析方法,實現(xiàn)了混合云模式下安全、高效的細粒度數(shù)據(jù)血緣分析服務(wù)。
為了實現(xiàn)數(shù)據(jù)血緣的細粒度、高效查詢,設(shè)計基于代理重簽名的卷煙營銷數(shù)據(jù)血緣分析方法,首先介紹用到的密碼學工具,包括代理重簽名算法和雙線性映射,然后介紹卷煙營銷數(shù)據(jù),最后介紹卷煙營銷數(shù)據(jù)的血緣查詢分析方法。
代理重加密[5]由一組多項式時間算法:KeyGen、ReKey、Sign、ReSign、Verify 組成。代理重加密算法允許一個半可信的機構(gòu)(云數(shù)據(jù)中心)將用戶Alice 的加密數(shù)據(jù)安全地轉(zhuǎn)換成另一個用戶Bob 的加密數(shù)據(jù)。對于安全的代理重加密算法而言,半可信機構(gòu)不能通過代理重加密算法本身或分析存儲的加密數(shù)據(jù)、收到的通信消息以獲取任何參與者(Alice,Bob)信息。本文假設(shè)云數(shù)據(jù)中心是半可信的,即云數(shù)據(jù)中心會正確執(zhí)行協(xié)議,但是云數(shù)據(jù)中心存在猜測平臺用戶秘密信息的可能。
設(shè)G1和G2是兩個階為素數(shù)p的循環(huán)群,g是G1的一個生成元,若映射e:G1×G1→G2為一個雙線性映射,則映射e滿足以下條件:①雙線性:?a,b∈Zp*,滿足e(ga,gb)=e(g,g)ab;②非退化性:e(g,g)≠1∈G2,其中1 代表G2群的單位元;③可計算性:?g1,g2∈G1,存在一個有效的算法,可以在多項式時間內(nèi)計算e(g1,g2)。
卷煙營銷系統(tǒng)數(shù)據(jù)復雜,有可能來自煙草公司的基礎(chǔ)數(shù)據(jù),或者來自卷煙營銷系統(tǒng)內(nèi)部。為了進行卷煙營銷數(shù)據(jù)血緣分析,將卷煙營銷系統(tǒng)平臺數(shù)據(jù)分成3 類:B 表、K表、R 表。
B 表為基礎(chǔ)表,接口表入庫后被命名為B 表。B 表來源于源端業(yè)務(wù)系統(tǒng),即基礎(chǔ)業(yè)務(wù)層的原始粒度數(shù)據(jù)。
K 表為加工過程表,其數(shù)據(jù)由B 表加工生成,可能來自一個或多個B 表。B 表加工后形成共享程度高,業(yè)務(wù)含義也豐富的K 表。
R 表為業(yè)務(wù)指標表,其數(shù)據(jù)有B 表和K 表數(shù)據(jù)加工生成,將數(shù)據(jù)按業(yè)務(wù)單元、分析主題進行加工整合,用于對外提供數(shù)據(jù)服務(wù)。
卷煙營銷數(shù)據(jù)中心內(nèi)B 表、K 表、R 表須嚴格遵守數(shù)據(jù)分層存儲、層級間加工轉(zhuǎn)換規(guī)則:①K 層數(shù)據(jù)表可由B 層、K 層數(shù)據(jù)表加工而成;②R 層數(shù)據(jù)表可由B 層、K 層數(shù)據(jù)表加工而成;③R 層數(shù)據(jù)表不能生成R 層數(shù)據(jù)表。
卷煙營銷數(shù)據(jù)表分層存儲樣例如圖1 所示,卷煙營銷數(shù)據(jù)平臺中每個數(shù)據(jù)表擁有唯一表標識(如B_id,K_id,R_id)。

Fig.1 Example of hierarchical storage of cigarette marketing data table圖1 卷煙營銷數(shù)據(jù)表分層存儲示例
卷煙營銷數(shù)據(jù)在源端業(yè)務(wù)系統(tǒng)產(chǎn)生后,按業(yè)務(wù)域和業(yè)務(wù)環(huán)節(jié)采集進入數(shù)據(jù)中心。數(shù)據(jù)中心對數(shù)據(jù)進行清洗轉(zhuǎn)換、匯聚加工、分級存儲。源層數(shù)據(jù)清洗轉(zhuǎn)換后形成業(yè)務(wù)數(shù)據(jù)基礎(chǔ)表(B 表層)和主數(shù)據(jù)表?;A(chǔ)表(B 層)數(shù)據(jù)經(jīng)過加工匯聚,形成加工過程表(K 層)和業(yè)務(wù)指標表(R 層)。建立數(shù)據(jù)服務(wù)目錄,對外提供數(shù)據(jù)服務(wù),支撐源端業(yè)務(wù)系統(tǒng)運行及各類數(shù)據(jù)服務(wù)應用。煙草營銷數(shù)據(jù)總體分布存儲及處理框架如圖2所示。

Fig.2 Overall distribution framework of tobacco marketing data圖2 煙草營銷數(shù)據(jù)總體分布框架
卷煙營銷數(shù)據(jù)安全、高效血緣分析針對K 表和R 表,可以查詢數(shù)據(jù)來源和演化途徑,針對卷煙營銷數(shù)據(jù)實際情況,即使同一個K 表或R 表中數(shù)據(jù)也可能來自不同數(shù)據(jù)源(B 表或K 表)。本文設(shè)計細粒度的血緣分析機制,可以針對元組進行細粒度的數(shù)據(jù)血緣追溯??紤]到云數(shù)據(jù)中心并不完全可信,數(shù)據(jù)庫中血緣溯源數(shù)據(jù)具有不可抵賴性,可以有效抵抗來自云服務(wù)器段的偽造和替換攻擊等攻擊方式。
卷煙營銷數(shù)據(jù)平臺系統(tǒng)模型有平臺管理中心、平臺用戶(平臺應用子系統(tǒng))、云數(shù)據(jù)中心3部分組成。平臺管理中心主要負責平臺用戶身份管理,并為平臺用戶生成密鑰信息。平臺管理中心不需要強大的計算能力和存儲能力,構(gòu)建在煙草公司私有云環(huán)境下,可以認為是完全可信的。云數(shù)據(jù)中心負責存儲管理卷煙營銷數(shù)據(jù)平臺中的全部數(shù)據(jù),構(gòu)建在公有云環(huán)境下,則被認為是半可信的,有可能受到外部攻擊,也有可能出于好奇而探測平臺數(shù)據(jù)。平臺用戶(平臺應用子系統(tǒng))為卷煙營銷平臺的授權(quán)用戶,擁有訪問、修改平臺數(shù)據(jù)的權(quán)限,同時可以查詢平臺營銷數(shù)據(jù)的血緣信息。卷煙營銷數(shù)據(jù)平臺系統(tǒng)架構(gòu)如圖3所示。

Fig.3 Cigarettemarketingdataplatformsystemmodel圖3 卷煙營銷數(shù)據(jù)平臺系統(tǒng)模型
卷煙營銷數(shù)據(jù)平臺中,用戶更新營銷數(shù)據(jù)時,寫入數(shù)據(jù)血緣信息,并對數(shù)據(jù)血緣信息進行簽名?;诰頍煚I銷數(shù)據(jù)分層存儲結(jié)構(gòu),系統(tǒng)中平臺用戶只能更新K表和R表數(shù)據(jù),B表數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)不能更新。平臺設(shè)計代理重加密算法∏={Setup,KeyGen,Sign,ReKey,ReSign,Verify}實現(xiàn)平臺營銷數(shù)據(jù)血緣分析管理。
Setup(1λ)→(e,g,G1,G2,H)為系統(tǒng)初始化函數(shù),生成全局安全參數(shù),由平臺管理中心調(diào)用,算法以系統(tǒng)安全參數(shù)λ作為輸入,輸出系統(tǒng)全局安全參數(shù)(e,g,h,G1,G2,H),其中e:G1×G1→G2為雙線性映射,g,h(g≠h)為G1的生成元,H:{0,1}*→Zp為安全哈希函數(shù)。
Sign(t_id,b_id,sk)→σ由平臺用戶調(diào)用,為元組的血緣數(shù)據(jù)生成簽名。系統(tǒng)中為了實現(xiàn)細粒度的數(shù)據(jù)血緣追溯,每個元組都由最后的修改者根據(jù)數(shù)據(jù)血緣信息進行簽名。卷煙營銷系統(tǒng)中B表為基礎(chǔ)表,其數(shù)據(jù)來源于源端業(yè)務(wù)系統(tǒng),可以認為在卷煙營銷業(yè)務(wù)中是未經(jīng)加工數(shù)據(jù),因此B表數(shù)據(jù)并不進行數(shù)據(jù)血緣簽名。平臺用戶更新K表或R表中數(shù)據(jù)時,對數(shù)據(jù)血緣信息進行簽名。用戶u(密鑰為sk)修改K表數(shù)據(jù)項t_id(t_id∈Zp是元組的唯一標識)時,t_id元組數(shù)據(jù)源來自B表集合{B_id1,B_id2,…,B_idn},而當用戶u修改R表數(shù)據(jù)項t_id時,t_id元組數(shù)據(jù)源來自B表集合{B_id1,B_id2,…,B_idn}和K表集合{K_id1,K_id2,…,K_idm},b為元組t_id的數(shù)據(jù)血緣連接信息,即b_id=B_id1||B_id2||…||B_idn||K_id1||K_id2||…||K_idm,u對t_id元組血緣數(shù)據(jù)簽名如下:
(1)u選擇隨機數(shù)k∈Zp,并計算r=hk;
(2)u計算H(b_id||r),輸出s=sk×(H(b_id||r)+k×t_id)modp
(3)u輸出簽名σ如下:

ReKey(pk,sk’)→rku→u’由平臺管理中心和平臺用戶u’調(diào)用,算法輸入用戶u的公鑰pk以及用戶u’的私鑰sk’,輸出代理重加密密鑰rku→u’。
ReSign(σ,rku→u’)→σ’由云數(shù)據(jù)中心執(zhí)行,算法輸入血緣數(shù)據(jù)簽名σ(由數(shù)據(jù)的最后訪問者u簽名),由用戶u到u’的代理重加密密鑰’為數(shù)據(jù)血緣關(guān)系的驗證者)。
Verify(t_id,b_id,σ)→{1,⊥}為驗證算法,由平臺用戶u執(zhí)行,基于元組t_id的血緣信息b_id的數(shù)據(jù)簽名σ進行驗證,當血緣數(shù)據(jù)簽名正確時輸出1,否則輸出⊥。
卷煙營銷數(shù)據(jù)平臺中,平臺用戶u修改K表或R表數(shù)據(jù)時,根據(jù)新數(shù)據(jù)來源記錄數(shù)據(jù)血緣信息,并調(diào)用Sign簽名算法對數(shù)據(jù)血緣信息進行簽名,上傳存儲在云數(shù)據(jù)中心,表結(jié)構(gòu)如圖4所示。
卷煙營銷平臺中所有的平臺用戶可以查詢K表和R表中元組的數(shù)據(jù)血緣信息,如K表t_K_1的元組t_1中的數(shù)據(jù)來源于B表t_B_1和t_B_3,而R表t_R_1的元組t_3中的數(shù)據(jù)來源于B表t_B_4,t_B_7和K表t_K_1。用戶u利用個人私鑰sk對元組血緣數(shù)據(jù)進行簽名σ(r,s)如式(1)所示。
基于云數(shù)據(jù)中心的安全性需求,設(shè)計兩種數(shù)據(jù)血緣查詢驗證方法:①修改者身份公開血緣查詢機制;②修改者隱私保護血緣查詢機制。在修改者身份公開血緣查詢模式下,數(shù)據(jù)的最終修改者身份信息公開,血緣查詢者可以查詢數(shù)據(jù)血緣信息,并基于血緣簽名利用數(shù)據(jù)修改者的公鑰驗證數(shù)據(jù)血緣信息。而考慮到卷煙數(shù)據(jù)平臺安全性需求,部分數(shù)據(jù)的修改者信息不能公開,則血緣查詢者不能利用修改者公鑰對數(shù)據(jù)血緣進行驗證。本文利用代理重加密機制實現(xiàn)修改者身份信息隱私保護前提下的數(shù)據(jù)血緣高效查詢及安全驗證。

Fig.4 Storage structure of kinship information in cigarette marketing data table圖4 卷煙營銷數(shù)據(jù)表血緣信息存儲結(jié)構(gòu)
2.5.1 修改者公開血緣查詢機制
在修改者公開血緣查詢機制下,平臺用戶u訪問卷煙營銷平臺中K 表或R 表數(shù)據(jù)元組t_id,可知t_id 的最終修改用戶u’(公鑰為pk’=gsk’),以及u’記錄的元組血緣信息。u可以基于pk’調(diào)用Verify 算法對元組血緣數(shù)據(jù)進行查詢驗證,過程如下:
(1)u訪問元組t_id,獲取元組的數(shù)據(jù)血緣信息{B_id1,B_id2,…,B_idn,K_id1,K_id2,…,K_idm};
(2)u訪問平臺管理中心,獲取元組t_id修改者u’的公鑰pk’=gsk’;
(3)u選擇隨機數(shù)λ∈Zp,并發(fā)送挑戰(zhàn)信息{t_id,λ}給云數(shù)據(jù)中心;
(4)云數(shù)據(jù)中心計算hλs,rt_id,生成驗證消息{r,hλs,rt_id}并返回給u;
(5)u計算H(B_id1||B_id2||…||B_idn||K_id1||K_id2||…||K_idm||r)modp,并驗證t_id 的數(shù)據(jù)血緣信息如式(2)所示:

基于雙線性映射性質(zhì),式(2)的正確性可以驗證如下:

修改者公開血緣查詢模式中,用戶無需下載血緣簽名即可實現(xiàn)血緣數(shù)據(jù)完整性驗證,從而實現(xiàn)云環(huán)境下卷煙營銷數(shù)據(jù)安全、高效血緣查詢。
2.5.2 修改者隱私保護血緣查詢機制
修改者公開血緣查詢模式中,用戶可以高效實現(xiàn)血緣數(shù)據(jù)查詢及驗證,但是在卷煙營銷平臺中很多數(shù)據(jù)并不能公開修改者信息,用戶無法利用簽名者公鑰進行驗證?;诖碇睾灻麢C制,設(shè)計修改者隱私保護的數(shù)據(jù)血緣查詢服務(wù)。
當用戶u在修改者用戶隱私保護模式下查詢數(shù)據(jù)元組t_id的數(shù)據(jù)血緣信息時,驗證過程如下:
(1)用戶u(私鑰為sk)選擇隨機數(shù)β∈Zp,并將β×sk發(fā)送給平臺管理中心;
(3)u選擇隨機數(shù)λ∈Zp,并發(fā)送挑戰(zhàn)信息{t_id,λ,給云數(shù)據(jù)中心;
(4)云計算中心針對t_id的數(shù)據(jù)簽名σ(r,s)計算:

(5)云數(shù)據(jù)中心計算hλs、rt_id,生成驗證消息{r,hλs,rt_id}并返回給u;
(6)u計算H(B_id1||B_id2||…||B_idn||K_id1||K_id2||…||K_idm||r)modp,并驗證t_id 的數(shù)據(jù)血緣信息如式(5)所示:

基于雙線性映射性質(zhì),式(5)的正確性可驗證如下:

假設(shè)攻擊者A 修改元組t_id的血緣信息{B_id1,B_id2,…,B_idn,K_id1,K_id2,…,K_idm},基于式(2)、式(5),驗證s=sk×(H(b_id||r)+k×t_id)modp,而用戶查詢得到的B_id1||B_id2||…||B_idn||K_id1||K_id2||…||K_idm≠b_id,假設(shè)攻擊者A 偽造的數(shù)據(jù)血緣數(shù)據(jù)可以通過用戶的血緣查詢驗證,則基于隨機斷言模型,攻擊者A 針對安全隨機Hash 函數(shù)可以解決難題H(b)=H(b’),且b≠b’。基于隨機Hash函數(shù)的安全性假設(shè),攻擊者A 無法在多項式時間內(nèi)找到滿足上述要求的b和b’,因此攻擊者無法偽造簽名并通過數(shù)據(jù)血緣驗證。
進一步假設(shè)攻擊者A 試圖隨機偽造簽名σ’,并通過后續(xù)驗證。那么攻擊者A 可以找到哈希函數(shù)H(·)的一個有效碰撞,假設(shè)H(·)的輸出寬度為(ll≥64),則A 找到有效碰撞的概率不大于顯然這個可能性是可忽略的,因此攻擊者A 無法隨機偽造簽名以不可忽略的概率破壞系統(tǒng)安全性。
將本文設(shè)計的數(shù)據(jù)血緣安全分析方法用于卷煙營銷系統(tǒng)中的數(shù)據(jù)血緣分析,設(shè)計實驗分析算法的查詢效率和網(wǎng)絡(luò)消息量。當前,卷煙營銷系統(tǒng)的數(shù)據(jù)庫構(gòu)建于云環(huán)境下,因此需要能夠保障血緣數(shù)據(jù)安全性和完整性的血緣數(shù)據(jù)查詢方法。將提出的方法與Hybrid Attribute[11]和Cloud-SafetyNet[14]兩種方法進行查詢效率進行比較,這3 種方法都可以對血緣數(shù)據(jù)進行安全性驗證。實驗數(shù)據(jù)選自營銷系統(tǒng)的20 個表,分別隸屬于卷煙營銷和物流業(yè)務(wù)域,包括10個B 表,7個K 表和3個R 表。
統(tǒng)計3 種方法查詢不同規(guī)模數(shù)據(jù)血緣(50~300 個元組)的時間開銷,實驗結(jié)果如圖5所示。

Fig.5 Efficiency experiment of consanguinity query圖5 血緣查詢效率實驗
實驗結(jié)果顯示,本文方法的數(shù)據(jù)血緣查詢效率優(yōu)于Hybrid Attribute[11]和CloudSafetyNet[14]兩種對比方法。與對比方法相比,Hybrid Attribute 需要對數(shù)據(jù)多維屬性分別進行處理,鑒于實驗數(shù)據(jù)集中卷煙營銷數(shù)據(jù)的多維特點,數(shù)據(jù)血緣查詢代價較大。CloudSafetyNet 方法中需要用戶客戶端進行所有驗證操作,而將本文提出方法的大部分驗證操作外包給云服務(wù)器執(zhí)行,充分發(fā)揮云數(shù)據(jù)服務(wù)優(yōu)勢,因此查詢效率要優(yōu)于CloudSafetyNet 方法。實驗中選擇查詢50~300 個元組數(shù)據(jù)的血緣信息,本文方法的驗證時間開銷從723ms 到1 023ms,可以有效支持卷煙營銷平臺系統(tǒng)對于數(shù)據(jù)血緣查詢的效率需求。
為確保云平臺環(huán)境下血緣數(shù)據(jù)的安全性和可驗證性,本文設(shè)計數(shù)據(jù)簽名機制以保障血緣數(shù)據(jù)的不可抵賴性和防篡改特性。針對卷煙營銷平臺的數(shù)據(jù)安全需求,分別設(shè)計“修改者公開血緣查詢機制”和“修改者隱私保護血緣查詢機制”兩種服務(wù)模式,設(shè)計模擬實驗統(tǒng)計不同規(guī)模查詢數(shù)據(jù)元組量條件下血緣數(shù)據(jù)驗證效率,實驗統(tǒng)計結(jié)果如圖6所示。

Fig.6 Efficiency experiment of consanguinity verification圖6 血緣驗證效率實驗
本文方法中,大量的數(shù)據(jù)計算操作由云平臺完成,充分發(fā)揮了云服務(wù)外包模式的優(yōu)勢。實驗結(jié)果顯示,本文方法的數(shù)據(jù)血緣驗證效率優(yōu)于Hybrid Attribute[11]和Cloud-SafetyNet[14]兩種對比方法。實驗中選擇查詢驗證50~300個元組數(shù)據(jù)的血緣信息,“修改者公開血緣查詢機制”驗證時間開銷從498ms 到547ms,“修改者隱私保護血緣查詢機制”驗證時間開銷從897ms 到970ms,可以滿足卷煙營銷平臺系統(tǒng)對于數(shù)據(jù)血緣驗證的效率需求。
網(wǎng)絡(luò)通訊開銷也為卷煙營銷平臺所重點關(guān)注,設(shè)計仿真實驗,統(tǒng)計在“修改者公開血緣查詢機制”和“修改者隱私保護血緣查詢機制”兩種服務(wù)模式下的網(wǎng)絡(luò)流量開銷。實驗結(jié)果如表1所示。

Table 1 Network traffic overheads表1 網(wǎng)絡(luò)流量開銷
如表1 所示,在修改者公開血緣查詢機制下,網(wǎng)絡(luò)流量開銷從3.91KB 到23.44KB,在修改者隱私保護血緣機制下,網(wǎng)絡(luò)流量開銷從5.47KB 到32.81KB。實驗結(jié)果顯示,本文提出方法的網(wǎng)絡(luò)流量開銷較小,不會對卷煙營銷平臺帶來性能影響。
本文設(shè)計一種外包云數(shù)據(jù)中心環(huán)境下的卷煙營銷數(shù)據(jù)血緣安全分析方法,實現(xiàn)卷煙營銷數(shù)據(jù)修改者隱私保護前提下的安全、高效數(shù)據(jù)血緣分析。與現(xiàn)有方法相比,本文方法在查詢效率、網(wǎng)絡(luò)開銷方面都具有明顯優(yōu)勢。該血緣分析算法應用于卷煙營銷系統(tǒng),實現(xiàn)卷煙營銷數(shù)據(jù)的細粒度血緣追溯查詢并保障卷煙營銷數(shù)據(jù)在外包云服務(wù)中心的數(shù)據(jù)安全,是大型卷煙營銷系統(tǒng)數(shù)據(jù)血緣分析的理想解決方案。