余光華
(嶺南師范學院 網絡與信息中心,廣東 湛江 524048)
?
一種大規模網絡數據緩存方法的改進
余光華
(嶺南師范學院 網絡與信息中心,廣東 湛江 524048)
針對傳統的網絡海量數據緩存方法中容易出現數據丟失和召回錯誤,數據訪問和調度性能差等問題,提出一種大規模網絡海量數據緩存方法的改進方法.構建網絡緩存空間的數據分布結構模型,進行大規模網絡海量數據的信息流模型構建和時間序列分析.采用模糊C均值聚類算法對提取的關聯維特征進行聚類處理,實現緩存模型優化.仿真結果表明,采用該方法進行大規模網絡海量數據緩存優化設計,有效降低緩存開銷,擴展緩存空間,數據的吞吐性和召回性等指標參量優于傳統方法.
網絡;海量數據;相空間重構;關聯維
隨著網絡信息技術的發展,大量的文件、文字、圖片、聲音和視頻等數據信息通過網絡進行傳輸和通信,形成大數據網絡空間.網絡是大數據信息的資源池,在網絡空間中,大規模網絡數據以幾何級數增長,形成海量網絡數據在網絡信道中存儲和通信,大規模海量網絡數據在網絡中存儲方式主要有兩種,一是以Deep Web數據庫為代表的云存儲資源數據庫,實現對海量數據的永久性存儲,方便用戶檢索和訪問;二是以數據寄存器為代表的網絡緩存區,通過數據緩存實現對即時數據的實時訪問和調度,緩存數據具有暫時性和實時性等特點,數據緩存區不占用用戶和網絡的存儲空間,具有實時高效訪問調度的優點,受到廣泛應用.通過設計大規模海量數據緩存方法,提高數據的即時調度和存取能力,研究大規模網絡海量數據緩存改進方法具有重要意義.
傳統方法中,數據緩存方法主要有基于模糊C均值聚類的數據緩存模型、基于特征子空間建模的數據緩存算法、基于決策樹模型構建的數據緩存算法、基于串口寄存器級聯配置的數據緩存系統設計方法等[1-3].上述方法采用對緩存數據的優化聚類分析和特征提取方法,實現緩存數據的實時調度和訪問,提高數據緩存的特征指向性,降低緩沖容量,取得一定的研究成果.文獻[4]提出一種基于列表的循環堆棧控制大規模網絡數據緩存方法,在存儲架構模型中,采用PCI總線擴展,進行存儲軟件設計,但是該方法的數據傳輸和緩存架構總線協議設計過程比較復雜,數據存儲和計算的開銷較大;文獻[5]提出一種負載均衡調度的海量數據存儲優化架構設計方法,實現海量網絡數據的緩存優化,降低數據存儲開銷,但該緩存系統在進行海量數據存儲過程中,受到緩存數據吞吐容量和性能約束,降低數據緩存的召回性能,數據訪問調度準確性不好;文獻[6]采用存儲區域自動篩選控制的網絡海量數據緩存方法,隨著存儲量和干擾增大,數據緩存中會出現數據丟失和召回錯誤,影響數據訪問和調度性能.因此,本文提出一種大規模網絡海量數據的緩存改進方法,并通過仿真實驗進行性能測試,數據緩存的指標性能優于傳統方法.

圖 1 大規模網絡海量數據緩存系統輸入輸出模型Fig.1 Input and output model of large-scale network mass data cache system
1.1 網絡緩存空間的數據分布結構模型
為實現對大規模網絡海量數據緩存方法優化設計,進行網絡緩存空間的數據分布結構分析,在大型網絡數據存儲系統中,數據存儲內核由內部層次屬性進行數據調度和I/O輸入,網絡內部存儲器通過采樣數據緩沖區實現響應內核中斷,采用四元組(Ei,Ej,d,t)表達決策樹模型下數據緩存的主特征,構建大規模網絡海量數據緩存系統的信息特征采樣模型,設A?V,B?V且A∩B=φ,進行數據結構分析,緩存數據副本放置于合適站點時,建立數據緩存區語義節點本體信任關系模型,實現數據層次化訪問和緩存調度[7-15],根據上述分析,得到大規模網絡海量數據緩存系統輸入輸出模型,如圖1所示.

(1)
其中:上角標θ(t)表示數據合并集的諧振函數.大規模網絡海量數據緩存空間的訓練樣本可通過數據聚類的屬性集實現包絡特征分解,特征分解的表達式為
(2)
其中:s(t)為緩存區的大數據標量時間序列;h(t)表示數據抗干擾濾波函數;H[s(t)]表示數據結構特征分布響應函數. 通過構建網絡緩存空間的數據分布結構模型,實現對大規模網絡海量數據結構分析,在此基礎上,進行緩存數據的信息流模型構建和特征提取.
1.2 大規模網絡海量數據信息流模型構建
大規模網絡海量數據信息流在緩存區根據標簽劃分為(TagBlock)個時間片,在緩存區采集數據集合S,當X?U,R?A條件成立時,各個存儲子集間組成一組非線性時間序列,大規模網絡海量數據在緩存區的信道狀態響應函數表達式為
(3)
根據數據隨機概率分布校驗集,構建大規模網絡海量數據的目標端信息分量,采用多普勒頻移特征表示大規模網絡海量數據從存儲目標端到遠端存儲節點的校驗數據塊結合,即
(4)
其中:yb表示大規模網絡海量數據在緩存區的頻率變化量;y0為大規模網絡海量數據在數據傳輸信道內的載波頻率;z表示傳輸脈寬.在此基礎上,在數據信息流的分數階Fourier域中構建緩存數據的隨機概率分布函數為
(5)
在網絡緩存區域中,采用時頻特征分解方法進行網絡數據信息流幅度調制,幅度調制的展開結果為
(6)

圖 2 大規模網絡海量數據的信息流模型Fig.2 Large-scale network information flow model of huge amounts of data
當客戶端發出文件存儲請求時,將存儲系統中加權權重ωk按照vk和ek進行協方差分解,得到網絡緩存存儲節點的自適應控制加權權重ω(ek,uk),以此為基礎計算文件服務器中的數據緩存校驗信息存儲子集,計算式為

(7)

2.1 網絡海量數據相空間重構和關聯維特征
在上述構建大規模網絡海量數據的時間序列分析模型的基礎上,進行大規模網絡海量數據緩存方法優化設計.傳統方法采用存儲區域自動篩選控制的網絡海量數據緩存方法,隨著存儲量和干擾的增大,數據緩存中容易出現數據丟失和召回錯誤.因此,本文提出一種基于大規模緩存數據信息流相空間重構和關聯維特征聚類的網絡海量數據優化緩存模型,對網絡海量數據時間序列進行相空間重構.根據Takens嵌入定理,把大規模緩存數據信息流通過高維空間映射重構在相空間模型中,得到大規模緩存數據信息流相空間重構的光滑流場函數
(8)
對于Φ:M→R2d+1,大規模緩存數據信息流的相空間軌跡滿足:
(9)
對于大規模緩存數據時間序列{x(t0+iΔt)}, i=0,1,…,N-1,計算嵌入矢量的概率密度特征為
(10)
其中:在tn+1時刻和tn時刻之間數據序列存在關聯特征.采用關聯維指數特征分解,得到緩存數據信息流的相空間重構公式為
(11)
其中:x(t0)表示大規模網絡海量數據在嵌入相空間中的非線性差分矢量;Δt是緩沖區對數據的采樣時間間隔,滿足K=N-(m-1)J.在上述重構的相空間中進行關聯維特征提取,大規模網絡海量數據分布的緩存區為一個多層節點的相軌跡子空間,采用多徑向量重組進行關聯維特征分解,得到多徑重組規律定義為
(12)
當相空間重構的時延參數滿足最優特征分解時,進行關聯維特征提取的平均互信息函數為
(13)
(14)
對大規模網絡海量數據進行最近鄰點聯合概率分布重組,對提取的關聯維特征在相空間中進行低維軌線映射,得到輸出的關聯維特征集合,在重構的相空間中進行關聯維特征提取. 關聯維特征集合為
(15)
其中:τ表示嵌入式時延;pi表示大規模網絡海量數據時間序列x(t)出現在相空間特征軌跡的概率;pij(τ)表示x(t)出現在相空間的近鄰點區域i的聯合概率.以上述特征提取結果為輸入數據,進行特征聚類處理和緩存算法改進設計.
2.2 數據緩存方法優化實現
根據上述網絡海量數據相空間重構和關聯維特征,采用模糊C均值聚類算法對提取的關聯維特征進行聚類處理,降低數據緩存開銷,實現緩存模型優化.算法改進實現的過程描述如下:對大規模網絡海量數據進行模糊C均值聚類的特征核函數為
(16)
在m維相空間中計算數據聚類的融合中心,實現緩存區域識別,得到數據聚類中心為
(17)
隨著m增加到(m+1),模糊C均值聚類中心收斂,對于兩個標量數據時間序列y1和y2,通過模糊C均值聚類把緩存數據分為若干數據塊,進行緩存區域的自適應分區識別,識別數學模型為
(18)
信息流通過遠端存儲節點進行自適應重組,提高數據存儲的空間,此時,在緩存區域數據信息流形成新的映射,即
(19)
在重構的相空間中,采用模糊自適應控制方法,結合C均值聚類,進行迭代運算,計算第i點xi和第j點xj的關聯維信息特征,把提取的信息關聯到緩存區域S-Table上.通過上述算法處理,提高了數據緩存的空間區域,降低了數據存儲開銷,實現了算法的改進.
通過仿真實驗,測試本文設計的大規模網絡海量數據的數據緩存優化方法的性能實驗中,通過串口總線、VXI總線、CAN總線構建網絡數據的傳輸、通信和數據采集調度模塊,采用高速模塊內部觸發機制進行數據緩存區域的總線控制.實驗的硬件環境及技術指標為:RAM緩沖區的D/A分辨率為13位,采樣數據在緩沖區通過PCI總線及橋接電路進行循環跟蹤控制,RAM中含有32MB的外部存儲空間.采用Matlab仿真工具,進行大規模網絡海量數據的緩存仿真,首先進行海量數據的外部接口片選和時間序列采樣,設定RCR[1,2]和XCR[1,2]作為采樣函數,大數據緩存系統內配置引腳寄存器,采樣數據量從100MB到1GB進行線性增長,得到大規模網絡數據的時間序列波形,對網絡海量數據時間序列進行相空間重構,在重構空間中進行關聯維特征提取,實現數據緩存空間優化.為了對比性能,采用本文方法和傳統方法,以大規模網絡海量數據在緩存區的空間特征分布為對比,得到結果如圖3所示.

(a) 傳統方法 (b) 本文方法圖 3 大規模網絡海量數據在緩存區的空間特征分布Fig.3 Spatial distribution of large scale data in the cache area

圖 4 數據緩存區的吞吐性能對比Fig.4 Comparison of throughput performance of data cache
從圖3可見,采用本文方法進行大規模網絡海量數據緩存優化設計,數據在緩存區的特征分布規則性更好,能有效降低緩存開銷,擴展緩存空間.以數據緩存的吞吐性和召回性為指標參量定量分析性能,得到對比結果如圖4所示,從圖4可見,采用本文方法進行數據緩存的吞吐量較高.計算得知,采用本文方法進行數據緩存調度的召回率為98.67%,比傳統方法高5.99%,性能較好,指標參量優于傳統方法.
數據緩存區不占用戶和網絡的存儲空間,具有實時高效訪問調度的優點,受到廣泛應用,本文研究數據緩存優化方法,提出一種基于大規模緩存數據信息流相空間重構和關聯維特征聚類的網絡海量數據優化緩存模型,結果表明,采用本文方法進行數據緩存的容量較高,在緩存區的數據特征分布更規則,降低了存儲開銷,提高了數據的吞吐量.
[1] 孫婷婷. 基于五元組的詞語搭配自動抽取[J]. 電子設計工程,2015,26(19):75-78.
SUN Tingting. Automatic collocation extraction based on quintuple[J].Electronic Design Engineering,2015,26(19):75-78.
[2] CAO Junwei,LI Keqin,STOJMENOVIC I. Optimal power allocation and load distribution for multiple heterogeneous multi-core server processors across clouds and data centers[J]. IEEE Transactions on Computers,2014,63(1):45-58.
[3] CHONG F T,HECK M J R,RANGANATHAN P,et al. Data center energy efficiency:Improving energy efficiency in data centers beyond technology scaling[J]. IEEE Design & Test,2014,31(1):93-104.
[4] 黃國兵,金勇,賈榮興,等. 某電能量遠方終端雙平面網絡接口設計[J]. 西安工程大學學報,2016,23(1):102-106.
HUANG Guobing,JIN Yong,JIA Rongxing,et al. Design of double network interface for an energy remote terminal unit[J]. Journal of Xi’an Polytechnic University,2016,23(1):102-106.
[5] 侯森,羅興國,宋克. 基于信息源聚類的最大熵加權信任分析算法[J]. 電子學報,2015,43(5):993-999.
HOU Sen,LUO Xingguo,SONG Ke. A maximum entropy weighted trust-analysis algorithm based on sources clustering[J]. Chinese Journal of Electronics,2015,43(5):993-999.
[6] 張普寧,劉元安,吳帆,等. 物聯網中適用于內容搜索的實體狀態匹配預測方法[J]. 電子與信息學報,2015,37(12):2815-2820.
ZHANG Puning,LIU Yuan′an,WU Fan,et al. An entity state matching prediction method for content-based search in the internet of things[J].Journal of Electronic and Information Technology,2015,37(12):2815-2820.
[7] 馬其琪,鮑愛達. 基于DDR3 SDRAM的高速大容量數據緩存設計[J]. 計算機測量與控制,2015,23(9):3112-3113.
MA Qiqi,BAO Aida. High speed and large capacity data buffer design based on DDR3 SDRAM[J]. Computer Measurement & Control,2015,23(9):3112-3113.
[8] 史玉良,王捷. 一種多租戶云數據存儲緩存管理機制[J]. 計算機研究與發展,2014,51(11):2528-2537.
SHI Yuliang,WANG Jie.A multi-tenant memory management mechanism for cloud data storage[J]. Journal of Computer Research and Development.2014,51(11):2528-2537.
[9] 周恩強,張偉,盧宇彤,等. 一種面向大規模數據密集計算的緩存方法[J]. 計算機研究與發展,2015,52(7):1522-1530.
ZHOU Enqiang,ZHANG Wei,LU Yutong,et al. A cache approach for large scale data-intensive computing[J]. Journal of Computer Research and Development.2015,52(7):1522-1530.
[10] CATTIVELLI F S,SAYED A H. Distributed detection over adaptive networks using diffusion adaptation[J]. IEEE Transactions on Signal Processing,2011,59(5):1917-1932.
[11] 楊詩琦,虞紅芳,羅龍. IP網絡中的快速路由微環避免算法[J]. 計算機應用,2015,35(12):3325-3330.
YANG Shiqi,YU Hongfang,LUO Long. Fast routing micro-loop avoidance algorithm in IP network[J]. Journal of Computer Applications,2015,35(12):3325-3330.
[12] CLAD F,MERINDOL P,PANSIOT J J,et al. Graceful convergence in link-state IP networks:A lightweight algorithm ensuring minimal operational impact[J]. IEEE ACM Transactions on Networking,2014,22(1):300-312.
[13] MOGHADAM A A,KUMAR M,RADHA H. Common and innovative visuals:A sparsity modeling framework for video[J]. IEEE Transactions on Image Processing,2014,23(9):4055-4069.
[14] ALEXE B,DESELAERS T,FERRARI V. Measuring the objectness of image windows[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(11):2189-2202.
[15] 崔永君,張永花. 基于特征尺度均衡的Linux系統雙閾值任務調度算法[J]. 計算機科學,2015,42(6):181-184.
CUI Yongjun,ZHNAG Yonghua. Linux system dual threshold scheduling algorithm based on characteristic scale equilibrium[J]. Computer Science,2015,42(6):181-184.
[16] 陳志濤. 高吞吐量抗干擾性物聯網混合服務器協議設計[J]. 科技通報,2014,30(4):65-67.
CHEN Zhitao. Design of protocol for hybrid server with high output capacity and anti-interference in internet of things[J]. Bulletin of Science and Technology,2014,300(4):65-67.
[17] 陸興華,陳平華. 基于定量遞歸聯合熵特征重構的緩沖區流量預測算法[J]. 計算機科學,2015,42(4):68-71.
LU Xinghua,CHEN Pinghua. Traffic prediction algorithm in buffer based on recurrence quantification union entropy feature reconstruction[J]. Computer Science,2015,42(4):68-71.
編輯、校對:趙 放
An improve data caching method for large scale network
YU Guanghua
(Network and Information Center,Lingnan Normal University,Zhanjiang 524048,Guangdong,China)
In view of the problems of traditional method of the storage area network mass data cache method, such as prone to loss of data in the data cache and recall errors, data access and poor scheduling performance, an improved method of large-scale network mass data caching method is put forward. Web cache space structure model of the distribution of data is constructed as well as a large scale network information flow model of huge amounts of data and time series analysis. Fuzzy C-means clustering algorithm is used to cluster the extracted, correlation dimension characteristics,fufilling caching optimization model. The simulation results show that this method effectively reduces the cache overhead, extends the cache space,and indices such as throughput and recall of the data parameter are superior to those of traditional methods.
network; massive data;phase space reconstruction; correlation dimension
1674-649X(2016)04-0504-06
10.13338/j.issn.1674-649x.2016.04.017
2016-03-15
余光華(1979—),男,江西省武寧市人,嶺南師范學院實驗師,研究方向為計算機網絡技術.E-mail:Ygh168@163.com
余光華.一種大規模網絡數據緩存方法的改進[J].西安工程大學學報,2016,30(4):504-509.
YUGuanghua.Animprovedatacachingmethodforlargescalenetwork[J].JournalofXi′anPolytechnicUniversity,2016,30(4):504-509.
TP
A