鄧文雯 孫成明 秦培亮



摘 要: 針對傳統數據采集方法主要通過數據特征采集,忽略采集過程對數據特征造成的影響,導致數據采集耗時長、誤差大的問題,提出基于REID技術與F統計計量結合的云儲存海量數據采集方法。在分析數據采集原理的基礎上,對云儲存的原始數據進行非線性補償,設置參數對數據進行預處理,建立一種能夠對內存進行直接訪問的硬件機制,給出部分傳輸程序;采用聚類算法對云儲存數據進行聚類,結合F統計計量進行檢驗所建立的判別函數的有效性,實現對云儲存海量數據的采集。實驗結果表明,采用改進方法進行云儲存數據采集時,其采集結果相比傳統方法精度及完整度均有提高,具有一定的優勢。
關鍵詞: 云儲存; 海量數據采集; REID技術; F統計計量; 非線性補償; 聚類算法
中圖分類號: TN911?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2018)14?0010?04
Research on acquisition method of cloud storage mass data
DENG Wenwen1,2, SUN Chengming3, QIN Peiliang2
(1. School of Accounting & Information Systems, Virginia Polytechnic Institute and State University, Virginia 24061, U.S.A;
2. Smart Agriculture School of Suzhou Polytechnic Institute of Agriculture, Suzhou 215008, China;
3. Agricultural College of Yangzhou University, Yangzhou 225127, China)
Abstract: In allusion to the problems of long time consumption and big error of data acquisition existing in the traditional data collection method, in which the influence of acquisition process on data features is ignored due to its data feature acquisition, a cloud storage mass data acquisition method based on the combination of REID technology and F statistical metrology is proposed. On the basis of analyzing the data acquisition principle, nonlinear compensation is conducted for the cloud storage original data, some parameters are set for data preprocessing to establish a hardware mechanism that can directly access the memory, and part of transmission programs are given. The clustering algorithm is adopted to cluster the cloud storage data, and the F statistical metrology is combined to detect the effectiveness of the established discrimination function, so as to realize the acquisition of cloud storage mass data. The experimental results show that the acquisition precision and integrity of the improved cloud storage data acquisition method are higher than those of the traditional data acquisition method.
Keywords: cloud storage; mass data acquisition; REID technology; F statistical metrology; nonlinear compensation; clustering algorithm
0 引 言
網絡上的數據量隨著互聯網的快速發展而呈現爆炸式增長態勢,也導致了數據存儲成本高,存儲可靠性低,大量數據管理困難等問題長期困擾企業[1]。這些困難導致許多企業開始考慮將數據存儲從企業本身分離出來,交給專門的云存儲服務供應商進行管理。云存儲技術同時具備分步文獻、網絡技術、集群應用等系統功能,能夠通過應用軟件,將網絡中的不同類型的存儲設備急用運用,協調工作。其具有高可靠性、高通用性、高擴展性及大容量存儲等特點,因此,其對數據采集提出更高的要求[2]。傳統方法主要在各采集步驟采用以太網、TCP/IP網絡通信協議,通過對標準網絡協議進行改進、簡化,減小采集出現延時的現象;但忽略了數據特征對采集結果造成的影響,導致采集耗時長、誤差大的問題。因此,本文提出基于REID技術與F統計計量結合的云儲存海量數據采集方法。
1 數據采集原理及特點
目前的云儲存數據采集技術多以使用成熟且價格低廉的條碼技術為基礎。由于數據云儲存速度快,會遇到存儲環境惡劣,條形碼信息受干擾容易誤讀、漏讀的現象[3],所以多采用REID技術。數據采集原理如圖1所示,存儲數據的無源電子標簽進入磁場后,接收讀寫器發出的信號,通過數據感應模塊獲得云儲存數據在芯片中存儲形式,讀寫器接收數據儲存解碼后再傳輸給具體的采集系統,最終實現云儲存海量數據的自動采集。
2 數據預處理
海量數據采集程序中寫入FIFO中的數據,包括幀頭、通道數、數據,再對原始數據進行提取處理。首先將這些原始數據進行非線性補償得到理想的云存儲數據[4]。然后截取部分數據進行計算,在循環計算中加入1個計數器,當讀取出1個數時,計數器數值加1,直到獲取足夠用的云存儲數據后停止。
LabVIEW FPGA軟件提供了計算相位的控件及對應的計算方法。算法的參數可以在控件內進行設置[5]??丶械乃惴ň邆鋽祿看?,計算快速的性能特點,因此只需把SCTL所需的數據錄入到空間中,就能夠計算出經過選取后的結果特征,將計算出的數據特征寫入到與之對應的存儲器中[6?7]。再將存儲器中的數據讀取出來,在對應的計算控件中的數據特征點的對應位置輸入這些數據,以此為依據截取中心頻率點。而附近相對的頻率點寫入DMAFIFO中,完成海量數據預處理過程,整體框架如圖2所示。需要注意的是,數據量與通道數量必須一一對應,否則上位機無法判斷解調得到的結果屬于哪個通道。
3 數據傳輸程序
在存儲層上進行的存儲器與數據之間的數據傳輸,首先將處理過的云儲存數據輸入到傳輸層。利用數據收集應用廣泛的DMA,建立一種能夠對內存進行直接訪問的硬件機制,借助主內存與外圍設備之間的鏈接直接傳輸到儲存層[8],不需要再通過處理器進行進一步處理。當使用這種機制時,與設備之間傳輸量會得到很大的提高。由于海量數據傳輸的精確度高,在單一傳輸層內部的不同傳輸通道間借助FIFO進行數據傳遞難度較低,但海量云存儲在不同傳輸層之間實現數據則較為復雜[9]。在采集過程中,云儲存數據的特征直接影響數據采集速率,需要在采集過程中完整地讀取出數據,防止出現云儲存數據丟失的情況[10],因此須采用DMAFIFO方式,部分云儲存數據傳輸程序代碼如下:
} //數據采集結束
4 云儲存海量數據采集方法優化
在對云儲存海量數據進行預處理及傳輸的基礎上,對其采集方法進行優化,詳細步驟如下,流程圖如圖3所示。
1) 訓練數據集。從云存儲器中采集海量數據,除留下部分所需數據外,其余數據作為訓練數據集參與相關的采集計算[11]。
2) 聚類算法。依據實際需要,采用k?medoids聚類算法,將訓練數據聚成[k]個類。由于存儲過程中會對云儲存數據形成干擾,則在滿足理想狀態下,兩個云儲存數據分別為[f1=A+Bcos φ(t)],[f2=A+Bsin φ(t)]。其中,A為干擾參數,B為干擾篇頻率,[φ(t)]為受干擾后的數據信息,[φ(t)=2kL(t)],[k=2π/λ1],[L(t)]為受干擾的時長。要進行聚類,得到[L(t)]只需要數據信息求得[φ(t)],提取干擾數據進行歸一化得到[g1=cos φ(t)],[g2=sin φ(t)],并進行聚類,則云儲存數據信息[φ(t)]為:
[φ(t)=01g1g2-g1dt] (1)
3) 依據訓練數據集,及其聚類結果建立[fisher]判斷函數,運用方差理論計算出判別函數。
4) 判別準則。將新測樣本代入判別函數檢驗新樣本[x]屬于是否需要采集,即把具有[p]個指標的樣本[x]代入判別函數,使得[λ(α)=(α′Aα)(α′Eα)]取極大值,此時對應的[yi=maxishskyh],則[x∈Gi]。假設數據受干擾時長為[L0],輸入數量分別為[λ1],[λ2],要滿足采集云儲存海量數據的要求,云儲存數據之間對應數據信息為[φ1],[φ2],則需要滿足以下要求:
[φ1-φ2=4πλ2-λ1λ1λ2, L0=nπ+π2] (2)
式中,n=0,1,2,…。
5) 檢驗采集判別函數有效性。運用F統計計量進行檢驗所建立的判別函數的有效性。如果有效,則可對云儲存海量數據進行采集,反之尋找其他方法。
6) 采集結束。亦即將符合[yi=maxishskyh]的[x]進行采集。
5 實驗結果分析
為了驗證改進方法在云儲存數據采集方面的有效性及可行性,采用改進方法與傳統方法為對比,以數據采集量及完整度為指標,在0.5 cm×0.5 cm區域內進行對比分析,結果如圖4、圖5所示。
由圖4、圖5可知,在0.5 cm×0.5 cm區域內進行數據采集分析時,采用傳統方法,在遠離分割線越遠,云儲存數據采集多次出現不完整現象,且采集量過少,導致數據采集結果誤差越大,耗時越長;采用改進方法相比傳統方法,數據沿著分割線逐漸降低,但未出現數據不完整的現象,分割線左右呈現相對應的形式,且采集量較大,具有一定的優勢。
6 結 論
本文提出基于REID技術與F統計計量結合的云儲存海量數據采集方法,達到了降低數據采集能耗,提高采集效率的目的。在相同區域采用傳統采集方法為對比,其采集誤差降低、準確率提高,能夠更完整地進行采集。改進數據采集方法主要針對云儲存數據進行采集,對于數據特征處理及采集環境對采集結果的影響,有待進一步研究。
參考文獻
[1] 董一兵,劉麗,楊銳,等.一種測震儀器數據實時接入中間件設計與實現[J].地震工程學報,2017,39(5):969?975.
DONG Yibing, LIU Li, YANG Rui, et al. Design and implementation of the middleware to access realtime stream of digitizers [J]. China earthquake engineering journal, 2017, 39(5): 969?975.
[2] 趙芳云,張明富.基于云存儲的海量海洋監測數據平臺設計[J].艦船科學技術,2016,38(13):143?148.
ZHAO Fangyun, ZHANG Mingfu. Based on monitoring data of vast ocean cloud storage platform design [J]. Ship science and technology, 2016, 38(13): 143?148.
[3] 徐立艷.基于ARM和LabVIEW的網絡數據采集測試系統設計[J].現代電子技術,2016,39(5):24?27.
XU Liyan. Design of network data acquisition and test system based on ARM and LabVIEW [J]. Modern electronics technique, 2016, 39(5): 24?27.
[4] 韓立,劉正捷,李暉,等.基于情境感知的遠程用戶體驗數據采集方法[J].計算機學報,2015(11):2234?2246.
HAN Li, LIU Zhengjie, LI Hui, et al. A method based on context?awareness for remote user experience data capturing [J]. Chinese journal of computers, 2015(11): 2234?2246.
[5] 趙妍,蘇玉召.一種批量數據處理的云存儲方法[J].科技通報,2017,33(7):81?85.
ZHAO Yan, SU Yuzhao. A cloud storage method of batch data processing [J]. Bulletin of science and technology, 2017, 33(7): 81?85.
[6] 周朝揮,蔡燕霞,魯國瑞.信牌驅動式Web數據采集模型的應用[J].計算機應用,2016,36(z1):252?256.
ZHOU Chaohui, CAI Yanxia, LU Guorui. Applications of XINPAI?driven Web data scraping model [J]. Journal of computer applications, 2016, 36(S1): 252?256.
[7] 高夢超,胡慶寶,程耀東,等.基于眾包的社交網絡數據采集模型設計與實現[J].計算機工程,2015,41(4):36?40.
GAO Mengchao, HU Qingbao, CHENG Yaodong, et al. Design and implementation of crowdsourcing?based social network data collection model [J]. Computer engineering, 2015, 41(4): 36?40.
[8] 韓盈黨,李哲.MEMS加速度傳感器的數據采集和預處理[J].儀表技術與傳感器,2015(2):16?19.
HAN Yingdang, LI Zhe. Data acquisition and pre?processing based on MEMS accelerometer [J]. Instrument technique and sensor, 2015(2): 16?19.
[9] 倪曉寅,馮志生,陳瑩.2013年岷縣6.6級地震前天水臺磁通門秒數據異常提取分析[J].地震工程學報,2016,38(z2):203?207.
NI Xiaoyin, FENG Zhisheng, CHEN Ying. Extraction and analysis of anomalies of the second data from GM4 fluxgate magnetometer at Tianshui station before the 2013 Minxian MS6.6 earthquake [J]. China earthquake engineering journal, 2016, 38(S2): 203?207.
[10] 邱雪松,藺艷斐,邵蘇杰,等.一種面向智能電網數據采集的傳感器聚合布局構造算法[J].電子與信息學報,2015,37(10):2411?2417.
QIU Xuesong, LIN Yanfei, SHAO Sujie, et al. Sensor aggregation distribution construction algorithm for smart grid data collection system [J]. Journal of electronics & information technology, 2015, 37(10): 2411?2417.
[11] 何茂輝.4G網絡下的多終端建筑工程現場移動數據采集系統設計[J].現代電子技術,2016,39(15):25?27.
HE Maohui. Design of multi?terminal mobile data acquisition system utilizing 4G network for architectural engineering field [J]. Modern electronics technique, 2016, 39(15): 25?27.