謝金星李暉陳梅戴振宇
(貴州大學(xué)先進(jìn)計(jì)算與醫(yī)療信息服務(wù)工程實(shí)驗(yàn)室貴陽550025)
CSSAQP:一種基于聚類的分層抽樣近似查詢處理算法
謝金星李暉陳梅戴振宇
(貴州大學(xué)先進(jìn)計(jì)算與醫(yī)療信息服務(wù)工程實(shí)驗(yàn)室貴陽550025)
近似查詢處理技術(shù)常被應(yīng)用于海量數(shù)據(jù)的多維分析,以縮短查詢執(zhí)行的時(shí)間,同時(shí)返回盡可能準(zhǔn)確的結(jié)果。由于海量數(shù)據(jù)中常存在許多極端值,會(huì)嚴(yán)重影響近似查詢處理的結(jié)果。因此針對海量數(shù)據(jù)的聚集操作,論文提出CSSAQP算法,先將原始數(shù)據(jù)集按某一數(shù)值列直觀的聚為三類,分別代表大值簇、小值簇和常值簇,再對各簇按分組屬性分別進(jìn)行分層抽樣,構(gòu)建總體樣本集,最后通過查詢重寫在總體樣本集上執(zhí)行查詢,以縮短海量數(shù)據(jù)聚集操作的查詢時(shí)間,同時(shí)提高查詢?nèi)蝿?wù)的準(zhǔn)確性。通過實(shí)驗(yàn)驗(yàn)證,證明了該算法不僅可以縮短聚集查詢的時(shí)間,同時(shí)還能有效提高查詢結(jié)果的精度。
近似查詢處理;聚集查詢;聚類;分層抽樣
Class NumberTP311.13
對海量數(shù)據(jù)進(jìn)行多維分析,常伴隨大量的聚集操作,如在一個(gè)或多個(gè)維度上進(jìn)行g(shù)roup-by聚集查詢,通常需要較長的執(zhí)行時(shí)間。而在進(jìn)行業(yè)務(wù)分析時(shí),用戶往往僅需了解大致的趨勢,查詢的響應(yīng)時(shí)間相對于完全準(zhǔn)確的查詢結(jié)果更為重要。因此為了快速返回分析結(jié)果,可以將數(shù)據(jù)倉庫中常使用的近似查詢處理技術(shù),應(yīng)用到該類場景中,在縮短查詢執(zhí)行時(shí)間的同時(shí),提供一個(gè)盡可能精確的近似結(jié)果。
近似查詢處理有兩類基本方法:聯(lián)機(jī)查詢處理和預(yù)計(jì)算方法[1]。前者不需要預(yù)先進(jìn)行數(shù)據(jù)處理,在查詢執(zhí)行過程中對數(shù)據(jù)進(jìn)行動(dòng)態(tài)抽樣,動(dòng)態(tài)計(jì)算和聚集返回當(dāng)前近似結(jié)果和置信區(qū)間;后者是對數(shù)據(jù)庫中的數(shù)據(jù)事先進(jìn)行預(yù)處理,生成能代表原來數(shù)據(jù)并且數(shù)據(jù)量小得多的樣本集或初步聚集結(jié)果,在查詢時(shí)使用這些數(shù)據(jù)集合獲取近似結(jié)果。常使用的具體技術(shù)有:直方圖、小波變換、抽樣等[2]。
在對海量數(shù)據(jù)近似查詢處理時(shí),常使用抽樣技術(shù)。通過抽取部分能代表整體數(shù)據(jù)集特征的子集,在該子集上執(zhí)行查詢,并將查詢結(jié)果按照抽取比率放大,以此作為整體數(shù)據(jù)集上查詢結(jié)果的近似值。
由于海量數(shù)據(jù)中通常存在許多極端值的情況,將嚴(yán)重影響近似處理的效果。為進(jìn)一步提高近似結(jié)果的準(zhǔn)確性,本文采用預(yù)計(jì)算樣本的方式,提出基于聚類的分層抽樣算法。直觀上將某一數(shù)值列聚為三類,分別代表大值簇、小值簇和常值簇,再根據(jù)聚類結(jié)果對各個(gè)簇按照分組屬性分層抽樣,構(gòu)建總體樣本集。最后通過查詢重寫在總體樣本集上執(zhí)行查詢,并返回查詢結(jié)果。既縮短了多維分析任務(wù)的執(zhí)行時(shí)間,又提高了任務(wù)的準(zhǔn)確度。
本文工作如下:
1)研究了基于抽樣的近似查詢處理技術(shù),并介紹各自的適用情況;
2)針對海量數(shù)據(jù)group-by的聚集查詢,提出基于聚類的分層抽樣近似查詢處理算法;
3)利用TPC-H生成測試數(shù)據(jù),對聚集查詢進(jìn)行實(shí)驗(yàn)測試;
4)對實(shí)驗(yàn)結(jié)果進(jìn)行分析。
所謂近似查詢處理技術(shù),就是對提交的查詢給出一個(gè)近似的合理的查詢結(jié)果。其基本思路是通過查詢更少量的數(shù)據(jù),獲取盡可能準(zhǔn)確的結(jié)果。
本文重點(diǎn)討論近似查詢處理技術(shù)中的抽樣技術(shù)。抽樣技術(shù)的基本思想是:通過適當(dāng)?shù)姆椒ǎ瑥暮A吭加涗浿邪匆欢ū嚷食槿∧艽碚w數(shù)據(jù)特征的子集,構(gòu)建樣本集。通過在樣本集上執(zhí)行查詢,并將查詢結(jié)果按抽樣比率等比例放大,就可獲得與準(zhǔn)確值的估計(jì)值。
抽樣技術(shù)的難點(diǎn)在于如何制定合適的抽樣條件,以構(gòu)建能代表整體數(shù)據(jù)特征的樣本集。其結(jié)果的精度可能受到查詢類型、查詢選擇率、數(shù)據(jù)分布和樣本大小等因素的影響。常用的抽樣技術(shù)主要有:簡單隨機(jī)抽樣、偏倚抽樣、分層抽樣、國會(huì)抽樣等[3~4]。
2.1 簡單隨機(jī)抽樣
按照等概率的原則,簡單隨機(jī)抽樣直接從含有r條記錄的原始數(shù)據(jù)集中隨機(jī)抽取s(s≤r)條記錄,構(gòu)成樣本集,適用于數(shù)據(jù)均勻分布的情況。其優(yōu)點(diǎn)是簡單易操作。但是在真實(shí)的生產(chǎn)環(huán)境下,數(shù)據(jù)往往非均勻分布,具備較大的數(shù)據(jù)傾斜,簡單隨機(jī)抽樣會(huì)導(dǎo)致較大的誤差。另外,在查詢選擇率較低時(shí),如處理涉及group-by的查詢,在簡單隨機(jī)抽樣構(gòu)建的樣本集中,記錄數(shù)比較少的組不能夠得到充分的體現(xiàn),會(huì)造成數(shù)據(jù)量較少的組查詢結(jié)果嚴(yán)重失真[5]。
在簡單隨機(jī)抽樣過程中,為了保證每條記錄被抽中的概率相等,可使用伯努利抽樣或蓄水池抽樣。
2.2 偏倚抽樣
針對簡單隨機(jī)抽樣的不足,出現(xiàn)了偏倚抽樣,每條記錄被抽到的概率可能不同。偏倚抽樣結(jié)合以往分析任務(wù)的信息(如歷史查詢、查詢?nèi)罩荆梢院芎妙A(yù)測將來的查詢,因此可以加大相對重要記錄的抽取比例,降低相對不重要記錄的抽取比例。
偏倚抽樣和簡單隨機(jī)抽樣是其他抽樣技術(shù)的基礎(chǔ)。
2.3 分層抽樣
分層抽樣按照某些規(guī)則或某種特征,將原始數(shù)據(jù)集劃分成互不重疊的若干層,在每層內(nèi)獨(dú)立、隨機(jī)地抽樣。假設(shè)總體被分為d層,總體樣本S大小為|S|,第i層的樣本大小為Si,則|S|=S1+S2+…+ Si+…+Sd,即總體的樣本由每層抽取的樣本構(gòu)成。因此總體指標(biāo)的估計(jì)值可由每層樣本估計(jì)值匯總求得。所以分層抽樣既可以對各層的指標(biāo)進(jìn)行估計(jì),也可以對總體指標(biāo)進(jìn)行估計(jì)。
使用分層抽樣技術(shù),可以在不增加樣本大小的前提下,提高查詢結(jié)果的精度,降低抽樣的誤差。但是,需要掌握查詢的一些信息,并基于此確定分層的標(biāo)準(zhǔn)[6~7]。
2.4 國會(huì)抽樣
在分析任務(wù)中,常伴隨大量的聚集查詢。國會(huì)抽樣是針對帶group-by的聚集查詢所提出,其主要思想是根據(jù)group-by可能涉及的屬性將原始數(shù)據(jù)分割為若干組,在總體樣本量已確定的前提下,每組利用隨機(jī)抽樣,抽取一定量的分樣本,并由分樣本構(gòu)成總體樣本。
在基本國會(huì)抽樣中,為了更合理的分配各組樣本數(shù),使樣本總體和分組樣本上執(zhí)行的查詢結(jié)果達(dá)到較小誤差,第g分組抽取的樣本數(shù)Sg公式如下[8]:


表1 參數(shù)說明
用近似查詢處理技術(shù)處理海量數(shù)據(jù)的聚集操作,常面臨數(shù)據(jù)傾斜的問題。海量原始數(shù)據(jù)中存在一些嚴(yán)重影響聚集查詢結(jié)果的記錄,即極端值。由于極端值的存在,使得對原始數(shù)據(jù)進(jìn)行簡單隨機(jī)抽樣獲取的查詢結(jié)果可能會(huì)嚴(yán)重偏離真實(shí)值,導(dǎo)致很大的誤差。因此本文提出基于聚類的分層抽樣近似查詢處理算法。先利用k-means聚類算法,按某個(gè)數(shù)值屬性將原始記錄直觀地劃分為大值簇、小值簇、常值簇三個(gè)簇,再對三個(gè)簇按照分組屬性分別分層抽樣,構(gòu)建總體數(shù)據(jù)集的樣本集;最后通過查詢重寫,在總體樣本集上執(zhí)行查詢,返回近似結(jié)果。
3.1 極端值問題描述
假設(shè)關(guān)系R含字符屬性ItemNO,指標(biāo)屬性Profit共4條記錄,如下所示:
關(guān)系R:
Record:{<1,800>,<2,900>,<3,800>,<4,10000>}
查詢Q:SELECT AVG(Profit)FROM R
采用隨機(jī)抽樣技術(shù),抽取兩條記錄構(gòu)成樣本集并執(zhí)行Q。假設(shè)構(gòu)成的隨機(jī)樣本S1為:{<1,800>,<3,800>}。原始記錄查詢結(jié)果Result=3125,S1上的近似結(jié)果Result'=800。由于極端值的存在,嚴(yán)重影響了近似查詢的結(jié)果。
3.2 CSSAQP算法
為了克服極端值對基于抽樣的近似查詢結(jié)果的影響,本文針對帶group-by的聚集操作提出基于聚類的分層抽樣近似處理算法CSSAQP。
預(yù)構(gòu)建樣本集,需假設(shè)已知將來分析任務(wù)的一些信息。通過研究發(fā)現(xiàn),分析任務(wù)中的查詢所涉及的列(如分組屬性列)通常比較穩(wěn)定,在將來的查詢中也有很大的概率被用于構(gòu)建查詢[9~10]。對關(guān)系表R,可將屬性劃分為字符屬性C和指標(biāo)屬性V,其分組屬性G?C。在進(jìn)行數(shù)據(jù)分析時(shí),分析人員也通常已知需要計(jì)算的指標(biāo)屬性。因此我們假設(shè)查詢的分組屬性和指標(biāo)屬性已知。
指定關(guān)系表R、分組屬性G、指標(biāo)屬性V、抽樣率f,CSSAQP即可構(gòu)成樣本集S,當(dāng)查詢到來時(shí)可通過查詢重寫在S上執(zhí)行查詢,并返回真實(shí)值的近似結(jié)果。
CSSAQP分為兩個(gè)階段,分別為預(yù)構(gòu)建樣本階段和查詢執(zhí)行階段,如圖1所示。

圖1 CSSAQP算法圖解
第一階段:預(yù)構(gòu)建樣本階段
利用K-means聚類算法將R按照V劃分為3個(gè)簇,各簇內(nèi)再根據(jù)分組屬性G劃分為互不相交的若干層,然后在各層內(nèi)按抽樣率f隨機(jī)抽樣,構(gòu)建總的樣本表S。
第二階段:查詢執(zhí)行階段
當(dāng)查詢到來,經(jīng)過查詢解析層獲取查詢語句Q中涉及的G、V,再通過樣本選擇器匹配相應(yīng)的S并執(zhí)行查詢,輸出查詢結(jié)果的近似值;如果樣本匹配失敗,則在R上執(zhí)行查詢,輸出查詢結(jié)果的準(zhǔn)確值。
表2 CSSAQP算法的主要符號(hào)及含義,表3算法1:CSSAQP的偽代碼表述。

表2 CSSAQP算法符號(hào)說明

表3 算法1:CSSAQP偽代碼表述
4.1 實(shí)驗(yàn)環(huán)境
本實(shí)驗(yàn)在CentOS7操作系統(tǒng)上,搭建Hadoop集群,該集群包括1個(gè)master節(jié)點(diǎn)(用以運(yùn)行namenode與jobtracker服務(wù))和4個(gè)slave節(jié)點(diǎn)(用以運(yùn)行datanode與tasktarcker服務(wù)),在此集群上搭建了Hive系統(tǒng)。集群中各個(gè)節(jié)點(diǎn)配置相同,均搭建在一個(gè)機(jī)架上。每個(gè)節(jié)點(diǎn)詳細(xì)軟件、硬件配置如表4所示。

表4 節(jié)點(diǎn)軟硬件配置
4.2 實(shí)驗(yàn)分析
4.2.1 實(shí)驗(yàn)設(shè)計(jì)
本文通過TPC-H生成測試數(shù)據(jù)。TPC-H定義了8張表,共22條查詢。可以通過設(shè)置scale參數(shù)生成總體數(shù)據(jù)量為指定大小的數(shù)據(jù)集,如設(shè)置salce=30,則生成總量為30G的數(shù)據(jù)。同時(shí)TPC-H還可以只生成某一張表[11]。
本實(shí)驗(yàn)設(shè)置scale分別為1、5、15、30、50,只生成lineitem事實(shí)表,用以對多維分析中常用的帶group-by的聚集函數(shù)sum()、avg()進(jìn)行測試,并從查詢結(jié)果的準(zhǔn)確性和查詢執(zhí)行的時(shí)間兩個(gè)方面驗(yàn)證算法的有效性。
由于對多個(gè)指標(biāo)屬性的聚集查詢,可以分解為多次單指標(biāo)屬性的聚集查詢,因此定義以下查詢:
Q1:select l_returnflag,l_linestatus,sum(l_quantity)as sum_qty from lineitem group by l_returnflag, l_linestatus;
Q2:Select l_returnflag,l_linestatus,avg(l_quantity)as avg_qty from lineitem group by l_returnflag, l_linestatus;
在準(zhǔn)確性驗(yàn)證實(shí)驗(yàn)中,數(shù)據(jù)分布對基于抽樣的近似處理結(jié)果影響很大,而TPC-H生成的數(shù)據(jù)服從均勻分布,因此在實(shí)驗(yàn)開始前,先對數(shù)據(jù)進(jìn)行預(yù)處理。
通過觀察發(fā)現(xiàn)TPC-H生成的lineitem表,其l_quantity屬性取值為1-50的整數(shù)值,由于服從均勻分布,每個(gè)值的數(shù)量大致相同。因此通過計(jì)算1-50正態(tài)分布的概率(平均值=25.5,方差=14.6),再與其對應(yīng)數(shù)量做乘積,獲得1-50內(nèi)大致服從正態(tài)分布的數(shù)據(jù)集,分別得到1200000~60000000條不等的五組數(shù)據(jù),按1%的抽樣率對隨機(jī)抽樣(RS)、分層抽樣(SS)、聚類抽樣(CS)、聚類分層抽樣(CSS)構(gòu)建樣本集,進(jìn)行試驗(yàn)對比。CS是直接將聚類結(jié)果進(jìn)行隨機(jī)抽樣,即對聚類所得的簇分別進(jìn)行隨機(jī)抽樣,對應(yīng)算法1中分組屬性為?的情況,為說明該種情況下CSSAQP算法設(shè)計(jì)的合理性,故此也將其加入對比實(shí)驗(yàn)。
衡量近似結(jié)果好壞的標(biāo)準(zhǔn)有許多,這里我們采用相對誤差率(以下簡稱誤差率)衡量誤差的高低。假設(shè)分組i的準(zhǔn)確聚集值為ci,其近似值為
ci
′,則ci的誤差率εi定義如下[8]:

針對海量數(shù)據(jù)多維分析中含group-by的聚集操作,對其進(jìn)行近似處理需要滿足以下兩個(gè)方面的要求:
一是近似查詢的結(jié)果要包含所有的分組。由于CSSAQP會(huì)對分組屬性先進(jìn)行分層,并在各層內(nèi)實(shí)施隨機(jī)抽樣,所以本條要求已具備。
二是每個(gè)分組的查詢結(jié)果要盡可能準(zhǔn)確。因此可用所有分組的近似結(jié)果的最大誤差率來衡量整體近似結(jié)果的好壞。對含有n個(gè)分組的group-by聚集查詢引用以下定義[8]:

4.2.2 實(shí)驗(yàn)分析
Q1執(zhí)行結(jié)果如圖2所示。

圖2 Q1查詢執(zhí)行結(jié)果圖
通過實(shí)驗(yàn)發(fā)現(xiàn),總體而言隨著數(shù)據(jù)量的增大,所有抽樣算法的誤差率都在逐步降低。說明在基于抽樣的近似查詢中,樣本量越大,近似結(jié)果越好;同時(shí),CS和CSS算法的結(jié)果,也隨著數(shù)據(jù)量的增大逐步優(yōu)于RS與CS抽樣算法。驗(yàn)證了CSS算法在處理帶group-by的sum()聚集查詢時(shí)具有一定的優(yōu)勢。
圖3為Q2的執(zhí)行結(jié)果。結(jié)果表明,對帶group-by的avg()聚集運(yùn)算,隨機(jī)抽樣在所有算法中所造成的誤差最大;隨著數(shù)據(jù)量的增大,CSS和CS比RS與SS具有更高的準(zhǔn)確性。
綜合以上兩個(gè)實(shí)驗(yàn),隨著數(shù)據(jù)量的增大,CS算法都有比較好的效果,同時(shí)CSSAQP的誤差率明顯低于RS和SS算法,從而驗(yàn)證了CSSAQP算法設(shè)計(jì)的合理性與有效性。

圖3 Q2查詢執(zhí)行結(jié)果圖
在執(zhí)行時(shí)間有效性的驗(yàn)證中,準(zhǔn)確值是在TPC-H生成的原始數(shù)據(jù)集上進(jìn)行查詢,數(shù)據(jù)量大小分別為0.76G、3.6G、11.59G、23.63G、39.53G,查詢執(zhí)行時(shí)間記作實(shí)際執(zhí)行時(shí)間;近似結(jié)果是用CSSAQP算法按1%的抽樣率構(gòu)建的樣本集求取,查詢執(zhí)行時(shí)間記作近似計(jì)算執(zhí)行時(shí)間。由于各種抽樣算法的查詢執(zhí)行時(shí)間大體相同,因此僅以CSSAQP和實(shí)際執(zhí)行時(shí)間做比較,結(jié)果如圖4、圖5所示。

圖4 Q1查詢執(zhí)行時(shí)間圖

圖5 Q2查詢執(zhí)行時(shí)間圖
隨著數(shù)據(jù)量的增大,所需的實(shí)際執(zhí)行時(shí)間越來越長,且增幅較大。當(dāng)數(shù)據(jù)量達(dá)到約11.59G時(shí),Q1和Q2的實(shí)際執(zhí)行時(shí)間已經(jīng)超過200s;當(dāng)數(shù)據(jù)量達(dá)到39.53G(集群總的內(nèi)存大小)時(shí),Q2的實(shí)際執(zhí)行時(shí)間約10min,Q1的實(shí)際執(zhí)行時(shí)間約25min。而使用CSSAQP算法的近似計(jì)算執(zhí)行時(shí)間比較穩(wěn)定,且遠(yuǎn)低于實(shí)際執(zhí)行時(shí)間,從而證明了CSSAQP算法的時(shí)間有效性。
在海量數(shù)據(jù)進(jìn)行多維分析中,研究如何既快又準(zhǔn)地獲取分析結(jié)果是比較有意義的問題。本文提出基于聚類的分層抽樣算法,并通過對比實(shí)驗(yàn),從算法的時(shí)間有效性和結(jié)果準(zhǔn)確性兩個(gè)角度,驗(yàn)證該算法既能有效降低查詢的執(zhí)行時(shí)間,同時(shí)較之隨機(jī)抽樣、分層抽樣算法又能提供一個(gè)更準(zhǔn)確的近似結(jié)果。
[4]Liu Q.Approximate query processing[M]//Encyclopedia of Database Systems.Springer US,2009:113-119.
[5]Das G.Sampling methods in approximate query answering systems[M]//Encyclopedia of Data Warehousing and Mining,Second Edition.IGI Global,2009:1702-1707.
[6]Mehanna Y S,Mahmuddin M,Abdelaziz H S.Approximate Query Processing Concepts and Techniques[J].Information Processing&Management,2015:453-468.
[7]金勇進(jìn),杜子芳,蔣妍.抽樣技術(shù).第3版[M].中國人民大學(xué)出版社,2012.
J
IN Yongjin,DU Zifang,JIANG Yan.Sampling Technology.3rd edition[M].Renmin University of China Press,2012.
[8]Acharya S,Gibbons P B,Poosala V.Congressional samples for approximate answering of group-by queries[C]// ACM SIGMOD Record.ACM,2000,29(2):487-498.
[9]Ganti V,Lee M L,Ramakrishnan R.ICICLES:Self-Tuning Samples for Approximate Query Answering[C]// VLDB.2000,176(187).
[10]Agarwal S,Mozafari B,Panda A,et al.BlinkDB:queries with bounded errors and bounded response times on very large data[C]//Proceedings of the 8th ACM European Conference on Computer Systems.ACM,2013:29-42.
[11]http://www.tpc.org/tpch/
[1]馮玉.數(shù)據(jù)倉庫環(huán)境中近似查詢處理技術(shù)研究[D].北京:中國科學(xué)院研究生院(計(jì)算技術(shù)研究所),2002.
FENG Yu.Study on Approximate Query Processing Technology in Data Warehouse Environment[D].Beijing:Graduate School of Computing Technology(Institute of Computing Technology),2002.
[2]高雅卓.多維聯(lián)機(jī)分析處理中的高效查詢關(guān)鍵方法研究[D].合肥:合肥工業(yè)大學(xué),2012.
GAO Yazhuo.Research on Key Methods of High Efficiency Query in Multi-dimensional Online Analysis and Processing[D].Hefei:Hefei University of Technology,2012.
[3]Madria S K,Mohania M,Roddick J F.APPROXIMATE QUERY PROCESSING[J].Information Organization and Databases:Foundations of Data Organization,2012,579:207.
CSSAQP:An Approximate Query Algorithm Based On Clustering Stratified Samping
XIE JinxingLI HuiCHEN MeiDAI Zhenyu
(Guizhou Engineering Lab for ACMIS,Guizhou University,Guiyang550025)
The approximate query processing technique is often applied to multidimensional analysis of massive data to shorten the execution time of the query and return the results as accurate as possible.Because of many extreme values in massive data,it will seriously affect the results of approximate query processing.Therefore,for the aggregation of massive data,this paper proposes a algorithm CSSAQP,which first clustered the original data set into three categories by a column,representing large clusters,small clusters and constant clusters,then use stratified sampling for each cluster by the group attribute,and constructed the overall sample,finally,the query is rewritten on the overall sample set to reduce the query time of the massive data aggregation operation,and improve the accuracy of the query task.Experiments show that the algorithm can not only shorten the time of aggregation query,but also improve the accuracy of query results.
AQP,aggregate query,clustering,stratified sampling
TP311.13
10.3969/j.issn.1672-9722.2017.06.023
2016年12月1日,
2017年1月27日
國家自然科學(xué)基金項(xiàng)目(編號(hào):61462012,61562010,U1531246);基于云計(jì)算的醫(yī)療信息管理系統(tǒng)關(guān)鍵技術(shù)研究及應(yīng)用(編號(hào):GY[2014]3018);貴州省重大應(yīng)用基礎(chǔ)研究項(xiàng)目(編號(hào):JZ20142001);貴州省教育廳自然科學(xué)項(xiàng)目(編號(hào):黔科合人才團(tuán)隊(duì)字[2015]53號(hào));貴州大學(xué)研究生創(chuàng)新基金(院級(jí))資助。
謝金星,男,碩士研究生,研究方向:大數(shù)據(jù)管理與應(yīng)用。李暉,男,副教授,碩士生導(dǎo)師,研究方向:大規(guī)模數(shù)據(jù)管理與分析,高性能數(shù)據(jù)庫,云計(jì)算。陳梅,女,碩士生導(dǎo)師,研究方向:數(shù)據(jù)庫技術(shù)、計(jì)算機(jī)應(yīng)用技術(shù)。戴震宇,男,實(shí)驗(yàn)師,研究方向:數(shù)據(jù)庫技術(shù)、計(jì)算機(jī)應(yīng)用技術(shù)。