龐亮
摘要:大數(shù)據(jù)技術(shù)在我國(guó)各大行業(yè)中都有廣泛的應(yīng)用,而在大數(shù)據(jù)技術(shù)應(yīng)用的過(guò)程中數(shù)據(jù)質(zhì)量的好壞直接影響到應(yīng)用服務(wù)的性能,所以一定要保證數(shù)據(jù)的質(zhì)量。本文通過(guò)分析大數(shù)據(jù)的興起和發(fā)展歷程,然后介紹其特點(diǎn),分析Web大數(shù)據(jù)質(zhì)量管理的主要流程,最后對(duì)大數(shù)據(jù)質(zhì)量管理的方法進(jìn)行介紹,希望通過(guò)本文可以對(duì)我國(guó)Web大數(shù)據(jù)質(zhì)量管理問(wèn)題進(jìn)行有效的解決。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)質(zhì)量;數(shù)據(jù)清洗
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2018)01-0224-02
隨著互聯(lián)網(wǎng)、移動(dòng)通信的普及,21世紀(jì)信息的傳播途徑變得多種多樣,人們每時(shí)每刻都處在信息化的環(huán)境中。這就要求必須擴(kuò)大傳統(tǒng)的數(shù)據(jù)儲(chǔ)存容量,確保數(shù)據(jù)傳播的高效性、安全性、完整性,而且數(shù)據(jù)的產(chǎn)生量每年正在不斷增長(zhǎng),這標(biāo)志著大數(shù)據(jù)時(shí)代的到來(lái)。大數(shù)據(jù)具有體量大、種類繁多、價(jià)值密度低、處理速度快等特征。近年來(lái),Web大數(shù)據(jù)質(zhì)量管理問(wèn)題逐漸顯現(xiàn),如何有效的解決大數(shù)據(jù)質(zhì)量管理問(wèn)題成為我國(guó)急需解決的問(wèn)題,本文基于這一問(wèn)題展開討論,從而有效的促進(jìn)我國(guó)大數(shù)據(jù)質(zhì)量管理的快速發(fā)展。
1 大數(shù)據(jù)的興起和特點(diǎn)
大數(shù)據(jù)在2012年受到越來(lái)越多人的提及,隨后大數(shù)據(jù)在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用,包括物理學(xué)、環(huán)境生態(tài)學(xué)以及軍事、金融等行業(yè)。大數(shù)據(jù)之所以在近幾年得到快速的發(fā)展和應(yīng)用,是因?yàn)樗兄韵绿攸c(diǎn):第一,使開源軟件得到廣泛的應(yīng)用,隨著大數(shù)據(jù)的不斷發(fā)展,開源軟件受到越來(lái)越多人的青睞,主要是因?yàn)榇髷?shù)據(jù)相關(guān)技術(shù)和軟件都需要開源軟件的開發(fā)。第二,大數(shù)據(jù)應(yīng)用了很多人工智能技術(shù),智能化程度高,大數(shù)據(jù)主要是從諸多數(shù)據(jù)中獲取最有用的數(shù)據(jù),然后對(duì)數(shù)據(jù)進(jìn)行分析和處理,達(dá)到最終目的。但是在這個(gè)信息量超大的時(shí)代,如何對(duì)數(shù)據(jù)進(jìn)行有效的過(guò)濾,從而篩選出最有用的信息就需要應(yīng)用人工智能技術(shù),不僅能提高數(shù)據(jù)分析和處理的效率,還能保證數(shù)據(jù)的準(zhǔn)確性。第三,大數(shù)據(jù)有很強(qiáng)的變化性,隨著數(shù)據(jù)的不斷增多,其數(shù)據(jù)庫(kù)也會(huì)發(fā)生很大的改變,因此需要及時(shí)更新數(shù)據(jù)庫(kù),保證大數(shù)據(jù)的準(zhǔn)確性。第四,數(shù)據(jù)量大,大數(shù)據(jù)是將某一行業(yè)所有的數(shù)據(jù)結(jié)合起來(lái),所以大數(shù)據(jù)中往往包含大量的數(shù)據(jù)。第五,數(shù)據(jù)類型多種多樣,大數(shù)據(jù)會(huì)收集多種不同類型的數(shù)據(jù)進(jìn)行整合,所以在進(jìn)行處理和分析的時(shí)候能有效的提高處理的效率。
2 Web大數(shù)據(jù)質(zhì)量管理流程
大數(shù)據(jù)環(huán)境下的Web數(shù)據(jù)質(zhì)量管理是通過(guò)對(duì)非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分布處理的,這種處理方式與傳統(tǒng)的處理方式有很大的不同,新型方式能有效的提高數(shù)據(jù)質(zhì)量管理的效率和質(zhì)量,一般來(lái)說(shuō)Web大數(shù)據(jù)質(zhì)量管理流程主要分下面幾個(gè)步驟:
第一,數(shù)據(jù)抓取。通過(guò)多臺(tái)服務(wù)器進(jìn)行數(shù)據(jù)的收集和抓取,系統(tǒng)自動(dòng)分配服務(wù)器的負(fù)責(zé)區(qū)域,然后對(duì)網(wǎng)絡(luò)中的所有Web數(shù)據(jù)進(jìn)行全面性的抓取,并且在抓取的過(guò)程中要盡可能的保證數(shù)據(jù)的時(shí)效性和可靠性。最后將抓取到的信息進(jìn)行收集,并且儲(chǔ)存到系統(tǒng)中。
第二,預(yù)處理。當(dāng)服務(wù)器抓取道路相應(yīng)的信息和數(shù)據(jù)之后,系統(tǒng)會(huì)對(duì)Web數(shù)據(jù)進(jìn)行一個(gè)預(yù)處理,從而更加有效的保證數(shù)據(jù)的準(zhǔn)確性。在預(yù)處理的過(guò)程中首先會(huì)對(duì)錯(cuò)誤的數(shù)據(jù)和信息進(jìn)行篩選,然后對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,最后通過(guò)相應(yīng)的函數(shù)將數(shù)據(jù)進(jìn)行統(tǒng)一,保證Web數(shù)據(jù)的全面性。
第三,數(shù)據(jù)清洗。數(shù)據(jù)清洗是Web大數(shù)據(jù)質(zhì)量管理過(guò)程中最重要的一步,系統(tǒng)會(huì)根據(jù)預(yù)處理之后的數(shù)據(jù)進(jìn)行優(yōu)化,然后對(duì)一些存在問(wèn)題或者異常的數(shù)據(jù)進(jìn)行清洗,保證數(shù)據(jù)的純度。另外,在傳統(tǒng)的數(shù)據(jù)清洗過(guò)程中,需要工作人員手動(dòng)進(jìn)行清洗,但是利用先進(jìn)的技術(shù)可以直接進(jìn)行自動(dòng)化的清洗,保證數(shù)據(jù)清洗工作的效率和質(zhì)量。
第四,質(zhì)量評(píng)估。完成數(shù)據(jù)清洗之后需要對(duì)清洗之后的數(shù)據(jù)進(jìn)行一個(gè)有效的評(píng)估,判斷數(shù)據(jù)是否含有重復(fù)、錯(cuò)誤或者敏感詞等等,通過(guò)判斷之后才能進(jìn)行下一步驟,所以說(shuō)對(duì)數(shù)據(jù)的質(zhì)量評(píng)估也是很重要的。
第五,監(jiān)控反饋。整個(gè)Web大數(shù)據(jù)質(zhì)量管理流程是一個(gè)循環(huán)的過(guò)程,在完成一次數(shù)據(jù)的質(zhì)量管理過(guò)程中都有實(shí)時(shí)的監(jiān)控反饋步驟,而且在每一個(gè)環(huán)節(jié)都有相應(yīng)的監(jiān)控和反饋,通過(guò)這樣可以有效的提高數(shù)據(jù)質(zhì)量管理的效率。
3 大數(shù)據(jù)質(zhì)量管理方法和措施
3.1 數(shù)據(jù)存儲(chǔ)服務(wù)優(yōu)化
大數(shù)據(jù)時(shí)代的到來(lái),使傳統(tǒng)模式下的數(shù)據(jù)存儲(chǔ)無(wú)法滿足,傳統(tǒng)數(shù)據(jù)存儲(chǔ)模式受時(shí)間和空間的限制,儲(chǔ)存容量小,處理能力慢,無(wú)法滿足大數(shù)據(jù)體量大、離散復(fù)雜的特點(diǎn),傳統(tǒng)數(shù)據(jù)運(yùn)行速度無(wú)法跟上現(xiàn)代人們對(duì)數(shù)據(jù)處理的要求和需要。而云計(jì)算采用分列式存儲(chǔ)方式,將不同屬性的數(shù)據(jù)分類存儲(chǔ),方便通過(guò)屬性查詢來(lái)及時(shí)提取數(shù)據(jù),大大提高了數(shù)據(jù)處理的效率,降低數(shù)據(jù)存儲(chǔ)空間,實(shí)現(xiàn)對(duì)數(shù)據(jù)的壓縮處理,減少盲目查詢?cè)斐傻臅r(shí)間浪費(fèi)。
3.2 數(shù)據(jù)質(zhì)量問(wèn)題及處理方法
我國(guó)大數(shù)據(jù)質(zhì)量管理的過(guò)程中還存在諸多問(wèn)題,嚴(yán)重的影響了我國(guó)大數(shù)據(jù)質(zhì)量管理過(guò)程,因此,需要對(duì)質(zhì)量管理過(guò)程中存在的問(wèn)題進(jìn)行有效的解決。對(duì)大數(shù)據(jù)在采集和處理過(guò)程中存在的問(wèn)題,包括數(shù)據(jù)采集錯(cuò)誤、數(shù)據(jù)處理不當(dāng)?shù)鹊榷疾扇∫欢ǖ念A(yù)防措施和檢測(cè)措施,從而有效的保證據(jù)數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)質(zhì)量問(wèn)題的處理效率。
3.3 數(shù)據(jù)質(zhì)量評(píng)估
雖然我國(guó)大數(shù)據(jù)質(zhì)量管理已經(jīng)發(fā)展多年,而且已經(jīng)取得了良好的成績(jī),但是其在應(yīng)用的過(guò)程中還存在很多問(wèn)題。因此,在質(zhì)量管理的過(guò)程中一定要加大力度對(duì)數(shù)據(jù)質(zhì)量進(jìn)行有效的評(píng)估,對(duì)每一個(gè)過(guò)程都進(jìn)行實(shí)時(shí)的監(jiān)控和反饋,這樣才能在一定的程度上提高數(shù)據(jù)處理的質(zhì)量和效率,并且讓工作人員對(duì)數(shù)據(jù)質(zhì)量進(jìn)行有效的判斷,保證數(shù)據(jù)的準(zhǔn)確性和時(shí)效性。
3.4 質(zhì)量數(shù)據(jù)處理
當(dāng)數(shù)據(jù)完成相應(yīng)的采集、預(yù)處理、清洗之后,數(shù)據(jù)的整體質(zhì)量也有很大的提升,而且有用的數(shù)據(jù)也基本包含在內(nèi),但是這種數(shù)據(jù)想要達(dá)到理想中的數(shù)據(jù)還是存在一定的差距,因此,還需要對(duì)這類數(shù)據(jù)進(jìn)一步處理,將這些數(shù)據(jù)與Web數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行對(duì)比、分析,然后進(jìn)行多種循環(huán)處理,有效的提高數(shù)據(jù)的整體質(zhì)量。
3.5 數(shù)據(jù)質(zhì)量管理方法分析比較
Web大數(shù)據(jù)質(zhì)量管理的方法有很多,但是不同種類的數(shù)據(jù)需要特定的質(zhì)量管理方法,因此,在進(jìn)行大數(shù)據(jù)質(zhì)量管理的過(guò)程中需要根據(jù)數(shù)據(jù)的種類和特點(diǎn)選擇管理方法,從而有效的保證大數(shù)據(jù)處理的效率和質(zhì)量。
4 結(jié)語(yǔ)
綜上所述,隨著大數(shù)據(jù)在我國(guó)各大行業(yè)中的廣泛應(yīng)用,其在應(yīng)該過(guò)程中存在的問(wèn)題逐漸顯現(xiàn),尤其是對(duì)Web數(shù)據(jù)質(zhì)量管理的過(guò)程中。為了有效的提高大數(shù)據(jù)質(zhì)量管理的效率和質(zhì)量,就需要充分的了解Web大數(shù)據(jù)質(zhì)量管理流程,然后針對(duì)性的提出一些大數(shù)據(jù)質(zhì)量的管理方法,從而有效的提高大數(shù)據(jù)質(zhì)量管理的效率和質(zhì)量,保證Web大數(shù)據(jù)在我國(guó)各大行業(yè)中的廣泛應(yīng)用。
參考文獻(xiàn)
[1]胡水晶.基于資源基礎(chǔ)觀的企業(yè)大數(shù)據(jù)分析技術(shù)采用意愿影響因素研究[J].情報(bào)科學(xué),2016,V34(5):148-152.
[2]張萍,邱立,劉慧.大數(shù)據(jù)思維框架下醫(yī)院“質(zhì)量數(shù)據(jù)管理中心”的集成構(gòu)建[J].中國(guó)醫(yī)院,2015,(3):30-32.
[3]朱力緯,劉麗勤,王健.高校基于大數(shù)據(jù)時(shí)代的數(shù)字化校園建設(shè)探討[J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,2015,(s1):104-110.