朱啟亮
(中國建設銀行遵義市分行,貴州 遵義 563000)
目前國內各領域行業已經開始重視對大數據的應用,人們生活、工作方式得益于大數據應用而發生轉變,隨著我國對大數據價值挖掘及其應用的研究逐漸深入,目前已經取得初步成效。但是大數據應用并非百利而無一害,因大數據自身冗余性、復雜性、涌現性等特點的存在,使得大數據應用期間稍有不慎就會出現質量問題。正因此,探究大數據應用的質量控制,對于促進大數據應用價值的體現有著重要影響。
現階段大數據采集、處理及其應用過程中,其數據質量始終是人們的關注重點。而目前學術界對大數據質量的定義尚未明確統一。國內外分別從數據可得性、分析框架、數據分析與判斷、數據代表性等方面進行探究,并得出不同結論。立足于數據特征、用戶需求角度進行分析,本文認為大數據質量涉及到經濟性、及時性、適用性、準確性以及完整性等方面。同時考慮到大數據存在的復雜性、不確定性特點,數據質量還需囊括可分析性、可得性等要素。由此表明,大數據質量是指在滿足用戶需求的基礎上,進行準確性、及時性、可得性等上述要素的衡量,且各要素需體現在大數據形成、挖掘及其分析使用等全過程中。
用戶數據使用出現質量問題的最根本因素在于契合度的缺失,通常情況下,除天文觀測、基因檢測之外,大數據的生成并非以特定目的或需求為根源,只是在現代信息技術廣泛普及下衍生出的數據資源。從某種角度而言,大數據的形成屬于自然過程,而傳統數據的生成會以相關統計目的或需求為前提。所以數據使用期間,要想保證其數據使用契合用戶需求,需以數據篩選、挖掘為必要手段。有人將大數據挖掘過程比作“大海撈針”的過程,由此體現出海量數據信息的低密度價值,所以用戶數據使用過程中極易出現不契合使用目的的問題。
無論是傳統數據還是大數據,誤差的產生不可避免。諸多客觀、主觀因素的影響下使得大數據應用出現誤差問題,而其中誤差又分為系統性誤差與偶然性誤差。相較于偶然誤差而言,系統性誤差的產生更難以被有效測度、鑒別,尤其是在試用期間因操作不當形成的系統性誤差。分析系統性誤差的出現情況,具體體現為:1.數據未做到全面覆蓋,繼而在應用期間出現偏差,即未覆蓋數據特征與大戶數特征存在明顯差異;2.在人群相互影響下前提下,所形成的具有方向性特點的數據品茶,以微信群為例,相互影響下群友所探討的內容可能出現共性偏差;3.因個體小數據存不確定因素,使得大數據應用出現傾向性偏差,如社交平臺中人們通常會選擇對自身性別、年齡、外表等進行美化、夸大等,導致大數據應用出現較大誤差。
可比性是大數據發揮出應有價值的關鍵所在,針對傳統數據而言,因其在測度標準、獲取方式、指標定義、銜接調整、獲取范圍等方面有著嚴格要求,所以傳統數據在時間、空間等方面有較強的可比性。但是大數據受到表現多樣性、測度非標準、非統一來源區域、形態復雜性、語境差異性等方面的影響,使得數據不存在時間連續可比性,在空間方面同樣缺失橫向比對性。即便能夠做到大量生產數據資源的谷歌、百度等企業,受到標準要求、范疇變化等方面的影響,也難以以一致性的標準進行前后數據的控制,在實際統計分析過程中無法體現出大數據的可比性。
盡管大數據應用期間些許質量問題的存在影響到其作用與價值的體現,但是現階段大數據應用已然成為我國社會發展建設的主要趨勢,所以亟需借助相關對策措施來加強對大數據應用質量的控制。
要想進一步提升大數據的應用質量,需要以完善理論支撐入手,站在理論層面進行大數據表現與特征的探討分析,避免大數據應用受到盲目探索的影響。在實際應用期間,需在全面掌握大數據內涵的基礎上,結合以下幾點完善大數據的理論準備:1.大數據來源認知的轉變。基于現代信息、互聯網等技術的普及應用,目前數據的定義不再是只能用于數字表現、加減乘除應用的數據,所有可記錄的事實均能以數據的形式體現。所以大數據的構成包括非結構化數據如聲音、文字、表情、文本、視頻等,以及相關數字化信息等。做到在統計學范圍內納入上述數據信息,并嘗試在當前統計學教材中進行大數據理論知識的增設,以幫助人們加深對大數據的掌握,拓展對于數據應用的視野。2.總體、個體、變量等認知的轉變。數據的應用需要以用戶明確數據類型為基礎,即掌握所使用的數據對應的個體、總體以及變量表達。不同于傳統數據而言,大數據的使用無法明確數據的個體、總體,所以其傳統變量、個體、總體的定義不適用于大數據中。為此可結合以下方面進行大數據處理的優化。一方面是大數據應用目的是相關規律的探索,那么其總體可以確定為特定時段內的所有數據,而個體則是截取數據內的每一個具體數據,同時依據大數據分析目的、方向來確定變量。另一方面則是從具體數據的分析入手,進行來源背后事物、人物等方面的調查,經過核對檢驗后進行個體、總體的科學定義。
完整且科學的質控方案是發揮出大數據價值與作用的關鍵所在,而針對質控方案的制定,需依據對用戶需求的分析,從事前、事中、事后三方面進行方案的優化。針對事前控制而言,首先結合實際情況進行數據源、使用目的的分析研究,明確大數據應用的具體需求與目的。其次是判斷能否獲取相應的數據,并精準界定數據選擇的范圍,以相關法律制度為參照,確定數據生產者與使用者的權利、職責。針對事中控制而言,需做到在應用期間重視對數據對接的強化開展,以明確數據特點、使用目的、數據分類、數據測度為前提,以標準化的形式處理大數據與相關數據的銜接。例如政府CPI 需要以相應的原則與方法來應用、處理京東、阿里巴巴平臺纏產生的數據,依照相關標準進行數據的分類,結合對價格、銷售數量等方面的分析,進行CPI 層次權數的科學調整。再次,按照規定要求進行數據修補與審核,為避免些許完整性、準確性問題的存在而影響到大數據的利用,需在事中控制階段進行數據修補、清晰等。最后,加強數據驗證與比對,若大數據的獲取存在來源差異的情況,需要進行同步比較,通過對內涵質量差異的控制來提升數據可比性。針對事后控制而言,則強調對大數據使用過程進行總體性評估、分析以及總結,具體涉及到有效性評估、邏輯性檢查等。并在使用后階段比對數據使用前后的差異,若存在差異則需深入挖掘其成因。
小數據是形成大大數據資源的關鍵所在,是指個體、單個事物特征反映的數據,例如姓名、籍貫、性別、民族、體重等,主要體現為個人基本特征小數據,個人身體健康體現的小數據集則包括內外科、血常規、眼鼻喉等體檢數據等[6]。針對大數據的應用,在某種程度而言可以體現為對小數據的利用,所以大數據契合性低、系統性誤差等問題的產生,均受到小數據生成的直接影響。所以,需要加大對小數據的研究與控制力度,依據實際需求加大對小數據影響因素、變化情況、來源等方面的研究與評估,做到按照規定標準進行小數據系統性的審核,結合對小數據集生成過程、動態變化過程的梳理,實現通過小數據集質量控制來促進大數據價值體現。
綜上所述,大數據時代背景下如何最大化體現出大數據的價值及作用,需要以數據應用質量的控制為支撐。對此,需深度剖析大數據應用存在的質量問題,在此基礎上結合科學措施來提升大數據質量控制水平。