馬彬程
?
當前大數據發展及其對動物科學影響的思考
馬彬程
長江大學動物科學學院,湖北 荊州 434025
數據、科學數據和大數據是數據科學發展的三個階段性概念名詞。數據科學的發展、計算機硬件和軟件技術的不斷進步和社會經濟發展的多元化和復雜化,已經表明傳統的數據處理方式、數據分析方法已經無法適應滿足人類社會發展的需要。分析了大數據時代下動物科學的發展勢頭及其思考,大數據時代下動物科學影響巨大。
大數據;動物科學;思考
大數據時代是人類社會發展到一定階段的產物,經濟的飛速發展、物質文明和精神文明的日益繁榮使得計算機技術進步呈現爆炸式的速度。最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫。麥肯錫稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產要素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”[1]《紐約時報》2012年在一篇專欄中稱,“大數據”時代已經降臨,在商業、經濟及其他領域中,決策將日益基于數據和分析作出,而并非基于經驗和直覺[2]。大數據時代的到來是時代的必然,這與計算機硬件成本的降低、網絡寬帶速度的提升、云計算的興起、網絡技術的發展、智能終端的普及和物聯網的飛速發展等因素是密不可分的,這些因素的出現使得當今社會的各種各種信息呈現數字化的特征。
1.1 大數據與傳統數據的區別
從理論研究角度上來看,傳統的數據分析方法和大數據分析的基礎是一樣的,即都是以數據為基礎。但是相對傳統數據而言,大數據在數據源、分析方法和思維方面有著更大的優越性,甚至在某些方面有著本質的區別。第一,規模。傳統的數據通常是以MB為單位,而大數據往往是以TB、PB和ZB為單位進行處理。傳統的數據規模較小是因為需求和社會發展階段決定的,但是進入21世紀以來,信息化的速度逐漸加快,原有的數據規模所能反映的問題,以及運用小規模的數據為基礎進行情報研究,無法客觀反映現實情況。大數據之所以出現,是因數據規模變得非常巨大而引起的,只有采用更大規模的數據,即第二,數據類型。傳統數據處理的種類比較單一的結構化數據,而大數據處理的是結構化、半結構化和非結構化的復雜種類組成數據。傳統數據組成結構,是因為需求比較簡單,人們有意識的按照一些特征和規律選取相關數據,容易掌握在情報分析人員的可控制范圍內。但是數據的爆炸式增長,數據來源的日益復雜化和不規律性,不能再按照傳統的數據分析選取數據的類型,而應考慮類型齊全的大數據,才能使得數據分析和情報研究科學化。第三,數據和模型的關系。傳統的數據分析是在先建立在使用者先期預設目標,接著建立相關數據模型,在模型確立的基礎上再根據前提條件收集數據,這樣顯得主觀性過強,缺乏客觀性的把握。而大數據是在收集數據的過程中逐漸形成,數據與模型緊密結合,模型會隨著數據的收集進度進行不斷演變,最終形成科學且符合實際情況的數據模型。
1.2 大數據與傳統數據的區別
大數據在數據量、處理速度和數據來源多樣性上的無與倫比優勢,使得大數據分析思維相對傳統數據分析思維有著明顯的優勢。可視化分析、數據挖掘、語義引擎和數據質量管理是大數據分析方法的四個基本面。大數據通過對數據的科學整合,使得數據分析結果符合科學與現實,因此大數據的分析思維有著相對于傳統數據分析思維所不具備的巨大優勢,使用大數據分析思維是非常必要的。
大數據時代的信息分析主要遵循以下三大理念:(1)使用全體數據而不是局部數據,大數據分析是非常宏觀信息分析方式,需要全面地分析總體數據的本質特征、屬性、內在規律和聯系,而僅僅選取局部數據會割裂了數據之間的聯系;(2)講究數據的相關性而不是按照事先預設的因果關系選取數據,在大數據時代面對海量數據的艱巨挑戰,選取能夠容納整體的數據比按照因果聯系局部選取一小部分數據更加重要,海量信息根據大數據分析能夠明顯反映數據的趨勢,大數據分析的首要任務是通過相關性實現數據挖掘與預測分析。大數據分析強調發現先前未知的新模式和未知的數據相關關系;(3講究數據分析的效率性同時分析數據之間的關系,大數據分析以全體或總體為分析對象,不可能使用傳統的數據分析模型合來描述全體或總體的特征、規律、聯系,即使有時間和成本花費代價昂貴,同時由于數據來源基礎的局部性也很難直接發現全體或總體的本質屬性、特征、規律和聯系,但是大數據可以做到,既客觀又能夠科學的反映數據總體的本質屬性、特征、規律和聯系。
大數據分析注重數據量更大、數據來源多元化和復雜化形成了新的思維模式,那就是從因果分析到相關分析和知識發現,從模型擬合到數據挖掘,從邏輯推理到關聯規則制定整體宏觀分析。大數據以數據總體為分析對象,數據來源是核心和關鍵,從宏觀上研究大數據的本質屬性、特點和規律。大數據以數據和先進的計算機硬件技術、軟件技術和網絡技術為重點,以海量數據為基礎的數據庫為工具,重在發現數據隱含的規律。
1.3 大數據分析的關鍵性技術
大數據分析的核心是大數據技術,大數據技術是指從各種復雜的非規律化類型的海量數據中快速獲得有價值信息并進行分析的技術。大數據分析的關鍵技術主要有數據采集技術,如異構數據抽取、清洗轉換、集成、加載等。數據存取技術,如關系數據庫等。基礎架構,如云存儲、分布式文件存等。數據處理技術,如自然語言處理、計算語言學、人工智能等。統計分析技術,如假設檢驗、顯著性檢驗、差異分析、相關分析檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分曲線估計、因子分析、聚類分析、主成分分析、判別分析、對應分析技術等。數據挖掘技術,如分類、估計、預測、相關性分組或關聯規則、聚類、描述和可視化、復雜數據類型挖掘等。模型預測技術,如預測模型、機器學習、建模仿真。結果呈現技術,如云計算、標簽云、關系圖等。
利用大數據發展動物科學的將會起到重要的作用,因此在今后的過程中要積極利用大數據發展成果為動物科學發展提供相應的支撐。當前,一個學科與另一個學科的嵌入是需要時間的,希望通過努力能夠爭取化解這一問題,逐步解決該問題。
[1]陶雪嬌,胡曉峰,劉洋.大數據研究綜述[J].系統仿真學報,2013(25):143-145.
[2]朱東華,張嶷,汪雪鋒,等.大數據環境下技術創新管理方法研究[J]. 科學學與科學技術管理,2013(4):175-179.
F49;F124
A
1009-6434(2016)05-0080-01