摘要:大數據是時代經濟的產物,它與傳統產品有著很大的不同。隨著大數據的運用逐漸增加,大數據產業也在不斷地發展,大數據交易則成為創新的商業模式,但大數據交易市場并不完善,尚未形成統一的機制。學習大數據的生命周期,并根據其做出方案調整,有助于完善大數據市場。所以,在本文中,我們在以往學者的研究基礎上,進一步探討了大數據的生命周期。
關鍵詞:大數據;生命周期;數據交易;數據保護
一、大數據生命周期研究的重要性
近年來,大數據已經滲入我們的生活,大數據的時代已經來臨。隨著數據的不斷增長,如何有效利用數據成為一個關鍵問題。這就需要發展一個完善的大數據市場,以實現高效的數據交易。
目前,國內外有很多大數據交易市場。國內,貴陽大數據交易所等和中國聯通、寶鋼集團等眾多企業合作,利用電子交易系統向全球提供和大數據有關的交易。國外的Azure、Datamarket等,擁有眾多公司和機構收集的授權可交易數據。然而,現有的大數據交易市場還存在很多問題。如果想要解決這些問題,就必須了解大數據的生命周期。
數據生命周期是指數據從產生到銷毀的整個過程。師榮華等人[1]認為:數據生命周期是根據科學研究的流程發展衍生而來,從數據生成、數據處理到數據存儲、歸檔,最后再利用的一個循環過程。其實很多場景中,大數據生命周期和信息生命周期極為相似。
二、大數據生命周期的研究內容
現階段大數據生命周期的主要研究范圍包括大數據生命周期模型和大數據生命周期管理兩個方面:
關于大數據生命周期模型方面。林焱等人[2]認為,進行數據管理的前提是解決數據周期的復雜性,即對數據執行的各種操作:傳輸、歸檔、復制、刪除等,并提出用DCC、DDI 3.0和UCSD 三個數據生命周期模型來解決此問題。馬曉亭等人[3]根據大數據生命周期理論具體分析了圖書館讀者隱私保護生命周期管理模型,并根據大數據的生命周期發展規律,提出在完善和優化傳統的防火墻和數據加密等安全防護技術外,還應采用大數據安全性評估、云存儲安全管理等技術不斷提升風險評估和安全管理水平。這些技術可以運用到大數據交易過程的數據保護中。
關于大數據生命周期管理方面。索傳軍等人[4]認為:數據生命周期管理的核心是在不同的階段能讓各種信息的價值得到體現。企業高效地挖掘出自己所擁有數據的價值,并進行有效管理,從而降低企業的成本,提高收益。
三、大數據生命周期的總結與分析
根據國內外對大數據的研究,我們將大數據的生命周期總結為五個階段。
(一)第一階段:數據收集。隨著設備的進步和物聯網的發展,收集有用的數據變得越來越容易。數據收集分為三個步驟:
1.收集數據,通過不同的收集方法收集不同類型的數據,但所有原始數據由數據所有者存儲。
2.加工數據,數據所有者在采集后需要對原始數據進行處理,包括脫敏、分類、清洗、建模分析等,并將清理后的數據進行合理分組。
3.驗證數據,為了確保清理后的數據是可用的和有意義的,數據驗證是必要的。此外,要隨機選擇樣本數并檢查其可用性。
(二)第二階段:數據分析。在原始數據集的收集和預處理之后,由機器學習和數據挖掘技術支持的數據分析是從數據集中提取商業價值的最重要的階段。數據分析有很多好處,包括提升社會影響力營銷、提高基于客戶的營銷和銷售營銷的機會[5]。
(三)第三階段:數據定價。目前,由于缺乏統一的定價機制,各家數據交易平臺定價規則不一,導致數據市場定價混亂,嚴重影響了交易秩序。而一個合理的價格可以保證數據所有者和消費者雙方的經濟利益。一般數據平臺的定價策略有固定定價、平臺預訂、協議定價等。目前的定價模型分為兩類,一類是基于經濟理論的定價模型,比如:成本模型、消費者感知模型、差別定價模型。但是由于大數據產品的特殊性,常見的是另一類基于博弈論的定價模型。比如:基于博弈理論的拍賣定價、討價還價模型等。
(四)第四階段:數據交易。隨著數據量的迅速增長,數據獲取技術也迅速發展,包含了全面內容和細節的海量數據集變得越來越有價值。無論是政府還是企業都需要這樣的數據來幫助自己更好地完成工作。
大數據交易的主要目的可以分為兩個方面。一方面,數據交易者可以從數據交易過程帶來客觀的利潤。另一方面,滿足了消費者對數據的需求。消費者可以利用這些數據來改進他們的產品或服務。例如:阿里巴巴等平臺會產生很多大數據,當其中的地理位置等數據被物流公司使用時,就可以滿足其合理規劃其物流中心的需要,而這些平臺也可以獲得可觀的利潤。這是一個對交易者和消費者都有益的過程。如果沒有數據交易,數據就是靜態的信息孤島。因此,數據交易讓數據流動起來,實現數據的商業價值,建立一個雙贏的市場。
與傳統商品交易一樣,大數據交易最基本的要求是公平和真實。但是,大數據作為一種數字商品,其特殊性又決定了與傳統商品不一樣的交易手段和方式。因為所交易的大數據商品是虛擬商品,而交易過程又是通過網絡進行的,商家和消費者都是“盲”的。這就要求供應商、消費者和第三方平臺之間要做到真實和公平。[6]因此,有人提出建立一個具有公平協議的公平交易市場。有人認為要加強保密技術。但筆者認為解決這個問題需要多方合作。首先,需要一個可信的大數據平臺。其次,是要規范交易制度、完善定價機制。再次,政府要起到積極的引導作用,盡快出臺相關政策。最后就是交易者之間要嚴守規范,避免權利受到傷害。
(五)第五階段:數據版權保護。這是大數據生命周期的最后一個階段,也是不可缺少的一個階段。因為大數據的復制成本很低,如果買方對已購買的大數據進行了轉售,賣方的數據價值將受到重大影響,這樣會導致市場混亂。因此,必須對數據的版權進行保護,以確保所有者的合法權利。
目前所擁有的數據保護主要有以下幾點:第一是內容的加密、內容水印和數字簽名的創建。第二是訪問控制。它負責身份和訪問管理,并為需要訪問受保護的數字內容的用戶提供憑據。此外,該組件還能監視授權用戶的行為,并為不同的用戶設置不同的訪問權限。第三是許可證管理。它向授權用戶發布許可證,例如密鑰、身份驗證代碼等,并控制和檢查許可證的有效期[7]。
四、結語
本文根據之前的研究成果進行了總結分析,進一步了解大數據的生命周期,并對數據交易和數據保護方面進行了著重分析,這有助于解決大數據市場面臨的一些問題。本文所提出的關于大數據生命周期的有關內容存在不足之處,懇請各位前輩予以批評指正。
參考文獻:
[1]師榮華,劉細文.基于數據生命周期的圖書館科學數據服務研究[J].圖書情報工作,2011,55(1).
[2]林焱,周志峰.基于數據生命周期模型的數據資源管理剖析[J].圖書館學研究,2016(14).
[3]馬曉亭,陳臣.基于大數據生命周期理論的讀者隱私風險管理與保護框架構建[J].圖書館,2016(12).
[4]索傳軍,王濤,付光宇.國內外信息生命周期管理研究綜述[J].圖書館雜志,2008(7).
[5]李學龍,龔海剛.大數據系統綜述[J].中國科學:信息科學,2015,45(1).
[6]王德夫.論大數據時代數據交易法律框架的構建與完善[J].中國科技論壇,2019(8).
[7]陳興蜀,楊露,羅永剛.大數據安全保護技術[J].工程科學與技術,2017,49(5).
作者簡介:宋福琳(1994—),女,河南人,南京信息工程大學在讀研究生,主要從事會計研究。