郝志剛
雖然早在1998年美國硅圖公司(SGI)的首席科學家John R.Masey就提出了大數據一詞,但之后很多年人們依然沒有大數據的概念,只是簡單描述隨著科技發展出現的海量數據。直到2011年6月,美國麥肯錫咨詢公司發布了《大數據:下一個競爭、創新和生產力的前沿領域》的研究報告,才給世界一個大數據時代到來的準確定音。這份報告分析了大數據對健康醫療、政府管理、零售業及制造業等行業的重大的經濟影響,并預測大數據將給美國醫療事業帶來每年3000億美元的收入,給歐洲發達經濟體每年節省1000億歐元的支出。由此可見,跟上大數據時代的步伐會給社會各種團體組織帶來不可估量的效益。
大數據是海量的數據被整理納入大數據倉庫里,然后對其進行分析挖掘,再利用有價值的結論進行下一步行動的決策。比如消費者在網站上的搜索被記錄到亞馬遜的數據庫中,通過大數據分析用戶的購買行為,向用戶推薦合適的產品,實現精準營銷[1]。大數據從數據內容結構上分為結構化數據、半結構化數據和非結構化數據。結構化數據即行數據,存儲在數據庫里,可以用二維表結構來邏輯表達實現的數據,在形式上有諸如文字、數字、符號,能夠用統一的形式加以標識。非結構化數據包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等,這些內容無法用簡單的邏輯表達實現,分析起來也需要特別的硬軟件。……