靳琦琪
大數據應用與分析
靳琦琪
(對外經濟貿易大學,北京 100086)
大數據是當今信息化時代的一個重要研究領域,隨著社會科學技術的不斷發展,大數據已成為信息科技前沿的一個研究熱點,同時大數據在實際應用中也表現出巨大的價值。首先介紹了大數據的基本概念與特征表現,然后研究了大數據在應用過程中的數據處理流程及關鍵技術,并進一步分析了大數據的應用現狀與未來發展趨勢。
大數據;大數據處理;大數據應用;大數據應用現狀
隨著社會信息化的快速發展和生活網絡化的廣泛普及,大數據的科學技術研究也在不斷取得進步,而且在社會生活中各個領域的實際應用中發揮出很大的價值與作用。但是,由于當今信息時代帶來的多樣化海量數據具有更為復雜的數據分析需求,并且需要更為高效的數據處理方式,使得大數據的研究與應用成為科技前沿的重要領域之一。
大數據是當今科學技術發展下的信息產物,指在一定時間內通過全新高效的數據處理模式并具有更有效優化能力的規模大和多樣化的數據信息資產[1]。因此,大數據的概念不是單獨表現出數據的規模大小,而更多的意義是指對于種類繁多的數據信息體系進行高效處理的方式。大數據的戰略意義是對數據開發挖掘并實現數據資產的潛在價值,而在整個過程中最關鍵的部分在于如何提高對數據的加工處理能力,從而實現數據信息的價值[2]。
在大數據的應用領域,大數據具有很多特點,但基本特征主要有五個[3]:①數據規模大。由于數據體系具有較大規模,使得大數據在處理過程中需要采集和分析的數據量很大。②數據種類多。大數據的來源非常復雜,導致數據的類別具有多樣化,數據形式主要包括結構化、半結構化和非結構化等。③處理速度快。數據信息的增長較快,促使在數據處理過程中所需的實時分析方式要求更高,否則海量數據的價值難以有效得到開發與應用。④數據價值高。在社會各個生活領域存在的數據資產都隱含著巨大的潛在信息,而通過大數據的應用,可以提取出有用的數據信息并可以解釋當前數據以及預測未來數據,從而創造出較高的價值。⑤數據真實性。繁多的數據雖然代表著不同的信息,但在大數據的實際分析處理過程中,確保數據的質量,才能使信息的真實性得以保證,這也是大數據處理在獲取數據價值過程中的前提。
隨著科技的不斷發展,大數據的特點也在陸續出現新的概念,使得大數據的特點與傳統數據有了很大區別,不僅在數據量方面具有廣泛性,而且還有對于海量數據信息的專業分析和高效處理方式,包括數據的時間快速性和形式復雜度,以及最終能夠獲取的有價值數據信息的能力。
針對目前各個領域中種類復雜繁多且規模巨大的海量數據,計算機的處理方式也是多種多樣的,但在大數據的實際應用中,無論數據處理形式如何發生變化,大數據的處理流程主要包括以下幾個部分。
數據獲取是大數據處理流程的開始階段,是利用一種數據采集裝置,從系統外端接口獲取特定數據經過轉化輸入到系統內端的存儲空間[4]。在數據源已有的前提下,數據采集的關鍵步驟是如何根據用戶或軟件的需求獲取更有效更準確的數據信息。目前,在各個領域得以應用的數據采集技術有較多種類。在數據采集過程中,操作技術雖然相對簡單,但如何處理海量數據的并發需求以及提高數據庫的儲存能力,是大數據領域在數據獲取方面的主要研究方向[5]。隨著社會科技的飛速發展,數據獲取的方式在很多方面也發生了本質上的變化,主要表現在智能數據采集系統的不斷研發應用,促使大數據領域的數據獲取進入一個全新科技時代[6]。
數據處理是大數據處理流程中的過渡階段,是后續數據分析階段的準備,數據處理包括對各種原始數據的分析、整理、計算、編輯等的加工和處理,通過關聯分析和歸類分析等特殊方法,對各種類型的初始數據進行統一過濾和梳理。數據處理的過程主要包括數據清洗和數據集成等部分,通過整個處理流程可以使各種數據類型和結構得以簡化與統一,從而保障了后續數據分析過程的效果。數據處理階段是社會生活中系統工程和自動控制的基礎部分,在很多領域都可以體現其重要作用[7]。數據處理方式的不斷創新及其實際應用,在很大程度上促進了大數據領域的發展。
數據分析是大數據處理流程的核心階段,通過數據分析最大程度挖掘數據的潛在價值,以發揮大數據在社會生活實際應用中的效果[8]。數據分析過程的目的是發現并提取數據體系包含的內在規律并形成結論信息,從而對數據進行詳細研究和總結。在數據分析的過程中,其數據分析結果信息可以幫助人們在生活場景中作出判斷,從而采取適當的行為表現,這也是大數據分析的價值所在[9]。
數據解釋是大數據處理流程的最后階段,其實質為對大數據處理和分析的最終成果進行可視化展示。在大數據的應用領域中,經過處理分析的數據結果不再局限于通過可讀或可見的形式傳輸呈現給用戶,而更多的是需要融合人機交互、人工智能、計算機圖形學和圖像處理的相關最新技術成果,將數據分析的結果通過更為豐富多樣和更直觀便利的形式展現并傳達給用戶。然而,大數據處理流程中,如何提高數據交互應用過程的實時性和準確性是數據解釋的核心問題,從而保證大數據處理流程的完整度與價值感。
當前,大數據在社會各個領域都得以廣泛應用,但主要集中表現在電商、交通、醫療等領域,在這些應用領域中,大數據創造出巨大的價值,為社會的快速發展帶來了很強的科技支撐,同時也為人們在日常生活中帶來了很多便利。
在電商領域,大數據的廣泛應用使各個電商平臺的運營體系與交易模式發生了很大變化。現在的電商平臺如淘寶、京東等,都主要以客戶的數據為運營導向,通過數據處理與分析得出顧客的需求意向,預測平臺的產品在近期與未來的銷售情況,為商戶在日常經營中運營決策提供輔助參考與有效建議,從而達到最大化獲取產品銷售利潤的目的,不僅給商戶帶來了效益,同時也促進了電商平臺的持續發展。例如,在淘寶平臺進行購物時,在系統頁面會出現個性化的產品 推薦,這是電商平臺的廣告投放系統通過大數據分析作出的判斷,根據用戶日常生活中搜索和購買產品時表現出的系列數據,利用大數據技術分析得出用戶的產品偏好和行為意向等信息,從而讓系統對不同客戶做出符合其個人的產品廣告推薦[10]。
在交通領域,大數據也得以被廣泛應用,為城市的交通與建設帶來了很大效益,目前出現的“智慧城市”系統,正是利用大數據分析技術輔助政府與個人管理城市的交通與建設等信息,有效提高了城市管理的智能化水平[11]。例如,在城市交通系統中,高德地圖和百度地圖等系統軟件通過在平臺顯示各個路段的擁堵狀況,實時為人們分析得出省時快捷的出行路線與方案信息。
在醫療領域,大數據可以對醫療數據信息進行有效的數據存儲和查詢等,同時通過數據處理與分析得出醫療數據的潛在信息價值。例如,在生活中得以應用的健康狀況監測系統,其原理是通過系統對醫療信息進行數據處理與分析,得出個人健康狀況的信息,同時也可以給出相關醫生的建議以幫助恢復身體健康,大數據在醫療方面的應用為人們日常生活的健康管理帶來了很大便利。
大數據廣泛應用于多個領域,雖然產生了很大作用并帶來了巨大效益,但在實際應用過程中還存在著很多問題與挑戰,主要體現在以下幾個方面[12]:①數據獲取。大數據的數據來源比較復雜,使得數據在結構與形式上不能統一,從而導致在大數據的數據獲取階段存在一個很大的挑戰,就是如何在融合不同形式數據的情況下可以自動定義數據的結構形式,并且能保證其實時和有效[13]。②數據存儲。大數據的特點決定了數據存儲方式的特殊性,不僅要滿足數據的海量規模,而且還能匹配數據的多樣類型。在大數據的存儲技術上,國內外也研發出比較有效的系統,但仍然會存在一些問題,同時為了促進大數據更大程度發揮出應有價值,數據存儲方面需要不斷優化[14]。③數據分析。大數據的規模大和種類多是數據分析過程中需要特別考慮的一個因素,使得大數據在不同的應用場景中需要采用不同的數據分析方法[15]。在大數據的整個發展過程中,雖然存在著不同的挑戰,但與此同時也促進了大數據技術的不斷創新,使大數據領域在未來有了更大的發展空間。
根據大數據應用與分析的綜述,發現大數據在社會各個領域的應用中表現出巨大的潛力,然而大數據在數據獲取、存儲和分析等方面依然面臨著諸多挑戰。同時,這些挑戰也在促進大數據技術不斷進步。因此,對于大數據的未來應用,大數據會更加多樣化、高層次和寬領域,同時大數據領域 會與其他領域進行融合交互,例如人工智能等[16]。總之,大數據在未來的應用領域會更加廣泛,為社會發展帶來更大的價值。
[1]袁冰.大數據行業應用現狀與發展趨勢[J].中國新通信,2014(24):75-76.
[2]梁巧琴.大數據應用的現狀與展望[J].信息通信,2015(1):133-134.
[3]俞立平.大數據與大數據經濟學[J].中國軟科學,2013(7):177-183.
[4]程學旗.大數據系統和分析技術綜述[J].軟件學報, 2014(9):1889-1908.
[5] DOBRE C,XHAFA F.Intelligent services for big data science[J].Future Generation Computer Systems,2014,37(2):267-281.
[6] WONG H T,YIN Q,GUO Y Q,et al.Big data as a new approach in emergency medicine research[J]. Journal of Acute Disease,2015,4(3):178-179.
[7] BEGENAU J,FARBOODI M,VELDKAMP L.Big data in finance and the growth of large firms[J]. Journal of Monetary Economics,2018(5):13.
[8]黃永勤.國外大數據研究熱點及發展趨勢探析[J].情報雜志,2016(6):99-104.
[9] OMOLARA A E,JANTAN A,ABIODUN O I,et al.State-of-The-Art in big data application techniques to financial crime: a survey[J].International Journal of Computer Science and Network Security,2018,18(7):6-16.
[10]FEINLEIB D.The big data Landscape[M].City: Apress,2014.
[11]王珊,王會舉. 架構大數據:挑戰、現狀與展望[J].計算機學報,2011(10):1741-1752.
[12]JAIN P,GYANCHANDANI M,KHARE N. Big data privacy: a technological perspective and review[J]. Journal of Big Data,2016,3(1):25.
[13]任磊,杜一. 大數據可視分析綜述[J].軟件學報,2014(9):1909-1936.
[14]SIVARAJAH U,KAMAL M M,IRANI Z,et al.Critical analysis of big data challenges and analytical methods[J].Journal of Business Research,2016(70):263-286.
[15]ABAWAJY J H,KELAREV A,CHOWDHURY M.Large iterative multitier ensemble classifiers for security of big data[J].Emerging Topics in Computing IEEE Transactions on,2014,2(3):352-363.
[16]BELLAZZI R,DIOMIDOUS M,SARKAR I N,et al.Data analysis and data mining: current issues in biomedical informatics[J].Methods of Information in Medicine,2011,50(6):536-544.
TP311.13
A
10.15913/j.cnki.kjycx.2020.22.066
2095-6835(2020)22-0151-02
靳琦琪(1993—),女,對外經濟貿易大學統計學院在職人員高級課程研修班學員,主要研究方向為大數據應用與分析。
〔編輯:嚴麗琴〕