王毅+李晶偉
摘 要:隨著大數據研究逐漸深入,企業創新決策越來越依賴于數據分析,而企業檔案數據資源為企業這一決策提供了數據基礎。因此,在此背景下企業檔案管理中運用大數據分析方法具有重要性意義。本文詳細的闡述了數據質量管理、可視化分析、語義引擎、數據挖掘、趨勢預測分析等五種大數據分析方法在企業檔案管理中的應用及注意問題。
關鍵詞:大數據分析方法;企業檔案管理;檔案數據資源;企業創新決策
Abstract: With the gradually go deep into the research of big data, the enterprise innovation decision-makings are more and more dependent on data analysis, and the enterprise archive data resources provide the data base for enterprises these decisions, therefore used of big data analysis in Enterprise Archive Management has important significance. This paper detailed expounds the Data Quality Management, Visualization Analysis, Semantic Engines, Data Mining, Tendency Prediction and so on five big data analysis methods in the application of Enterprise Archive Management and problems that deserve attention.
Keywords: Big data analysis method; Enterprise Archive Management; archives data resources; enterprise innovation decision-making
2015年9月5日,我國政府發布了《促進大數據發展行動綱要》,旨在促進大數據和云計算、物聯網、移動互聯網等新一代信息技術的融合,探索大數據和傳統產業發展新模式,推動傳統產業轉型升級和新興產業發展。正如大數據專家舍恩伯格所說:大數據正在改變人們的生活和人們理解世界的方式,更多的變化正蓄勢待發,大數據管理分析思維和方法也開始影響到我們企業檔案管理的發展趨勢。
1 大數據分析方法在企業檔案管理中應用的背景
1.1 大數據研究逐漸縱深化。自從2008年science雜志推出Big Data??詠恚瑖鴥韧鈱Υ髷祿难芯咳缁鹑巛?。經過一段時間的探索,“目前大數據領域的研究大致可以分為4個方向:大數據科學、大數據技術、大數據應用和大數據工程。而人們對于大數據技術和應用兩個方面的關注比較多”[1]。正如2012年奧巴馬政府投入2億美元啟動 “大數據研究和發展計劃”的目標所顯示的那樣,目前大數據的研究逐漸向縱深化方向發展,著重從大型復雜的數據中提取知識和觀點,幫助企業實現從“數據分析能力”向“數據決策能力與優勢”的轉化。
1.2 企業創新決策越來越依賴于數據分析。對于企業技術創新者而言,目前更多的企業高層越來越依靠基于數據分析的企業技術創新決策。靠傳統的經驗方法去決策往往是滯后的,因此,大數據分析方法作為先進的定量分析方法,目前出現的一些先進數據分析方法與技術勢必會對企業的運行管理、生產業務流程、管理決策產生飛躍式的影響。大數據分析方法也成為企業檔案數據分析、技術創新決策的有效工具。
1.3 企業檔案為企業創新決策提供數據基礎。對于一個企業而言,使用的數據資源必須具有真實性可靠性?!捌髽I檔案是在企業的各項活動中直接形成并保存備查的各種文獻載體形式的歷史記錄”[2],企業檔案是企業在生產、經營、管理等活動中形成的全部有用數據的總和。除了發揮著憑證參考維護歷史真實面貌的作用之外,企業檔案更“是企業知識資產和信息資源的重要組成部分”[3],具有知識創新性、不可替代性,為企業技術創新決策提供數據基礎。“特別是在當前大數據背景下,企業檔案數據資源的開發與建設對企業經營決策的制定與適應市場競爭環境起到關鍵性作用?!盵4]
在上述背景下,將大數據分析方法應用在企業檔案管理中具有重要性意義:不僅拓展企業的管理決策理論,同時幫助企業運用所擁有的檔案數據資源洞察市場環境,發現新的競爭對手,進行自我總結,做出科學決策,使企業緊緊抓住大數據時代帶來的市場機遇。
2 大數據分析方法在企業檔案管理中應用的方式
大數據分析方法在企業檔案管理中的實現方式即是將大數據分析方法運用在企業檔案信息分析挖掘上。它貫穿企業數據處理的整個過程,遵循數據生命周期,廣泛收集數據進行存儲,并對數據進行格式化預處理,采用數據分析模型,依托強大的運行分析算法支撐數據平臺,發掘潛在價值和規律并進行呈現的過程。常見的大數據分析方法“其相關內容包括可視化分析、數據挖掘、預測分析、語義分析及數據質量管理”[5]。
2.1 數據質量管理提升企業檔案數據資源品質。大數據時代企業檔案數據資源呈現出4V特點,這使得企業檔案數據很容易出現不一致、不精確、不完整、過時等數據質量問題?;跀祿芷趯ζ髽I檔案數據資源進行數據質量管理分為數據預處理、數據存儲、數據使用三個階段。在數據預處理階段,通過ETL工具即數據經過萃取(Extract)、轉換(Transform)、加載(Load)至目的端這幾個預處理過程達到數據清洗和格式化的目的。目前Oracle公司的Data Integrator和Warehouse Build、微軟的Dynamics Integration及IBM的Data Integrator都是比較常見的ETL工具。在數據存儲與使用階段,針對目前企業檔案大數據呈現出4V的特點,傳統關系型數據庫在數據存儲與數據管理方面已經難以勝任,非關系型數據庫以其高吞吐量、可拓展性、高并發讀寫、實時性等特性能夠滿足數據存儲與管理的要求。目前應用最廣的是并行處理系統MapReduce和非關系型數據庫比如谷歌的Big Table和Hadoop的HBase。將ETL工具移植入云計算平臺系統,將會大大有助于完成數據清洗、重復對象檢測、缺失數據處理、異常數據檢測、邏輯錯誤檢測、不一致數據處理等數據質量處理過程,從而保證企業檔案數據資源的數據質量。
2.2 可視化分析提升企業檔案數據資源可理解性。
“大數據可視分析是指在大數據自動分析挖掘方法的同時,利用支持信息可視化的用戶界面以及支持分析過程的人機交互方式與技術,有效融合計算機的計算能力和人的認知能力,以獲得對于大規模復雜數據集的洞察力?!盵6]那么企業檔案數據資源的可視化分析可以理解為借助可視化工具把企業檔案數據資源轉化成直觀、可視、交互形式(如表格、動畫、聲音、文本、視頻、圖形等)的過程,便于企業經營者的理解利用。
以2015年2月15日最新版的“百度遷徙”(全稱“百度地圖春節人口遷徙大數據”)為例,該項目讓我們近距離了解到大數據可視化。它利用百度后臺每天數十億次的LBS定位獲得的數據進行計算分析,全程展現中國人口遷徙軌跡,為政府部門科學決策提供科學依據。受該項目啟發,企業可將擁有不同類型的檔案信息進行可視化,比如進行企業檔案的網絡數據可視化、時空數據可視化、時間序列數據可視化、多維數據可視化、文本數據可視化等[7]。以文本數據可視化為例,目前典型的文本可視化技術標簽云,可以將檔案文本中蘊含的主題聚類、邏輯結構、詞頻與重要度、動態演化規律直觀展示出來,為企業決策提供依據。另外,常見的信息圖表類可視化工具主要有Google chart、 IBM Many Eyes、Tableau、Spotfire、Data-Driven Documents(D3.js)等;時間線類可視化工具主要是Timetoast,、Xtimeline、Timeslide、Dipity等;數據地圖類可視化工具主要有Leaflet、Google fushion tables、Quanum GIS等。這些新技術都為企業檔案數據資源可視化提供了科學工具。
2.3 語義引擎實現企業檔案數據資源的智能提取。大數據時代全球數據存儲量呈激增趨勢,傳統的基于人工分類目錄或關鍵詞匹配的搜索引擎(谷歌、百度等)僅僅能夠進行簡單的關鍵詞匹配,用戶無法得到非常準確的信息,檢索準確率并不高,而且檢索結果相關度較低,檢索結果缺乏引導性。為提供給用戶高質量的檢索結果,改善用戶搜索體驗,提高效率,實現智能提取,語義搜索引擎應運而生?!罢Z義引擎是隨著語義網的發展,采用語義網的語義推理技術實現語義搜索的語義搜索引擎。”[8]它具備從語義理解的角度分析檢索者的檢索請求,能夠理解檢索者的真正意圖,實現信息智能提取。對語義分析可以采取自然語言處理方法進行概念匹配,提供與檢索者需求相同、相近或者相包含的詞語。目前存在基于本體的語義處理技術,它以本體庫作為語義搜索引擎理解和運用語義的基礎。對于企業而言,將語義引擎分析方法與協同過濾關聯規則相結合,可以挖掘用戶的需求,提供個性化的服務。比如亞馬遜公司通過對用戶檢索的語義進行分析推理,結合協同過濾關聯規則,為用戶提供相近需求的產品,提升自己的經濟效益。對于一份人事檔案而言,語義引擎也能分析出該份人事檔案中的某人的職務、級別,從中提取出姓名一職務一級別一時間等關鍵信息,提高檢索準確率和效率,實現智能提取。
2.4 數據挖掘發現企業檔案數據資源的隱性價值?!皵祿诰蛴址Q數據庫中的知識發現”[9]。簡而言之,數據挖掘就是企業從數據集中發現知識模式,根據功能一般分為預測性模式和描述性模式,細分主要有分類與回歸模型、聚類分析模型、關聯規則模型、時間序列模型、偏差檢測模型等。主要挖掘方法有神經網絡方法、機器學習方法數據庫方法和統計方法等。
數據挖掘是大數據分析方法的核心。對于企業而言,數據挖掘的檔案數據資源應該由兩部分組成:一是企業正常運行管理過程中所形成的檔案數據資源,通過運用分類、聚類、關聯規則等方法對企業內部的數據進行挖掘,發現潛在模式,為企業技術創新人員決策提供支持。比如在2004年全球最大的零售商沃爾瑪在分析歷史記錄的顧客消費數據時,發現每次季節性颶風來臨之前,手電筒和蛋撻的數量全部增加。根據這一關聯發現,沃爾瑪公司會在颶風用品的旁邊放上蛋撻,提升了企業的經濟效益;二是企業在運行過程中遺存在互聯網上的數據,通過網絡輿情及時跟蹤可以獲取市場最新動態,為企業調整服務模式、市場策略、降低風險提供依據。比如Farecast公司運用數據挖掘,從網絡抓取數據來預測機票價格以及未來發展趨勢,幫助客戶把握最佳購買時機,獲得較大成功。
2.5 趨勢預測分析實現企業檔案數據資源的價值創造?!邦A測分析是利用統計、建模、數據挖掘工具對已有數據進行研究以完成預測?!盵10]預測分析的方法分為定性與定量分析兩種方法:定性分析如德爾菲法以及近年來人工智能產生的Boos-ting·貝葉斯網絡法等;定量分析法一般從形成的歷史數據中發掘數據模型達到預測效果,如時間序列分析模型、分類與回歸分析模型等。
企業檔案數據資源預測分析是在企業檔案數據資源數據挖掘的基礎之上,發現適合模型,將企業檔案數據輸入該模型使得企業技術創新人員達到預測性的判斷效果,實現價值的創造。一個典型的例子即是市場預測問題,企業技術創新者可以根據檔案數據預測某件產品在未來六個月內的銷售趨勢走向,進而進行生產、物流、營銷等活動安排。具體來講企業可以通過數據時間序列分析模型預測產品銷售旺季和淡季顧客的需求量,從而制定針對獨特的營銷策略,減少生產和銷售的波動性,獲得利潤和競爭優勢。預測分析在大數據時代彰顯出企業檔案數據資源獨特的魅力。
3 大數據分析方法運用于企業檔案管理中應當注意的問題
3.1 成本問題。大數據分析需要依靠分析工具和運算時間,特別是在復雜的企業檔案數據資源中采用相關大數據分析工具的科技成本還是很高的,要以最少運算成本獲得更有價值的數據內容。合理選擇大數據分析工具不光可以節省運算成本而且能夠更快速獲取盈利增長點,同時在大數據分析和企業檔案數據資源的存儲成本方面也要適當的控制在合理的范圍內。既要保證大數據分析質量,又要降低企業檔案存儲成本是大數據分析方法運用到企業檔案管理中的重要原則。
3.2 時效問題。“大數據的動態性強,要求分析處理應快速響應,在動態變化的環境中快速完成分析過程,有些甚至必須實時分析,否則這些結果可能就是過時、無效的”。[11]由此可見,影響大數據分析的重要因素就是時效性問題。“大數據數據分析的核心內容之一是數據建模”,[12]數據分析模型要不斷的更新適應數據的動態變化。如果模型落后于數據的變化,那數據分析只能是失效的。同時由于經濟環境、政治生態、社會文化等因素不斷變革,企業檔案數據的收集也會產生新的問題。只有不斷加強對這些數據的實時監測和有效分析,才能更好的識別出數據變化中的細微之處,建立與之相適應的數據分析新模型。
3.3 情感問題?!按髷祿牧硪粋€局限性在于它很難表現和描述用戶的感情?!贝髷祿治龇椒ㄔ谔幚砥髽I檔案數據方面可以說如魚得水,大數據分析是一種科學的機器運算方法,無法去實現人文價值提取,比如如何從企業檔案數據資源中提取企業文化,這更需要人的情感直覺去實現,而嚴謹的科學數據是無法實現的。因此,我們在熱衷于大數據分析方法的量化結果時,同時也不要忽略在傳統企業檔案管理中的那份人文精神。
總之,大數據時代環境下,在企業檔案數據資源開發利用中應用大數據分析方法具有重要意義和多種方式。通過大數據分析方法的應用,可以幫助企業創新管理者從所擁有的海量檔案數據中提取有用的知識和觀點,發掘隱藏在信息背后潛在的規律模式,推動企業管理優化,決策科學,提升自身技術創新能力,同時合理解決好大數據分析方法在成本、時效、情感等方面的問題,進而使企業最終在激烈的市場競爭中立于不敗之地。
*本文系2016年度遼寧經濟社會發展立項課題《遼寧省企業技術創新與檔案大數據分析方法研究》(項目編號:2016lslktzdian-30)前期研究成果之一。