999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

暢想大數據時代的檔案數據科學

2021-12-03 10:44:51劉婉欣雷曉蓉馮文博
檔案管理 2021年6期
關鍵詞:檔案大數據檔案管理

劉婉欣 雷曉蓉 馮文博

摘 ?要:檔案工作正在經歷一個從接收保管紙質檔案到接收保管電子檔案,從管檔案實體到管檔案數據,從手工操作到信息化智能化操作,從檔案資源分散利用到聯網共享的變革過程。現在以數據管理的角度審視檔案工作,在數據時代,檔案的收集整理保管利用將如何發展。

關鍵詞:大數據;檔案;數據科學;檔案管理;檔案工作

Abstract: Archival work is going through a process of transformation from receiving and keeping paper archives to receiving and keeping electronic archives, from managing archive entities to managing archive data, from manual operation to informatization and intelligent operation, from decentralized utilization of archive resources to network sharing. Now reviewing the archives work from the perspective of data management, in the data age, how the collection, storage and utilization of archives will develop.

Keywords: ?Big data; Archives; Data science; Archives management; Archives work

隨著大數據的縱深發展,檔案工作正逐步向數據檔案工作方面轉變。檔案工作從傳統檔案管理向檔案數據管理轉換。

檔案界面對大數據時代的到來,積極采取應對措施。首先是檔案的載體發生變化:從紙質檔案進行數字化,接收雙套檔案,到現在的接收電子檔案。其次是管理上由手工記錄、計算機單機版數據管理到檔案管理信息系統管理。為與數據時代接軌,檔案信息化系統應運而生,標準版、定制版出現在人們面前,檔案信息化系統對檔案的各項工作極盡詳盡,充分展現出檔案工作者的積極參與與智慧展示。

回顧檔案界對大數據的應對,我們發現,所有工作都是從檔案的角度,分析、研究、設想檔案在今后社會發展過程中如何生存,如何在檔案的收集整理、保管利用上保持優勢,如何順應時代的變化。但是如果我們換個位置,以數據管理的角度審視檔案工作,在數據時代,檔案的定義及收集保管利用將如何變化?

目前,大數據已受到各學科領域的高度關注,成為包括計算機科學和統計學在內的多個學科領域的新研究方向,使不同專業領域中的數據研究出現相互高度融合的趨勢,由此產生一門新興學科——數據科學。

數據科學興起于1974年,著名計算機科學家、圖靈獎獲得者PeterNaur在其著作Concise Survey of Computer Methods的前言中首次明確提出了數據科學的概念:“數據科學是一門基于數據處理的科學。”[1]

從目前的研究現狀來看,數據科學可以分為兩類:專業數據科學與專業中的數據科學。專業數據科學聚集了不同專業中的數據科學中的共性理念、理論、方法、術語與工具;相對于專業中的數據科學,專業數據科學更具共性和可移植性,并為不同專業中的數據科學研究奠定了理論基礎;專業中的數據科學代表的是不同專業中對數據科學的差異性認識和區別化應用,是將數據科學當作傳統學科的新研究學科和思維模式來研究,強調的是數據科學的學科交叉性。[2]

大數據時代,數據科學為檔案帶來什么變化?

數據存儲模式的變化:數據在先、模式在后或無模式的出現,改變了傳統數據的管理。在大數據環境下,無法沿用“模式在先、數據在后”的建設模式,主要原因有兩個:①數據模式可能不斷變化或根本不存在;②按照預定模式進行數據的存儲和處理時,容易出現信息丟失。因此,數據在先、模式在后或無模式成為數據產品設計的主要趨勢,確保數據管理系統的敏捷性。這就使檔案的數據保管無需建立系統,當然,模式在后或無模式也會帶來新問題,如限制數據管理系統的處理能力及加大應用系統的開發難度。在“數據在先、模式在后或無模式”的興起背后,是信息系統建設模式的歷史性變革——從先行支付轉向現收現付的建設模式。[3]

思維模式發生改變:在傳統科學研究中,由于數據的獲取、存儲和計算能力所限,人們往往采取數據→知識→問題的過程,從數據尤其是樣本數據中提煉出知識之后,用知識來解決現實問題。大數據時代的到來及數據科學的出現為人們提供了另一種研究思路,數據→問題,在尚未從數據中提煉出知識的前提下,用數據直接解決問題。強調的是在尚未將數據轉換為知識的前提下,直接用數據解決現實世界中的問題。與傳統認識中的“知識就是力量”類似,在大數據時代,數據也成為一種重要力量。

數據一致性及現實主義的回歸:在傳統數據管理中,對數據一致性的要求接近于完美主義——強一致性,即任何時候從任何地方讀出的任何數據均為正確數據。但是,強一致性不符合大數據時代的數據管理要求——高擴展性、高性能、高容錯性、高伸縮性和高經濟性。因此,NoSQL等新興數據管理技術從根本上改變了人們對數據一致性的傳統認識,主要表現在提出CAP理論和BASE原則等新興數據管理理念,引入弱一致性、最終一致性等概念,并提供了不同的解決方案,如更新一致性、讀寫一致性和會話一致性等。可見,在數據科學研究中,數據的一致性出現了多樣化趨勢,即根據不同應用場景,有針對性地選擇具體的一致性及其實現方法。對數據一致性的多樣化認識的轉變反映了人們對數據管理目標的根本轉折——從完美主義回歸至現實主義。[4]

區塊鏈技術及靠近數據原則的應用:傳統關系數據庫更加看重數據冗余的負面影響——冗余數據導致的數據一致性保障成本較高。與此不同的是,數據科學中更加重視冗余數據的積極作用,即冗余數據在負載均衡、災難恢復和完整性檢驗中的積極作用。同時,還通過引入區塊鏈技術和物化視圖的方法豐富冗余數據的存在形式,縮短用戶請求響應時間,確保良好的用戶體驗。

突出數據的主動屬性:數據科學的一個重要貢獻或價值就在于它改變了人們對數據的研究方向,即從被動屬性轉向主動屬性。長期以來,人們習慣性地把數據當作被動或死的東西,關注的是“你能對數據做什么”,如模式定義、結構化處理和預處理,都試圖將復雜數據轉換成簡單數據。但是,大數據時代更加關注數據的另一個屬性——主動屬性,強調的是“數據能給你帶來什么”,如數據驅動型應用、以數據為中心的設計、讓數據說話、數據洞見等,將復雜性認為是數據的自然屬性,開始接受數據的復雜性。

數據準備與加工:數據預處理還是數據加工,在傳統數據研究中,數據準備主要強調的是將復雜數據轉換為簡單數據,對臟數據進行清洗處理后得到干凈數據,從而防止出現“垃圾進垃圾出”現象,主要涉及重復數據的過濾、錯誤數據的識別以及缺失數據的處理。可見,數據預處理主要關注的是數據的質量維度問題。但是,由于小數據到大數據之間存在質量涌現現象即個別小數據的質量問題(如缺失數據、錯誤數據或重復數據)不影響整個大數據的可用性,大數據處理中關注的并非是傳統意義上的數據預處理,而轉向另一個重要課題——數據加工。在數據科學中,數據加工是指數據的創造性增值過程,包括兩種表現形式:數據打磨和數據改寫。與數據預處理不同的是,數據加工更加強調如何將數據科學家的理論、實踐和精神素質融入數據處理工作之中,從而達到數據增值的目的。因此,數據加工并不僅限于技術工作的范疇,而且還涉及藝術層面的創造,如需要采用數據柔術和整齊化處理的方法進行數據加工處理。與此同時,數據準備的關注點轉向另一個重要問題,即如何發揮人的增值作用。

新興的數據產品:數據產品不限于數據形態的產品,任何用數據來幫助目標用戶實現其某一目的的產品都可以被視為數據產品。數據產品是指在數據科學項目中形成,能夠被人、計算機以及其他軟硬件系統消費、調用或使用,并滿足某種需求的任何產品,包括數據集、文檔、知識庫、應用系統、硬件系統、服務、洞見、決策及它們的各種組合。

數據產品開發主要關注如何將數據科學的理論融入傳統產品開發實踐之中,進而實現產品的更新換代和用戶體驗的提升。未來,數據產品開發將嵌入傳統產品的研發之中,二者的界限會越來越模糊。如何將數據科學家的創造性設計、批判性思考和好奇性提問的職業素質融入產品研發之中,從而實現傳統產品的增值和核心競爭力的提升,是未來數據產品開發的難點所在。在此背景下,以數據為中心的設計思維將會成為數據產品開發的主要思維模式。同時,良好的用戶體驗將成為產品開發的主要評價指標之一。數據產品開發的興起將推動數據科學的嵌入式應用。數據科學將作為傳統產品的創新點、增值點和競爭力之源,成為產品開發的必要環節,數據科學與領域呈現出了高度融合的趨勢。

數據科學具有與其他學科不同的新特征,例如思維模式的轉變、對數據認識的變化、指導思想的變化、以數據產品開發為主要目的、專業數據科學與專業中的數據科學的差異性以及數據科學的三要素(理論和實踐、精神素質)。因此,數據科學在某種程度上具有檔案管理的屬性,是檔案管理的機遇,數據科學管理的成果可以稱之為數據檔案。

在大數據時代,無論是數據工程師還是數據科學家,他們都將是未來的檔案工作者。傳統科學領域中,與數據相關的人定位于數據工程師——從事數據的組織、管理、備份、恢復工作的人。數據科學的研究任務,需要一類全新的人才——數據科學家。二者的主要區別在于:數據工程師負責的是數據的管理,而數據科學家擅長的是基于數據的管理,如基于數據的決策、產品開發、業務定義等。未來,檔案工作者即數據工程師,負責數據本身的管理,而檔案的高級管理人員即數據科學家,主要職責是基于數據的管理,包括基于數據的分析、決策、流程定義與再造、產品設計和服務提供等。因此,今后的檔案管理人員,將是有理論功底和實踐經驗,而且還要求有精神素質,即創造性設計、批判性思考和好奇性提問的能力的數據工程師和數據科學家。

參考文獻:

[1]曹嘉君,王曰芬.基于數據科學的知識創新服務應用模式構建研究[J].情報學報,2018,37(10):971-978.

[2]李志國,鐘將.數據科學在國內管理學研究中的應用綜述[J].計算機科學,2018,45(09):38-45.

[3]朝樂門,邢春曉,張勇.數據科學研究的現狀與趨勢[J].計算機科學,2018,45(01):1-13.

[4]方璐.大數據時代的科學研究方法[D].浙江工業大學,2014.

(作者單位:哈爾濱工業大學檔案館 來稿日期:2021-08-20)

猜你喜歡
檔案大數據檔案管理
檔案管理中的電子檔案管理
檔案管理與企業內部控制關系的思考
消費導刊(2017年24期)2018-01-31 01:29:20
如何做好鄉鎮計劃生育檔案管理工作
檔案的開發利用在供電公司全面管理中的作用
淺談北京衛視《檔案》的敘述方式
新聞世界(2016年10期)2016-10-11 20:31:45
新常態下高校檔案工作發展研究
大學教育(2016年9期)2016-10-09 09:06:22
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
健康檔案管理的“云”前景
中國衛生(2014年11期)2014-11-12 13:11:34
加強工程項目檔案管理的有效途徑
主站蜘蛛池模板: 激情亚洲天堂| 国产第四页| 色视频国产| 国产精品国产主播在线观看| 亚洲国产日韩一区| 一区二区无码在线视频| 免费看久久精品99| 99re在线视频观看| 亚洲综合九九| 久久女人网| 人妻无码一区二区视频| 国产精品免费入口视频| AV网站中文| 国产精品免费久久久久影院无码| 91成人在线免费视频| 久久永久免费人妻精品| AV不卡在线永久免费观看| 亚洲日韩AV无码一区二区三区人| 亚洲热线99精品视频| h视频在线播放| 午夜国产理论| 先锋资源久久| 国产91丝袜| 日韩资源站| 国模在线视频一区二区三区| 久久伊伊香蕉综合精品| 国产一二三区视频| 国产精品久久久久婷婷五月| 免费看a级毛片| 久草美女视频| 97国产精品视频人人做人人爱| 人妻一本久道久久综合久久鬼色| 亚洲精品欧美日本中文字幕| 亚洲精品视频免费看| 精品久久777| 欧美在线网| 亚洲区欧美区| 久久久久亚洲精品成人网 | 国产成人综合在线观看| 亚洲男人的天堂久久精品| 永久成人无码激情视频免费| 亚国产欧美在线人成| 国产地址二永久伊甸园| 日本不卡在线播放| 伊人无码视屏| 99久久人妻精品免费二区| 97在线视频免费观看| 少妇高潮惨叫久久久久久| 国产H片无码不卡在线视频| 久久久国产精品无码专区| 欧美午夜精品| 国产精品综合色区在线观看| 无码人妻免费| 日韩精品欧美国产在线| 成人久久精品一区二区三区| 国产噜噜噜| 欧美啪啪一区| 极品国产一区二区三区| 亚洲无码高清视频在线观看 | 亚洲综合色区在线播放2019| 亚洲综合专区| 欧美亚洲另类在线观看| 国产Av无码精品色午夜| 一级毛片a女人刺激视频免费| 无码内射中文字幕岛国片| 国产精品久久精品| 日韩一二三区视频精品| 久久黄色视频影| 亚洲精品在线观看91| 亚洲中文字幕97久久精品少妇| 国产99久久亚洲综合精品西瓜tv| 欧美一区二区精品久久久| 99热这里只有精品免费国产| 亚洲va欧美ⅴa国产va影院| 久综合日韩| 91亚洲国产视频| 欧美午夜理伦三级在线观看 | 狠狠干综合| 国产欧美高清| 人妖无码第一页| 国产欧美日韩在线一区| 最新亚洲人成无码网站欣赏网|