999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

美夢還是陷阱?

2019-09-10 07:22:44王向女袁倩
檔案與建設 2019年9期
關鍵詞:數據分析

王向女 袁倩

摘要:大數據時代催生了一門集合新理念、新方法、新技術以及全新應用和實踐于一體的新興學科,即數據科學。數據科學的出現為檔案管理從數字化到數據化的轉型提供了工具、思維和理論方法上的便利,引發了檔案數據管理在管理技術、人才培養和實踐操作層面的創新發展。但同時,數據科學潛藏的威脅也給檔案數據管理敲響了警鐘。數據科學背景下的檔案數據管理,既不能掉落數據陷阱,也不能滿足技術現狀,“美夢”是虛幻的,“陷阱”是潛藏的,檔案數據管理要清醒地認識到數據科學的利與弊,才能使自身發展行穩致遠。

關鍵詞:數據科學;檔案數據管理;數據分析;數據生態

分類號:G270.7

Dreams or traps?——Research on Archives Data Management Under the Background of Data Science

Wang Xiangnv1,2, Yuan Qian1

(1.School of Library, Information and Archives of Shanghai University, Shanghai, 200444;2.Archives Profession and Academic Evaluation Center of School of Information Management of Zhengzhou University, Zhengzhou, Henan,450001)

Abstract:The era of big data has given birth to a new discipline, namely data science, which integrates new ideas,new methods,new technologies and new applications and practices. The emergence of data science has provided the convenience of tools,thinking and theoretical methods for the transformation of archives management from digitalization to digitalization,which has led to the innovative development of archives data management in management technology,personnel training and practical operation.Meanwhile,the potential threat of data science also sounds an alarm bell for archives data management.Archives data management under the background of data science can neither fall into the data trap nor satisfy the technical status quo.Dreams are illusory and traps are hidden.Archives data management should be aware of the advantages and disadvantages of data science soberly so as to make its own development steady and far-reaching.

Keywords:Data Science; Archival Data Management; Data Analysis; Data Ecology

數據科學是當前信息科學領域的熱點話題,是繼云計算、大數據、物聯網之后,對信息資源的管理、利用和服務造成極大影響的新興學科。受其影響,檔案數據管理正取代數字管理和信息管理,成為大數據時代檔案管理的新寵。面對數據科學帶來的浩如煙海的數據資源、主動創新的思維方式和靈活多變的數據處理工具,檔案數據的“活化”擁有了更多的可能。

1數據科學與檔案數據管理

1.1數據科學的發展軌跡

1974年,圖靈獎獲得者Peter Naur在其出版的著作Concise Survey of Computer Methods中明確提出了數據科學(Data Science)的概念,即數據科學是一門“基于數據處理的科學”。相比偏好運用數據處理技術于教學中的“數據學”而言,他指出數據科學側重解決數據問題[1]。此后,數據科學有一段時間的“沉默期”,直到1996年,國際分類學會聯合會年度東京會議以“數據科學,分類及相關方法”為議題,才再次提及“數據科學”[2]。進入21世紀之后,數據科學的發展迎來轉機。2001年貝爾實驗室的Cleveland在學術期刊International Statistical Review上發表了題為“Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics”的論文,主張數據科學是統計學的一個重要研究方向[3]。2002年4月,Data Science創刊,它專門刊載科技領域中的數據及數據庫管理方面的文章,預示著“數據科學”逐漸成為一個獨立的研究領域。而這之后,《數據科學家:21世紀最性感的職業》論文的發表、2012年大數據思維幫助奧巴馬贏得總統選舉及2015年美國白宮設立數據科學家專門職位三件事,更是引起學界廣泛矚目,使得“數據科學”在計算機領域和統計領域的純“數據計算”色彩以外,增添了更多商業、社會和信息領域的內容。越來越多生物醫學、社會科學、信息科學領域的學者開始關注這一新興學科。

國外學者針對數據科學的成長曲線、學科定位和知識體系等開展專門研究。例如,Gartner總結出數據科學及其各項具體技術正逐漸由初始狀態走入穩步上升階段,整個過程中具體的技術因發展限制而處于不同時期[4];Cathy O’Neil等總結了揭示數據科學學科定位的維恩圖,指出這是一個處于統計學、機器學習和領域知識交叉部分的學科[5]。國內關于數據科學的研究則主要集中在具體學科領域的應用,以及技術工具的討論和國外數據科學研究介紹和反思等方面,有關數據科學和檔案管理的結合研究,成果還很少。

1.2數據科學背景下檔案數據管理的興起

進入大數據時代后,“存量數字化、增量電子化”的口號使得檔案工作需要處理海量的數據資源,同時“互聯網+”環境下,檔案服務的線上拓展使得檔案部門與社交媒體、新媒體的合作越來越多,原本的數據池內又出現了更多類型各異、結構分散、異地異構的數據。這些急速增長的檔案數據給檔案管理的原有理論、方法和技術都帶來了巨大的沖擊,并引發了一系列新的管理問題,促使檔案管理不得不考慮向數據型和開放型模式轉型,檔案數據管理因此作為大數據科學和計算機科學、檔案信息化交叉的研究領域,成為學界研究的重點問題。

將檔案數據管理按照“種屬關系”分解為“檔案”+“數據管理”,或是將其拆分為“檔案數據”+“數據管理”均不會打亂核心問題,也就是檔案數據管理,仍然屬于“數據管理”的重要組成部分,可以視為數據科學中數據管理理論在檔案學中的本體化[6]。數據科學主要解決了檔案數據的快速增長和精準有效利用之間的矛盾問題,創新之處在于數據科學實現了檔案數據的數量“增殖”和價值“增值”之間的和諧。

首先,數據科學是一個交叉性學科,不論是專業的數據科學,還是專業中的具體數據科學,都面臨著數據大量涌現和快速增加的現狀,檔案數據也呈現高速增長的態勢,檔案數據池的無限擴張與數據科學的“增殖性”相輔相成。其次,為了提高處理海量數據的質量,在數據加工環節,數據科學注重融入科學家的創造性設計、批判性思考和好奇性提問,在尊重和認可數據復雜性的同時,加入了人的“能動性”創造,為數據人為賦予價值。

對檔案數據管理而言,檔案數據面臨價值重構的威脅。數據科學的“人賦價值”特性在一定程度上可以回答檔案數據是否有價值、有何種價值等問題,即檔案數據的價值在于海量數據基礎上的價值增值。在數據科學的理論、技術和思維等因素影響下,檔案數據管理要謀求發展,取得突破,數量的增加和質量的提升是不可回避的問題。

2數據科學影響下檔案數據管理的突破口

數據科學解決的是海量數據的快速處理和精準分析等問題,而檔案數據管理在數據量急速增長的現實環境中,亟需新技術、新方法和新理念來減輕海量數據處理的負擔,數據科學的相關技術和思維則在一定程度上為檔案數據管理突破“困局”提供了便利。

2.1數據分析和加工技術促進檔案數據管理的“有序化”

數據分析和數據加工技術是數據科學知識體系的重要組成部分。數據科學關注的是如何使混亂無序的單個數據整合成系統整齊的數據集,以便研究和利用。數據加工使得數據處理和準備不再局限于數據的簡單清洗,而是在處理過程中注重數據價值的表露和創造,并且通過數據打磨和柔化技術,使數據呈現整齊的狀態;數據分析則利用開源工具揭示數據之間的聯系,迅速洞見數據之間的內在關聯和價值。“擁有大量的數據本身并不會增加任何價值,數據的核心是發現價值,而駕馭數據的核心是分析。”[7]依靠數據加工和數據分析技術,龐雜無序的檔案數據可以在最短的時間內呈現相互關聯、有序的狀態,使得檔案數據管理獲得關聯清晰、邏輯清晰、價值清晰的數據序列,為檔案數據的進一步加工、利用奠定堅實的數據基礎。

2.2數據思維模式加速管理工作的“數據導向”

數據科學的橫空出世,使得傳統科學中常用的基于“知識”“目標”或“假設”的行動范式受到沖擊,基于數據的行動范式成為大勢所趨[8]。傳統的科學研究中以DIKW層級模型“數據(D)—信息(I)—知識(K)—智慧(W)”[9]較為常見,由于數據科學的影響,使得數據和信息、知識的邊界變得更加模糊,數據可以跳過信息、知識的提取和轉化過程,直接上升為“智慧”,因此引發“數據—問題”范式的出現[10],即利用數據或樣本數據直接解決現實問題,這是一種強調數據不經過知識的轉化環節而直接應用的范式。“數據能直接解決問題”這一顯著特征,影響了檔案數據管理的導向,即由內容驅動向數據驅動轉變,由信息公開向開放數據轉型。當前開放數據已成為社會各界的共識,北京市政府就指出,到2020年政府部門公共數據的開放率要超過60%[11]。數據科學背景下的“數據范式”影響了檔案數據管理的思維模式,檔案數據管理正式邁入“數據驅動”時代,并且在數據思維的引領下,檔案管理工作,尤其是開放數據等與數據研究、利用相關的工作會碰撞出新的火花,促進檔案數據價值不斷增長,并真正用在實處。

2.3用戶至上理念激發檔案數據管理的“人本思想”

長久以來,不論是檔案管理和服務領域還是其他的信息咨詢服務行業,“查全率”“查準率”始終是檢驗服務質量和結果的重要指標和參照。但是面對大數據時代數據量持續增長、無限擴張的態勢,查全率和查準率成為越來越難以企及的高度。即便是利用最現代、最快速的數據庫技術、數據加工技術,也難以在滿足查全率的基礎上,保證數據的精準投遞,抑或在保證查準率的前提下,保障用戶獲取所需數據的時間可控。而數據科學的相關技術備受青睞就是因為充分考慮到用戶的使用體驗,盡可能地節約用戶搜索、瀏覽的時間,并且為其提供精準結果。因此,檔案數據管理和相關的信息咨詢服務行業不妨將服務質量的重點放在用戶體驗上,切實將“以用戶為中心”理念貫徹于檔案數據管理的全過程。為了使用戶最終得到滿意的數據結果,在設計檔案數據管理流程時,每一個環節都需要考慮用戶的體驗效果,例如前端數據收集的針對性和真實性,中期數據整理的有序性和系統性,以及后端檔案數據庫和信息系統檢索利用的簡潔性和易獲取性等等。檔案數據管理的整個生命周期都圍繞用戶展開,是檔案數據價值實現的主要推動力。

2.4專業人才團隊打造檔案數據管理的“好口碑”

檔案數據管理的目的就是為了使檔案數據得到充分的開發,價值得以充分挖掘。通過一系列專業的數據分析和加工,使檔案數據的價值不斷實現,不斷創造新的價值,形成良性的效益反饋。實現這一目的關鍵就在于擁有一支高效、專業的數據管理團隊,收納專業的數據分析人才、數據收集和整合人才、數據加工人才等。傳統人才培養環節注重的是數據工程師對數據的基本處理和操作能力,但數據科學背景下,由于強調數據的價值增值,更多關注的是基于數據的處理、決策、研發等能力,“數據科學家”就在這一階段脫穎而出。美國國家自然科學基金會(NSF)下設的國家科學委員會將“數據科學家”定義為“信息和計算機科學家、數據庫和軟件工程師、領域專家、策展人員和標注專家、圖書館員、檔案工作者等”[12],他們對數據的收集和成功管理起關鍵作用。檔案數據管理想要依賴頂尖、精準的數據能力在新一輪產業革命中獲得好口碑、高評價,與其單純培養數據人才,不如嘗試與專業的人才團隊合作,邀請數據科學家和數據科學團隊指導檔案數據管理工作,用專業贏得口碑,以認真獲得認可。

3數據科學影響下檔案數據管理的潛在威脅

數據科學雖然解決了檔案數據管理中數量和質量的部分問題,但絕不意味著“一勞永逸”。科學技術無疑是一把雙刃劍,它能幫助檔案數據管理尋得突破,但如果缺乏對數據科學及其相關技術的正確認識,也會導致檔案數據管理走向發展的誤區。

3.1思維上:重數量輕質量的傾向

在大數據時代,數據所有者和管理者將“數據就是原油”奉為圭臬。但實際上,隨著數據量的持續增加,整個數據資源池內充斥著虛假的、篡改過的、重復的數據個體。數據行業依托自身的技術優勢,過度追求數據的抓取與擁有[13]。但實際上,從數據池中抓取數據只是對其進行管理的最基本的操作,獲取再多的數據,不用心分析其內涵價值以挖掘其與其他數據的關聯,也只是徒勞的。因此,準確客觀的表述應該為“優質數據才是原油”。檔案數據管理正處于起步階段,也面臨著抓取數據量大易產生自得自滿情緒的危機,如果放任這種心態蔓延開來,整個檔案數據管理行業,乃至于檔案行業,僅停留在從數據池中發現數據或者向數據池中投放數據的程度,那么數據科學為檔案數據管理提供的技術、理論和方法上的便利都將變成“鏡花水月”,檔案管理的變革與進步也將成為空談。檔案數據管理應當警惕數據科學影響下的第一重陷阱,即“數據量與質之爭”,二者不是舍我其誰的關系。合理的做法應當是在充分抓取數據的基礎上,利用數據分析和加工技術,對數據進行清洗、處理,挖掘數據之間的關聯,為用戶提供精準的服務。

3.2技術上:檔案數據深度分析能力尚淺

對數據的處理和分析能力是決定檔案數據管理質量的重要條件,一個有序、有邏輯的數據序列或集合,對于后續的整理加工和研發推廣等環節至關重要。數據之間的關聯使得檔案數據管理“牽一發而動全身”,這是不以數據獲取方式改變而改變的事情[14]。但就目前的檔案數據管理實踐而言,數據分析能力不足。一方面是相關技術的引進力度不夠;另一方面是檔案工作人員的技術水平未能和數據庫技術發展水平完美對接,出現“技術隔閡”,導致檔案數據分析還停留在對數據關聯性的挖掘和價值的發現階段,未能進入價值的開發和增值環節。數據科學背景下,檔案數據管理要謀得長遠發展,技術是核心問題。技術引進是基礎,技術優選是保障,深度分析數據的能力是檔案數據管理區別于一般信息咨詢服務的重要能力,也是保障檔案數據管理向更高水平發展的條件。

3.3系統上:檔案數據生態系統不健全

數據生態系統指的是包括基礎設施、支撐技術、工具與平臺、項目管理以及其他外部影響因素在內的各種組成要素構成的完整系統[15]。據此,檔案數據生態系統就是一個由檔案數據庫基礎設施、數據庫技術、數據管理工具、檔案數據管理人員、管理制度和政策以及檔案數據面臨的社會環境構成的宏觀生態系統。這是一個復雜的生態體系,不僅涉及資源的共建共享、數據的開放獲取、檔案制度法規的貫徹落實,還牽扯到社會對檔案數據的認同、對檔案職業的尊重、對檔案工作的滿意等一系列宏觀與微觀交織的問題。當前,檔案數據生態系統的發展狀況不容樂觀,即便社會檔案意識在一代代檔案人的努力下有所提高,但由于檔案數據處理、利用能力不足,導致檔案數據服務的滿意度較低,人們又重新進入對檔案理解的“誤區”,認為檔案管理是處理相對容易的紙質和電子文件的簡單工作,不涉及對數據的處理和分析、對資源的建設和利用,以及對知識、智慧的創造與發展等方面的內容。檔案數據生態并沒有形成一個較為濃厚的檔案數據環境,因此在其中進行數據的處理、加工、研發和推廣工作都帶有不確定性。一個健全、協調的檔案數據生態系統需要檔案數據管理部門堅定信念,努力縮短和其他學科,尤其是相鄰學科的距離,提高自身服務質量,積極利用檔案數據的優勢,創造出有利于數據生態因子和諧共生的發展環境。

4檔案數據管理在數據科學背景下的堅守

數據科學背景下,檔案數據的活力和生命力得到了極大的開發,檔案數據量與價值量的矛盾得以緩和,檔案管理向數據管理的轉型升級依賴于數據科學的技術、思維、方法等方面的幫助。數據科學似乎為檔案數據管理的發展編織了一場“美夢”,但夢境終究不是現實,如果不能切實地利用好數據科學的優勢,正確認識到科學技術的兩面性,沉醉于“虛幻的美夢”中,那么實踐就會在不知不覺中掉入數據科學與檔案數據管理的“夾縫”。

4.1走出夢境:吸收經驗加快轉型

數據科學的技術工具和思維方式值得檔案數據管理借鑒。在由常規的檔案管理向數據管理進階轉型的過程中,應當加快對數據技術的學習和引進,也可在保障自身利益和國家社會權益的基礎上,進行檔案數據部分外包和眾包管理,推動檔案數據管理的高質、高水平發展。只有切實地將先進的數據技術和工具、專業的人才和團隊用到檔案數據管理的實踐中去,才能提高檔案數據服務的質量和水平。理論只有在實踐中一遍遍檢驗,才能得以證實。數據科學的發展經驗能否成功地應用于檔案數據管理實踐,依靠理論的演算和推理,其結果不得而知。只有觸及現實,吸收經驗為檔案部門發展所用,才可以筑牢根基。

4.2警惕障礙:腳踏實地不忘初心

數據科學不能一勞永逸地解決檔案數據管理轉型中的全部問題,轉型之路會遭受不同規模攔路石的阻礙,有源自技術本身的不完美,也有來自于實踐部門自身的恐懼或大意。當檔案數據管理走出數據科學為其編織的“夢境”,切實地利用技術開展工作時,或是由于前路坎坷,或是因為方式不當,轉型之路荊棘遍布,又岔路橫生,檔案數據管理團隊只有堅定信念,牢記檔案數據管理轉型和發展是為了黨和國家各項建設服務,是為了廣大人民群眾的根本利益服務的使命。一步一個腳印,準確識別發展道路上的障礙物,檔案數據管理才不會掉入發展的“陷阱”。

最終,檔案部門應當清醒地意識到:數據科學背景下的檔案數據管理,既不是一場不切實際的“美夢”,其發展也應無懼道路上的“陷阱”。在數據科學的影響下,檔案數據管理轉型升級的過程是緩慢的,前途是光明的。從長遠來看,檔案數據管理不會困于數據科學描繪的“美夢”,因為它靈活地將數據科學的優勢轉化為自身轉型的突破口,在實踐中進一步發展;檔案數據管理自然也不會畏懼數據科學帶來的威脅和障礙,因為它腳踏實地,穩步前進。

*本文系國家社會科學基金重點項目“檔案學經典著作評價研究”(項目編號:17ATQ011)階段性研究成果。

注釋與參考文獻

[1]數據分析學院.數據科學極簡史(一)[EB/OL].[2019-09-02].https://www.shujike.com/blog/10950.

[2]葉鷹,馬費成.數據科學興起及其與信息科學的關聯[J].情報學報,2015(6):575-580.

[3]Cleveland, W. S. Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics[J].International Statistical Review/Revue Internationale de Statistique,2001(4):21-26.

[4]Gartner.Hype Cycle for Data Science,2016[EB/OL].[2019-09-02].https://www.gartner.com/en/documents/3388917.

[5]Cathy O’Neil,Rachel Schutt.Doing Data Science:Straight Talk From the Frontline[M]. Sebastopol,CA:O’Reilly Media, 2013:7.

[6]于英香.大數據視域下檔案數據管理研究的興起:概念、緣由與發展[J].檔案學研究,2018(1):44-48.

[7][美]Bill Franks.駕馭大數據[M].黃海,車皓陽,王悅,譯.北京:人民郵電出版社,2013:5.

[8]朝樂門,盧小賓.數據科學及其對信息科學的影響[J].情報學報,2017(8):761-771.

[9]Jennifer Rowley.The Wisdom Hierarchy:Representations of the DIKW Hierarchy[J].Journal of Information Science, 2007(2):163-180.

[10][15]朝樂門,邢春曉,張勇.數據科學研究的現狀與趨勢[J].計算機科學,2018(1):1-13.

[11]金波,晏秦.數據管理與檔案信息服務創新[J].檔案學研究,2017(6):99-104.

[12]SIMBERLOFF D,BARISH B C,DROEGEMEIER K K, et al.Long-lived Digital Data Collections:Enabling Research and Education in the 21st Century[EB/OL].[2019-09-05].http://arizona.openrepository.com/arizona/bitstream/10150/105473/1/LLDDC_report.pdf.

[13][14]劉德寰,李雪蓮.數據生態的危險趨勢與數據科學的可能空間——兼談中國市場調查業的現狀與問題[J].現代傳播(中國傳媒大學學報),2016(1):21-27.

猜你喜歡
數據分析
電子物證檢驗的數據分析與信息應用研究
基于matlab曲線擬合的數據預測分析
商情(2016年40期)2016-11-28 11:28:07
分眾媒體趨勢下場景營銷的商業前景
商(2016年32期)2016-11-24 17:39:41
佛山某給水管線控制測量探討
科技資訊(2016年18期)2016-11-15 18:05:53
SPSS在環境地球化學中的應用
考試周刊(2016年84期)2016-11-11 23:57:34
大數據時代高校數據管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
我校如何利用體育大課間活動解決男生引體向上這個薄弱環節
體育時空(2016年8期)2016-10-25 18:02:39
Excel電子表格在財務日常工作中的應用
淺析大數據時代背景下的市場營銷策略
新常態下集團公司內部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
主站蜘蛛池模板: 欧美一级夜夜爽www| 91啦中文字幕| 国产成人亚洲无码淙合青草| 91在线国内在线播放老师 | 最新痴汉在线无码AV| 2020精品极品国产色在线观看| 91年精品国产福利线观看久久 | 88av在线| 欧美性精品不卡在线观看| 亚洲成人播放| 99精品影院| 久久综合丝袜日本网| 青青青视频免费一区二区| 国产一区二区三区日韩精品| 中文字幕有乳无码| 欧美精品三级在线| 91精品国产麻豆国产自产在线| 日本色综合网| 在线观看免费AV网| 伊人成人在线视频| 国产在线一区二区视频| 另类欧美日韩| 亚洲第一视频网| Jizz国产色系免费| 亚洲一区无码在线| 国产女同自拍视频| 草草影院国产第一页| 小说区 亚洲 自拍 另类| 亚洲欧美精品在线| V一区无码内射国产| 专干老肥熟女视频网站| 久久婷婷国产综合尤物精品| 日本五区在线不卡精品| 国产国语一级毛片在线视频| 4虎影视国产在线观看精品| av天堂最新版在线| 国产免费a级片| 日韩人妻精品一区| 精品国产Ⅴ无码大片在线观看81| 日本欧美视频在线观看| 日韩成人在线视频| 欧洲熟妇精品视频| 色综合久久无码网| 天堂网国产| 国产二级毛片| 青青草综合网| 免费国产黄线在线观看| 免费 国产 无码久久久| 亚洲色图在线观看| 国产精品一老牛影视频| 国产精品人成在线播放| 欧美在线伊人| 国产精品白浆在线播放| 久久久久国产精品熟女影院| 亚洲香蕉伊综合在人在线| 99精品国产自在现线观看| 亚洲AV无码不卡无码| 国产极品美女在线观看| 久久女人网| 亚洲精品国产首次亮相| 99资源在线| 少妇极品熟妇人妻专区视频| 亚洲欧美另类日本| 狼友视频国产精品首页| 啊嗯不日本网站| 国产精品私拍在线爆乳| 欧美午夜视频| 色网站在线免费观看| 亚洲码在线中文在线观看| 99久久精品国产麻豆婷婷| 亚洲欧美精品日韩欧美| 亚洲第一视频网| 97国产成人无码精品久久久| 日韩AV无码免费一二三区| 亚洲无码高清一区| 国产亚卅精品无码| 色屁屁一区二区三区视频国产| 91丝袜在线观看| 国产特级毛片aaaaaaa高清| 福利在线免费视频| 欧美午夜在线观看| 国产一区二区三区精品久久呦|