999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

檔案部門大數據初探

2014-12-04 12:29:30鐘奕思
辦公室業務 2014年16期
關鍵詞:利用信息

文/鐘奕思

2010 年,全球數據量跨入了ZB時代,根據國際數據資訊(IDC)公司監測,全球數據量大約每兩年翻一番,預計到2020 年,全球將擁有35ZB的數據量,信息數據以驚人的速度爆炸式地增長。同時,信息數據已經滲透到社會生活的方方面面,深刻影響著我們的生活工作乃至國家經濟、社會發展,大數據時代已經到來。

一、大數據的概念、內涵

大數據是以目前的工具和信息處理能力無法有效采集、管理、處理和分析的信息或數據集合。一般認為,大數據包括結構化、半結構化數據以及非結構化數據和交互數據。大數據是數字化信息時代的產物。伴隨著信息數據爆炸性增長、數據類型增加、信息流動速度增快,人們面臨著信息數據處理難度增大的狀況。

大數據的特點可用“4V”來描述:(1)Volume(體量),數據量龐大是大數據最明顯的特征,數據規模往往達到PB 級。(2)Variety(多樣化),大數據包括了結構化、半結構化和非結構化數據以及交互數據,而且以非結構化數據為主;不同類型數據在數據來源、編碼方式、數據格式、應用特征等多個方面存在差異。(3)Velocity(速度),大數據快速動態變化,形成流式數據,要求實時處理,快速反應。(4)Vitality(密度),大數據規模龐大、增長速度快,但信息價值密度反而降低,隱藏在海量數據中的有用信息并沒有隨著數據量的增長相應增長,反而使我們獲取有用信息的難度加大。

二、檔案部門的大數據

在大數據時代背景下,檔案部門、檔案管理工作也受到“大數據”洪潮的影響,出現了新變化。檔案部門面臨著大數據帶來的挑戰。

(一)檔案部門大數據的來源。檔案部門保管的數據信息主要來源于兩方面:一是檔案館(室)收集的檔案資源,包括檔案館(室)接收的電子文件、數碼照片、音頻、視頻,以及紙質檔案、傳統載體聲像檔案數字化轉換形成的數字資源等。二是檔案部門管理檔案、開展業務過程中產生的數據,包括檔案管理系統數據庫文件、備份數據,檔案管理系統與各業務系統對接形成的交換數據,智能庫房傳感器收集到的庫房監控數據,檔案網站、官方微博數據等。在大數據時代,各種機構在業務活動中產生的數據和信息大量增長,導致最終作為檔案保存下來的文件及信息數據相應增多;檔案館(室)收集的檔案資源增加,進而導致檔案部門在管理活動中產生的信息數據也隨之增加。檔案部門保管的檔案資源和檔案管理信息數據增長迅速、數量巨大,這些構成了檔案部門的大數據。

(二)檔案部門大數據的特征。

1.信息數據量劇增。各機構在業務活動中產生的信息數據急劇增長,導致檔案部門收集保管的檔案資源快速增加。據統計,2008年,全國各級國家檔案館共保存檔案1.93億卷,較上年增加1769萬卷,增幅達10%,而到2011 年,各級國家檔案館館藏已達3.3億卷,到2020 年,各級國家檔案館館藏將達到6 億多卷。檔案數字資源和信息化檔案數據增長更是迅速。在“十一五”期間,某特大型企業檔案館在信息化規劃項目中統一推廣實施檔案管理系統,目前已建成的檔案目錄中心覆蓋集團各單位,保存數據量高達400余萬卷案卷、4000 余萬件檔案,館藏存儲量已由GB 向TB 級和PB級轉變。隨著檔案信息化的開展、數字檔案館(室)的建設以及檔案信息資源整合,各地各級檔案館(室)保存的檔案目錄信息和全文數據呈幾何級數增長,存儲數據量達到海量規模,形成一個巨大的檔案資源庫。

2.信息數據類型多樣化。一方面,就檔案部門管理的檔案資源而言:傳統的檔案管理,管理對象以紙質檔案為主,檔案部門對檔案信息的管理也是對檔案實體的管理。而在現今大數據時代,檔案部門管理的檔案類型多樣化,不但有傳統的紙質檔案,還有大量的數字資源。檔案部門保管的信息數據范圍不僅包括數字資源本身的信息內容,還包括其結構、背景信息、元數據。檔案部門保管的檔案信息數據范圍擴大了。另一方面,從檔案部門日常管理、提供服務產生的信息數據而言:隨著檔案信息化的開展,檔案部門日常管理活動形成大量的信息數據,如檔案管理系統數據庫文件、備份數據,檔案管理系統與各業務系統對接形成的交換數據,智能庫房傳感器收集到的庫房監控數據等;檔案部門通過網站建設、官方微博等渠道開展網絡服務,與利用者進行交互交流,從中搜集到的利用者信息(如利用者的地理位置、搜索歷史、搜索時間、瀏覽記錄等數據)也越來越多。檔案部門管理的信息數據來源拓寬,類型多樣化。而且,檔案部門管理的信息數據結構也在逐漸發生變化,非結構化和半結構化數據類型增多。網頁、音頻、圖像和視頻等數字資源在檔案館(室)藏中的比重逐漸增加,成為未來館藏的重要來源。大量增加的利用者信息數據也將在利用服務中發揮重要作用。

3.信息數據流動速度快。以紙質檔案為主的傳統檔案管理中,信息數據的流動往往與紙質檔案實體的傳遞同步,信息數據的流動基本依附于實體,因此信息數據的流動速度受到限制。而在大數據時代,檔案信息數據的傳播、傳遞并不依附于載體,尤其對于數字化的檔案資源,借助計算機網絡傳播,信息數據流動速度大大加快,甚至可以實現網絡上的實時交互。

4.信息價值密度降低,有用信息獲取難度增大。隨著檔案信息數據急劇增長、類型多樣化,隱藏在海量數據中的有用信息卻沒有隨著數據量的增長而相應增長,反而使我們獲取有用信息的難度加大。我們感受最為明顯的是,隨著檔案管理系統數據量的增大,在進行檔案查詢時,需要的信息容易埋沒在大量的不需要的數據中,增加了查詢的時間,降低檢索性能。單一檔案館(室)內保存的檔案信息數據格式、編碼方式、應用特征等形式多樣化,各館(室)之間更是差異明顯,從而形成了大量的異構數據,使得“信息孤島”問題突出,檔案信息數據共享、異構數據信息整合面臨困難。檔案部門與利用者網絡交互產生的大量數據,以非結構化、半結構化的形式存在,如何從中提取出有用的信息、提升檔案服務質量,也是我們面臨的難題。

三、大數據給檔案部門帶來的挑戰

檔案部門收集管理的檔案資源以及管理檔案、開展業務活動過程中產生的龐大數據信息,構成了檔案部門大數據的來源。這些數據信息增長迅速、類型多樣化、流動速度加快、價值密度降低的特點和變化,給檔案部門在檔案保管、鑒定、利用等環節帶來了新的挑戰。

(一)大數據帶來的檔案保管壓力。與檔案信息數據急劇增長伴隨而來的是檔案保管的壓力。目前,不僅傳統檔案管理會出現“脹庫”,即由于庫房容量有限導致新增加的檔案無法正常存儲到庫房中,而且數字資源的保存也面臨著類似的問題,常常會碰到無法向數據庫中增加新的檔案數據的情況。近年來,在各級檔案工作評估檢查中,由于檔案庫房緊張導致檔案未能集中統一管理、整理質量不夠規范的問題已時有出現。隨著電子文件的廣泛應用、數字檔案館(室)建設的逐步推進,各級各類檔案館(室)保管的數字資源急劇增長,存儲數據量達到海量規模,對檔案信息數據存儲設備的存儲空間、運算速度提出了更高的要求。伴隨著檔案管理大數據時代的到來,檔案信息數據存儲空間的問題日益嚴峻。

(二)大數據帶來的鑒定難題。在大數據時代,檔案信息數據總量大,而且增長速度快,尤其是電子文件以指數級的驚人速度增長。雖然我們知道這些浩瀚的信息數據中蘊藏著巨大的“金礦”,但我們想要從中“淘金”比以往針對紙質文件的傳統檔案鑒定更為困難。一方面,各機構業務活動形成的信息數據增加,在歸檔保存時,檔案人員需要鑒定判斷的文件量隨之增大。面對著巨量的電子文件,檔案人員逐一閱讀每一份電子文件的原文恐怕實在是無能為力。而另一方面,大數據時代檔案信息數據存儲空間緊張,合理準確判斷文件的去留顯得更為重要。只有把好鑒定這一關,將有保存價值的文件留存下來、不具備保存價值的文件剔除掉,才能保障有限的儲存空間用于保存真正具有價值的信息數據,最大限度地發揮檔案信息數據存儲空間的作用。因此,怎樣讓有限的存儲空間得到更為有效的利用,也對檔案人員的鑒定提出了更高的要求。合理、準確、快速地鑒定檔案文件、信息數據的存毀,成為檔案部門和檔案人員在大數據時代面臨的嚴峻挑戰。

(三)大數據帶來的信息有效利用挑戰。檔案作為一種原始信息記錄,是國家、社會、機構歷史的重要見證,在大數據時代,其價值與作用更加凸顯。信息的價值在于利用,面對海量的檔案信息數據,只有通過開發和利用,才能使檔案信息的價值得以體現和發揮。但數據爆炸式增長和數據類型多樣化,給檔案利用開發帶來檢索難題和開發困境。

隨著機構保存檔案數據量的增長,在進行檔案查詢時,需要的信息容易被淹沒在大量不需要的數據中。運用過去傳統的檔案檢索手段,依靠手工著錄、卡片檢索已經難以實現海量信息檢索的要求;即使借助于現代化的檔案管理系統,面對海量數據時,檢索性能常常急劇下降,容易出現查詢時間長、響應速度慢的情況,甚至無法響應。因此,如何在大量的檔案中快速而準確地找到所需的信息,是大數據時代檔案利用中需要解決的首要問題。

更進一步講,目前知識管理已經成為檔案管理發展的趨勢和方向,檔案利用者的利用需求已不僅限于數據或文件的利用,更希望能夠獲得數據背后的信息以及信息蘊藏的知識。因此,檔案利用服務也應由提供數據、信息轉變為提供知識。然而,知識不是自然生成的,也不會簡單地存在于信息集合中,需要經過抽取和挖掘才能展示出來。在傳統紙質檔案時代,檔案數量不多,依靠人工抽取、挖掘知識還可實行,但在大數據時代海量檔案存在、非結構化數據、異構數據盛行的狀況下,則會變得心有余而力不足。

隨著檔案網絡服務、數字檔案館、社交網絡等興起,檔案部門收集到的利用者個人信息、檢索歷史、瀏覽記錄等數據將越來越多。通過對這些數據的分析,檔案部門可以更好地了解利用者偏好,推測其利用需求,這對于檔案部門以利用者需求為導向、提高服務質量具有重要意義。但這些數據信息大多以非結構化和半結構化數據形式存在。相對于結構化數據,非機構化、半結構化數據的開發挖掘難度更大。要對利用者數據進行分析挖掘,檔案部門需要足夠的技術支持。而且,對于這些數據的應用,還會涉及到利用者的隱私問題,例如個人數據能夠保存多久,保存后被用于何種用途,怎樣保證個人數據不會泄露等,這些都是檔案部門需要考慮和注意的問題。

因此,如何合理利用大數據,分析推測利用者需求,在海量數據中抽取和挖掘有用的信息和知識,整合異構信息,共享館際間資源,有針對性地為利用者提供深層次的信息和知識,是大數據時代檔案利用服務工作需要努力解決的問題。

檔案管理迎來了大數據時代。檔案部門保管和保存的信息數據數量劇增、類型多樣化、流動速度加快、有用信息提取難度增大,這些給檔案工作帶來挑戰。檔案部門必須增強信息意識,重視蘊藏在海量檔案信息數據中的“寶藏”,積極采取有效策略,做好基礎平臺建設,重視技術研發與應用,提高檔案信息數據有效保存、快速鑒定、合理開發的能力,應對大數據給檔案部門帶來的挑戰,讓檔案資源和檔案工作在大數據時代實現價值,煥發活力。

猜你喜歡
利用信息
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
利用倒推破難點
利用一半進行移多補少
利用數的分解來思考
Roommate is necessary when far away from home
利用
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 欧美三级不卡在线观看视频| 911亚洲精品| 亚洲日本中文字幕天堂网| 亚洲av日韩av制服丝袜| 99久久精品久久久久久婷婷| 国产精品永久久久久| 欧美午夜在线观看| 国产成人亚洲欧美激情| 欧美成人免费一区在线播放| 91久久国产成人免费观看| av一区二区三区高清久久| 大陆精大陆国产国语精品1024| a级毛片网| 欧美日韩另类在线| 成人一级免费视频| 婷婷色婷婷| 一级成人a做片免费| 亚洲人成网18禁| 婷婷成人综合| 亚洲美女一区| 97久久精品人人做人人爽| 无码中文字幕精品推荐| 极品国产一区二区三区| 在线日本国产成人免费的| 亚洲综合色婷婷中文字幕| 欧美日本激情| 亚洲无码视频喷水| 日韩精品一区二区三区视频免费看| 91麻豆国产视频| 人人91人人澡人人妻人人爽| 久久鸭综合久久国产| 久久精品人人做人人爽电影蜜月| 国产成人综合日韩精品无码首页 | 欧美视频在线播放观看免费福利资源| 午夜欧美理论2019理论| 免费无码在线观看| 亚洲精品成人片在线播放| 一本大道视频精品人妻 | 风韵丰满熟妇啪啪区老熟熟女| 综合色88| 国产主播一区二区三区| 亚洲天堂免费| 性视频一区| 欧美成人一区午夜福利在线| 91口爆吞精国产对白第三集 | 亚洲精品在线影院| 国产三区二区| 欧美精品在线看| Aⅴ无码专区在线观看| 亚洲精品国产精品乱码不卞| 福利视频一区| 亚洲啪啪网| 激情六月丁香婷婷| 免费一级成人毛片| 国产va在线观看| 欧美成人区| 久久国产亚洲偷自| 国产精品成人啪精品视频| 国产第一页免费浮力影院| 日韩精品免费一线在线观看| 日韩精品视频久久| 8090成人午夜精品| 亚洲日本中文字幕天堂网| 亚洲精品亚洲人成在线| 日韩色图区| 国产欧美精品一区aⅴ影院| 欧美国产日韩在线| 国产精品视频第一专区| 国产成人一区免费观看| 无码丝袜人妻| 午夜福利视频一区| 天堂av综合网| 色AV色 综合网站| 久久国产精品嫖妓| 国产91视频免费观看| 2020最新国产精品视频| 丝袜高跟美脚国产1区| 国产午夜福利亚洲第一| 国产一在线| 国产成人狂喷潮在线观看2345| 五月天综合婷婷| 国产在线精品香蕉麻豆|