999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代下的檔案數據挖掘

2018-03-10 08:47:10徐濤李京林藍傳锜
山東工業技術 2018年5期
關鍵詞:數據挖掘利用文本

徐濤+李京林+藍傳锜

摘 要:在信息化高度發展的今天,隨著紙質檔案數字化轉變,正確認識檔案信息資源、對檔案信息資源進行合理開發和利用、挖掘用戶使用檔案行為并進行分析以及關注焦點等信息,對研究檔案的利用具有很大的價值。作為查檔用戶,通過需求調研發現,單純的電子檔案信息的調閱已經不能滿足如今諸多時間緊任務重的工作環境,如何在盡可能少的時間內獲取盡可能多的有用信息是用戶關注的焦點。

關鍵詞:數據挖掘;檔案;大數據

DOI:10.16640/j.cnki.37-1222/t.2018.05.116

1 檔案數據挖掘的基本認識

1.1 檔案數據挖掘的定義與特性

數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識的過程。對數據化的檔案資源進行數據挖掘,從而找到蘊藏在檔案中的價值,獲取檔案中的知識和規律,這一過程可以說是從數據到新知識的蛻變。

如,檔案人員想要做好檔案編研選題,不僅要對用戶利用檔案數據,包括檔案調卷數量、檔案利用次數、復制檔案數量、制發檔案證明數量等進行深度挖掘,而且還需要對用戶訪問記錄,包括網頁采用的關鍵字、下載記錄、檢索詞、用戶利用網頁時間和頻度等信息進行深度挖掘,然后利用分類功能及數據分析,建立檔案編研選題的用戶模型,一是按需確定不同類型的編研選題,提供個性化的服務;二是根據檔案用戶需求特點,預測其未來趨向,結合社會熱點選定檔案編研題目,從而使檔案編研部門推出用戶滿意的編研成果[1]。在檔案利用方面,對檔案利用登記數據庫進行深度挖掘,分別選取不同方面數據進行建模,可以得出不同檔案利用形式的變化趨勢,從而對檔案利用趨勢進行分析和預測,對利用頻率高的檔案進行全文數字化,既可以提高檔案利用效率,又可以起到保護檔案原件的作用。

因此,檔案數據的挖掘是大數據時代的主要特點,檔案學的發展歷程告訴我們,每一次重大的技術變革都必然影響著檔案學的發展,如計算機和網絡技術的引人,引起了檔案管理理念與實踐的變革,改變了文件與檔案的處理流程。大數據技術對檔案數據的深度挖掘為檔案管理流程由粗放走向精細化提供了可能。

1.2 從數字化檔案轉變為數據化檔案

“數據化”是近兩年隨著大數據的發展才逐漸被人們從“數字化”概念中逐漸分離并提出來。最初“數字化”和“數據化”是混為一談的,數據化的提出不是對數字化的否定,而是在對數字世界認識逐步深化的基礎上,對數字化理論的拓展與推進。可以說數字化帶來了數據化,但是無法取代數據化。

我國檔案界探討最多的是檔案的數字化,在理論和實踐方面都取得很多成果。國家在檔案數字化方面出臺了《電子文件歸檔與管理規范》和《紙質檔案數字化技術規范》兩個重要的標準規范。在實踐中,我國檔案數字化主要做了兩方面工作:一是檔案目錄信息的數字化,即建立檔案目錄數據庫,嚴格規范檔案信息的著錄標引,科學選定檔案目錄的數據庫結構;二是檔案全文信息的數字化,即采用掃描錄入的方式將檔案全文按照原貌逐頁存儲為圖像文件并為其編制目錄索引,或是經OCR(光學字符技術)識別后采用文本格式存儲檔案內容,輔之以全文檢索數據庫[2]。可見,我國在檔案數字化過程里已經無意識地進行了部分檔案的數據化,盡管所占的比例很小。

2 數據挖掘技術在檔案信息管理中的應用

檔案數據挖掘過程中,會用到包括文本信息抽取、文本分類、文本聚類、文本數據處理等技術進行文本的數據挖掘工作[3]。比如以檔案文本數據為基礎資源知識庫,根據檔案發布的時間信息,分析檔案產生的節點趨勢以及政府部門針對某一政策的關聯度;對檔案類目信息或文本信息進行分詞,運用文本分類和文本聚類技術,結合檔案數據的基本屬性(時間、所屬部門等),對檔案進行歸類(如按照關鍵詞、檔案發布部門、主題等);采用主題識別技術對檔案數據進行抽取,以檔案主題為中心,結合檔案類別歸屬,找出與之關聯的檔案。基于上述資源,結合多策略的內容抽取,進行文檔數據內容的對比,分析相關政策的影響力、執行力以及變化趨勢,從而給政府部門提供相應的決策資源[4]。同時也可以通過知識管理技術,主要包括信息積累、知識挖掘、知識運用等,結合信息檢索、分析及挖掘技術,將信息進行適當的分類及抽取或形成一組問答序列,并將這些信息進行提取,形成解決某一問題域的數據集,挖掘出一定的專門知識,作為決策的依據,進一步提升檔案信息資源的再利用與檔案編研工作者的工作效率[5]。

3 結語

在信息爆炸的“互聯網+”時代,檔案工作仍面臨三大矛盾:一是檔案本質屬性與管理理念的矛盾,智慧時代產生的檔案信息以原生電子檔案、多媒體檔案為主,而檔案部門仍按傳統實體檔案思維進行管理;二是檔案數據規模與管理能力的矛盾,當前數字檔案爆發性增長,檔案館已經成為一個龐大的數字化倉庫,憑檔案部門現有的技術、設備和人員難以支撐海量數據的管理;三是檔案服務能力與社會發展需求的矛盾,在轉型升級的時代背景下,倘若檔案部門不能及時融入和順應時代潮流,就不能在智慧城市建設中提供更好的公共服務。

因此,正確認識檔案信息資源、對檔案信息資源進行合理開發和利用成為了我們工作的重中之重。由此就需要相關人員在檔案信息管理的過程中,做好檔案數據挖掘的基礎研究工作使我們能夠準確、有效的進行檔案管理,在確保檔案信息管理質量的同時,創新檔案信息的管理模式。

參考文獻:

[1]張文元,張倩.大數據技術與檔案數據挖掘[J].檔案管理,2016

(02).

[2]王學平.淺議我國檔案數字化建設實踐與發展策略[J].檔案學通訊,2011(06).

[3]許桂清.對智慧檔案館的認識與探析[J].中國檔案,2014(06).

[4]張芳霖,唐霜.大數據影響下檔案學發展趨勢的思考[J].北京檔案,2014(09).

[5]曹莉.芻議大數據時代的數據挖掘與精細管理[J].經營管理者,

2013(18).

本文受甘肅省檔案局科技項目《甘肅省檔案局檔案信息資源挖掘平臺建設與研究》(甘檔2016-1)支持

猜你喜歡
數據挖掘利用文本
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
探討人工智能與數據挖掘發展趨勢
利用一半進行移多補少
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
利用數的分解來思考
Roommate is necessary when far away from home
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 一级毛片免费不卡在线| 澳门av无码| 久久a毛片| 狼友视频国产精品首页| 无码国内精品人妻少妇蜜桃视频| 色哟哟精品无码网站在线播放视频| 毛片国产精品完整版| 老司机午夜精品视频你懂的| 亚洲中文字幕在线精品一区| 第一区免费在线观看| 亚洲69视频| 国产精品无码AV中文| 日本高清免费不卡视频| 天天躁夜夜躁狠狠躁图片| 国产麻豆另类AV| 国产精品一线天| 亚洲视频三级| 911亚洲精品| 丰满人妻中出白浆| 女人毛片a级大学毛片免费| 欧美一区二区三区不卡免费| igao国产精品| 少妇精品在线| 国产精品免费电影| 日韩av无码DVD| 99热亚洲精品6码| 国产H片无码不卡在线视频| 99视频国产精品| 免费毛片视频| 狠狠躁天天躁夜夜躁婷婷| 99精品高清在线播放| 日韩天堂网| 国产精品一区二区不卡的视频| 青青操视频免费观看| 欧美第二区| 亚洲黄色网站视频| 国产在线91在线电影| 亚洲视频影院| 精品综合久久久久久97超人| 伊人五月丁香综合AⅤ| 国产精品永久不卡免费视频| 国产伦片中文免费观看| 色婷婷成人网| 天天综合网亚洲网站| 精品国产美女福到在线不卡f| 国产精品美女免费视频大全| 国产玖玖玖精品视频| 国产精选自拍| 欧美国产中文| 久久99国产乱子伦精品免| 日韩欧美中文| 中国国产A一级毛片| 色丁丁毛片在线观看| 99re精彩视频| 亚洲第一视频网站| 精品在线免费播放| 青青久久91| 色国产视频| 国产成人综合网| 国产乱子伦视频在线播放| 91丝袜乱伦| 欧洲亚洲欧美国产日本高清| 在线不卡免费视频| 91小视频版在线观看www| 国产不卡一级毛片视频| 色婷婷丁香| 原味小视频在线www国产| 中美日韩在线网免费毛片视频| 亚洲91精品视频| 波多野结衣在线一区二区| 国产成人精品高清不卡在线| 久久综合九色综合97婷婷| 国产乱人乱偷精品视频a人人澡| 午夜精品久久久久久久99热下载| 日本精品一在线观看视频| 国产精品30p| 日本亚洲成高清一区二区三区| 国产精品3p视频| 在线亚洲天堂| 国产极品粉嫩小泬免费看| 国产乱子精品一区二区在线观看| 午夜精品一区二区蜜桃|