999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代下的檔案數據挖掘

2018-03-10 08:47:10徐濤李京林藍傳锜
山東工業技術 2018年5期
關鍵詞:數據挖掘利用文本

徐濤+李京林+藍傳锜

摘 要:在信息化高度發展的今天,隨著紙質檔案數字化轉變,正確認識檔案信息資源、對檔案信息資源進行合理開發和利用、挖掘用戶使用檔案行為并進行分析以及關注焦點等信息,對研究檔案的利用具有很大的價值。作為查檔用戶,通過需求調研發現,單純的電子檔案信息的調閱已經不能滿足如今諸多時間緊任務重的工作環境,如何在盡可能少的時間內獲取盡可能多的有用信息是用戶關注的焦點。

關鍵詞:數據挖掘;檔案;大數據

DOI:10.16640/j.cnki.37-1222/t.2018.05.116

1 檔案數據挖掘的基本認識

1.1 檔案數據挖掘的定義與特性

數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識的過程。對數據化的檔案資源進行數據挖掘,從而找到蘊藏在檔案中的價值,獲取檔案中的知識和規律,這一過程可以說是從數據到新知識的蛻變。

如,檔案人員想要做好檔案編研選題,不僅要對用戶利用檔案數據,包括檔案調卷數量、檔案利用次數、復制檔案數量、制發檔案證明數量等進行深度挖掘,而且還需要對用戶訪問記錄,包括網頁采用的關鍵字、下載記錄、檢索詞、用戶利用網頁時間和頻度等信息進行深度挖掘,然后利用分類功能及數據分析,建立檔案編研選題的用戶模型,一是按需確定不同類型的編研選題,提供個性化的服務;二是根據檔案用戶需求特點,預測其未來趨向,結合社會熱點選定檔案編研題目,從而使檔案編研部門推出用戶滿意的編研成果[1]。在檔案利用方面,對檔案利用登記數據庫進行深度挖掘,分別選取不同方面數據進行建模,可以得出不同檔案利用形式的變化趨勢,從而對檔案利用趨勢進行分析和預測,對利用頻率高的檔案進行全文數字化,既可以提高檔案利用效率,又可以起到保護檔案原件的作用。

因此,檔案數據的挖掘是大數據時代的主要特點,檔案學的發展歷程告訴我們,每一次重大的技術變革都必然影響著檔案學的發展,如計算機和網絡技術的引人,引起了檔案管理理念與實踐的變革,改變了文件與檔案的處理流程。大數據技術對檔案數據的深度挖掘為檔案管理流程由粗放走向精細化提供了可能。

1.2 從數字化檔案轉變為數據化檔案

“數據化”是近兩年隨著大數據的發展才逐漸被人們從“數字化”概念中逐漸分離并提出來。最初“數字化”和“數據化”是混為一談的,數據化的提出不是對數字化的否定,而是在對數字世界認識逐步深化的基礎上,對數字化理論的拓展與推進。可以說數字化帶來了數據化,但是無法取代數據化。

我國檔案界探討最多的是檔案的數字化,在理論和實踐方面都取得很多成果。國家在檔案數字化方面出臺了《電子文件歸檔與管理規范》和《紙質檔案數字化技術規范》兩個重要的標準規范。在實踐中,我國檔案數字化主要做了兩方面工作:一是檔案目錄信息的數字化,即建立檔案目錄數據庫,嚴格規范檔案信息的著錄標引,科學選定檔案目錄的數據庫結構;二是檔案全文信息的數字化,即采用掃描錄入的方式將檔案全文按照原貌逐頁存儲為圖像文件并為其編制目錄索引,或是經OCR(光學字符技術)識別后采用文本格式存儲檔案內容,輔之以全文檢索數據庫[2]。可見,我國在檔案數字化過程里已經無意識地進行了部分檔案的數據化,盡管所占的比例很小。

2 數據挖掘技術在檔案信息管理中的應用

檔案數據挖掘過程中,會用到包括文本信息抽取、文本分類、文本聚類、文本數據處理等技術進行文本的數據挖掘工作[3]。比如以檔案文本數據為基礎資源知識庫,根據檔案發布的時間信息,分析檔案產生的節點趨勢以及政府部門針對某一政策的關聯度;對檔案類目信息或文本信息進行分詞,運用文本分類和文本聚類技術,結合檔案數據的基本屬性(時間、所屬部門等),對檔案進行歸類(如按照關鍵詞、檔案發布部門、主題等);采用主題識別技術對檔案數據進行抽取,以檔案主題為中心,結合檔案類別歸屬,找出與之關聯的檔案。基于上述資源,結合多策略的內容抽取,進行文檔數據內容的對比,分析相關政策的影響力、執行力以及變化趨勢,從而給政府部門提供相應的決策資源[4]。同時也可以通過知識管理技術,主要包括信息積累、知識挖掘、知識運用等,結合信息檢索、分析及挖掘技術,將信息進行適當的分類及抽取或形成一組問答序列,并將這些信息進行提取,形成解決某一問題域的數據集,挖掘出一定的專門知識,作為決策的依據,進一步提升檔案信息資源的再利用與檔案編研工作者的工作效率[5]。

3 結語

在信息爆炸的“互聯網+”時代,檔案工作仍面臨三大矛盾:一是檔案本質屬性與管理理念的矛盾,智慧時代產生的檔案信息以原生電子檔案、多媒體檔案為主,而檔案部門仍按傳統實體檔案思維進行管理;二是檔案數據規模與管理能力的矛盾,當前數字檔案爆發性增長,檔案館已經成為一個龐大的數字化倉庫,憑檔案部門現有的技術、設備和人員難以支撐海量數據的管理;三是檔案服務能力與社會發展需求的矛盾,在轉型升級的時代背景下,倘若檔案部門不能及時融入和順應時代潮流,就不能在智慧城市建設中提供更好的公共服務。

因此,正確認識檔案信息資源、對檔案信息資源進行合理開發和利用成為了我們工作的重中之重。由此就需要相關人員在檔案信息管理的過程中,做好檔案數據挖掘的基礎研究工作使我們能夠準確、有效的進行檔案管理,在確保檔案信息管理質量的同時,創新檔案信息的管理模式。

參考文獻:

[1]張文元,張倩.大數據技術與檔案數據挖掘[J].檔案管理,2016

(02).

[2]王學平.淺議我國檔案數字化建設實踐與發展策略[J].檔案學通訊,2011(06).

[3]許桂清.對智慧檔案館的認識與探析[J].中國檔案,2014(06).

[4]張芳霖,唐霜.大數據影響下檔案學發展趨勢的思考[J].北京檔案,2014(09).

[5]曹莉.芻議大數據時代的數據挖掘與精細管理[J].經營管理者,

2013(18).

本文受甘肅省檔案局科技項目《甘肅省檔案局檔案信息資源挖掘平臺建設與研究》(甘檔2016-1)支持

猜你喜歡
數據挖掘利用文本
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
探討人工智能與數據挖掘發展趨勢
利用一半進行移多補少
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
利用數的分解來思考
Roommate is necessary when far away from home
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 亚洲日韩精品综合在线一区二区| 国产在线观看91精品| 思思热精品在线8| 内射人妻无套中出无码| 72种姿势欧美久久久久大黄蕉| 欧美成人精品欧美一级乱黄| 狠狠色成人综合首页| 精品久久久久久成人AV| 成人综合在线观看| 精品久久久久久成人AV| 精品国产美女福到在线直播| 国产最爽的乱婬视频国语对白 | 日本成人在线不卡视频| 成人字幕网视频在线观看| 国产欧美日韩免费| 自慰网址在线观看| 亚洲国产精品国自产拍A| 欧美成人午夜影院| 狼友视频国产精品首页| 99在线视频网站| 亚洲无码精品在线播放| 在线视频亚洲色图| 国产av无码日韩av无码网站 | 成·人免费午夜无码视频在线观看 | 久久久91人妻无码精品蜜桃HD| 国产视频久久久久| 亚洲青涩在线| 国产亚洲精品yxsp| 久久精品日日躁夜夜躁欧美| 色欲综合久久中文字幕网| 国产人人乐人人爱| 国产在线小视频| 手机在线免费毛片| 色欲色欲久久综合网| 日本不卡免费高清视频| 十八禁美女裸体网站| 99re这里只有国产中文精品国产精品| 毛片视频网址| 日韩av在线直播| 五月综合色婷婷| 亚洲成A人V欧美综合天堂| 国产成人精品视频一区视频二区| 国产成熟女人性满足视频| 国内精品免费| 九九热在线视频| 少妇极品熟妇人妻专区视频| av在线人妻熟妇| 日韩精品成人网页视频在线| 中文字幕欧美日韩| 成人福利免费在线观看| 日本亚洲国产一区二区三区| 国产在线第二页| 国产女人18水真多毛片18精品 | 无码中文字幕精品推荐| 亚洲欧洲日韩久久狠狠爱| 亚洲av片在线免费观看| 国产内射一区亚洲| 3p叠罗汉国产精品久久| 久久中文字幕2021精品| 亚洲国产综合自在线另类| 在线观看91香蕉国产免费| 色老头综合网| 尤物视频一区| 国产第四页| 黄色一及毛片| 热re99久久精品国99热| 国产区在线观看视频| 国产精品区网红主播在线观看| 日韩无码精品人妻| 免费A∨中文乱码专区| 国产美女主播一级成人毛片| 国产精品手机在线播放| 女人18一级毛片免费观看| 国产凹凸视频在线观看| 伊人天堂网| 一本大道香蕉久中文在线播放| 免费观看欧美性一级| 中文无码伦av中文字幕| 国产精品开放后亚洲| 免费观看男人免费桶女人视频| 高清乱码精品福利在线视频| 深夜福利视频一区二区|