999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)技術(shù)與檔案數(shù)據(jù)挖掘

2021-04-14 20:38:18鄒彩霞
卷宗 2021年11期

鄒彩霞

(單縣社會保險事業(yè)服務(wù)中心,山東 菏澤 274300)

隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘技術(shù)在文件管理中的應(yīng)用將進(jìn)入一個新的發(fā)展時期。檔案學(xué)界早就提出了知識管理和知識發(fā)掘,但知識發(fā)掘仍然停留在概念和理論研究階段。大數(shù)據(jù)挖掘,即從大數(shù)據(jù)挖掘知識的大數(shù)據(jù)挖掘技術(shù),有效地解決數(shù)據(jù)與知識之間的差距,是將數(shù)據(jù)轉(zhuǎn)化為知識的有效途徑。因此,檔案學(xué)研究者認(rèn)為,“檔案的現(xiàn)有工作將轉(zhuǎn)移到檔案資源的數(shù)據(jù)分析、數(shù)據(jù)挖掘方向,對大量數(shù)據(jù)的分析處理將成為檔案的主要工作”,“檔案信息服務(wù)的基本基礎(chǔ)不再是搜索,而是智能化的數(shù)據(jù)挖掘”。

大數(shù)據(jù)時代對數(shù)據(jù)挖掘技術(shù)的根本性變化使數(shù)據(jù)的深度挖掘成為可能,對大量數(shù)據(jù)進(jìn)行分析和智能挖掘,從管理角度得到最佳結(jié)果,數(shù)據(jù)必須全面、穩(wěn)定、有價值,對數(shù)據(jù)進(jìn)行深度挖掘是必要的。

1 數(shù)據(jù)深度挖掘是將大容量數(shù)據(jù)技術(shù)應(yīng)用于檔案管理的主要特征

數(shù)據(jù)挖掘是對大量數(shù)據(jù)建模,通過數(shù)學(xué)模型整理和分析企業(yè)海量數(shù)據(jù),使企業(yè)能夠理解不同的客戶或不同的市場部門的技術(shù)。從海量數(shù)據(jù)中找到企業(yè)所需知識的技術(shù)方法是相同的。數(shù)據(jù)深度挖掘是對數(shù)據(jù)建模、數(shù)據(jù)分類、統(tǒng)計分類、尋找數(shù)據(jù)分布相關(guān)生的過程,也是探索規(guī)律的過程。例如,檔案管理員想做好文件編制研究主題。不僅需要對用戶進(jìn)行深入挖掘,包括文件卷數(shù)、文件使用次數(shù)、復(fù)制文件數(shù)、文件發(fā)行證明數(shù),還需要用戶訪問記錄,包括網(wǎng)頁上使用的關(guān)鍵字、下載記錄等。用戶應(yīng)利用網(wǎng)頁時間和頻率等信息進(jìn)行深度挖掘后再利用。其次,根據(jù)檔案用戶需求特點(diǎn)預(yù)測未來趨勢,結(jié)合社會熱點(diǎn)選定文件編輯標(biāo)題,讓文件編輯部門拿出用戶滿意度的編輯成果。對于文件利用,可以深入挖掘文件使用登記數(shù)據(jù)庫,分別選擇不同方面的數(shù)據(jù)進(jìn)行建模,掌握不同文件利用形式的變化趨勢,分析和預(yù)測文件利用趨勢,將高頻率文件的全文數(shù)字化,提高文件利用效率,起到保護(hù)文件原件的作用。

因此,檔案數(shù)據(jù)的深度挖掘是大數(shù)據(jù)時代的主要特征,檔案學(xué)的發(fā)展過程告訴我們,所有主要技術(shù)變化都必然會影響檔案學(xué)的發(fā)展,例如計算機(jī)及網(wǎng)絡(luò)技術(shù)的引進(jìn)。引起了文件管理理念和實(shí)踐的變化,改變了文件和檔案的處理過程。大數(shù)據(jù)技術(shù)對歸檔數(shù)據(jù)的深入挖掘為文件管理過程從粗放到精細(xì)化提供了可能性。

2 大數(shù)據(jù)技術(shù)通過對文件數(shù)據(jù)的深度挖掘,精細(xì)化文件管理模型

大數(shù)據(jù)挖掘技術(shù)以傳統(tǒng)數(shù)據(jù)挖掘為基礎(chǔ),利用數(shù)據(jù)倉庫,建立“泛關(guān)系”聚合分類模型,采用海量數(shù)據(jù)分析方法,機(jī)器和人類一樣本具有意義的知識,提供公開信息的視覺視圖,可以說是傳統(tǒng)數(shù)據(jù)挖掘方法的深化。由中國人民大學(xué)網(wǎng)絡(luò)和移動數(shù)據(jù)管理研究所開發(fā)的ScholarSpace,大型數(shù)據(jù)處理的最基本流程包括數(shù)據(jù)源、數(shù)據(jù)提取和集成、數(shù)據(jù)分析、數(shù)據(jù)解釋等流程。大型數(shù)據(jù)技術(shù)對存檔數(shù)據(jù)挖掘由數(shù)據(jù)收集層、數(shù)據(jù)整理層、數(shù)據(jù)分析層、數(shù)據(jù)展示層組成。

1)數(shù)據(jù)收集層收集高質(zhì)量的存檔數(shù)據(jù),為文件管理細(xì)分奠定基礎(chǔ)。數(shù)據(jù)收集是大容量數(shù)據(jù)技術(shù)處理過程中最基本的步驟,高質(zhì)量數(shù)據(jù)是大容量數(shù)據(jù)技術(shù)發(fā)揮性能的前提,大容量數(shù)據(jù)技術(shù)只能在高質(zhì)量、大容量的數(shù)據(jù)環(huán)境中提取隱含和有用的信息。大容量數(shù)據(jù)具有實(shí)時和動態(tài)特性,因此“在線”、“近線”和“離線”的各種數(shù)字資源都是收集對象。為了使獲得的數(shù)據(jù)更具代表性,獲取數(shù)據(jù)信息的方法尤為重要。數(shù)據(jù)收集層收集來自不同數(shù)據(jù)源的數(shù)據(jù),準(zhǔn)備歸檔數(shù)據(jù)挖掘的后續(xù)工作[1]。

2)數(shù)據(jù)清理層將更改現(xiàn)有的數(shù)據(jù)處理方式,以突出文件管理微調(diào)過程。通過多種渠道獲得的存檔數(shù)據(jù)種類復(fù)雜,結(jié)構(gòu)多樣,可以通過處理、合并和存儲實(shí)現(xiàn),首先,將結(jié)構(gòu)復(fù)雜的數(shù)據(jù)轉(zhuǎn)換為單個或容易處理的數(shù)據(jù)。現(xiàn)代互聯(lián)網(wǎng)應(yīng)用呈現(xiàn)出半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)大幅增長的趨勢,這些資源將成為關(guān)口的重要來源。例如,文件系統(tǒng)的日志數(shù)據(jù)運(yùn)行等數(shù)據(jù)需要轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),形成文件集成語言。二是對收集到的數(shù)據(jù)進(jìn)行“去噪”和“清洗”,以確保數(shù)據(jù)的質(zhì)量和可靠性。因為原始數(shù)據(jù)有噪音數(shù)據(jù)、重復(fù)數(shù)據(jù)等句子,所以為了提高要發(fā)掘的數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進(jìn)行分析、清理和重組。第三,存儲整理后的數(shù)據(jù),按類別放置專業(yè)的數(shù)據(jù)群,減少數(shù)據(jù)查詢和訪問時間,加快數(shù)據(jù)提取。三大數(shù)據(jù)技術(shù):從橫看檔案數(shù)據(jù)的深度挖掘、文件管理微調(diào)、最大數(shù)據(jù)技術(shù)在文件管理中的應(yīng)用兩個方向。以大型數(shù)據(jù)挖掘技術(shù)為中心,從數(shù)據(jù)收集、整理、分析、展示等技術(shù)解決方案縱向來看,以數(shù)據(jù)產(chǎn)品為中心,逐步進(jìn)行檔案資源挖掘、用戶數(shù)據(jù)挖掘和關(guān)系洞察力及趨勢預(yù)測。大容量數(shù)據(jù)技術(shù)通過對檔案數(shù)據(jù)的深度挖掘,優(yōu)化對檔案資源和用戶需求的雙向控制,強(qiáng)調(diào)管理精細(xì)化趨勢。

3 文件資源挖掘

由于缺乏全面的數(shù)據(jù)挖掘和深度集成,歸檔資源存儲集中在缺乏輕量級深度挖掘的問題上,因此,通過對歸檔資源數(shù)據(jù)的深度挖掘,證明數(shù)據(jù)價值,創(chuàng)造新的價值。第一,大數(shù)據(jù)時代要樹立“大檔案”工作理念,重視數(shù)據(jù)積累,不僅要建立檔案資源體系,還要建立數(shù)據(jù)資源體系概念。其次,創(chuàng)建共享歸檔數(shù)據(jù)庫。以省為單位建立集中、規(guī)范、共享的存檔數(shù)據(jù)存儲庫,使每個存檔集合相互連接。成為內(nèi)容豐富、不受物理存儲限制的信息互聯(lián)共享、歸檔、數(shù)據(jù)資源網(wǎng)絡(luò)。最后,利用云計算:計算平臺和處理技術(shù),建立可用于實(shí)時接收歸檔數(shù)據(jù)或?qū)Ψ菍?shí)時數(shù)據(jù)進(jìn)行分類,作為歸檔用戶提供服務(wù)的平臺的歸檔數(shù)據(jù)資源網(wǎng)絡(luò)[2-3]。

1)用戶數(shù)據(jù)挖掘。用戶數(shù)據(jù)挖掘的準(zhǔn)確洞察力、準(zhǔn)確的服務(wù)、提高檔案用戶身份,實(shí)現(xiàn)檔案服務(wù)價值用戶數(shù)據(jù)挖掘包括以下幾個方面: 首先是對用戶信息的數(shù)據(jù)挖掘。要提取用戶的信息,必須查看用戶訪問服務(wù)器時留下的日志文件,跟蹤用戶行為,推測用戶的興趣,提供個性化的利用服務(wù)。其次挖掘用戶統(tǒng)計搜索和瀏覽記錄。例如,通過統(tǒng)計分析,用戶可以分析對文件目錄的點(diǎn)擊率,選擇點(diǎn)擊率高的文件進(jìn)行數(shù)字化。分析用戶搜索時使用的文件搜索詞,補(bǔ)充和補(bǔ)充數(shù)據(jù)倉庫的搜索關(guān)鍵詞,提高準(zhǔn)確性。通過統(tǒng)計分析,分析用戶訪問網(wǎng)頁的頻率,展開深入的信息服務(wù)。

2)關(guān)系洞察及趨勢分析。存檔資源和用戶數(shù)據(jù)都是通過挖掘獲得的數(shù)據(jù)往往是孤立的數(shù)據(jù)點(diǎn),因此,要使這些數(shù)據(jù)集成為完整的網(wǎng)絡(luò),必須對數(shù)據(jù)網(wǎng)絡(luò)背后的數(shù)據(jù)關(guān)系進(jìn)行深入分析。例如,如果只挖掘文件收集情況,就只能得到檔案人員和文件之間的關(guān)系;如果挖掘文件利用,就只能得到文件和用戶之間的數(shù)據(jù)關(guān)系。但是,要準(zhǔn)確地掌握文件之間、用戶之間、檔案和用戶之間的關(guān)系,必須整合這些孤立的數(shù)據(jù)點(diǎn),確保整個檔案網(wǎng)絡(luò),才能預(yù)測文件開發(fā)、社會服務(wù)等 趨勢[4-5]。

4 小結(jié)

大數(shù)據(jù)時代、大存檔、大服務(wù)、智能存檔等已成為存檔工作的新發(fā)展,隨著存檔管理創(chuàng)新的深化,大數(shù)據(jù)技術(shù)將實(shí)際落實(shí)到文件管理的各個環(huán)節(jié),數(shù)據(jù)挖掘技術(shù)將更加熟練地用于文件管理。

主站蜘蛛池模板: 日本高清成本人视频一区| 亚洲精品桃花岛av在线| 视频二区亚洲精品| 亚洲成人在线免费| 91www在线观看| 国产99免费视频| 国产精品视频导航| 成年午夜精品久久精品| 在线播放真实国产乱子伦| 无码人中文字幕| 欧美中文字幕在线视频| 国产高清国内精品福利| 国产偷国产偷在线高清| 国产特一级毛片| 丁香五月婷婷激情基地| 色网站免费在线观看| 又大又硬又爽免费视频| 中文字幕久久精品波多野结| 3p叠罗汉国产精品久久| 黄色网址手机国内免费在线观看| 欧美国产综合视频| 亚洲一欧洲中文字幕在线| 草草线在成年免费视频2| 日韩精品亚洲精品第一页| 国产免费久久精品44| 国产成人盗摄精品| 99爱在线| 久久精品最新免费国产成人| 91精品国产自产在线老师啪l| 欧美综合区自拍亚洲综合天堂| a毛片免费在线观看| 四虎综合网| 一本综合久久| 久久综合五月| 国产91透明丝袜美腿在线| 四虎永久在线精品国产免费| 亚洲va欧美va国产综合下载| 欧美亚洲国产视频| 在线人成精品免费视频| 99在线国产| 国产成人免费观看在线视频| 国产精品免费福利久久播放| 亚洲天堂首页| 国产女人喷水视频| 97在线观看视频免费| 日本黄色不卡视频| 美女内射视频WWW网站午夜| 久精品色妇丰满人妻| 欧美精品在线视频观看| 亚洲美女久久| 日韩精品亚洲精品第一页| 秘书高跟黑色丝袜国产91在线| 久热re国产手机在线观看| 久久国产精品麻豆系列| 亚洲国产成人综合精品2020| 精品视频一区在线观看| 国产在线第二页| 色香蕉网站| 亚洲综合片| 四虎国产精品永久一区| 欧美第一页在线| 精品伊人久久久香线蕉 | 欧美午夜小视频| 久久综合亚洲色一区二区三区| 国产在线观看91精品| 青青网在线国产| 日韩少妇激情一区二区| 少妇精品在线| 日韩精品专区免费无码aⅴ| 无码精品福利一区二区三区| A级全黄试看30分钟小视频| 九九热精品在线视频| www中文字幕在线观看| 大陆精大陆国产国语精品1024| 国产精品无码影视久久久久久久| 午夜福利亚洲精品| 在线观看欧美国产| 青青操国产| 日韩123欧美字幕| 青青青视频免费一区二区| 91热爆在线| 老熟妇喷水一区二区三区|