999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析基于數(shù)據(jù)挖掘的數(shù)字檔案信息管理研究

2015-04-29 00:00:00王芳
大陸橋視野·下 2015年1期

摘要 隨著社會主義現(xiàn)代化的發(fā)展,計算機技術的進步,信息技術在社會發(fā)展的各個領域都扮演著極其重要的角色。信息化建設更是被我國列為經(jīng)濟社會發(fā)展的首要內(nèi)容。網(wǎng)頁檔案化管理包括文檔、文字翻譯轉(zhuǎn)換、圖片資料、聲像資料、多媒體遠程會議等。尤其是大學檔案館更側(cè)重教學與科研,網(wǎng)頁檔案化管理是必然的趨勢。

關鍵詞 數(shù)字化 圖書管理 檔案化

在信息化發(fā)展的今天,圖書館,特別是大學圖書館不僅要對信息進行簡單的數(shù)字轉(zhuǎn)換和管理,更要對新興事物網(wǎng)絡進行檔案化管理和歸檔,包括文檔、文字翻譯轉(zhuǎn)換、圖片資料、聲像資料、多媒體遠程會議等。所以網(wǎng)絡檔案化管理,成為當今圖書管理的必然趨勢,這就必須對檔案化管理的技術和法律相關問題進行深入闡述和探討。

所謂數(shù)據(jù)挖掘,就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程。這些數(shù)據(jù)可以是結(jié)構(gòu)化的,如關系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學的,也可以是非數(shù)學的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以進行數(shù)據(jù)自身的維護。數(shù)據(jù)挖掘借助了多年來數(shù)理統(tǒng)計技術和人工智能以及知識工程等領域的研究成果構(gòu)建自己的理論體系,是涉及數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、機械學、人工神經(jīng)網(wǎng)絡、可視化、并行計算等的交叉學科,是目前國際上數(shù)據(jù)庫和決策支持領域的最前沿的研究方向之一。

一、數(shù)據(jù)挖掘的功能

數(shù)據(jù)挖掘通過預測未來趨勢及行為,做出預測性的、基于知識的決策。數(shù)據(jù)挖掘的目標是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,按其功能可分為以下幾類。

1.關聯(lián)分析。關聯(lián)分析能尋找到數(shù)據(jù)庫中大量數(shù)據(jù)的相關聯(lián)系,常用的一種技術為關聯(lián)規(guī)則和序列模式。關聯(lián)規(guī)則是發(fā)現(xiàn)一個事物與其他事物間的相互關聯(lián)性或相互依賴性。

2.聚類。輸入的數(shù)據(jù)并無任何類型標記,聚類就是按一定的規(guī)則將數(shù)據(jù)劃分為合理的集合,即將對象分組為多個類或簇,使得在同一個簇中的對象之間具有較高的相似度,而在不同簇中的對象差別很大。聚類增強了人們對客觀現(xiàn)實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統(tǒng)的模式識別方法和數(shù)學分類學。

3.自動預測趨勢和行為。數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中進行分類和預測,尋找預測性信息,自動地提出描述重要數(shù)據(jù)類的模型或預測未來的數(shù)據(jù)趨勢,這樣以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。

4.概念描述。對于數(shù)據(jù)庫中龐雜的數(shù)據(jù),人們期望以簡潔的描述形式來描述匯集的數(shù)據(jù)集。概念描述就是對某類對象的內(nèi)涵進行描述并概括出這類對象的有關特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。

5.偏差檢測。數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結(jié)果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是尋找觀測結(jié)果與參照值之間有意義的差別。這常用于金融銀行業(yè)中檢測欺詐行為,或市場分析中分析特殊消費者的消費習慣。

二、數(shù)據(jù)挖掘在建設現(xiàn)代化高校檔案館中的應用

1.資源類數(shù)據(jù)包括館藏檔案經(jīng)過數(shù)字化加工而產(chǎn)生的各類電子檔案、電子文件中心中存儲的各類電子檔案、檔案軟件收集的信息、檔案信息網(wǎng)建設和維護信息。我們從研究大學檔案用戶的信息需求出發(fā),數(shù)據(jù)挖掘為大學檔案館全面掌握和準確理解檔案用戶的信息需求提供了方法。

(1)利用Web訪問信息挖掘技術發(fā)現(xiàn)其中的關聯(lián)模式、序列模式和Web訪問趨勢等,構(gòu)建多維視圖的用戶興趣模型。從而可以確定檔案信息或服務受歡迎的程度,發(fā)現(xiàn)用戶訪問模式和用戶需求的趨勢,從不同側(cè)面來研究用戶的信息需求,為優(yōu)化檔案館的檔案信息資源建設提供了科學依據(jù)。

(2)收集大學檔案網(wǎng)web服務器保留的用戶注冊信息、訪問記錄,以及有關用戶與系統(tǒng)交互的信息等原始數(shù)據(jù),經(jīng)過清洗、濃縮和轉(zhuǎn)換形成便于統(tǒng)計分析的用戶查閱數(shù)據(jù)庫、日志數(shù)據(jù)庫、用戶定制信息庫、用戶反饋信息等各種數(shù)據(jù)集合。

2.從建設大學檔案館館藏信息資源出發(fā),數(shù)據(jù)挖掘為大學檔案館提供了選擇一條科學發(fā)展道路的重要依據(jù)。(1)利用檔案網(wǎng)和檔案管理軟件訪問信息的挖掘分析出檔案資源的利用率,將利用率高、需求量大的傳統(tǒng)載體檔案優(yōu)先數(shù)字化。例如:通過對檔案信息的訪問記錄、檢索請求中用戶請求失敗的數(shù)據(jù)進行分析,按類統(tǒng)計檔案拒用集和頻繁利用集,結(jié)合聚集算法發(fā)現(xiàn)館藏資源的缺漏,有針對性地補充和豐富檔案信息資源。

(2)在大學檔案館藏管理過程中利用文本挖掘,運用關聯(lián)、分類、聚類等方法,從海量檔案信息中按照相關專題進行挖掘、分類、加工、整理和有序化重組,構(gòu)建特色檔案信息庫及各類專題檔案信息庫等。

3.從做好大學檔案館信息管理工作的角度出發(fā),數(shù)據(jù)挖掘為優(yōu)化館藏信息和對未來工作的預測發(fā)揮重要作用。(1)在提供利用環(huán)節(jié)中,對用戶每次借閱的信息進行關聯(lián)分析,發(fā)現(xiàn)各類檔案信息之間的關聯(lián)規(guī)則或比例關系,這樣可以進一步優(yōu)化館藏信息。

(2)開展大學檔案館館藏信息文本特征的建立、特征提取、特征匹配、特征集縮減和模型評價工作,實現(xiàn)對大量文檔集合的內(nèi)容進行總結(jié)、分類、聚類、關聯(lián)分析、分布分析,通過歸納與總結(jié),發(fā)現(xiàn)的知識可以為未來檔案工作的趨勢進行預測。

三、數(shù)據(jù)挖掘在管理類數(shù)據(jù)中的應用

大學檔案館的管理類數(shù)據(jù)包括:智能監(jiān)控系統(tǒng)、消防系統(tǒng)、溫濕度控制系統(tǒng)、智能密集架、數(shù)據(jù)管理系統(tǒng)、數(shù)據(jù)利用系統(tǒng)等在日常工作產(chǎn)生大量的管理類數(shù)據(jù)。我們得用數(shù)據(jù)挖掘工具在這類看似無用的數(shù)據(jù)中提取有價值的知識并運用到大學檔案館工作中,并在大學檔案館的現(xiàn)代化建設中發(fā)揮作用。

大學檔案館檔案工作的重點是為師生服務,以服務為中心開展各項工作,如何使用先進的工具,提高服務的質(zhì)量是一直困擾我們的難題。數(shù)據(jù)挖掘為大學檔案館檔案工作的智能化、個性化、精品化提供了行之有效的方法。在智能檢索系統(tǒng)可調(diào)用用戶興趣模型,自動修正檢索策略并可依用戶興趣將檢索結(jié)果迅速聚類和分類,并條理化地排序出來;對于設計院、社科院等科研型檔案用戶,可借助數(shù)據(jù)挖掘開展針對性的檔案信息挖掘,并將研究成果以概述、成果報告等形式提供給用戶。這樣不光實現(xiàn)了大學檔案的二次開發(fā),也會給用戶帶來意外的驚喜。

網(wǎng)絡最初只是科學家與研究人員之間交換文件的軟件,把因特網(wǎng)用于教育和研究可以得到政府的補貼。在中國,大學有撥款,圖書館有大學支持,數(shù)字圖書館的網(wǎng)絡檔案館是不贏利的,產(chǎn)出是教學和科研的長期社會效益。今天,因特網(wǎng)已經(jīng)越來越商業(yè)化了,網(wǎng)絡在數(shù)字經(jīng)濟中已成為極具潛力的技術投資對象。大學數(shù)字圖書館也可以考慮建立以贏利為目的的網(wǎng)絡檔案庫,采用網(wǎng)絡商務中的一些商務模式,例如網(wǎng)絡廣告、旗幟廣告、贊助廣告、訂閱、B2C等。收入可用于大學數(shù)字圖書館網(wǎng)絡檔案館建設的滾動發(fā)展。管理網(wǎng)絡的公共政策制定主體是政府部門,推行電子政務,開發(fā)網(wǎng)絡資源,促進從文字印刷向網(wǎng)絡出版的轉(zhuǎn)移是當前相關政府部門的重要任務。大學的政策、態(tài)度和措施對數(shù)字圖書館的發(fā)展至關重要。市場手段和政策平衡是網(wǎng)絡檔案館建設,網(wǎng)絡檔案庫運行,網(wǎng)上內(nèi)容傳遞和保存應該和必須考慮的。

參考文獻

[1]Peer to peer Networking and Digital Right Management,byMichael A.Einhom,Bill Rosenblatt,Policy Analysis No.534,CATO Institute.Fabmary 17.2005.

[2]What Every Citizen Should Know About DRM,aka Digitaleight Management,by Mike Godwin Seuitoo Technology CounselAt Pubhc Knowledge,30 January,2008,Ebook-ComputerIn-ternet.

[3]彼得·萊曼.把萬維網(wǎng)檔案化.信息化參考,2004,(13).

[4l周宏仁等.信息化助建和諧社會的14個著力點.中國信息界,2008,(3).

[5]ITU-T TechnologyWatch Reports.2006-2008,Telecom-munication Standardization Pohcy Division,ITU Telecommunica-tion Standardization Sector

主站蜘蛛池模板: 被公侵犯人妻少妇一区二区三区| 四虎综合网| 亚洲成人网在线播放| 免费在线色| 亚洲综合极品香蕉久久网| 99中文字幕亚洲一区二区| 久久久久中文字幕精品视频| 97综合久久| 亚洲精品午夜无码电影网| 成人国内精品久久久久影院| 精品国产福利在线| 久久国产热| 亚洲欧美激情另类| 天堂网亚洲综合在线| 欧美专区在线观看| 国产成人免费手机在线观看视频| 欧美在线精品怡红院| 中文一区二区视频| 国产综合色在线视频播放线视| 国产日韩精品欧美一区喷| 国产精品第5页| 中字无码av在线电影| 人妻少妇乱子伦精品无码专区毛片| 亚洲欧洲一区二区三区| 性喷潮久久久久久久久| 国产欧美日本在线观看| 久久福利网| 精品视频一区二区三区在线播| 精品偷拍一区二区| 97se亚洲综合在线天天| 久久亚洲日本不卡一区二区| 亚洲欧美成人网| 亚洲天堂在线免费| 国产精品福利在线观看无码卡| 欧美三级日韩三级| 久久精品无码一区二区国产区| 欧美日韩在线观看一区二区三区| 亚洲婷婷丁香| 亚洲精品无码AⅤ片青青在线观看| 2024av在线无码中文最新| 欧美啪啪网| 国产亚洲精品91| 久久久国产精品免费视频| 自拍偷拍欧美日韩| 成人免费午间影院在线观看| 91亚洲影院| 亚洲h视频在线| 亚卅精品无码久久毛片乌克兰 | 亚洲高清中文字幕在线看不卡| 久久精品国产国语对白| 午夜视频免费一区二区在线看| 国产成人免费手机在线观看视频| 国产三级毛片| 国产导航在线| 久久精品一卡日本电影| 2021天堂在线亚洲精品专区| 国产日本视频91| 57pao国产成视频免费播放| 韩日午夜在线资源一区二区| 国产精品视频免费网站| 国产精品女主播| 日本福利视频网站| 2018日日摸夜夜添狠狠躁| 国产99久久亚洲综合精品西瓜tv| 久久国产拍爱| 欧美日韩国产综合视频在线观看| 亚洲国产成人在线| 国产91蝌蚪窝| 亚洲自拍另类| 免费高清毛片| 91在线播放免费不卡无毒| 毛片免费在线视频| 亚洲国产成熟视频在线多多| 中文字幕资源站| 日本国产精品| 亚洲中文字幕23页在线| 无码中文字幕加勒比高清| 美女国内精品自产拍在线播放| 成人在线观看不卡| 国产精品自在拍首页视频8| 国产色伊人| 国产无遮挡裸体免费视频|