999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

林業(yè)科研檔案數(shù)據(jù)挖掘研究

2017-03-30 09:57:29劉丹程全英李凡趙揚(yáng)張卓立
科技與創(chuàng)新 2016年22期
關(guān)鍵詞:數(shù)據(jù)挖掘

劉丹+程全英+李凡+趙揚(yáng)+張卓立

(中國(guó)林業(yè)科學(xué)研究院資源信息研究所,北京 100091)

摘 要:對(duì)林業(yè)科研檔案實(shí)行信息化的管理及深度的數(shù)據(jù)挖掘,不僅能夠及時(shí)、準(zhǔn)確地反映林業(yè)科研活動(dòng)的動(dòng)態(tài)、發(fā)展方向、最新成果,還能夠?yàn)榱謽I(yè)科研項(xiàng)目的正確、合理實(shí)施提供參考依據(jù)。整合多種格式的數(shù)據(jù)來(lái)源,包含電子表格數(shù)據(jù)、文本數(shù)據(jù)、音視頻數(shù)據(jù),通過(guò)神經(jīng)元網(wǎng)絡(luò)、聚類(lèi)分析等技術(shù),實(shí)現(xiàn)了對(duì)林業(yè)科研檔案數(shù)據(jù)的深度發(fā)掘和分析,為林業(yè)科研檔案的充分利用提供了方法。

關(guān)鍵詞:林業(yè);科研檔案;數(shù)據(jù)挖掘;挖掘算法

中圖分類(lèi)號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.15913/j.cnki.kjycx.2016.22.019

一個(gè)單位的檔案就是一部歷史,里面記載著這個(gè)單位的發(fā)展歷程,凝聚著幾代人的心血和智慧,是前人留給后人的寶貴遺產(chǎn),是歷史交給未來(lái)的無(wú)價(jià)資源。無(wú)論是各級(jí)領(lǐng)導(dǎo),還是檔案的生產(chǎn)、管理、使用等業(yè)務(wù)和智能部門(mén),都應(yīng)重視挖掘檔案材料中蘊(yùn)藏著的豐富的信息資源,為科研創(chuàng)新能力的形成、生長(zhǎng)提供有力的服務(wù)。

檔案資料是重大活動(dòng)、重要事件經(jīng)驗(yàn)的積累,規(guī)律的揭示,是信息和知識(shí)的重要資源,是維護(hù)科研單位合法知識(shí)產(chǎn)品的有利憑證,也是科研傳統(tǒng)教育的生動(dòng)教材。林業(yè)科研檔案主要記錄科研項(xiàng)目執(zhí)行的全部軌跡,包含項(xiàng)目申請(qǐng)、項(xiàng)目中驗(yàn)、項(xiàng)目驗(yàn)收等過(guò)程中產(chǎn)生的一切文檔資料。中國(guó)林業(yè)科學(xué)研究院資源信息研究所成立于1985年,承擔(dān)了多項(xiàng)科研任務(wù),積累了大量的科研檔案,檔案的管理經(jīng)歷了從傳統(tǒng)的館藏檔案模式到數(shù)字化、信息化管理方式的轉(zhuǎn)變,已經(jīng)建立起具有管理標(biāo)準(zhǔn)化、服務(wù)網(wǎng)絡(luò)化、安全可靠的數(shù)字化檔案館,制定了符合檔案信息化發(fā)展和林業(yè)科研特點(diǎn)的標(biāo)準(zhǔn)規(guī)范和管理體系。但是這些檔案只停留在簡(jiǎn)單的檢索、查詢(xún)這樣的數(shù)據(jù)管理和共享層面,沒(méi)有對(duì)檔案本身的內(nèi)容進(jìn)行挖掘,提煉出有價(jià)值的數(shù)據(jù)。科研檔案用好了,有助于開(kāi)闊思路、啟迪智慧,全面、系統(tǒng)、深入地了解學(xué)科建設(shè)的階段性特色,不斷深化對(duì)新時(shí)期、新階段學(xué)科建設(shè)規(guī)律的認(rèn)識(shí),使科研工作更加符合科學(xué)發(fā)展觀的要求。

1 林業(yè)科研檔案的數(shù)據(jù)挖掘需求

“數(shù)據(jù)挖掘”是一門(mén)廣義的交叉學(xué)科,脫胎于計(jì)算機(jī),雖然已被應(yīng)用到諸多領(lǐng)域,圖書(shū)、情報(bào)界的實(shí)踐也已經(jīng)充分驗(yàn)證其價(jià)值,但在檔案界,數(shù)據(jù)挖掘仍然被當(dāng)成深?yuàn)W的技術(shù)和理論。如何從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識(shí)呢?這個(gè)過(guò)程的目的就是發(fā)現(xiàn)隱藏在大量數(shù)據(jù)泥沙中的“知識(shí)金礦”。數(shù)據(jù)挖掘不是簡(jiǎn)單的面向特定數(shù)據(jù)庫(kù)的檢索、查詢(xún)、調(diào)用,而是要對(duì)這些數(shù)據(jù)進(jìn)行全方位的統(tǒng)計(jì)、分析、綜合和推理,以指導(dǎo)實(shí)際問(wèn)題的求解,企圖發(fā)現(xiàn)事件間的相互聯(lián)系,甚至利用已有的數(shù)據(jù)對(duì)未來(lái)的活動(dòng)進(jìn)行預(yù)測(cè)。

資源信息研究所檔案分類(lèi)的實(shí)際情況具有以下幾個(gè)特點(diǎn):①資源信息研究所檔案管理系統(tǒng)儲(chǔ)存管理的是研究所日常工作的科研檔案,具有專(zhuān)業(yè)特點(diǎn),其劃分的類(lèi)別和特征詞匯都具有專(zhuān)業(yè)性。②資源信息研究所的檔案數(shù)量級(jí)不會(huì)很大,不會(huì)有大量的訓(xùn)練樣本供機(jī)器學(xué)習(xí)。而通常分類(lèi)算法都是需要手工對(duì)一定數(shù)量的訓(xùn)練樣本分類(lèi)作為訓(xùn)練集。如果訓(xùn)練集的數(shù)量過(guò)小,

———————————————————————————

則會(huì)影響分類(lèi)的精確度。③檔案類(lèi)型豐富,包含圖片、視頻、文本等。④需要在著錄入系統(tǒng)時(shí)對(duì)檔案分類(lèi)。這就需要分類(lèi)算法在性能上必須有很好的保證,不能讓著錄的系統(tǒng)用戶(hù)長(zhǎng)時(shí)間等待。而上述分類(lèi)算法都需要計(jì)算當(dāng)前文本與其他所有分類(lèi)個(gè)體的相似度,無(wú)法在時(shí)間花費(fèi)上滿(mǎn)足實(shí)際需要,必須優(yōu)化。

2 林業(yè)科研檔案的數(shù)據(jù)挖掘算法設(shè)計(jì)

在檔案管理系統(tǒng)中,分類(lèi)算法的選取需要結(jié)合資源信息研究所檔案的專(zhuān)業(yè)性特點(diǎn)、檔案數(shù)量以及考慮檔案分類(lèi)需求在系統(tǒng)功能中對(duì)效率等方面的實(shí)際要求。

貝葉斯、KNN、SVM、TF-IDF等常用分類(lèi)算法的主要思想都是要計(jì)算一篇文本與其他類(lèi)別文本的相似度(距離),或者依照詞頻等指標(biāo)計(jì)算文本屬于某個(gè)類(lèi)別的概率,從而判斷此文本屬于某個(gè)類(lèi)別。這些算法雖然各有特點(diǎn),但都無(wú)法被直接應(yīng)用于檔案管理系統(tǒng)。

綜合以上各種因素,最終選取TF-IDF算法并優(yōu)化調(diào)整:考慮到科研檔案分類(lèi)的專(zhuān)業(yè)性,同時(shí)也為了保證算法的執(zhí)行速度,選取資源信息研究所提供的專(zhuān)業(yè)詞匯作為特征詞集,以此作為分類(lèi)計(jì)算用的關(guān)鍵詞。其他非專(zhuān)業(yè)詞匯,與分類(lèi)相關(guān)性不大,作為“應(yīng)刪除詞”排除在分類(lèi)算法之外。

在檔案著錄時(shí),業(yè)務(wù)人員會(huì)將檔案的題目以及摘要錄入,主題及特征詞在錄入信息中體現(xiàn)。因此,沒(méi)有必要對(duì)整篇檔案進(jìn)行掃描、分詞并計(jì)算,只需對(duì)題目和摘要進(jìn)行分詞,對(duì)比特征詞集挑選關(guān)鍵詞計(jì)算即可。

檔案管理系統(tǒng)的檔案數(shù)量級(jí)決定了不會(huì)有大量的手工分類(lèi)樣本作為訓(xùn)練集,同時(shí)為了提高算法的執(zhí)行效率,改由有經(jīng)驗(yàn)的專(zhuān)業(yè)人員通過(guò)系統(tǒng)的專(zhuān)業(yè)詞管理功能,配置特征詞集中的特征詞的所屬類(lèi)別及權(quán)重,以作為分類(lèi)算法的計(jì)算依據(jù),并可隨時(shí)依據(jù)算法對(duì)實(shí)際運(yùn)行情況進(jìn)行調(diào)整。

優(yōu)化后的算法如下。

從檔案的題目及摘要中的單詞中,對(duì)照特征詞集挑選出此檔案S包括的所有特征詞tk(1≤k≤n,n為此檔案所含特征詞總數(shù))。tk在此檔案中出現(xiàn)的次數(shù)為dk,tk在分類(lèi)時(shí)的權(quán)重為wk。tk中屬于檔案分類(lèi)cj(cj∈C,C為所有分類(lèi)集合)的特征詞可以tj表示,對(duì)應(yīng)的出現(xiàn)次數(shù)以djp表示,權(quán)重以wjp表示。則檔

案S中屬于分類(lèi)cj的特征詞加權(quán)求和為 (1≤m≤n,m為

檔案S中屬于分類(lèi)cj的特征詞總數(shù),n為此檔案所含特征詞總數(shù)),檔案S與分類(lèi)cj相關(guān)性為:

例如,檔案《東北常見(jiàn)樹(shù)木生長(zhǎng)周期研究》的題目及摘要中包含5個(gè)特征詞,即“松木”“核桃楸”“白樺”“黑土”“冬季”。其中,松木(出現(xiàn)1次)、核桃楸(出現(xiàn)2次)、白樺(出現(xiàn)3次)屬于分類(lèi)“樹(shù)木類(lèi)”,權(quán)重分別為0.4,0.3,0.1;黑土(出現(xiàn)2次)屬于“地質(zhì)類(lèi)”,權(quán)重為0.2;冬季(出現(xiàn)1次)屬于“氣象類(lèi)”,權(quán)重為0.3.則檔案《東北常見(jiàn)樹(shù)木生長(zhǎng)周期研究》分類(lèi)為:

3 總結(jié)

通過(guò)對(duì)中國(guó)林業(yè)科學(xué)研究院資源信息研究所現(xiàn)有的紙質(zhì)、聲像、實(shí)物等各種形式的科技檔案進(jìn)行深入的調(diào)查與篩選,確定符合林業(yè)科技檔案需求的數(shù)據(jù)挖掘算法。通過(guò)該算法,可以充分將現(xiàn)有檔案中的知識(shí)更好地利用起來(lái),更好地服務(wù)全體科研人員,為研究所領(lǐng)導(dǎo)提供科研決策支持,將大大提高研究所科研檔案管理工作的信息化水平。

參考文獻(xiàn)

[1]馮惠玲.檔案管理學(xué)[M].北京:中國(guó)人民大學(xué)出版社,1999.

[2]王傳宇.科技檔案管理學(xué)[M].北京:中國(guó)人民大學(xué)出版社,2009.

[3]樓淑君,鐘小安.檔案管理事務(wù)[M].重慶:重慶大學(xué)出版社,2010.

[4]黃秀芬.關(guān)于科技檔案信息資源開(kāi)發(fā)利用的思考[J].廣東水利水電,2009(12).

[5]李海燕,吳志華,王可煒.充分發(fā)揮科技檔案在科研管理中的作用[J].中華醫(yī)院管理雜志,2002(2).

[6]吳育芝.農(nóng)業(yè)科技檔案的范圍、特點(diǎn)和作用[J].檔案學(xué)通訊,1999(2).

[7]黃曉霞.數(shù)據(jù)挖掘集成技術(shù)研究[J].計(jì)算機(jī)應(yīng)用研究,2003(4).

[8]于海英.整理檔案應(yīng)注意挖掘檔案信息[J].蘭臺(tái)內(nèi)外,2000(3).

〔編輯:劉曉芳〕

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣(mài)OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書(shū)館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
主站蜘蛛池模板: 国产精品青青| 极品尤物av美乳在线观看| 人人91人人澡人人妻人人爽| 国产一区二区网站| 亚洲浓毛av| 亚洲成人一区二区三区| 日本一本在线视频| 欧美成人手机在线视频| 久久亚洲美女精品国产精品| 午夜国产不卡在线观看视频| 国产香蕉在线视频| 91精品国产91欠久久久久| 老司机久久精品视频| 欧美国产成人在线| 亚洲欧洲综合| 91在线精品免费免费播放| 亚洲Av综合日韩精品久久久| 麻豆精品久久久久久久99蜜桃| 人妻出轨无码中文一区二区| 久久国产毛片| 亚洲视频在线网| 国产va欧美va在线观看| 国产欧美精品一区二区| 欧美成人综合在线| 色香蕉网站| 国产人免费人成免费视频| 欧美成人日韩| 国产精品内射视频| 亚洲欧美精品日韩欧美| 亚洲av片在线免费观看| 欧美区日韩区| 国产成在线观看免费视频| 日韩在线欧美在线| 亚洲伊人电影| 99久久国产自偷自偷免费一区| 一本大道东京热无码av| 最新痴汉在线无码AV| 久久综合伊人 六十路| 国产精品无码一区二区桃花视频| 55夜色66夜色国产精品视频| 国产欧美自拍视频| 欧美中文字幕一区| 国产成人1024精品| 久久人人爽人人爽人人片aV东京热| 久久黄色影院| 亚洲成人网在线播放| 国产精品无码久久久久久| 爆乳熟妇一区二区三区| 免费无码一区二区| 免费无码AV片在线观看国产| 99久久国产综合精品2023| 亚洲精品福利视频| 国内丰满少妇猛烈精品播 | 亚洲精品国产精品乱码不卞| 亚洲无线国产观看| 日韩麻豆小视频| 中文字幕在线观| 国产欧美在线观看视频| 夜精品a一区二区三区| 国产精品三级av及在线观看| 99无码熟妇丰满人妻啪啪| 99久视频| 国产极品嫩模在线观看91| 亚洲一区二区视频在线观看| 国产va免费精品| 99九九成人免费视频精品| 国产精品浪潮Av| 亚洲三级视频在线观看| 亚洲无码高清一区| 免费国产不卡午夜福在线观看| 无码丝袜人妻| 白浆免费视频国产精品视频| 日韩欧美中文字幕一本| 97亚洲色综久久精品| 成人国产三级在线播放| 国外欧美一区另类中文字幕| 国产乱子伦无码精品小说| 日本三区视频| 欧美激情成人网| 亚洲三级色| 亚洲AV无码久久天堂| 国产欧美网站|