999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于內(nèi)容特征的科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)研究

2018-01-10 07:33:13黃筱瑾
現(xiàn)代情報(bào) 2018年1期
關(guān)鍵詞:關(guān)聯(lián)科學(xué)特征

黃筱瑾

(成都理工大學(xué)圖書(shū)館,四川 成都 610059)

·理論探索·

基于內(nèi)容特征的科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)研究

黃筱瑾

(成都理工大學(xué)圖書(shū)館,四川 成都 610059)

科學(xué)數(shù)據(jù)和科技文獻(xiàn)是科研成果產(chǎn)出的兩個(gè)重要表現(xiàn)形式。科技數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)分析對(duì)于實(shí)現(xiàn)集成信息服務(wù)、促進(jìn)知識(shí)發(fā)現(xiàn)和完善E-science環(huán)境具有重要意義。文章從科學(xué)數(shù)據(jù)和科技文獻(xiàn)的元數(shù)據(jù)出發(fā),從兩者的元數(shù)據(jù)描述中提取出表達(dá)內(nèi)容特征的元數(shù)據(jù)項(xiàng),并利用向量空間模型進(jìn)行特征的相似性計(jì)算,從而關(guān)聯(lián)科學(xué)數(shù)據(jù)與科技文獻(xiàn)。

科學(xué)數(shù)據(jù);科技文獻(xiàn);元數(shù)據(jù);向量空間模型;特征提取

隨著科學(xué)數(shù)據(jù)的高速增長(zhǎng)和科學(xué)數(shù)據(jù)驅(qū)動(dòng)的科研范式的逐步形成,科學(xué)數(shù)據(jù)在整個(gè)科研流程中的重要性越來(lái)越受到重視。對(duì)于科研工作者而言,學(xué)術(shù)資源已不再僅僅是指期刊文獻(xiàn)和專(zhuān)著等傳統(tǒng)文獻(xiàn)類(lèi)型,科學(xué)數(shù)據(jù)和科研記錄資料等也逐漸成為科研人員學(xué)術(shù)信息需求的重點(diǎn)。將科學(xué)數(shù)據(jù)與現(xiàn)有的基于科技文獻(xiàn)的科研信息支撐系統(tǒng)有效地關(guān)聯(lián),提供高質(zhì)量集成信息服務(wù),進(jìn)而提高科學(xué)研究活動(dòng)效率,成為一個(gè)迫切需要解決的問(wèn)題。

開(kāi)展科學(xué)數(shù)據(jù)與科技文獻(xiàn)之間的關(guān)聯(lián)對(duì)于科學(xué)數(shù)據(jù)的獲取與共享、科學(xué)數(shù)據(jù)的復(fù)用和科研創(chuàng)新、科技文獻(xiàn)的評(píng)價(jià)與評(píng)審乃至學(xué)術(shù)交流體系的轉(zhuǎn)變等都有極其重要的意義。為此,一些研究者也開(kāi)展了相關(guān)的研究,文獻(xiàn)[1]以Elsevier出版集團(tuán)的科學(xué)文獻(xiàn)與科學(xué)數(shù)據(jù)關(guān)聯(lián)實(shí)踐為研究對(duì)象,深入分析其4種關(guān)聯(lián)方式;文獻(xiàn)[2]分析了科學(xué)數(shù)據(jù)的不同來(lái)源以及科學(xué)數(shù)據(jù)與科技文獻(xiàn)的不同關(guān)聯(lián)模式;文獻(xiàn)[3]分析了當(dāng)前期刊、出版商、數(shù)據(jù)庫(kù)商等不同主體,探索通過(guò)期刊與數(shù)據(jù)互聯(lián)、數(shù)據(jù)庫(kù)服務(wù)、科學(xué)數(shù)據(jù)期刊等途徑提供關(guān)聯(lián)服務(wù)的嘗試;文獻(xiàn)[4]基于引文進(jìn)行了科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)研究。同時(shí),本文作者在對(duì)科學(xué)數(shù)據(jù)與科技文獻(xiàn)的關(guān)聯(lián)研究中,提出了基于元數(shù)據(jù)進(jìn)行兩者的關(guān)聯(lián),并就關(guān)聯(lián)的模式及可行性進(jìn)行了分析[5]。在該研究的基礎(chǔ)上,本文從科學(xué)數(shù)據(jù)和科技文獻(xiàn)的元數(shù)據(jù)中提取出表達(dá)內(nèi)容特征的元數(shù)據(jù)項(xiàng),基于內(nèi)容特征進(jìn)行科學(xué)數(shù)據(jù)與科技文獻(xiàn)的關(guān)聯(lián)研究。

1 內(nèi)容特征提取的可行性分析

特征是對(duì)一個(gè)客體或一組客體特性的抽象結(jié)果。科學(xué)數(shù)據(jù)和科技文獻(xiàn)的特征都可以分為外部特征和內(nèi)部特征。科學(xué)數(shù)據(jù)的外部特征是指創(chuàng)建者、數(shù)據(jù)來(lái)源、發(fā)布機(jī)構(gòu)、數(shù)據(jù)量、格式、語(yǔ)種等與其表達(dá)內(nèi)容沒(méi)有過(guò)多關(guān)系的特征,內(nèi)部特征是指數(shù)據(jù)名稱(chēng)、關(guān)鍵詞、摘要(簡(jiǎn)介)等表達(dá)數(shù)據(jù)內(nèi)容的特征。科技文獻(xiàn)的外部特征是指著者、著者單位、著者機(jī)構(gòu)等,而內(nèi)部特征是指題名、摘要、主題詞、關(guān)鍵詞等反映文獻(xiàn)內(nèi)容的特征。如果能提取科學(xué)數(shù)據(jù)和科技文獻(xiàn)的內(nèi)容特征,并建立他們之間的關(guān)聯(lián),就能將其背后的科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)起來(lái)。

1.1 科學(xué)數(shù)據(jù)內(nèi)容特征提取的可行性分析

科學(xué)數(shù)據(jù)是指各類(lèi)科技活動(dòng)產(chǎn)生的原始性基礎(chǔ)性數(shù)據(jù)及按照不同需求加工后的數(shù)據(jù)集和相關(guān)信息[6]。作為一種信息資源,科學(xué)數(shù)據(jù)的具體格式和類(lèi)型包括:觀察模擬數(shù)據(jù);分類(lèi)術(shù)語(yǔ)表;數(shù)學(xué)表達(dá)式;分子、化學(xué)、基因表達(dá)式;結(jié)構(gòu)、物理、計(jì)算模型;表格、圖形、圖表、地圖、圖片;實(shí)地與試驗(yàn)筆記等。科學(xué)數(shù)據(jù)由于其具有數(shù)據(jù)的大量性、不均勻性、不規(guī)整性、動(dòng)力學(xué)性、高維性等特點(diǎn)[7],對(duì)其特征進(jìn)行描述是比較困難的。作者對(duì)一些科學(xué)數(shù)據(jù)庫(kù)及共享平臺(tái)進(jìn)行了研究分析,其在對(duì)科學(xué)數(shù)據(jù)的特征進(jìn)行揭示時(shí),主要是通過(guò)元數(shù)據(jù)來(lái)進(jìn)行描述的。元數(shù)據(jù)以其互操作性、可擴(kuò)展性、語(yǔ)言互用性、可映射性等特點(diǎn),已成為科學(xué)數(shù)據(jù)管理的基礎(chǔ),目前各科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)大多使用元數(shù)據(jù)來(lái)描述科學(xué)數(shù)據(jù)的外部特征和內(nèi)容特征,進(jìn)行科學(xué)數(shù)據(jù)的管理以及實(shí)現(xiàn)不同平臺(tái)間科學(xué)數(shù)據(jù)的交換與整合。

作者在對(duì)國(guó)內(nèi)建設(shè)得比較完善的10個(gè)科學(xué)數(shù)據(jù)平臺(tái)做了分析[5]。這些科學(xué)數(shù)據(jù)平臺(tái)通過(guò)元數(shù)據(jù)來(lái)描述數(shù)據(jù)本身的特征和屬性,從而利于科學(xué)數(shù)據(jù)的存儲(chǔ)、利用和管理。各科學(xué)數(shù)據(jù)平臺(tái)多以DC定義的15個(gè)基本的核心元數(shù)據(jù)作為科學(xué)數(shù)據(jù)基本元數(shù)據(jù)。除此之外,再根據(jù)各學(xué)科科學(xué)數(shù)據(jù)的特點(diǎn),進(jìn)行有效拓展,定義一些和基本元素不重復(fù)的新元素。從調(diào)查發(fā)現(xiàn),主要的元數(shù)據(jù)描述項(xiàng)包括數(shù)據(jù)名稱(chēng)、格式、關(guān)鍵詞、摘要(簡(jiǎn)介)、數(shù)據(jù)量、語(yǔ)種、分類(lèi)、數(shù)據(jù)來(lái)源、創(chuàng)建者、其他貢獻(xiàn)者、創(chuàng)建日期、發(fā)布機(jī)構(gòu)、關(guān)聯(lián)信息、范圍(時(shí)間范圍、空間范圍)、聯(lián)系信息等。

國(guó)外的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)平臺(tái)同樣通過(guò)元數(shù)據(jù)進(jìn)行數(shù)據(jù)描述。Dryad數(shù)據(jù)庫(kù)旨在實(shí)現(xiàn)對(duì)進(jìn)化生物學(xué)領(lǐng)域期刊論文的支撐數(shù)據(jù)的保存、發(fā)現(xiàn)、復(fù)用和管理的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)[8]。

Dryad的元數(shù)據(jù)描述以DC元數(shù)據(jù)元素為基礎(chǔ),融合了其他元數(shù)據(jù)標(biāo)準(zhǔn)的元素。目前Dryad的元數(shù)據(jù)元素包括數(shù)據(jù)名稱(chēng)、類(lèi)型、作者、國(guó)家、提交日期、可獲取日期、卷期、DOI識(shí)別符、引用、統(tǒng)一資源標(biāo)識(shí)符、描述、主題詞、關(guān)聯(lián)信息(來(lái)源文獻(xiàn)DOI識(shí)別符、來(lái)源文獻(xiàn)PMID號(hào))。PANGAEA[9]是一個(gè)地球環(huán)境科學(xué)領(lǐng)域的數(shù)據(jù)倉(cāng)儲(chǔ),PANGAEA允許數(shù)據(jù)提交者通過(guò)使用都柏林核心、DIF或ISO 19115元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行地球環(huán)境科學(xué)科學(xué)數(shù)據(jù)的描述。目前PANGAEA的元數(shù)據(jù)元素主要包括數(shù)據(jù)名稱(chēng)、關(guān)聯(lián)信息(來(lái)源文獻(xiàn)DOI識(shí)別符)、摘要、空間范圍、空間參數(shù)、知識(shí)共享署名許可協(xié)議、引用和責(zé)任方信息等。基于此,從元數(shù)據(jù)中提取科學(xué)數(shù)據(jù)的內(nèi)容特征既具有高效性又具有可行性。

1.2 科技文獻(xiàn)內(nèi)容特征提取的可行性分析

元數(shù)據(jù)的目的之一是用于有效地描述文獻(xiàn)的原始數(shù)據(jù),保存文獻(xiàn)數(shù)據(jù)的內(nèi)在本質(zhì),特別是對(duì)于文獻(xiàn)類(lèi)電子資源。雖然,元數(shù)據(jù)的出現(xiàn)是網(wǎng)絡(luò)發(fā)展的產(chǎn)物,但是從其出現(xiàn)之初,就受到了圖書(shū)館界和數(shù)據(jù)庫(kù)商的青睞。圖書(shū)館在建立數(shù)字圖書(shū)館時(shí),數(shù)據(jù)庫(kù)商對(duì)文獻(xiàn)類(lèi)電子資源進(jìn)行發(fā)展、推廣和應(yīng)用時(shí),都迫切需要一種標(biāo)準(zhǔn)和規(guī)范來(lái)描述文獻(xiàn)類(lèi)電子資源的原始屬性,因此,元數(shù)據(jù)成為對(duì)文獻(xiàn)原始屬性進(jìn)行描述的一大選擇。文獻(xiàn)[10]對(duì)萬(wàn)方等幾個(gè)數(shù)字圖書(shū)館系統(tǒng)元數(shù)據(jù)使用情況進(jìn)行了統(tǒng)計(jì)。中科院文獻(xiàn)情報(bào)中心的研究人員也針對(duì)期刊論文的元數(shù)據(jù)描述規(guī)范進(jìn)行了專(zhuān)門(mén)的研究,其元數(shù)據(jù)元素見(jiàn)表1[11]。由此可見(jiàn),一篇科技文獻(xiàn)可以從它的元數(shù)據(jù)元素中提取題名、主題、描述等來(lái)表示科技文獻(xiàn)的內(nèi)容特征。因此,從元數(shù)據(jù)中提取科技文獻(xiàn)的內(nèi)容特征同樣是具有可行性的。

表1 期刊論文元數(shù)據(jù)構(gòu)成

由此可見(jiàn),元數(shù)據(jù)已經(jīng)廣泛地存在于文獻(xiàn)數(shù)據(jù)庫(kù)和科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)中,為兩者的關(guān)聯(lián)提供了較為豐富的數(shù)據(jù)基礎(chǔ)。表2中對(duì)科學(xué)數(shù)據(jù)與科技文獻(xiàn)的元數(shù)據(jù)元素進(jìn)行對(duì)比,在元數(shù)據(jù)元素名稱(chēng)上雖然兩者的表述方式存在差異,但是其描述的實(shí)質(zhì)內(nèi)容卻是一樣的,特別是在內(nèi)容特征元素的描述上是可以相互映射的。通過(guò)提取兩者元數(shù)據(jù)中的標(biāo)題、摘要、關(guān)鍵詞等文本描述字段,可以進(jìn)行兩者內(nèi)容特征的關(guān)聯(lián),從而實(shí)現(xiàn)科學(xué)數(shù)據(jù)與科技文獻(xiàn)的關(guān)聯(lián)。

表2 科學(xué)數(shù)據(jù)與科技文獻(xiàn)元數(shù)據(jù)映射表

2 基于內(nèi)容特征的科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)方法

基于以上的研究分析,本研究通過(guò)對(duì)科學(xué)數(shù)據(jù)和科技文獻(xiàn)元數(shù)據(jù)項(xiàng)中的內(nèi)容特征進(jìn)行提取,并對(duì)提取的特征信息進(jìn)行相似性計(jì)算,從而判斷科學(xué)數(shù)據(jù)和科技文獻(xiàn)是否具有內(nèi)容相似性,見(jiàn)圖1。

利用文本進(jìn)行相似性計(jì)算的方法有多種,本研究主要采用向量空間模型(Vector Space Model,VSM)進(jìn)行文本特征表示,通過(guò)TF-IDF方法進(jìn)行特征的權(quán)值計(jì)算,采用余弦相似度計(jì)算方法來(lái)衡量資源對(duì)象的相似性。

圖1 科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)圖

向量空間模型的基本思想是[12]:設(shè)自然語(yǔ)言文本表示為D,預(yù)定義的特征詞集合表示為(T0,T1,…,Tn-1。通過(guò)計(jì)算機(jī)自動(dòng)分詞并計(jì)算出相應(yīng)特征詞的權(quán)重(W0,W1,…,Wn-1)后,文本D可用特征項(xiàng)及相應(yīng)的權(quán)重表示為D(T0,W0,T1,W1,…,Tn-1,Wn-1),其中n為文本D所含特征詞的個(gè)數(shù),Ti為某一特征詞,Wi為根據(jù)某種規(guī)則計(jì)算出的該特征詞的權(quán)重。若不考慮Ti在文獻(xiàn)中出現(xiàn)的先后順序且Ti,i=0,1,…,n-1互異時(shí),可以把(T0,T1,…,Tn-1)看作是一個(gè)n維坐標(biāo)系,(W0,W1,…,Wn-1)則代表該坐標(biāo)系構(gòu)成的n維空間中的一個(gè)點(diǎn)或向量,這個(gè)向量為文本D的向量表示或者向量空間模型。

使用TF-IDF(Term Frequency-Inverse Document Frequency)方法進(jìn)行特征的權(quán)值計(jì)算,文獻(xiàn)Di中第j個(gè)特征詞的權(quán)值Wij可以通過(guò)TF×TIF得到,其中TF(Term Frequency)和IDF(Inverse Document Frequency)分別表示術(shù)語(yǔ)頻率和逆文檔頻率。TF用于度量特征詞在特定文獻(xiàn)的重要程度,其值越大說(shuō)明這個(gè)特征詞越能反映文獻(xiàn)的核心問(wèn)題。文獻(xiàn)Di中第j個(gè)特征詞術(shù)語(yǔ)頻率為:

(1)

其中,|Tj|表示在文獻(xiàn)Di中特征詞Tj出現(xiàn)的次數(shù),|Di|表示Di中所有單詞的個(gè)數(shù)IDF用于度量特征詞在整個(gè)文獻(xiàn)集中的重要性。一般來(lái)說(shuō),整個(gè)文獻(xiàn)集包含某一項(xiàng)T的文獻(xiàn)越多,則表明這個(gè)特征項(xiàng)在該文獻(xiàn)集中區(qū)分不同文獻(xiàn)的能力較差,對(duì)特定文獻(xiàn)的專(zhuān)指度也比較低,因而其值也就越小。Di中第j個(gè)特征詞的倒文本率為:

(2)

其中,Num表示文獻(xiàn)集中的文獻(xiàn)總數(shù),df(j)表示在所有被分析的文獻(xiàn)中,包含了特征詞Tj的文獻(xiàn)數(shù)目。根據(jù)公式(1)、(2)分別計(jì)算出某特征詞的TF和IDF值,并將這兩個(gè)值相乘就得到了該特征詞的權(quán)值。從科技文獻(xiàn)的元數(shù)據(jù)文本內(nèi)容中抽取的特征向量表示為D(Ti0,Wi0,Ti1,Wi1,…,Tin-1,Win-1),其中Ti表示第i個(gè)文本特征項(xiàng),Wi表示該特征項(xiàng)的權(quán)重,從科學(xué)數(shù)據(jù)的元數(shù)據(jù)文本內(nèi)容中抽取的特征向量表示為Sj(Tj0,Wj0,Tj1,Wj1,…,Tjm-1,Wjm-1,其中Tj表示第j個(gè)文本特征項(xiàng),WJ表示該特征項(xiàng)的權(quán)重。

當(dāng)文本以向量形式表示時(shí),文本的相似度用文本特征向量的距離來(lái)衡量,即使用向量間夾角θ的余弦來(lái)計(jì)算,余弦計(jì)算正好是一個(gè)介于0~1的數(shù),如果向量一致就是1,如果正交就是0,符合相似度百分比的特性:

(3)

3 實(shí)例分析

選用國(guó)家地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺(tái)中的“青藏高原東緣森林生態(tài)系統(tǒng)土壤有機(jī)質(zhì)和養(yǎng)分?jǐn)?shù)據(jù)”[13]作為測(cè)試數(shù)據(jù),在科技文獻(xiàn)的選取上,采用人工判定的方法,選取了4篇相關(guān)性的文獻(xiàn)及2篇不相關(guān)的文獻(xiàn),具體見(jiàn)表3。通過(guò)對(duì)該科學(xué)數(shù)據(jù)與各科技文獻(xiàn)的特征向量進(jìn)行相似性計(jì)算,來(lái)驗(yàn)證該科學(xué)數(shù)據(jù)與科技文獻(xiàn)的相關(guān)性是否與人工設(shè)定的一致。

表3 實(shí)驗(yàn)分析來(lái)源數(shù)據(jù)

我們利用文本特征詞提取工具ROST TF-IDF[14]及內(nèi)容挖掘工具ROST Content Mining分析科學(xué)數(shù)據(jù)及科技文獻(xiàn)的元數(shù)據(jù)中表示內(nèi)容特征的元素項(xiàng)的文本內(nèi)容,ROST TFIDF嵌入了tf-idf Chinese模塊,根據(jù)特征詞權(quán)重的TF-IDF量化方法原理,對(duì)文本進(jìn)行分詞和詞頻統(tǒng)計(jì),得到“逆文本頻率指數(shù)”IDF和TF以及TF*IDF的值,見(jiàn)圖2。提取出科學(xué)數(shù)據(jù)和各科技文獻(xiàn)的特征向量,通過(guò)公式3進(jìn)行科學(xué)數(shù)據(jù)與預(yù)先設(shè)定的科技文獻(xiàn)的相似性計(jì)算和判定,結(jié)果證明通過(guò)向量空間模型計(jì)算出的科學(xué)數(shù)據(jù)與科技文獻(xiàn)的關(guān)聯(lián)性與人工判斷的關(guān)聯(lián)性是一致的。

圖2 ROST CM使用過(guò)程圖

4 結(jié) 語(yǔ)

近年來(lái),一批具有高使用價(jià)值的科學(xué)數(shù)據(jù)共享平臺(tái)逐步建立起來(lái)并投入使用,同時(shí),地球科學(xué)、生物學(xué)、空間科學(xué)、材料科學(xué)等學(xué)科領(lǐng)域在科學(xué)數(shù)據(jù)元數(shù)據(jù)的標(biāo)準(zhǔn)、結(jié)構(gòu)、管理體系、互操作性等方面進(jìn)行了研究,建立了相應(yīng)的科學(xué)數(shù)據(jù)共享服務(wù)的元數(shù)據(jù)體系結(jié)構(gòu),這些都為筆者從科學(xué)數(shù)據(jù)與科技文獻(xiàn)的元數(shù)據(jù)中提取內(nèi)容特征奠定了良好的基礎(chǔ)。本文提出了從題名、主題、描述等元數(shù)據(jù)項(xiàng)中提取科學(xué)數(shù)據(jù)與科技文獻(xiàn)的內(nèi)容特征,通過(guò)向量空間模型進(jìn)行兩者相似度計(jì)算,從而進(jìn)行科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)的方法。在實(shí)踐過(guò)程中還會(huì)涉及元數(shù)據(jù)收割、元數(shù)據(jù)映射等相關(guān)內(nèi)容。同時(shí),由于自然語(yǔ)言的復(fù)雜性,提取出的特征詞在表達(dá)對(duì)象內(nèi)容時(shí)可能存在語(yǔ)義上的不確定性。針對(duì)以上問(wèn)題,將在今后進(jìn)行更加深入的研究。

[1]衛(wèi)軍朝.科學(xué)文獻(xiàn)與科學(xué)數(shù)據(jù)關(guān)聯(lián)實(shí)踐研究——以Elsevier為例[J].國(guó)家圖書(shū)館學(xué)刊,2017,(3):93-101.

[2]孫文佳,常娥.科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)分析[J].圖書(shū)館理論與實(shí)踐,2017,(3):49-53.

[3]邱春艷.期刊文獻(xiàn)與科學(xué)數(shù)據(jù)的關(guān)聯(lián)服務(wù)研究[J].情報(bào)資料工作,2014,(2):63-66.

[4]郭學(xué)武.基于引文的科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)研究[J].情報(bào)科學(xué),2014,(4):59-62,125.

[5]黃筱瑾.基于元數(shù)據(jù)的科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)研究[J].情報(bào)理論與實(shí)踐,2013,(7):27-30.

[6]鄭淑容,趙培云.科學(xué)數(shù)據(jù)共享管理:?jiǎn)栴}及對(duì)策[J].中國(guó)科技成果,2003,(23):8-10

[7]秦健.元數(shù)據(jù)與科學(xué)數(shù)據(jù)信息的組織與管理[EB].2004年數(shù)字圖書(shū)館前沿問(wèn)題高級(jí)研討班.http://www.docin.com/p-19306708.html,2015-04-04.

[8]黃如花,邱春艷.Dryad數(shù)據(jù)倉(cāng)儲(chǔ)的元數(shù)據(jù)管理[J].圖書(shū)館雜志,2014,(1):68-73.

[9]PANGAEA[EB].https://www.pangaea.de/?t=Oceans,2017-07-17.

[10]金更達(dá).文獻(xiàn)類(lèi)電子資源元數(shù)據(jù)發(fā)展淺議[J].大學(xué)圖書(shū)館學(xué)報(bào),2003,(6):15-19.

[11]我國(guó)數(shù)字圖書(shū)館標(biāo)準(zhǔn)規(guī)范建設(shè):期刊論文描述元數(shù)據(jù)規(guī)范[EB].https://wenku.baidu.com/view/7934fe2bccbff121dd3683 a4.html,2004.5.

[12]劉斌,陳樺.向量空間模型信息檢索技術(shù)討論[J].情報(bào)雜志,2006,(7):92-93,91.

[13]國(guó)家地球系統(tǒng)科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái).青藏高原東緣森林生態(tài)系統(tǒng)土壤有機(jī)質(zhì)和養(yǎng)分?jǐn)?shù)據(jù)[EB].http://www.geodata.cn/data/datadetails.html?dataguid=243357923654808&docId=576,2017-07-17.

[14]ROST虛擬學(xué)習(xí)團(tuán)隊(duì).ROST Content Mining System User Manual[EB].http://wenku.baidu.com/view/e7a62df3f90f76c661371a 76.html?re=view,2017-04-02.

LinkStudyofScientificDataandScientificLiteratureBasedonContentFeatures

Huang Xiaojin

(Library,Chengdu University of Technology,Chengdu 610059,China)

Scientific data and scientific literature are two important forms of scientific research outputs.Link application of scientific data and scientific literature plays a vital part in realizing integrated information service,facilitating knowledge discovery and improving e-science environment.The paper extracted content features from the metadata of both,used vector space model to perform similarity calculation of content features.So then,it associated the scientific data and scientific literature on the basement of content features.

scientific data;scientific literature;metadata;vector space model;feature extraction

10.3969/j.issn.1008-0821.2018.01.008

G257.3

A

1008-0821(2018)01-0056-04

2017-09-13

四川省高校人文社會(huì)科學(xué)重點(diǎn)研究基地科研項(xiàng)目“社會(huì)科學(xué)數(shù)據(jù)與社科文獻(xiàn)關(guān)聯(lián)性研究”(項(xiàng)目編號(hào)SCAA14B18)。

黃筱瑾(1984-),女,館員,碩士,研究方向:信息資源組織與建設(shè)。

(實(shí)習(xí)編輯:陳 媛)

猜你喜歡
關(guān)聯(lián)科學(xué)特征
“苦”的關(guān)聯(lián)
如何表達(dá)“特征”
科學(xué)大爆炸
不忠誠(chéng)的四個(gè)特征
奇趣搭配
抓住特征巧觀察
智趣
讀者(2017年5期)2017-02-15 18:04:18
科學(xué)
科學(xué)拔牙
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 波多野结衣国产精品| 白浆免费视频国产精品视频| 精品五夜婷香蕉国产线看观看| 国产情精品嫩草影院88av| 无码一区二区波多野结衣播放搜索| 国产原创第一页在线观看| 国产精品爽爽va在线无码观看 | 老色鬼欧美精品| 亚洲国产系列| 在线精品亚洲国产| 夜夜拍夜夜爽| 国产亚洲欧美在线人成aaaa| 亚洲中文字幕精品| 91麻豆精品视频| 91精品小视频| 天天爽免费视频| 欧美啪啪网| 午夜a视频| 精品国产香蕉在线播出| 亚洲第一精品福利| 国产真实乱子伦视频播放| 亚洲AⅤ综合在线欧美一区| 国产激情无码一区二区三区免费| 久久毛片网| 久久国产亚洲偷自| 亚洲综合色婷婷| 本亚洲精品网站| 色屁屁一区二区三区视频国产| 2018日日摸夜夜添狠狠躁| 日韩无码视频专区| 欧美成人午夜视频免看| 欧美va亚洲va香蕉在线| 精品在线免费播放| 欧美一级专区免费大片| 欧美日本不卡| 综1合AV在线播放| 国产一区二区三区在线观看免费| 97国产在线播放| 国产9191精品免费观看| www亚洲精品| 久久久久中文字幕精品视频| 国产精品成人不卡在线观看| 亚洲第一区欧美国产综合| 亚洲黄色片免费看| 国产精品99久久久| 99在线视频网站| 51国产偷自视频区视频手机观看| 福利一区三区| 免费Aⅴ片在线观看蜜芽Tⅴ| 一级片免费网站| 看看一级毛片| 免费一级毛片不卡在线播放| 中国精品自拍| 欧美在线视频不卡| 久久久受www免费人成| 成人一区在线| 伊人久久久久久久| 亚洲日韩精品无码专区| 久久久91人妻无码精品蜜桃HD| 69国产精品视频免费| 天天色综网| 欧美爱爱网| 国产幂在线无码精品| 日本免费精品| 99re经典视频在线| 亚洲人成高清| 国产毛片高清一级国语| 99视频有精品视频免费观看| 国产乱论视频| 国产白浆在线观看| 国产精品网曝门免费视频| 国产精品综合色区在线观看| yjizz视频最新网站在线| 日本亚洲成高清一区二区三区| 国产精品不卡永久免费| 亚洲嫩模喷白浆| 中文字幕久久波多野结衣| 一本大道无码日韩精品影视| 综合亚洲网| 婷婷伊人五月| 国产精品专区第1页| 狼友av永久网站免费观看|