999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人文社科專題數(shù)據(jù)庫建設(shè)的主題選擇研究

2019-02-25 03:14:45劉雨農(nóng)吳柯燁權(quán)昭瑄
現(xiàn)代情報(bào) 2019年12期

劉雨農(nóng) 吳柯燁 權(quán)昭瑄

摘要:[目的/意義]探索一種融入數(shù)據(jù)驅(qū)動(dòng)思維的人文社科專題數(shù)據(jù)庫建設(shè)主題選擇方法,為相關(guān)主體在建庫主題的遴選、比較和確定等工作提供決策參考。[方法/過程]從政策、用戶兩個(gè)維度出發(fā),提出基于政策文本與檢索數(shù)據(jù)的人文社科專題數(shù)據(jù)庫主題篩選框架。以Fulink平臺(tái)為例,基于政策文本LDA主題分類建模和檢索數(shù)據(jù)的詞頻統(tǒng)計(jì)歸類,確定專題數(shù)據(jù)庫建設(shè)備選主題,最后通過比對(duì)篩選將主題進(jìn)行分類。[結(jié)果/結(jié)論]本文構(gòu)建的主題選擇框架,能夠有效提升相關(guān)主題選擇工作的全面性、準(zhǔn)確性、科學(xué)性,為人文社科專題數(shù)據(jù)庫建設(shè)的項(xiàng)目規(guī)劃等提供了良好的思路。

關(guān)鍵詞:人文社科;專題數(shù)據(jù)庫;主題選擇;LDA

DOl: 10.3969/j .issn .1008 -0821 .2019 .12 .002

[中圖分類號(hào)] G250. 74 [文獻(xiàn)標(biāo)識(shí)碼]A [文童編號(hào)]1008-0821 ( 2019) 12-0011-08

專題數(shù)據(jù)庫是針對(duì)用戶信息需求,對(duì)某一專題的信息進(jìn)行收集、分析、處理、存儲(chǔ)并按一定的標(biāo)準(zhǔn)和規(guī)范將其數(shù)字化的信息資源庫。在人文社科領(lǐng)域,專題數(shù)據(jù)庫已成為各學(xué)科數(shù)字化轉(zhuǎn)型的基礎(chǔ)性工作,在數(shù)據(jù)資源開發(fā)、科研內(nèi)容創(chuàng)新、科研方法支持等方面提供了有力支持。近年來,在國家政策支持和現(xiàn)實(shí)需求的雙重作用下,我國建成了一系列人文社科專題數(shù)據(jù)庫,涉及哲學(xué)、歷史、藝術(shù)、文化等眾多科學(xué)領(lǐng)域,有力地促進(jìn)了人文遺產(chǎn)和社會(huì)記錄的保存與傳播,也有效支持了相關(guān)學(xué)科的研究工作。

主題的選擇與論證是專題數(shù)據(jù)庫建設(shè)的起點(diǎn)和開始,決定了專題數(shù)據(jù)庫的建設(shè)方向和建設(shè)效果。然而,過去人文社科專題數(shù)據(jù)庫的主題選擇方式主要依靠建庫主體的資源優(yōu)勢(shì)和決策者的經(jīng)驗(yàn)判斷,難以全面回應(yīng)多方面的需求,進(jìn)而限制了專題數(shù)據(jù)庫的功能實(shí)現(xiàn)以及進(jìn)一步的服務(wù)延伸。為此,本文提出了一種新的主題選擇框架,通過對(duì)客觀文本和行為數(shù)據(jù)的科學(xué)分析支持人文社科專題數(shù)據(jù)庫建設(shè),以期避免主觀性、單一化決策帶來的弊端,提高專題數(shù)據(jù)庫主題選擇的全面性、準(zhǔn)確性與科學(xué)性。

1 文獻(xiàn)綜述

隨著數(shù)字人文和社會(huì)計(jì)算的推進(jìn),人文社科領(lǐng)域?qū)π畔①Y源保障提出了更高的要求,專題數(shù)據(jù)庫建設(shè)的理論和方法成為信息管理及相關(guān)人文社科學(xué)科的重要研究話題。目前,雖然針對(duì)主題選擇的專門性研究仍不多見,但在數(shù)據(jù)庫建設(shè)的綜合性研究中已被大量提及,主要涉及以下3個(gè)方面:

1.1 專題數(shù)據(jù)庫主題分布描述

經(jīng)過多年發(fā)展,國內(nèi)外建立起大量人文社科專題數(shù)據(jù)庫,主題涵蓋了歷史、經(jīng)濟(jì)、文化等眾多學(xué)科。部分學(xué)者對(duì)現(xiàn)有數(shù)據(jù)庫主體分布進(jìn)行了調(diào)查研究,如劉青等以州為單位,調(diào)查了美國特色數(shù)據(jù)庫建設(shè)狀況,并將其主題歸納為政治與政策、軍事和戰(zhàn)爭(zhēng)、法律和法規(guī)、經(jīng)濟(jì)與就業(yè)等9個(gè)方面,同時(shí)指出,文化娛樂類專題數(shù)據(jù)庫在全美州立圖書館中占比最大[1]。何小月等將專題數(shù)據(jù)庫主題內(nèi)容劃分為學(xué)科專業(yè)、地域特色、名人特藏等7個(gè)方面,同時(shí)選擇了中美20所高校的自建數(shù)據(jù)庫進(jìn)行橫向?qū)Ρ龋赋鰢鴥?nèi)高校在學(xué)科專業(yè)和地域特色類數(shù)據(jù)庫建設(shè)存在短板[2]。鄂麗君將調(diào)查樣本擴(kuò)展至我國所有“211工程”高校后得出了相反結(jié)論,認(rèn)為學(xué)科特色和學(xué)校特色資源項(xiàng)目占總數(shù)比超過60%[3]。此外,陳欽明等同樣針對(duì)不同性質(zhì)的專題數(shù)據(jù)庫主題分布進(jìn)行了歸納[4-5]。這些研究盡管在專題數(shù)據(jù)庫主題劃分視角和劃分粒度上存在差別,但是有助于明確人文社科專題數(shù)據(jù)庫的建設(shè)現(xiàn)狀和定位,能夠?yàn)槠渌麑n}數(shù)據(jù)庫建設(shè)主題選擇提供參考。

1.2 專題數(shù)據(jù)庫主題選擇基本原則

對(duì)于人文社科專題數(shù)據(jù)庫在實(shí)際建庫過程中產(chǎn)生的各類問題,部分學(xué)者從建庫流程的角度進(jìn)行探討,認(rèn)為主題選擇的不科學(xué)、不合理是這些問題產(chǎn)生的重要原因之一,并以此提出了一系列主題選擇原則。王昶認(rèn)為,專題數(shù)據(jù)庫建設(shè)是一項(xiàng)長(zhǎng)期工作,主題選擇應(yīng)注重長(zhǎng)期規(guī)劃性和可持續(xù)性,以長(zhǎng)遠(yuǎn)眼光和思路,根據(jù)現(xiàn)有條件選擇符合實(shí)際狀況的、成體系的特色主題[6]。劉青等提出主題內(nèi)容廣博化原則,認(rèn)為專題數(shù)據(jù)庫主題劃分和內(nèi)容深度上盡管存在差異,但應(yīng)通過統(tǒng)一平臺(tái)的整合,為用戶提供全方位多系統(tǒng)的資源和信息服務(wù)[1]。徐大平等認(rèn)為地方特色專題數(shù)據(jù)庫的主題選擇重點(diǎn)在于突出地方文化特色、體現(xiàn)地方文獻(xiàn)特色,并提出了成系列小主題選擇、科學(xué)性和實(shí)用性3個(gè)原則[7]。總體來說,這些原則可歸納為3點(diǎn):第一,以需求為導(dǎo)向,能夠切實(shí)滿足用戶長(zhǎng)時(shí)期的信息資源需求;第二,突出特色性,力求避免在內(nèi)容上同其他數(shù)據(jù)庫的交叉和重復(fù);第三,具有可操作性,根據(jù)信息資源體量和人力、資金等實(shí)際情況確定主題選擇粒度,保證數(shù)據(jù)庫質(zhì)量。

1.3 專題數(shù)據(jù)庫主題選擇方法與過程

相對(duì)于專題數(shù)據(jù)庫主題選擇原則,已有研究很少涉及具體的主題選擇方法。王昶[6]提出了專題數(shù)據(jù)庫主題選擇策劃工作的3步流程:第一,開展廣泛的調(diào)查研究,初定主題選擇方向;第二,開展專家評(píng)議和讀者調(diào)研,確定主題選擇的可行性;第三,考察建庫資源與技術(shù)水平,明確主題選擇內(nèi)容。任航等[8]對(duì)長(zhǎng)春市若干高等院校的在校藝術(shù)生進(jìn)行了問卷調(diào)查,通過需求情況確定數(shù)據(jù)庫主題選擇。可以看到,當(dāng)前專題數(shù)據(jù)庫的主題選擇方法依然以專家論證和問卷調(diào)查等方式為主,最終決策仍然依賴于決策者的經(jīng)驗(yàn)判斷。

綜上所述,已有研究充分重視了主題選擇對(duì)專題數(shù)據(jù)庫建設(shè)的重要作用,為專題數(shù)據(jù)庫主題選擇明確了原則和方向,提供了良好的思路和方法。然而,現(xiàn)有研究成果依然存在一定不足:第一,研究大多集中于宏觀層面的原則性方針,在數(shù)據(jù)庫建設(shè)的實(shí)際過程中很難轉(zhuǎn)化為直接的、具體的行動(dòng)方案,可操作性存在一定限制;第二,方法上依然以用戶調(diào)查和專家咨詢?yōu)橹鳎瑤в休^強(qiáng)的主觀性,難以保證決策的科學(xué)性;第三,并未考慮不同性質(zhì)的主體在數(shù)據(jù)庫建設(shè)中的動(dòng)機(jī)差異。在大數(shù)據(jù)、智慧數(shù)據(jù)的背景下,面對(duì)高速增長(zhǎng)的數(shù)據(jù)存量和復(fù)雜化的信息需求,應(yīng)在原則性、經(jīng)驗(yàn)性探索的基礎(chǔ)上,充分發(fā)揮數(shù)據(jù)分析等技術(shù)和方法的重要作用,為數(shù)據(jù)庫建設(shè)主體的建庫決策提供支持和參考。

2 人文社科專題數(shù)據(jù)庫建設(shè)主題選擇模型構(gòu)建

本文通過前期多地、多主體訪談?wù){(diào)研,確定了專題數(shù)據(jù)庫國家需求和用戶需求的主方向,并以客觀數(shù)據(jù)為基礎(chǔ),構(gòu)建人文社科專題數(shù)據(jù)庫主題選擇框架,以期為相關(guān)決策提供支持。模型建構(gòu)路線如圖1所示:第一,從政務(wù)公開平臺(tái)中,獲取國家相關(guān)部門政策文本全文,并進(jìn)行文本預(yù)處理。同時(shí)從信息服務(wù)商檢索系統(tǒng)后臺(tái)獲取特定時(shí)間段的用戶檢索數(shù)據(jù),篩選有效檢索語句;第二,提取政策文本中的實(shí)意性名詞,并進(jìn)行LDA主題建模,形成若干備選主題;第三,將采集到的檢索語句分別提取關(guān)鍵詞,利用BM25算法同機(jī)構(gòu)已有文獻(xiàn)資源進(jìn)行匹配,通過排序和歸納篩選出備選主題詞;第四,綜合比對(duì)結(jié)果,對(duì)結(jié)果進(jìn)行分類。

2.1 需求調(diào)研與分析

滿足不同層面、不同對(duì)象的信息需求是數(shù)據(jù)庫長(zhǎng)期建設(shè)運(yùn)營和持續(xù)發(fā)展的核心動(dòng)力。對(duì)于對(duì)象群體復(fù)雜、數(shù)據(jù)形式多樣的人文社科領(lǐng)域,專題數(shù)據(jù)庫的主題選擇更應(yīng)以需求為導(dǎo)向。不同性質(zhì)的建庫主體由于機(jī)構(gòu)職能、服務(wù)對(duì)象等方面存在差異.專題數(shù)據(jù)庫產(chǎn)品的需求內(nèi)容和重心也存在顯著區(qū)分。如公共機(jī)構(gòu)建設(shè)的專題數(shù)據(jù)庫普遍重視公共需求,為國家發(fā)展戰(zhàn)略和公益事業(yè)提供支持;而商業(yè)性專題數(shù)據(jù)庫則更加側(cè)重于通過滿足用戶使用需求來擴(kuò)大市場(chǎng),實(shí)現(xiàn)自身盈利和發(fā)展。對(duì)此,本文將人文社科專題數(shù)據(jù)庫需求歸納為兩個(gè)層面:

第一,宏觀層面的國家社會(huì)需求。人文社科專題數(shù)據(jù)庫通常需要承擔(dān)部分國家、社會(huì)層面的宏觀需求,如為國家重大戰(zhàn)略部署提供數(shù)據(jù)支撐、對(duì)非物質(zhì)文化遺產(chǎn)進(jìn)行保護(hù)與搶救、弘揚(yáng)優(yōu)秀歷史文化傳統(tǒng)、紀(jì)念特殊事件等。尤其是對(duì)于公共性質(zhì)的建庫主體,更應(yīng)在宏觀戰(zhàn)略需求的背景下,有針對(duì)性地規(guī)劃專題數(shù)據(jù)庫建設(shè),為相關(guān)政策提供有效支持。

政策文本是政府相關(guān)部門為了實(shí)現(xiàn)特定要求,以權(quán)威形式頒布的文件,是國家、社會(huì)需求最直觀的表達(dá)和體現(xiàn)。在政府政務(wù)全面公開、自然語言處理技術(shù)快速發(fā)展的背景下,大批量政策文本的開放獲取和深度挖掘已具備可行性。對(duì)此,本文通過挖掘政策文本內(nèi)容,實(shí)現(xiàn)宏觀需求的分析。

第二,微觀層面的用戶使用需求。作為人文社科專題數(shù)據(jù)庫的直接使用者,用戶的需求相對(duì)具體和明確。如科研人員對(duì)特定專題領(lǐng)域資料的集中需求,公眾對(duì)某一主題知識(shí)的學(xué)習(xí)興趣等。但由于不同用戶使用動(dòng)機(jī)、需求粒度、表達(dá)方式等存在差異,此類需求較為多元,調(diào)查和識(shí)別的難度較高。

對(duì)于用戶使用需求,過去一般采取問卷、訪談等方式,在調(diào)查對(duì)象規(guī)模和代表性上存在一定限制。當(dāng)前,由于人文社科領(lǐng)域的信息爆炸式增長(zhǎng)和碎片化分布加深了信息的獲取難度,搜索引擎逐步成為用戶對(duì)于信息搜尋的主要工具。對(duì)此,本文以搜索引擎中的檢索記錄衡量用戶的實(shí)際需求。

2.2 基于LDA的政策主題生成

LDA(Latent Dirichlet Allocation,隱含狄利克雷函數(shù))模型是一種文檔生成模型,即包含詞、主題、文檔三層結(jié)構(gòu)的貝葉斯模型。該模型通過將文檔一詞匯矩陣轉(zhuǎn)化為文檔一主題矩陣和主題一詞匯矩陣來實(shí)現(xiàn)主題的識(shí)別與生成[11]。作為一種非監(jiān)督的機(jī)器學(xué)習(xí)方法,LDA在大規(guī)模文檔中能夠有效實(shí)現(xiàn)主題識(shí)別任務(wù)。簡(jiǎn)要來說,LDA主題生成過程可分為3個(gè)步驟,首先對(duì)語料庫中的每一篇文檔,從主題分布中抽取一個(gè)主題,其次對(duì)所抽取主題中所對(duì)應(yīng)的詞分布中抽取一個(gè)詞語,最后充分闡述過程直至實(shí)現(xiàn)所有文檔和所有單詞的遍歷。如圖2表示。

2.3 基于BM25算法的資源匹配

特定主題的人文社科專題數(shù)據(jù)庫建設(shè)必須以充足的信息資源作為基礎(chǔ)保障。尤其是對(duì)于檢索關(guān)鍵詞,必須同資源儲(chǔ)備進(jìn)行匹配,判斷其是否具備專題開發(fā)條件。本文基于BM25算法,通過計(jì)算、排序每個(gè)檢索詞的BM25得分,實(shí)現(xiàn)主題關(guān)鍵詞進(jìn)行二次篩選。

BM25是二元獨(dú)立模型的拓展形式之一。作為一種相關(guān)性排序函數(shù),BM25模型根據(jù)計(jì)算給定檢索詞與文檔的相關(guān)性得分并累加,進(jìn)而對(duì)匹配文檔進(jìn)行排序。該模型由于算法設(shè)計(jì)較為靈活,被廣泛應(yīng)用于搜索引擎當(dāng)中。范晨熙等通過將BM25模型與開源搜索框架Lucene結(jié)合,建立了BM25相關(guān)度搜索模型[9],何喜軍等利用該模型,構(gòu)建了專利轉(zhuǎn)讓索引庫[10]。本文基于理論框架,對(duì)該模型進(jìn)行了拓展與應(yīng)用。

首先,對(duì)提取到的關(guān)鍵詞進(jìn)行語素解析,產(chǎn)生語素qi。對(duì)于所有館藏資源的摘要文檔D,計(jì)算每個(gè)語素Qi與D的相關(guān)性評(píng)分。最后,將Qi相對(duì)于D的相關(guān)性得分加權(quán)并求和,最終得到Q與D的相關(guān)性得分。評(píng)分公式為[10]:

3 實(shí)證研究

3.1 數(shù)據(jù)來源與實(shí)驗(yàn)環(huán)境

本文從可測(cè)量角度出發(fā),以福建省為例,通過政策文本衡量國家需求,通過檢索數(shù)據(jù)反應(yīng)用戶需求。由于國家各級(jí)政策發(fā)布機(jī)關(guān)單位數(shù)量龐大,內(nèi)容寬泛,本文僅選取國家文化與旅游部、福建省文化與旅游廳近5年發(fā)布的各類政策文本作為實(shí)證樣本,通過爬蟲工具獲取原始文本后,手工剔除人事變動(dòng)、財(cái)務(wù)審計(jì)等管理類文件,得到有效政策文本1 756條。檢索數(shù)據(jù)從FuLink(福建省高校數(shù)字圖書館)平臺(tái)后臺(tái)獲取,按照檢索排行降序順序,選擇人文社科相關(guān)的檢索條目,共計(jì)10 000條,部分記錄如表1。FULink平臺(tái)包含福建省53所成員館,擁有完善的在線系統(tǒng)和穩(wěn)定的訪問流量,檢索數(shù)據(jù)能夠反映出省域內(nèi)用戶的一般需求。

本文實(shí)驗(yàn)環(huán)境為Inter Core i7 - 7700HQ、2. 8GHz、8線程CPU,8GB內(nèi)容容量的PC機(jī),家用標(biāo)準(zhǔn)版64位Windowsl0操作系統(tǒng)。集成開發(fā)環(huán)境為JetBrains PyChrm,部分功能基于Python語言編程,所用工具包包括Jieba、Numpy、Pandas、Nltk、Sklearn、Matplotlib等。

3.2 政策文本數(shù)據(jù)處理

LDA模型需要對(duì)分類數(shù)量進(jìn)行預(yù)先設(shè)定。該數(shù)值一般采用困惑度確定,計(jì)算公式如下:

其中z、d分別指訓(xùn)練過的主題和測(cè)試集的各篇文檔。分母Ⅳ是測(cè)試集中出現(xiàn)的所有詞。一般來說,困惑度隨主題數(shù)K增加而下降。如圖3所示,通過計(jì)算,當(dāng)K值取4時(shí),困惑度曲線下降趨勢(shì)趨近于穩(wěn)定,此時(shí)K的取值為最佳數(shù)量。

構(gòu)建LDA模型以分析每一篇文章的話題分布,利用訓(xùn)練完的模型將政策文本轉(zhuǎn)化為話題分布函數(shù),并將文本一主題向量與原文本合并,部分結(jié)果如圖4所示。

最后,根據(jù)以上結(jié)果,輸出每個(gè)主題的前若干關(guān)鍵詞,并以窗口形式展示。最終結(jié)果如圖5-8所示。

3.3 檢索記錄數(shù)據(jù)處理

通過Fulink后臺(tái),選擇2019年檢索記錄,將輸出結(jié)果按照詞頻排序,選擇檢索次數(shù)大于1 000的關(guān)鍵詞,并將非人文社科范疇的詞語剔除。最后,將檢索詞與資源庫各類文本文檔進(jìn)行匹配,篩選出命中詞匯。部分結(jié)果如表2所示。

不同于文本語料,檢索記錄多以單個(gè)檢索詞的形式表示,缺乏上下文語境,難以利用NLP技術(shù)進(jìn)行主題識(shí)別。由于數(shù)據(jù)總量相對(duì)較少,因此本文選擇人工方式判斷檢索詞語義,并進(jìn)行主題歸納。

3.4 備選主題分類

比對(duì)上述兩類主題分類結(jié)果,進(jìn)行匯總、比對(duì)和分類,最終形成3類備選主題。

1)理想型主題選擇:教育、互聯(lián)網(wǎng)與大數(shù)據(jù)

通過比對(duì),此類主題選擇內(nèi)容同時(shí)出現(xiàn)在政策主題和檢索主題分類中。意味著在現(xiàn)有資源的基礎(chǔ)上,能夠同時(shí)響應(yīng)國家和用戶需求,建議優(yōu)先作為專題數(shù)據(jù)庫建設(shè)主題。

教育學(xué)與教育事業(yè)是人文社科領(lǐng)域的重要話題,大量職能部門均對(duì)教育事業(yè)發(fā)展進(jìn)行了專門性部署,尤其是紅色教育、傳統(tǒng)文化教育、人文素養(yǎng)教育等方面近年來獲得了極大關(guān)注。在用戶層面,由于以高校圖書館聯(lián)盟為實(shí)證對(duì)象,用戶以高校學(xué)生為主,因此,數(shù)據(jù)庫建設(shè)主要回應(yīng)以備考或個(gè)人發(fā)展為目的的需求。顯然,各類人文社科教育需要大量專門性文獻(xiàn)資料為支撐,因此專門性數(shù)據(jù)庫建設(shè)勢(shì)在必行。

近年來,互聯(lián)網(wǎng)與大數(shù)據(jù)為人文社科領(lǐng)域帶來了巨大的變革,尤其是網(wǎng)絡(luò)安全、電子政務(wù)、數(shù)據(jù)資產(chǎn)等議題正在引起相關(guān)部門的高度重視。此外,大數(shù)據(jù)更是為人文社科領(lǐng)域的研究提供了新的契機(jī)和方法,從檢索數(shù)據(jù)來看,人文社科對(duì)于數(shù)據(jù)科學(xué)、編程語言、計(jì)算工具等方面的資料存在大量需求。

2)政策導(dǎo)向型:非物質(zhì)文化遺產(chǎn)、旅游

此類主題選擇通常側(cè)重于公共性建庫主體,能夠有效回應(yīng)國家政策要求,有助于發(fā)揮其公共文化服務(wù)等方面的職能。

非物質(zhì)文化遺產(chǎn)和旅游是人文社科專題數(shù)據(jù)庫的傳統(tǒng)主題選擇,從研究結(jié)果來看,非遺資源保護(hù)和旅游產(chǎn)業(yè)發(fā)展依然是當(dāng)前文化及相關(guān)部門的工作重心,從中央到地方均有大量政策部署。在數(shù)據(jù)庫建設(shè)過程中,建庫主體可圍繞本地資源,進(jìn)行針對(duì)性的數(shù)據(jù)采集與加工整理,著力打造出具有地方特色的文化品牌。同時(shí),不斷拓展數(shù)據(jù)庫的開放程度,并開展宣傳推廣工作,進(jìn)而服務(wù)于地方旅游產(chǎn)業(yè)。

3)用戶導(dǎo)向型:文學(xué)、經(jīng)濟(jì)學(xué)、語言

此類主題選擇能夠反映用戶的現(xiàn)實(shí)需求,具有良好的市場(chǎng)前景,一般來說更加符合商業(yè)性的建庫主體性質(zhì),而對(duì)于高校、科研院所等實(shí)際科研需求也能做到有效回應(yīng)。與政策導(dǎo)向不同,用戶需求更為多元,其影響因素也更加復(fù)雜。在本文的實(shí)證研究中,用戶需求更多地集中于在文學(xué)、經(jīng)濟(jì)學(xué)和語言3類。其中文學(xué)作品相對(duì)于其他人文社科學(xué)術(shù)性資源來說,學(xué)科門檻較低,受眾面更廣。而經(jīng)濟(jì)學(xué)原理和方法對(duì)包括社會(huì)學(xué)、管理學(xué)、國際關(guān)系在內(nèi)的多種學(xué)科同樣實(shí)用,因此存在大量記錄。而語言方面的需求則以英語學(xué)習(xí)材料和工具書為主,這是由高校用戶對(duì)于等級(jí)考試、外文學(xué)術(shù)資源等硬性需求決定的。

4 結(jié)語

本文構(gòu)建了一種人文社科專題數(shù)據(jù)庫建設(shè)的主題選擇模型,為專題數(shù)據(jù)庫的主題選擇提供了一種全新的思路和方法。相較于以經(jīng)驗(yàn)性判斷為主的常見模式,本文通過對(duì)政策文本和用戶訪問記錄進(jìn)行深入挖掘和匹配,有助于進(jìn)一步提高專題數(shù)據(jù)庫建設(shè)決策的科學(xué)性、實(shí)時(shí)性和前瞻性。

需要注意的是,本模型面向人文社科專題數(shù)據(jù)庫建設(shè)的決策支持,希望通過多渠道大樣本的數(shù)據(jù)分析為專題數(shù)據(jù)庫的主題選擇工作提供科學(xué)有效的備選方案,這意味著該方法無法完全替代決策工作。專題數(shù)據(jù)庫建設(shè)是一項(xiàng)復(fù)雜、持久的工作,不同地區(qū)和不同性質(zhì)的建庫主體均存在較大差別,也受到資金、技術(shù)、人員等因素的制約,建庫人員的經(jīng)驗(yàn)和價(jià)值判斷依然具有不可替代的作用。在專題數(shù)據(jù)庫的規(guī)劃和論證過程中必須緊密結(jié)合自身實(shí)際情況,因地制宜地開展數(shù)據(jù)庫建設(shè)工作,才能形成質(zhì)量上成、功能完備、影響廣泛的數(shù)據(jù)庫產(chǎn)品。除主題選擇外,建庫方式、服務(wù)模式、推廣方法的選擇對(duì)專題數(shù)據(jù)庫的發(fā)展同樣具有重要影響。

此外,本文實(shí)證研究部分初步驗(yàn)證了模型的可行性,但在政策文本數(shù)量、館藏資源類型、用戶需求類型等方面仍存在進(jìn)一步拓展和精細(xì)化的空間。在未來的研究中,可通過擴(kuò)充數(shù)據(jù)源的廣度和粒度,進(jìn)一步提高模型的適用性和有效性。

參考文獻(xiàn)

[1]劉青,高波.美國州立圖書館特色數(shù)據(jù)庫建設(shè)研究[J].圖書館,2017,(3):72-80.

[2]何小月,雷錦怡,江翩翩,中美高校圖書館自建數(shù)據(jù)庫比較研究[J].圖書館學(xué)研究,2019,(6):40-48.

[3]鄂麗君.高校圖書館特色館藏建設(shè)的現(xiàn)狀分析[J].圖書館建設(shè),2009,( 12):19-23.

[4]陳欽明.福建省高校圖書館自建閩臺(tái)特色數(shù)據(jù)庫現(xiàn)狀調(diào)查與分析[J].圖書館學(xué)研究,2018,(3):48-52.

[5]孫瑾,軍隊(duì)檔案專題數(shù)據(jù)庫建設(shè)現(xiàn)狀及存在問題——兼論數(shù)據(jù)組織階段質(zhì)量控制[J].檔案學(xué)研究,2013,(3):41-45.

[6]王昶,自建數(shù)據(jù)庫選題策劃?rùn)C(jī)制研究[J].圖書館學(xué)研究,2012,(6):41-43,27.

[7]徐大平,郎菁,梁芬玲.地方特色專題數(shù)據(jù)庫選題若干問題研究——以陜西地區(qū)為例[J].情報(bào)雜志,2012,31 (2):174 -177.

[8]任航,潘逸塵高校圖書館藝術(shù)教育主題服務(wù)內(nèi)容、途徑與策略研究[J].情報(bào)科學(xué),2018,36 (12):83-89

[9]范晨熙,黃理燦,李雪利.基于Lucene的BM25模型的評(píng)分機(jī)制的研究[J].工業(yè)控制計(jì)算機(jī),2013,26(3):78-79.

[10]何喜軍,張婷婷,武玉英,等供需匹配視角下基于語義相似聚類的技術(shù)需求識(shí)別模型[J].系統(tǒng)工程理論與實(shí)踐,2019,39 (2):476-485.

[11]張子振,儲(chǔ)煜桂,吳小蘭,基于LDA的多源文獻(xiàn)主題及其差異研究——以“機(jī)器學(xué)習(xí)”為例[J].情報(bào)科學(xué),2019,37(6):108-112,150

(責(zé)任編輯:郭沫含)

收稿日期:2019-10-14

基金項(xiàng)目:國家社會(huì)科學(xué)基金重大項(xiàng)目“人文社科專題數(shù)據(jù)庫建設(shè)規(guī)范化管理研究”(項(xiàng)目編號(hào):18ZDA326)。

作者簡(jiǎn)介:劉雨農(nóng)(1991-),男,博士研究生,研究方向:智慧城市、社會(huì)網(wǎng)絡(luò)。吳柯燁(1996-),男,碩士研究生,研究方向:自然語言處理。權(quán)昭瑄(1996-),男,碩士研究生,研究方向:金融大數(shù)據(jù)。

主站蜘蛛池模板: 伊人天堂网| 欧美激情视频一区二区三区免费| 鲁鲁鲁爽爽爽在线视频观看 | 久久96热在精品国产高清| 国产午夜精品一区二区三区软件| 一级香蕉人体视频| 国产丝袜丝视频在线观看| 精品人妻AV区| 97超爽成人免费视频在线播放| 国产办公室秘书无码精品| 人禽伦免费交视频网页播放| 国产打屁股免费区网站| 国产一线在线| 国产高潮视频在线观看| 99re66精品视频在线观看| 亚洲中文字幕手机在线第一页| 91久久偷偷做嫩草影院电| 精品国产aⅴ一区二区三区| 青青青草国产| 国产成人无码Av在线播放无广告 | 中文字幕亚洲综久久2021| 国产91线观看| 在线日韩一区二区| 欧美精品v| 67194在线午夜亚洲 | 成人va亚洲va欧美天堂| 亚洲综合中文字幕国产精品欧美| 国产高清不卡视频| 91精品国产91久久久久久三级| 成人在线综合| 成人日韩精品| 亚洲综合婷婷激情| 亚洲精品成人7777在线观看| 漂亮人妻被中出中文字幕久久| 成年人午夜免费视频| 色婷婷电影网| 最新国产你懂的在线网址| 亚洲欧美在线精品一区二区| 精品久久久久久久久久久| 亚洲无卡视频| 经典三级久久| 午夜a视频| 国产黄在线观看| 亚洲欧美另类中文字幕| 国产激情无码一区二区APP| 久久精品国产精品青草app| 一级片免费网站| 色综合手机在线| 欧美a在线| 午夜国产在线观看| 亚洲伊人久久精品影院| 欧美伊人色综合久久天天| 人人91人人澡人人妻人人爽| 亚洲国产精品成人久久综合影院| 国产a在视频线精品视频下载| 97在线碰| 日韩福利在线视频| 精品少妇人妻av无码久久| 国产你懂得| 国产精品污污在线观看网站| 午夜视频www| 国产亚洲男人的天堂在线观看| 久久精品嫩草研究院| 国产成人在线无码免费视频| 欧美在线黄| 午夜国产不卡在线观看视频| 国产欧美日韩18| 日本三级精品| 日本一区中文字幕最新在线| 久久国产精品麻豆系列| 欧美第九页| 国产99视频在线| 无码中文字幕加勒比高清| 亚洲高清在线播放| 99中文字幕亚洲一区二区| 免费xxxxx在线观看网站| 国产91透明丝袜美腿在线| 色爽网免费视频| 国产日韩欧美在线播放| 亚洲最猛黑人xxxx黑人猛交| 亚洲国产成人精品无码区性色| 2021国产精品自产拍在线|