999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向文獻建設需求的學科核心作者數據庫構建策略研究*

2015-07-22 12:14:40朱軼婷中國民航大學圖書館天津300300
圖書館 2015年5期
關鍵詞:數據庫學科圖書館

朱軼婷(中國民航大學圖書館 天津 300300)

·館藏與出版論壇·

面向文獻建設需求的學科核心作者數據庫構建策略研究*

朱軼婷
(中國民航大學圖書館天津300300)

〔摘要〕以關系型數據庫為基礎,通過Web信息抽取技術從主流數據庫中采集基礎數據,利用數據挖掘技術進行數據整合、查重、消歧,然后根據發文量、h指數和hm指數綜合判定核心作者及作者排序,從而構建學科核心作者數據庫,為圖書采訪工作提供客觀數據支持。最后以飛行技術學科核心作者數據庫為例,說明數據庫的實際效果。

〔關鍵詞〕核心作者h指數hm指數關系數據庫Web信息抽取

1 構建學科核心作者數據庫的必要性

當前,高等院校不斷加大力度推進專業結構優化和重點學科建設工作。由此,對圖書館的文獻資源建設提出了更高的需求,即圖書館采購的學科文獻應該緊跟專業發展變化、切合教學科研需求。但是高校圖書館的傳統文獻采購方式往往是根據書商的供書目錄進行勾選、定購,在文獻采購到館前,采訪人員無法看到文獻的實際內容。即使在采購過程中征求相應學科專家的意見,也往往因為缺乏客觀依據,無法成功預測文獻的學術價值。而且,圖書館采訪人員很難深入了解學校的每一個重點學科,并且追蹤該重點學科的發展變化。因此,如果能有客觀數據輔助采訪人員判斷文獻質量和學術價值,將有助于提高文獻采購的客觀性和科學性。

采訪人員在采購過程中,通過供書目錄可以掌握文獻的以下特征數據:①作者,即完成創作、編寫、編譯該文獻內容的個人或者團體;②出版信息,即出版社、出版年;③版本,即該文獻是初版還是再版,再版次數等;④語種,即該文獻的寫作語言;⑤載體信息,主要有該文獻的開本尺寸、頁碼、裝訂情況等;⑥價格。這些客觀性數據有助于判斷文獻的學術價值。比如,作者是否為該文獻涉及學科的專家學者或者權威研究機構,出版社是否為該學科的核心出版社,修訂并出版多次的文獻更被讀者認同等等。因此,采訪人員應該關注并利用這些特征數據,從而了解和確定選購文獻的學術價值,確保滿足學校和讀者提出的文獻需求。

研究選擇文獻作者為切入點,通過構建學科核心作者數據庫,探索以信息技術手段輔助圖書館采訪人員提高學科文獻選購科學性、客觀性的新方法。

2 構建學科核心作者數據庫的基礎

2.1圖書情報學界關于核心作者的研究

核心作者是指那些在(某)學科領域研究較深入、造詣較高、研究成果較多從而具有較大影響力的作者,對學科發展具有引領作用,不斷將研究水平推向新的高度。[1]圖書情報學界的學者們運用文獻計量學理論對核心作者作了很多深入研究。例如,方太強、周蓉等結合發文總數、被引次數、核心期刊發文數等因素,利用維普數據庫測定圖書情報學領域的核心作者;[2]趙基明等運用h指數方法,利用CSSCI引文數據庫1998-2006年的數據,測定《中國圖書館學報》的核心作者;[3]龔舒野運用發文量、h指數和hm指數方法,利用CNKI數據庫2001-2009年的數據,測定了《情報科學》的核心作者,并分析這些作者的年齡、職稱、地域等特征信息;[4]邱均平等運用發文量和h指數相結合的方法,利用CSSCI引文數據庫的數據測定圖書情報學領域近30年的核心作者。[5]

亦有學者將核心作者的測定運用到實踐中,推進圖書館工作開展。例如,蘇志芳等運用發文量、h指數和主題研究連續數相結合的模糊綜合評判法,測定學科領域核心作者,并提出以核心作者為主要依據的中文社科圖書決策系統;[6]蔡璐運用層次分析法測定高等教育學科的核心作者,作為判斷圖書學術價值的依據之一;[7]沈艷紅、吳信嵐等利用CNKI數據庫,確定食品學科的核心作者,作為制定采購該學科核心書目的依據之一。[8]

這些研究與嘗試,探討了核心作者的不同測定方法,并以實證研究方法研究實際效用,為我們研究構建學科核心作者數據庫提供了文獻計量學方面的理論支持。

2.2人物數據庫的研究現狀

人物數據庫指利用信息技術記錄和管理人物信息,并且實現便捷查詢和數據共享的數據庫。核心作者數據庫也屬于人物數據庫范疇。

在國外,比較有影響力的人物數據庫有英格蘭圣公會神職人員數據庫(The Clergy of Church of England Database)[9],該數據庫記錄了1540-1830年期間英國神職人員的任職、職務等信息;還有ASP世界歷史人物索引庫[10],該數據庫記錄了世界上歷史事件發生時所涉及的第一個人物,內容包括信件、日記、口述史與其他個人敘述等。

在國內,有中國科學技術協會牽頭、北京理工大學圖書館主要承辦的老科學家學術成長資料數據庫,收集300位80歲以上的院士或96歲以上有突出貢獻的非院士科學家的資料;[11]也有各高校圖書館基于學科研究或特藏建設需求而建立的人物專題數據庫,如暨南大學圖書館的留學人物數據庫、嘉興學院圖書館的嘉興名人數據庫等等;還有公共圖書館建立的地方特色人物數據庫,如湖南圖書館的湖南近代人物資源庫、廣州圖書館的廣州人物數據庫等等。

無論國外還是國內的人物數據庫,均重視建立設計完備、字段豐富的數據庫系統,以便較好地匯集、組織和揭示人物信息;注意建立人物信息與文獻信息之間、異構信息之間的關聯;嘗試運用知識地圖、本體論等理論方法,對人物信息中的知識進行深層次挖掘,以期提供針對性強的高層次知識服務。這些數據庫的有益嘗試,對我們研究構建核心作者數據庫提供了實踐支持。

3 學科核心作者數據庫的構建設計

構建學科核心作者數據庫的設計定位是挖掘、判定學科領域核心作者,將其提供給采訪人員作為訂購學科文獻的輔助決策依據。根據文獻計量學理論,判定學科領域核心作者需要一系列的基礎數據,因此構建學科核心作者數據庫的基本設計思路是通過網絡抽取從主流數據庫中獲取的基本數據,然后根據文獻計量學理論設計核心作者的判定算法,再結合云計算技術與元數據進行數據組織,儲存并揭示核心作者的信息,最后利用動態網頁開發技術將作者信息整合在一起,提供一個可視化的、便捷的數據呈現界面,方便采訪人員進行采購決策。

3.1學科核心作者數據庫系統模型

構建學科核心作者數據庫采用B/S架構,系統模型如圖1所示,細分為四層:資源層、指標層、數據層和應用層。

資源層是獲取基礎數據的一層,屬于四層結構的最底層,是構建學科核心作者數據庫的數據基礎。根據文獻計量學理論,判定核心作者主要依靠發文量、被引頻次、h指數等等,但是這些數據很難直接獲取。因此在資源層,主要采集學科領域內所有作者的發文情況,如題目、刊名、關鍵詞、摘要、出版日期等等,以及作者的個人屬性數據,如單位、職稱、主要研究方向等。獲取方法以網絡Web抽取為主,輔助以人工抽取。數據來源為主流數據庫,如中國知網、萬方、維普等。

指標層是完成核心作者判定的一層。首先對資源層的基礎數據進行查重整合,然后將發文情況的整合結果提供給計算算法,得出發文量、被引頻次、h指數等判定數據;再按照判定算法,給出核心作者的判定結果。如果某一作者被判定為核心作者,則將整合后的作者個人信息和判定數據一起儲存到數據層中。

數據層是儲存學科核心作者數據的一層。在這一層中,依照元數據的標準,建立數據表,對核心作者的個人屬性數據進行靜態數據標引,對作者發文情況和判定結果進行動態元數據標引。運用數據關聯技術,將“作者——文獻——學科”關聯起來,為應用層的核心作者呈現和檢索提供了基礎。

應用層是直接面對用戶的一層,主要提供人性化、便捷的Web交互界面。用戶分成兩類:普通采訪人員和管理員。針對普通采訪人員,應用層提供學科選擇、時間段選擇、核心作者瀏覽、核心作者檢索等服務,支持關聯作者發表文獻,以方便采訪人員進一步深入研究該核心作者;針對管理員,應用層提供數據維護、人工去重、專家判定等管理功能。

3.2基礎數據采集和查重

研究嘗試采用一種基于Agent的中文Web信息檢索平臺,模擬正常用戶訪問主流數據庫的流程,然后根據設定的檢索表達式,進行數據檢索,再把檢索結果返回。這種做法能夠規避大規模的人工檢索和數據整合,有效提高構建數據庫的效率。

因為研究建設學科核心作者,所以在構筑檢索式時,以學科主題詞為檢索詞,生成相應的檢索表達式。通過檢索,可以直接采集以下數據:文章屬性相關數據——題名、刊名、出版年、卷、期、頁碼和摘要;文獻計量相關數據——單篇文章被引次數、下載次數;作者相關數據——姓名、單位、聯系地址。

由于每個學科均有多個主題詞,因此由Agent平臺直接采集、返回的數據存在較多重復數據,因此在基礎數據傳遞給指標層、用于判定核心作者之前必須進行查重。一是要合并相同的文章,主要通過比對文章題名、刊名和出版年卷期數據等,二是對于作者姓名的查重和消岐。可借鑒香港中文大學圖書館的Chan和Yik[12]提出的用于機構知識庫的作者姓名規范的概念模型,建立作者信息規范表,賦予每個作者ID編號作為唯一標識,將作者ID號、姓名、機構名作為一個集合進行考察,經過匹配完成作者姓名的查重和消岐。建立每個作者的唯一標識,就是賦予每個作者唯一身份,還可以將采集到的文章屬性數據、文獻計量數據和指標數據映射到這個唯一標識上,避免因作者姓名引起的文章歸屬沖突,使發文量的計算更加準確。

3.3學科核心作者的判定

資源層的基礎數據經過整合、查重和消岐后,可以得到每一位作者的文獻計量學指標:發文量、總被引證篇(次)數、單篇被引證篇(次)數。發文量是指某一位作者總共發表了多少篇文章。在文獻計量領域,曾根據這一指標評判作者的學術成就,但是發文量指標僅能說明該作者是該領域中寫作活躍的作者,不能反映文章質量和該作者對該學科領域的影響力。同樣,被引證篇數也是文獻計量學評價作者學術水平的傳統指標之一,論文被引用的越多,說明其觀點和資料越被同行學者認可,論文作者的水平也越高,但被引次數同樣也存在不足,比如論文自引現象。綜合近幾年文獻計量學者的研究,較少根據單一指標判定核心作者,很多高質量的研究論文都是采用多個指標綜合評估、判定核心作者。因此,可根據基礎數據的采集情況和文獻計量學的研究成果,采用發文量、h指數和hm指數綜合判定學科核心作者。

首先,根據發文量數據,運用普賴斯定律進行核心作者的初選。普賴斯受社會學的盧梭定律啟發,經過研究后發現,在同一主題中,半數的論文由一群高生產能力作者撰寫,這一作者集合在數量上約等于全部作者總數的平方根,具體公式為:m≈其中,nmax是指發文量最多的作者的發文總數。也就是對于某一學科領域,只有發文量超過m的才能被列為高產作者,可以被初步選為候選核心作者。

然后,運用h指數,進一步判定學科核心作者。h指數是美國統計物理學家Hirsh于2005年提出的,其核心思想是一位作者至多有h篇論文分別被引用了至少h次。h指數同時考察作者的發文數和引文數,并把這兩項指標合二為一,兼顧了作者文章的“量”與“質”。h指數可以根據作者的發文量和單篇被引次數計算得出,然后根據給定的閥值,在候選核心作者群中,確定學科核心作者。

最后,運用hm指數對學科核心作者進行修正和序次建議。h指數在反映高質量論文上有很多優勢,但是仍有不足。經過實踐,在同一學科中會出現很多學者的h指數相同的現象,在需要根據核心作者對圖書進行采購決策時,容易出現難以取舍的情況。因此,可以引入hm指數。hm指數是我國學者趙學梅提出,并已經經過實證研究證明可行[12]。hm指數引入修正因子,對h指數進行一次修正,公式為,其中N為該作者的總被引篇(次)數。通過hm指數的公式,可以看出:hm指數是一個介于h和2h之間的小數,且總被引次數越高,hm指數越接近h指數。也就是說,hm指數和h指數差值越小,該學者的影響力越大。除非某兩位學者的h指數和總被引次數完全相同,他們的hm指數才會相同。這樣經過h指數判定為核心作者的學者,在絕大多數情況下都會有一個自己獨特的hm指數,能夠給采訪人員更加準確的決策依據。

3.4數據庫的數據結構表示

學科核心作者數據庫雖然從邏輯上分為四層,但是采集、判定、呈現、檢索等應用全部圍繞數據展開。因此,在構建學科核心作者數據庫時,選擇關系型數據庫SQL Server為數據中心,向判定、檢索等上層應用傳遞資源層Agent采集的基礎數據,充分利用SQL Server服務器的并發和處理能力,將數據分析交給數據庫服務器的存儲過程,簡化了上層應用的設計復雜程度。

因為以SQL Server數據庫為中心,所有的數據和對象均映射到數據庫中,數據結構的設計非常重要。根據學科核心作者數據庫的各類數據性質,可以分為兩大類:靜態數據和動態數據。靜態數據是指在數據庫的整體框架下,用戶能夠直接獲取、描述、標引的數據,如作者的個人屬性特征和單篇文章的特征數據。動態數據是指在數據庫的整體框架下,需要經過數據分析、演算才能得到的數據,如判定指標。根據這一分類,設計學科核心作者數據庫的數據結構如圖2所示。

圖2 學科核心作者數據庫的數據結構

4 應用分析

考慮到航校學科建設的需要,可嘗試建立飛行技術專業學科核心作者數據庫。由于主要為中文圖書的采購決策提供依據,數據庫的基礎數據采集對象選擇中國知網數據庫。首先,采集近10年與飛行技術相關的文獻,共計2635篇。經過數據整合、查重、消岐后,得到341名作者的相關數據。其中最高產作者的發文量是28篇,根據普賴斯定律,確定候選核心作者的最低發文量為4篇,則滿足這一條件的候選核心作者為64名。

通過計算h指數和hm指數,可以發現這些候選核心作者中h指數最高為11,最低為0。考慮到飛機技術學科屬于理工科,與圖書情報等社科學科不同,經咨詢專家,確定h指數為2及以上的作者為核心作者,共計36名。同時,計算這些作者的hm指數,給出作者排序,作者的排序可以為采訪人員進行圖書采購決策提供依據。

5 結語

學科核心作者數據庫的構建研究在國內尚處于起步階段,研究以關系數據庫為基礎,以發文量、h指數、hm指數等文獻計量學標準作為判定算法的依據,融合Web信息抽取、數據挖掘技術,形成學科核心作者數據庫的整套構建策略。學科核心作者數據庫的建立,以IT技術代替了人工數據整理,具有自動化、高效率的特點,可以為采訪人員的采購決策提供客觀性的數據支持,從而使采訪人員擺脫學科知識的局限,提高采訪工作的質量和效率。同時,學科核心作者數據庫的建設對于圖書館的特色館藏建設、專業特色數據庫建設和機構知識庫建設也有一定的幫助。

(來稿時間:2014年12月)

參考文獻:

1.杜秀杰,葛趙青,劉楊等. 基于著者索引的高校學報核心作者群分析.編輯學報, 2006, 18(5):366 - 368

2.方太強,周蓉,胡英等.我國圖書館學情報學核心作者分析.圖書情報工作,2005(1):69-73

3.趙基明,舒明全等.基于CSSCI的《中國圖書館學報》h指數及核心作者測定.中國圖書館學報,2008(2):98-102

4.龔舒野,基于h指數和hm指數的《情報科學》核心作者分析.情報科學,2013(1):82-85,95

5.邱均平, 周春雷. 發文量和h 指數結合的高影響力作者評選方法研究. 圖書館論壇,2008(6):44 - 49

6.蘇志芳,張建中,胡惠芳等.基于模糊綜合評判的中文社科圖書”核心作者”決策研究.圖書情報工作,2010(1):42-45,41

7.蔡璐.基于學科分類的高校圖書館核心館藏規律的實證研究——以高等教育學科為例.圖書情報知識,2012(4):106-110

8.沈艷紅,吳信嵐等.學科館員如何利用cnki開展采訪工作——以食品學科為例.圖書館,2012(3):105-106,109

9.The Clergy of Church of England Database .[2014- 07-13]. http:/ /www.theclergydatabase. org. uk /index. html

10.In the first person.[2014-07-14]. http: / /www. Inthefirstperson. com/firp /index.shtml

11.王曉山.科技名人數字圖書館的實踐與探索——以老科學家學術成長資料數據庫建設為例.圖書情報工作,2013 (2S):79-82

12.張學梅.hm指數——對h指數的修正.圖書情報工作,2007(10):116-118,16

〔分類號〕G253

〔作者簡介〕朱軼婷(1979-),女,碩士,中國民航大學圖書館副館長。

*本文系中國民航大學校級科研項目“日本民航網絡資源典藏庫的構建與研究” (項目編號:2010kyh03)及中國民航大學2015年中央高校基本科研項目“基于大數據分析的多館制文獻資源管理策略研究”(項目編號:31220157006)研究成果之一。

Research on Building Strategy of Subject Core Author Database for the Demand of the Literature Construction

Zhu Yiting
(Library of Civil Aviation University of China )

〔Abstract 〕Based on relational database, acquisition of basic data from the mainstream database through the web information extraction technology, data integration, checking, disambiguation by data mining technology, and then determining the core authors and authors sort according to the quantity of published articles, h-index and hm-index, finally, subject core author databases are constructed in this paper. The aim is that providing objective data support for the book acquisitioning work. Besides, in order to illustrate the practical effect of database, the paper also takes the subject core author database on flight technology as an example.

〔Keyw ords 〕Core authorsH-indexHm-indexRelational databaseWeb information extraction

猜你喜歡
數據庫學科圖書館
【學科新書導覽】
土木工程學科簡介
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
“超學科”來啦
數據庫
財經(2017年2期)2017-03-10 14:35:35
飛躍圖書館
數據庫
財經(2016年15期)2016-06-03 07:38:02
論新形勢下統一戰線學學科在統戰工作實踐中的創新
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
主站蜘蛛池模板: 国产一在线观看| 成人在线亚洲| 日韩天堂视频| Aⅴ无码专区在线观看| AV老司机AV天堂| 中文字幕调教一区二区视频| 伊人国产无码高清视频| 粗大猛烈进出高潮视频无码| 永久免费av网站可以直接看的 | 69av在线| 成人免费视频一区二区三区| 国产欧美日韩资源在线观看| 制服丝袜在线视频香蕉| 九九线精品视频在线观看| 日韩欧美国产中文| 欧美69视频在线| 手机在线免费毛片| 亚洲一道AV无码午夜福利| 国产制服丝袜无码视频| 日本91视频| 超碰91免费人妻| 91福利免费视频| 精品夜恋影院亚洲欧洲| 欧美激情视频一区二区三区免费| 精品一区二区三区中文字幕| 欧美日韩在线亚洲国产人| 欧美天天干| 久久成人18免费| 一级一毛片a级毛片| 极品私人尤物在线精品首页 | h视频在线播放| 久久精品国产国语对白| 国产正在播放| 久久精品亚洲专区| 亚洲综合精品香蕉久久网| 色天天综合久久久久综合片| 拍国产真实乱人偷精品| a免费毛片在线播放| 天天做天天爱天天爽综合区| 中文字幕首页系列人妻| 亚洲成aⅴ人片在线影院八| 欧洲熟妇精品视频| 青草视频在线观看国产| 久久精品视频一| 国产91在线|日本| 亚洲欧洲一区二区三区| 69免费在线视频| jijzzizz老师出水喷水喷出| 综合色亚洲| 久久精品人人做人人爽电影蜜月 | 亚洲成人网在线播放| 在线欧美日韩国产| 欧美日韩中文国产va另类| 台湾AV国片精品女同性| 欧美高清国产| 99re在线视频观看| 狠狠亚洲婷婷综合色香| 999精品色在线观看| 欧美精品黑人粗大| 日韩第九页| 91精品国产情侣高潮露脸| 国产哺乳奶水91在线播放| 国产无遮挡裸体免费视频| 伊大人香蕉久久网欧美| 久久精品电影| 污网站在线观看视频| 综合亚洲网| 国产激爽大片在线播放| 亚洲欧美精品日韩欧美| 亚洲国产看片基地久久1024| 亚洲国产精品不卡在线| 狠狠操夜夜爽| 在线播放精品一区二区啪视频 | 欧美成人精品一级在线观看| 91免费在线看| 国产精品美人久久久久久AV| 青青网在线国产| 青青热久麻豆精品视频在线观看| 韩国福利一区| 青青热久麻豆精品视频在线观看| 无码精品福利一区二区三区| 国产真实乱人视频|