999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

民國時期文獻目錄數據平臺的構建與實踐*

2019-03-20 06:59:44蔡迎春
圖書館論壇 2019年3期
關鍵詞:規范分析

蔡迎春

0 引言

民國時期文獻,是指1911年辛亥革命至1949年中華人民共和國成立這一特定歷史時期的各種文獻,為便于研究和論述,本文稱之為“原版民國時期文獻”。相對而言,本文將1949年之后匯編、再版或影印出版的民國時期文獻,包括圖書、期刊(含報紙)和檔案等,稱為“新版民國時期文獻”。

目前,針對“原版民國時期文獻”開發的數據庫產品比較多,如上海圖書館“民國時期期刊全文數據庫”、尚品大成“大成老舊刊全文數據庫”、愛如生“中國近代報刊庫”、青蘋果“華文報刊文獻數據庫”和“維庫民國電子資源數據庫”、國家圖書館出版社“民國時期文獻總庫”以及CADAL“民國時期文獻大全”等[1]。雖然大部分圖書館的OPAC系統可以直接檢索到館藏民國時期書刊,但一些頗具影響力的大型綜合性目錄,如《民國時期總書目》,以及數量眾多的專科目錄,卻很少被納入相關數據庫或檢索系統,不能不說是一件遺憾的事情。目前已有的140余種專題目錄中,僅有鄭阿財等主編的《敦煌學研究論著目錄(1908-1997)》正在制作書目數據庫,其他目錄僅以文本形式編印或出版,尚未進行數字化處理。特別地,針對“新版民國時期文獻”而言,目前還沒有一個全面覆蓋1949年后“新版民國時期文獻”所包含圖書、報刊和檔案等內容的目錄數據庫,以至于“新版民國時期文獻”尚沒有系統的檢索途徑可循,勢必對民國時期文獻的深度研究造成不便。

民國時期文獻數據庫所包含的文獻應該可以通過數據庫本身提供的檢索途徑進行查詢,但是已出版紙質文獻的子目,因沒有整理和編目,沒有有效的路徑可供檢索,無法實現其編纂出版的價值。此外,已建成的“原版民國時期文獻”數據庫,主要以題名、責任者、關鍵詞等簡單檢索和瀏覽為主,缺少統計、分析等功能,基本上僅對文獻形式特征和少量內容特征進行標引,還處于比較原始的紙質替代狀態。民國時期文獻的開發研究仍采用傳統的研究方法與模式,缺乏創新研究范式,導致當前規模龐大的民國時期文獻數據與較低的文獻深度利用率之間的矛盾比較突出[2]。更為重要的是,“新版民國時期文獻”與“原版民國時期文獻”之間的關聯尚未被有效地揭示出來,眾多出版編撰者無法分析掌握其出版動態。

為充分揭示民國時期文獻及整理成果的子目內容和關聯,“民國時期文獻目錄數據平臺”(以下簡稱“數據平臺”)正在建設中,通過共享上海圖書館“人名規范數據集”,進一步擴展思路,建立“名稱規范庫”,從而突破原有數據庫建設理念,提供海量和規范的數字化信息和數據,從不同角度實現對文本的分析統計功能,揭示信息和數據之間的關聯性。同時,還將GIS技術以及可視化技術應用于“數據平臺”建設中,不僅使民國時期文獻的書目索引編制更加完整,而且將傳統數據庫檢索結果的平面式輸出,轉化為立體化的全方位時空呈現,將大大方便相關文獻研究、出版研究以及其他學科研究的開展。

1 民國時期文獻目錄數據平臺構建

1.1 數據來源

“數據平臺”除收入“原版民國時期文獻”目錄外,也收錄自1949年以來至今在中國內地、港臺地區和國外出版的民國時期文獻,包括公開出版物、非公開出版物和一些綜合性叢書。文獻類型主要是圖書、期刊、報紙和檔案等。目前,借助各大圖書館的館藏數據、各民國時期文獻主要出版機構的出版目錄、全國新書目、豆瓣網站和CALIS聯合目錄等,本項目已經采集了“新版民國時期文獻”數據近1000種,數據也涉及了中國港臺地區、美國、日本和歐洲等各大公共圖書館和高校圖書館聯盟聯合目錄,盡量較全面和系統地收集建國后出版的民國時期文獻成果。

1.2 平臺構建

1.2.1 設計思路

“數據平臺”的主要目的是全面揭示“原版民國時期文獻”和“新版民國時期文獻”的全部子目信息。設計方法主要是依據《民國時期總書目》和《(1833-1949)全國中文期刊聯合目錄》及其補編本的分類排序規則,同時參照目前國家圖書館正在編纂的《民國時期文獻總目(圖書卷)》進行分類、標引與著錄,使“新版民國時期文獻”目錄與《民國時期總書目》保持基本一致的體系和詳盡的著錄內容。由于民國時期檔案存量非常大,收集、著錄極為困難,故暫時未納入平臺設計中。

在平臺的功能設計時課題組特別關注了如下幾點:

(1)數據的后續更新和維護。不僅錄入數據,便于查重、自動排序和索引編制,而且還可以隨時補充新發現的相關有價值的數據;

(2)具有數據統計和分析功能。可按時間、人物、地點及出版機構等進行關聯分析并以可視化的方式呈現,便于快速從海量數據中發現新的知識,發現事件脈絡、人物關系及出版軌跡等。

1.2.2 結構框架

“數據平臺”主要由“民國時期期刊目錄庫(1911-1949)”、“民國時期圖書目錄庫(1911-1949)”和“新版民國時期文獻子目庫(1949-)”三個庫組成,并且相互關聯。平臺先期錄入《民國時期總書目》和《(1833-1949)全國中文期刊聯合目錄》作為“民國時期圖書目錄庫”和“民國時期期刊目錄庫”的基礎數據。然后,再通過檢索基礎數據,補充著錄“新版民國時期文獻”的書目信息,形成“新版民國時期文獻子目庫”。具體見圖1。

圖1 民國時期文獻目錄數據平臺的結構框架

此數據平臺結構框架具有如下特點:

(1)實現“新版民國時期文獻”書目數字化。“數據平臺”的建設,有效擴展了民國時期文獻書目整理的時間外延,全面普查1949年后民國時期文獻整理出版成果,揭示已整理出版的民國時期文獻中所有子目,彌補解放后民國時期文獻的整理出版無書目可查的缺憾,并具有可持續性。

(2)發現文獻整理的趨勢與軌跡。將人文研究領域相關技術和成果應用到“數據平臺”建設中,可以探究其出版特征和出版規律,揭示重復出版、資源收集不全等問題,考察現有民國時期文獻整理出版的缺漏,特別是對較有價值的文獻而又尚未整理出版的狀況進行分析,為出版機構進行出版選題和規劃提供參考。

(3)具有文獻計量分析功能。對“新版民國時期文獻”的圖書、期刊(報紙)的出版機構、作者、出版時間等進行文獻計量分析,便于分析研究其分布特征,為圖書館資源建設提供參考。

2“數據平臺”技術應用與實踐

2.1 底層數據集設計及元數據的選取

“數據平臺”的一個重要創新就是可以揭示“新版民國時期文獻”中的子目。由于新版子目中的某些元數據與“原版民國時期文獻”是相同的,例如題名、責任者、主題、摘要、總目分類、文獻類型等標示文獻的基本元數據,在原版文獻揭示和新版子目揭示中都是一致的,為了避免重復錄入,平臺在底層數據集設計時,將這部分共同的元數據單獨建庫,稱之為“基本數據集”。因此,在錄入原版文獻目錄時,后臺操作需要先后完成兩個書目庫的字段著錄,先在“基本數據集”著錄題名、作者、摘要等基礎字段,然后再在“原版數據集”追加出版社、出版時間等與版本相關的其他元數據。如果版本較多,就追加多條原版信息。同樣,在著錄新版子目時,也是先檢索“基本數據集”,并先與該庫建立關聯,再在“新版子目數據集”追加著錄新版的書名、出版者、出版日期等相關元數據。

另外,由于新版子目著錄可能會涉及到一些相同的著錄項,如大套影印版叢書的新版書名、新版責任者等,為避免重復錄入,數據平臺建立了一個“新版數據集庫”。錄入時,先對包含子目的大套影印版叢書進行集中著錄,當錄入子目元數據的時候對這部分內容就可以直接檢索并建立關聯。

因此,“數據平臺”的底層數據集由基本數據集、原版數據集、新版數據集和新版子目數據集四個子庫構成。其結構設計如圖2所示。

在數據平臺的元數據構成上,四個底層數據集均有各自特有的元數據元素,而對于四個子庫所涉及到的共同元數據則通過相互的“鏈接”進行共享,具體見表1。

圖2 民國時期文獻目錄數據平臺的底層數據集及關聯

表1 民國時期文獻目錄數據平臺的底層數據集元數據及鏈接

“基本數據集”元數據的構成要素是同一種書在不同時期、不同出版機構的版本都相同的基礎字段數據,包括原版書(刊)名、原版責任者、分類、主題、內容簡介(摘要)、文獻類型等。在“基本數據集”著錄完成后,通過它提供的鏈接界面,添加原版或新的版本,從而形成完整的“原版數據集”和“新版數據集”。“基本數據集”的設計及其以此為基礎的原版和新版鏈接著錄方式,可以避免不同版本間相同字段的重復錄入,使同一種書的不同版本通過鏈接實現相互關聯。

“原版數據集”元數據除鏈接“基本數據集”的題名、責任者、摘要等外,還包括新版的版本項、叢書項、形態項及館藏信息、總目號等與其他版本有所區別的字段信息。

“新版數據集”的元數據構建,由新版單行本或大型叢書、匯集本的書名、責任者、出版地、出版者、出版日期、摘要、叢書名、叢書責任者、卷冊、頁碼、開本、ISBN組成。

“新版子目數據集”除“文獻來源”元數據外,其余均是通過鏈接“基本數據集”以及“新版數據集”的相關元數據完成。以鏈接方式完成的“新版數據集”元數據構成,在避免相同字段數據重復錄入方面功效顯著。比如,國家圖書館出版社2015年出版的《民國文獻類編》收錄民國時期文獻4000余種,如果沒有實現元數據間的直接鏈接,那么相關信息就得重復錄入4000次,而建立鏈接關系后,只需勾選,并進行點擊確認,來源文獻的所有信息就會自動添加到“新版數據集”的相關字段位置上。

2.2 規范檔的建立及名稱規范數據集的應用

為了實現“數據平臺”的統計分析功能,除元數據選取盡可能完備之外,在平臺數據錄入時,各種規范檔的建立就顯得尤其重要。除了常規的主題和文獻類型需規范外,民國時期文獻的出版具有一定的特殊性,責任者、出版機構名稱的變更比較普遍。此外,民國期刊多有停刊、復刊、出版周期不固定等現象。因此,在“數據平臺”的建設中,名稱規范檔的建立就顯得非常必要,主要包括人名規范檔和出版機構規范檔等。建立名稱規范檔的目的就是把同一名稱的所有文獻都集中在該名稱詞條下。例如,同一作者可能存在多個筆名,以茅盾為例,其筆名多達一百多個,只要建立一個規范檔,就能將茅盾以不同筆名的著作都集中在茅盾的詞條下。

目前在互聯網環境下的人文研究領域,名稱規范檔的概念和圖書館傳統意義上的規范控制工作迥異。2008年國際圖聯發布主題規范的推薦意見時,首次提出“人作為一個實體”的概念。把人當作實體之后,人就不僅僅是一個名稱,而是囊括出生年月、與其他人物之間的關系、生平大事、任職經歷等諸多內容。要將同一人的很多信息集中在一起,就是要對這個人進行唯一的、可被機器讀取的標志符的設置。有了唯一的標志符,就可以用該標識符來代替這個人。唯一標識符用URI(統一資源標識符)表示,它在互聯網上是唯一的,也是唯一的定位符。“數據平臺”通過互聯網被標識、被定位、被訪問,對平臺中的人名、出版機構等建立相關名稱規范檔,如人名規范數據集、機構名稱規范數據集等,而每一個規范名稱都有URI,并且這些規范檔是開放的。因此,在“數據平臺”相關元數據著錄時,對于已標識的同一人或物的不同名稱就可以直接選用規范名稱的URI。對于沒有標識的名稱,可以通過開放的規范檔數據入口進行規范標識后再選取。

目前業界在人文研究領域已有開放的、較成熟的規范數據集,如上海圖書館的“人名規范數據集”,本項目與其合作,共享人名規范數據,彌補了“數據平臺”建設中的人力、物力和技術實現上的不足。另外,數據平臺借助上海圖書館成功案例和技術力量,也可以實現對出版機構等其他相關規范檔的建立。本項目在“數據平臺”數據錄入時,對于文獻作者、題名、摘要中的人名,直接調用了上海圖書館的開放數據接口,或進入上海圖書館人名規范庫獲取其URI,然后進行著錄。而對于有多種筆名或別稱的作者,其人名URI值都是相同的,比如冰心,原名謝婉瑩,筆名冰心女士、男士、素人,所有這些名字的URI賦值都是一致的,均為http://data.library.sh.cn/entity/person/05ebng66w4 qjnkhg。因此,無論文獻的署名是筆名、原名還是別名,因為具有相同的URI值,只要輸入其中一個名字,就可獲取該作者的不同署名的所有文獻。同樣,對于同名作者,因為URI值不同,也具有了明確的區分度,他們的作品會被歸入各自名下,不會被混淆同時檢到,讓使用者難以判斷[3]。

另外,通過名稱規范數據集的建立,也可以揭示“數據平臺”中人物之間的學術關系,為民國年間彼此有過學術交往的人物建立關聯。例如,在獲取這一機器可識別的URI值,放入“數據平臺”的相應字段后,通過系統后臺的算法和識別,即可共享“上海圖書館人名規范庫”中提供的包括筆名、別稱、職銜、籍貫、作品、生平事跡等內容在內的人物簡介[4]。同時,通過對作者相關著作的合作者、編校者,序言、弁言、書評等的撰寫者乃至書名、題字等的題寫者等進行關聯描述,對作者間的學術合作關系進行選擇、分類及分析,根據學術合作程度和合作方式,列出不同關系的類型屬性,建立學者人物關系、學術聯系圖譜。用戶可以選擇與自己研究相關或感興趣的人物進入關系分析頁面,查看人物簡介、與該人物有關聯的所有其他人物以及他們之間的關聯關系,自主選擇建立進一步的多層級人物關系,根據這些關聯關系,利用“數據平臺”提供的可視化工具,繪制人物學術關系圖譜[5]。

2.3 GIS技術和可視化技術的應用

GIS技術在“數據平臺”的應用主要通過“中國歷史地理信息系統”(CHGIS)建立地理信息關聯,將地圖的視覺化效果、地理分析功能與“數據平臺”中的地名信息相結合,實現時間和空間兩方面的直觀檢索,提供文獻的出版地分析、作者的地域分布分析、出版的時空變遷分析等[6]。其通過地圖直觀顯示文獻的出版數據,可按時間先后順序自動生成地域出版文獻數量、出版機構分布、出版機構遷徙流動路線圖等,實現檢索結果、分析結果的電子地圖呈現[7]。例如,了解民國時期每個階段哪些出版機構集中在哪一地域,或某一地域的某一時間階段的文獻出版數量、整個民國時期出版機構的遷徙集散情況,及民國時期的出版機構、出版事業的變遷和發展;新版文獻地域分布分析,以及反映1949年后民國時期文獻再版整理地域重心的變化情況;教材的出版發行地域分析,以及反映抗戰前后以及抗戰期間國統區、日據區和解放區教材在出版數量和內容上所呈現出的特色;地方志、游記、寺廟志、校史、圖書館史,以及各種社會調查材料等與地名相關的文獻的地圖呈現和地理數據分析。可以說,GIS技術在上述研究和分析中的應用,對民國時期的出版史研究、文獻版本研究乃至各個學科的專題研究,都能提供較為直觀的分析結果。一方面可以將傳統數據庫的檢索結果,變成用戶可以開展自助分析的基礎數據,另一方面把傳統數據庫檢索結果的平面式輸出,轉化為立體化的全方位時空呈現。

3“數據平臺”功能的實現

可以說,“數據平臺”的建設以及人文領域相關技術的應用,使“數據平臺”除常規的存儲與檢索外,還具備分析數據、串聯知識、發現問題的功能[8]。在提供分析統計功能和可視化結果呈現的同時,可以有效地輔助文獻研究、出版研究以及通過目錄進行的地方志、教材、文學、宗教、歷史等學科的研究。

3.1 完整地呈現版本源流

通過“基本數據集”添加“原版信息”和“新版子目信息”的方式,可以使同一種書的不同版本的情況都能完整地體現,清晰呈現同一種書的版本源流。例如,通過書名或作者在“基本數據集”檢索陳大齊編著的《哲學概論》一書,即可檢測到民國時期該書共有三個版本;再如,解放社編《社會發展簡史》一書,可檢索到七個版本。類似案例,不勝枚舉。

3.2 強大的文本分析功能

雖然“數據平臺”只是目錄數據庫而非全文數據庫,但是通過名稱規范數據集的建立以及GIS技術等的應用,通過基本著錄信息、出版信息以及內容提要等元數據的提取以及各個子庫之間多重關聯關系的建立,可以開展基于數據挖掘的文本分析。

“數據平臺”規范的元數據包括文獻目錄(含內容提要)中的人名、地名、學科主題和出版機構等信息,用戶可以利用平臺提供的檢索和分析功能,根據檢索到的文獻進行文獻主題分布、出版地分布、作者分布、年代分布等分析,并且可以利用這些信息進行組配式的關聯分析。比如通過對著作的主題、出版時間分析,揭示某一學術領域的研究或某一學術流派在民國時期的學術史;通過對作者及其著作出版時間的分析,可以勾勒出作者的學術軌跡和學術生平;通過主題與出版時間的分析,可以發現哪些學科的研究在民國時期受到重視,哪些學科關注較少,與此同時在建國后,哪些學科的文獻開發整理程度較高,哪些在民國時期相關研究文獻較多的學科未受到足夠的重視,這些為民國時期文獻整理機構提供有價值和有說服力的數據分析支持;通過主題與作者分析,可以揭示某一學科領域的作者群,尤其對于一些新興學科,可以分析出在學科發展之初,哪些學科學者最先介入或推動了學科的發展。同樣,平臺數據還可以用于民國時期電影、戲劇、海派繪畫等發端于晚清或民國時期的行業發展史和學術史的研究與分析。這些統計和分析,有助于幫助學者發現新資料,開拓前人未曾關注的新領域,拓展新的研究視野。

應用可視化工具,還可以實現文本的可視化分析。以民國時期的敦煌學研究為例,通過學科主題結合時間范圍的分析,可繪制出敦煌學在1908-1949年間學術論著發表數量柱狀圖,以此體現敦煌學研究的發展情況。通過發文量的可視化呈現,可以非常清晰地看出,敦煌學研究從民國初年(1911-1920)的18種,到民國末期(1940-1949)增長到317種,呈現從起步到越來越受到關注,研究性論著逐年增長的趨勢。也可以明顯地看出,即使民國時期發表論著是最多的一個歷史階段,但10年間的論著總發文量也僅有300余種,每年平均僅30種,這些證據表明了整個民國時期的敦煌學研究的確只處于發端期。

3.3 揭示各版本數據的關聯性

根據“新版子目數據集”與“新版數據集”形成的鏈接關系,可以很容易地判斷民國時期文獻的整理出版情況。通過“新版子目”鏈接,可以獲知該書已在1949年后有過新版本出版,再通過數據平臺提供的“文獻來源”信息,可以準確了解該書的出版信息,詳細知道文獻被收錄在哪家出版社的第幾卷第幾頁。

圖3《中國紅十字會戰地寫真》原版、新版信息著錄細目

例如,通過“基本數據集”查到沈敦和編著的《中國紅十字會戰地寫真》,可以看到該條目下有“原版信息1條”“影印版信息1條”的提示(圖3)。通過點擊“顯示”,可查到民國時期的原版為1911年由中國紅十字會出版,而建國后的影印版收錄在國家圖書館出版社2015年出版的《民國文獻類編》第六冊里。當然,某種書反復多次重新出版,或從未被整理出版過,也可通過平臺數據檢索而得到清晰的展示,為出版機構和文獻機構后續的文獻整理提供了較可靠的依據。

4 結語

民國時期文獻目錄數據平臺的建設,以及數字人文領域相關技術在民國時期文獻整理與出版領域的應用實踐,可以說是為傳統意義上的民國時期文獻研究注入了新的活力、提供了新的視角。雖然,數字人文相關技術的應用,使得“數據平臺”更有助于民國時期文獻研究領域的學者、出版者,以及圖書館的研究和決策提供多方面的依據和路徑,但是,“數據平臺”在建設過程中還有諸多問題需要進一步論證和深入探討,例如,除人名規范之外的其他名稱規范檔應該如何選取、如何合作,是否考慮眾籌方式,依靠專業團隊技術優勢使得平臺的功能更加完善,以及在目錄數據庫的基礎上擴展數據內容,最終增加全文等。希望通過本項目的實戰,能夠拋磚引玉,進一步推進民國時期文獻數字化開發的深度揭示,以充分挖掘民國時期文獻的利用價值。

猜你喜歡
規范分析
來稿規范
來稿規范
來稿規范
PDCA法在除顫儀規范操作中的應用
來稿規范
來稿規范
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
中西醫結合治療抑郁癥100例分析
主站蜘蛛池模板: 伊在人亚洲香蕉精品播放| 97国内精品久久久久不卡| 日韩精品免费一线在线观看| 中国一级毛片免费观看| 国产噜噜在线视频观看| 国产精选小视频在线观看| 伊人久久大香线蕉成人综合网| 国产91线观看| 久久久久久久久久国产精品| 免费高清毛片| 国产玖玖视频| 四虎成人精品| 日韩高清在线观看不卡一区二区| 日韩av在线直播| 国产95在线 | 欧美日韩国产在线人| 伊人网址在线| 欧美成人A视频| 啊嗯不日本网站| AV在线天堂进入| 亚洲无卡视频| 亚洲精品在线影院| 亚洲AV无码久久精品色欲| 成人免费午间影院在线观看| 香蕉久久国产超碰青草| 美女裸体18禁网站| 日韩国产欧美精品在线| 亚洲免费福利视频| 黄色成年视频| 日本人妻一区二区三区不卡影院 | 好紧好深好大乳无码中文字幕| 婷婷六月激情综合一区| 黄色网址手机国内免费在线观看 | 在线欧美a| 香蕉伊思人视频| 亚洲成a人在线观看| 国产又爽又黄无遮挡免费观看| 91福利免费视频| 九九香蕉视频| 亚洲色精品国产一区二区三区| 日韩在线播放欧美字幕| 国产十八禁在线观看免费| 欧美成人午夜视频| 一级做a爰片久久毛片毛片| 韩日无码在线不卡| 全免费a级毛片免费看不卡| 日韩a级片视频| 激情無極限的亚洲一区免费| 久久99久久无码毛片一区二区| 国产在线欧美| 欧美成人区| 99久久精品国产麻豆婷婷| 亚洲天堂精品在线观看| 欧美三級片黃色三級片黃色1| 毛片大全免费观看| 日本一区二区不卡视频| 亚洲无线视频| 欧美国产在线看| 又黄又湿又爽的视频| 久久婷婷人人澡人人爱91| 91精品人妻一区二区| 亚洲色图欧美激情| 欧美国产综合色视频| 欧美啪啪精品| AV天堂资源福利在线观看| 伊人天堂网| 国产日韩精品欧美一区灰| 国产成人综合在线视频| 99视频国产精品| 欧美一级高清免费a| 狠狠色噜噜狠狠狠狠色综合久| 自拍偷拍欧美日韩| 国产91久久久久久| 亚洲精品自产拍在线观看APP| 老色鬼久久亚洲AV综合| 成人蜜桃网| 亚洲美女一区| 久久特级毛片| 久久a级片| 天天色天天综合| 日韩精品免费一线在线观看| 婷婷激情五月网|