999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

專題數據庫開發中的文獻粒度問題研究*
——以《桂西北少數民族歷史、文化資源數據庫》為例

2014-02-14 03:09:48
新世紀圖書館 2014年6期
關鍵詞:數據庫

專題數據庫開發中的文獻粒度問題研究*
——以《桂西北少數民族歷史、文化資源數據庫》為例

李 波

在專題數據庫開發中,圖書的著錄和實體資源封裝以種為最小單元,無法充分揭示部分圖書的內容特征、學術價值和發揮專題數據庫的文獻整合利用功能,易于造成數據冗余。應遵循“有利于檢索發現,有利于讀者使用,有利于提高開發效率”原則,根據實際情況,選擇“章節”或者“篇”作為文集類、資料匯編類、綜合性圖書著錄與實體資源封裝的最小單元。

專題數據庫著錄編目元數據

1 文獻粒度的概念

“粒度”,在礦物學中指組成礦石、巖石、土壤的礦物或顆粒的大小的度量。這一概念運用在信息技術領域,一般可理解為信息單元的相對大小或粗糙程度。筆者將“粒度”的概念引入專題數據庫開發研究中,旨在描述專題數據庫、特色數據庫開發中,數字化文獻著錄和制作的最小單元。與我們對傳統印本文獻單位的認識相對應,它可以是“章節”“篇”“種”“套”等。

2 專題數據庫開發中文獻粒度處理上存在的問題

在專題數據庫開發中,需要將印本文獻轉制為數字化復本,并在目錄數據庫中進行著錄。在這一環節中,往往會以印本文獻著錄的習慣來處理數字文獻著錄、封裝的粒度。圖書館的印本文獻以圖書、連續出版物為大宗。對于圖書,通常是以獨立的物理實體為標準,將同一版次及版式的同種圖書,視為一“種”書,進行著錄。書目數據庫中的一條記錄,與一種圖書所包含的正本和所有復本相對應。與此相似,在印本圖書數字化時,通常是按“種”進行著錄和封裝實體資源。

對于報紙、期刊等連續出版物,一般將出版物名稱、出版單位相同,連續出版、發行的報刊,無論其份數、卷期數多少,統一視為一“種”,進行著錄。書目數據庫中的一條記錄,與這一種報紙或刊物的所有卷期、復本相對應。但是這種以“種”為粒度的著錄方式,無法反映報刊所包含的豐富內容,更多的是體現傳統實體文獻管理的需要。因此,在印本報刊數字化時,我們通常參照的是傳統專題卡片目錄的著錄方式。即以內容獨立、完整為標準,將某一期報紙或刊物分割成若干獨立的篇目,按“篇”進行著錄和實體資源封裝。目錄數據庫中的一條記錄就如同一張專題卡片目錄,與報紙或刊物中的某一篇文章相對應。

以上對印本文獻數字復本著錄、封裝粒度的處理方式,對于形式特點統一的連續出版物而言是有效的,但對于出版形式多樣的圖書則存在諸多弊端。以下以筆者主持開發的專題數據庫《桂西北少數民族歷史、文化資源數據庫》為例進行分析。

2.1 無法充分揭示文集類圖書的內容特征、學術價值

專題數據庫的開發,其目的是為特定知識主題或學科領域的學習、研究提供系統的、具有較高參考價值的數字化文獻資料。《桂西北少數民族歷史、文化資源數據庫》主要收錄與壯、侗、仫佬、毛南、水、瑤、苗等七個桂西北世居少數民族相關的各類文化、歷史研究參考文獻資料,供相關研習、宣傳使用。從這一目的出發,數字文獻的著錄則應該力求通過題名、主題詞或關鍵詞、作者、摘要等描述信息盡可能地反映、突出文獻資料涉及的主題、內容與少數民族文化、歷史的關聯性,便于讀者檢索、甄別、選用。這種標引、著錄的要求與圖書館常規的圖書著錄相比,有更強烈的指向性、目的性。

但是,對于專題論文集、個人文集、學術會議文集等文集類圖書,常規以“種”為粒度來著錄,往往無法通過題名、關鍵詞、作者等途徑,充分揭示文集內部與數據庫主題相關的豐富內容,不利于讀者檢索利用。

例如京華出版社2001年出版的《樂海濤聲》一書,作者趙毅為前中央民族大學藝術研究所所長。本書收錄作者關于少數民族音樂研究的文章42篇。其中包含《廣西壯族民歌區域分布及其特點述要》《壯族民歌的區域性特征》《壯侗語族之音樂文化比較研究》《壯族“唱螞拐”習俗考辨》《特色濃郁的南國樂舞風情——廣西河池地區銅鼓藝術團演出觀感》等有關廣西壯族音樂研究的文章共10篇,其他少數民族音樂研究和少數民族音樂教育相關文章32篇[1]。對于《桂西北少數民族歷史、文化資源數據庫》而言,上述10篇文章無疑與數據庫主題高度相關,其題名均有一定的專指性,能夠直觀地反映文章的主題、研究領域、主要內容。從讀者角度而言,如能從每篇文章的題名或關鍵詞進行檢索,則更容易發現這些文獻。而按“種”進行著錄時的實際情況是,圖書題名項為總集名“樂海濤聲”,主題詞為“音樂—藝術評論—中國—文集”。題名文學色彩太濃,無法反映收錄文章的研究主題、領域;主題詞對于收錄的具體文章而言又過于寬泛概括,不具備專指性;摘要項又無法羅列文集所有文章的目錄。最終的結果就是因檢索入口的缺失,上述10篇對專題數據庫而言有高價值的文獻極易被遮蔽。

又如由李紹明、程賢敏主編《西南民族研究論文選1904—1949》一書,收錄20世紀初、中期我國西南民族研究的重要學術成果42篇,其中就包含了劉介、徐松石、徐益堂等著名學者有關廣西少數民族研究的文章《廣西民族研究述略》《僮乃嶺南土著的明證》等[2]。從學術影響的角度而言,劉介、徐松石、徐益堂等作者的檢索價值,遠高于文集的編者李紹明,程賢敏,但按“種”來著錄,著者項只能反映文集的編者,讀者從著錄信息的檢索上很難做到對這些重要作者、重要文獻的發現,其實際效果與專題數據庫文獻標引、著錄的初衷可謂背道而馳。

2.2 資料匯編類圖書難于發揮專題數據庫的文獻整合利用功能

專題數據庫的一個重要價值就是可以從學科、研究主題、地域、時間、內容、文獻類型等角度對龐雜、分散的文獻進行快速聚合。一方面使讀者可以系統、完整地獲取所關注領域的文獻,另一方面可以揭示出一系列孤立的文獻內在的、多維的關聯性,便于最大限度地挖掘、呈現其參考價值。而實現這一功能,有賴于通過數字文獻的標引、著錄,對文獻的主題、時空、內容、文獻類型等特征進行描述,為機器識別提供依據。但是,對于資料匯編類圖書,常規以“種”為粒度進行著錄和數字資源封裝,往往無法發揮數據庫的這種文獻整合功能。

以廣西人民出版社1986年出版的《壯族歷代史料薈萃》一書為例,該書摘錄二十四史,歷代地方史志、類書、叢書、筆記中有關壯族的史料一千余條,每條史料均根據內容進行分類標注,凡政事、起源、人物、藝文、風俗、分布、習性、地形、氣候、婚姻、文化、姓氏、貿易、產物、飲食、教育、經濟、居住、祭祀等二十余類[3]。書中的這種分類標注,實際上已經為我們提供了專業的關鍵詞、檢索詞標引。如能對全書一千多則史料進行逐條著錄、封裝,那我們就能夠便捷地按某一主題來對歷代相關的史料進行聚合,這將極大地便利研究者進行系統研究。但是,傳統按“種”著錄與資源封裝的處理方式,無法實現這樣的文獻整合功能。傳統印本文獻的難于深度檢索、整合利用缺陷,沒有能在數字化文獻系統上得以解決,數字化文獻的價值沒有得到充分挖掘。將印本文獻簡單的制成數字化復本,實際上完全不能體現專題數據庫開發應有的價值。

2.3 綜合性、文集類圖書數字化復本數據冗余嚴重

專題數據庫以提供特定知識主題或學科領域的文獻資料為特征,它收錄文獻的最重要標準就是與數據庫主題的“相關性”。而在實際文獻出版中,一種常見的現象就是在某些綜合性、文集類圖書中,真正與專題數據庫相關的內容只是其中的某些篇目和章節。出于按“種”著錄、加工文獻的習慣,我們對印本文獻進行掃描等數字化處理時,通常都是將一種書作為一個不可分割的整體來封裝。又或是從已有的數字化文獻中篩選相關資源時,將一種書全部的內容視為一個整體來存取。由于專題數據庫的特性,數據庫的目標用戶只會關心與數據庫主題相關的文獻內容。因此,我們在數字化文獻制作時,為那些與數據庫主題無關的內容所耗費的大量時間,對于數據庫的使用者來說是沒有價值的。數字化復本中那些與數據庫主題無關的內容而實際上變成了冗余的數據。

以民族出版社2005年出版的《中國少數民族傳統體育史》為例,全書共431頁,其中與“桂西北少數民族歷史、文化”相關的內容有“侗族傳統體育”“壯族傳統體育”“苗族傳統體育”等三個章節,共41頁,占全書篇幅的9.5%[4],而在制作本書的數字化復本時,如果完整保留全書的內容,就會產生90.5%的冗余數據。由于本專題數據庫主題較窄,對于綜合性著作而言,此書中冗余的內容比例具有一定的代表性。大量的冗余數據,首先影響讀者在使用時存取的速度,制造不必要的信息干擾。其次,大量的冗余數據占用大量數據存儲空間,以及工作人員的制作時間,勢必要增加一些不必要的設備、人力,使數據庫開發的速度與效率大大降低。

3 專題數據庫開發中不同文獻粒度選擇的策略

為避免上述弊端,充分發揮數據庫的資源檢索發現、多維聚合功能,在處理專題數據庫文獻粒度問題上,有必要遵循“有利于檢索發現、有利于讀者使用、有利于提高開發效率”的“三有利原則”,根據實際情況靈活選擇文獻著錄與封裝的粒度。

3.1 對于文集類圖書,宜以“篇”為著錄和封裝最小單元

對于文集類圖書,宜采取類似期刊的處理辦法,將全書分解成若干獨立的篇目,分別著錄題名、作者、檢索詞、摘要等信息。對構成圖書的所有獨立篇目,應當只選擇與數據庫主題相關的文章進行著錄和數字化處理,對于與數據庫主題無關的則忽略不做處理。以前文所述《樂海濤聲》一書為例,書中收錄與專題數據庫主題相關的作品共10篇,則將這10篇文章分成10條記錄,逐篇進行著錄和數字化。其余文章則不作處理。

3.2 資料匯編類圖書,宜以“篇”為著錄和封裝最小單元

對于匯編類圖書的數字化,有兩種具有代表性的情況:一種情況是篇目有獨立、專指的題名,其處理方式與文集類專著相同。另一種情況是篇目無獨立、專指題名,而是編號或分節來體現篇目的獨立性。處理這一類篇目,首先需人工介入自擬題目,然后再按文集類圖書的方式,逐篇著錄、封裝。自擬題目可以是截取資料文本首句,也可以選擇文本中能夠反映文章內容的語句,或根據文意歸納。以《壯族歷代史料薈萃》為例,書中有摘錄《雒容縣志》史料5篇,無題名,以分節加分類標注以示獨立。如第一篇:【風俗】雒容民與壯并居十七,力耕食,頗堪自贍……。可截取首句“雒容民與壯并居十七”作為文章的題名。又如第五篇:【政事】雒容舊治白龍巖,天順中遷于朱峒,正德時為瑤、壯所據。可根據文本主要內容,歸納題名為“正德時瑤、壯據雒容”[3]。

3.3 對于綜合性圖書,宜以“章節”為著錄和封裝最小單元

對于綜合性圖書,宜根據實際情況,以“章節”為著錄和封裝最小單元。以前文所述《中國少數民族傳統體育史》為例。書中與“桂西北少數民族歷史、文化”相關的內容有“侗族傳統體育”“壯族傳統體育”“苗族傳統體育”等三個章節。則應按“章節”為單位,以章節標題為題名分成“侗族傳統體育”“壯族傳統體育”“苗族傳統體育”三條記錄進行著錄和數字化封裝。

4 數字化文獻著錄和封裝處理時應注意的幾個問題

4.1 如實反映文獻來源

從文集類、匯編類、綜合類圖書中分析出來的每個篇目,在數字資源實體封裝時都應如實反映文獻的來源,以便為使用者在引用文獻標注時提供完整信息。只要是從來源文獻中分析出來的篇目、章節文獻,在制作對應數字化文件時,除與文章正文對應的頁碼外,還應封裝來源文獻的封面、目錄、版權頁、CIP信息頁。

4.2 充分揭示目標文獻的內容特征

從母體文獻中分析出來的篇目、章節文獻,應按具體的作者、創作時間、文章內容著錄作者、創作時間、檢索詞等信息,充分揭示其內容特征。對于原文未標注作者、創作時間的,應盡可能根據文章的內容或來源文獻的前言、版權頁內容來分析。檢索詞的著錄,主要依據題名、文章主要內容分析、標引,應盡可能專指,以及從與數據庫主題的關聯性來選擇檢索詞。

5 篇目、章節類文獻的元數據方案設計

由科技部制定的我國數字圖書館標準規范專門元數據規范和CALIS數字化資源專門元數據規范共定義了電子圖書、古籍、地方志、輿圖、期刊、學位論文等11類元數據規范[5]。上述這類從各類型文集、匯編、綜合性文獻中分析出的篇目、章節文獻并不符合其中的任何一種。因此,對這類文獻進行著錄,就涉及元數據方案選擇的問題。《CALIS特色庫子項目描述元數據規范及相關規則》指出:“如果以上列出的11中元數據規范不能完全覆蓋建庫單位的資源類型,各建庫單位需根據特定資源的特點,自行定義與設計新的描述元數據方案,并上報給項目管理組批準。”[6]因此,針對這類目前元數據規范未能涵蓋的文獻,我們可以按《CALIS特色庫子項目描述元數據規范及相關規則》的精神,自定義一種新的元數據方案,姑且稱之為“匯編資料元數據”。

為保證和異構系統的數據交換和通用檢索,元數據方案建議只選用DC的15個基本元素。一般應包括:題名、創建者、主題(檢索詞)、描述、時間、格式、標識符、語種、關聯、出版者十個主要元素。其中前八個元素是對篇目、章節文獻本身的描述,后兩個元素用于對篇目、章節文獻來源文獻、母體文獻的描述。下面以京華出版社2001年出版《樂海濤聲》一書所收錄的文章《壯族民歌的區域性特征》為例簡要說明,見表1。

表1 匯編資料元數據方案樣例

[1]趙毅.樂海濤聲[M].北京:京華出版社,2001.

[2]李紹明,程賢敏.西南民族研究論文選1904—1949 [M].成都:四川大學出版社,1991.

[3]覃兆福,陳慕貞.壯族歷代史料薈萃[M].南寧:廣西民族出版社,1986.

[4]徐玉良.中國少數民族傳統體育史[M].北京:民族出版社,2005.

[5]中國科技信息研究所.我國數字圖書館標準規范專門數字對象描述元數據規范[EB/OL].(2003-04-12) [2013-12-16].http://cdls.nstl.gov.cn/cdls2/w3c/2003/ SpcMetadata/.

[6]CALIS三期專題特色數據庫項目管理組.CALIS特色庫子項目元數據規范相關規則[EB/OL].(2004-05-12)[2013-12-16].http://wenku.baidu.com/view/8d452 633a32d7375a417806f.html.

李波河池學院圖書館副研究館員。廣西河池,546300。

Granularity Problems in the Development of Special Databas:Taking"The Guangxi Northwest Minority History&Cultural ResourcesDatabase"as an Example

Li Bo

In the process of developing special database,type is used as the minimum unit to describe"document and encapsulate entity.It can’t fully reveal the content features,academic value of some literatures and develop the functions of literature integration and utility of special database.So,it easily causes the data redundancy.Followed the principle of“easy to retrieve,easy to use for readers and easy to improve the efficiency of development”and based on the fact,chapter should be chosen as the minimum unit of collected works,data compilation,comprehensive books and entity encapsulation.

Special database.Document description.Catalogue.Meta data.

G256

2013-12-13 編校:鄒婉芬)

*本文系廣西教育廳重點課題“河池少數民族文獻信息資源共建共享研究”(項目編號:2012022D082)、河池學院重點課題“桂西北民族及地方專題文獻服務系統開發與研究”(項目編號:2011YAZ-H001)的系列研究成果。

猜你喜歡
數據庫
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
兩種新的非確定數據庫上的Top-K查詢
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
數據庫
財經(2015年3期)2015-06-09 17:41:31
數據庫
財經(2014年21期)2014-08-18 01:50:18
數據庫
財經(2014年6期)2014-03-12 08:28:19
數據庫
財經(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 大乳丰满人妻中文字幕日本| 欧美啪啪视频免码| 亚洲IV视频免费在线光看| 国产原创演绎剧情有字幕的| 永久毛片在线播| 日本免费精品| 香蕉视频在线观看www| 欧美日本不卡| 亚洲中文字幕av无码区| 一级毛片无毒不卡直接观看| 91亚洲免费视频| 欧美日韩成人| 亚洲AV无码乱码在线观看裸奔| 亚洲欧洲日韩综合| 国产人人射| 欧美区一区| 夜色爽爽影院18禁妓女影院| 18禁不卡免费网站| 国产成人亚洲精品色欲AV| 国产精品.com| 日韩黄色在线| 日本在线国产| 欧美黄色a| 亚洲成人一区二区三区| 无码 在线 在线| 亚洲人成亚洲精品| 亚洲精品日产精品乱码不卡| 亚洲一级毛片在线播放| 国产杨幂丝袜av在线播放| 2020精品极品国产色在线观看 | 婷婷色中文| 亚洲一区二区三区中文字幕5566| 久久综合九色综合97婷婷| 中文无码精品a∨在线观看| 色综合色国产热无码一| 国产成人精品高清不卡在线| 久久精品人人做人人爽97| 国产一区亚洲一区| 亚洲无码精品在线播放| 亚洲欧美另类中文字幕| 五月天久久综合| 色综合久久久久8天国| 香蕉久久国产超碰青草| 福利在线一区| 亚洲国产看片基地久久1024| 欧美天堂久久| 中文字幕人妻av一区二区| 欧美国产日韩在线观看| 色综合五月婷婷| 黄色污网站在线观看| 99re在线免费视频| 国产精品尤物在线| 女人av社区男人的天堂| 色婷婷在线播放| 少妇精品在线| 狠狠亚洲婷婷综合色香| 欧亚日韩Av| 精品国产女同疯狂摩擦2| 国产系列在线| 欧美另类图片视频无弹跳第一页| 宅男噜噜噜66国产在线观看| 亚洲美女视频一区| 91黄视频在线观看| 国产成人精品高清不卡在线| 亚洲中文字幕在线观看| 国产午夜精品一区二区三区软件| 国产精品3p视频| 亚洲三级影院| 亚洲欧美另类日本| 亚洲国产欧美自拍| 99无码熟妇丰满人妻啪啪| 亚洲午夜福利精品无码不卡| 在线观看欧美精品二区| 无码中文字幕精品推荐| 国产精品香蕉| 亚洲国产精品成人久久综合影院| 久久窝窝国产精品午夜看片| 青青草欧美| 国国产a国产片免费麻豆| 亚洲天天更新| 伊人欧美在线| 久精品色妇丰满人妻|