摘 要:隨著國家文化數(shù)字化戰(zhàn)略的實(shí)施推進(jìn),一大批優(yōu)秀的數(shù)字人文項(xiàng)目應(yīng)運(yùn)而生。 文章以三個(gè)優(yōu)秀數(shù)字人文項(xiàng)目為例,分析了圖書館編目在其中的價(jià)值和意義。 圖書館類型豐富的館藏資源是數(shù)字人文建設(shè)的重要來源素材,圖書館海量翔實(shí)的編目數(shù)據(jù)是數(shù)字人文的重要內(nèi)容基礎(chǔ),圖書館新編目標(biāo)準(zhǔn)為數(shù)字人文的關(guān)聯(lián)揭示和語義化進(jìn)程提供了重要模型,圖書館編目規(guī)范控制為數(shù)字人文中數(shù)據(jù)的規(guī)范提供了重要引領(lǐng)。
關(guān)鍵詞:數(shù)字人文項(xiàng)目;項(xiàng)目分析;編目;價(jià)值
中圖分類號(hào):G254
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1003-1588(2024)10-0115-03
2022 年 3 月,中共中央辦公廳、國務(wù)院辦公廳印發(fā)《關(guān)于推進(jìn)實(shí)施國家文化數(shù)字化戰(zhàn)略的意見》[1] ,隨著文件的出臺(tái),一批又一批的優(yōu)秀數(shù)字人文項(xiàng)目不斷涌現(xiàn),以關(guān)聯(lián)數(shù)據(jù)、RDF、AI、云計(jì)算、大數(shù)據(jù)等為代表的新技術(shù)得到實(shí)踐和應(yīng)用,文學(xué)、藝術(shù)、歷史等人文學(xué)科的文化記憶得以保護(hù)和傳承。在技術(shù)不斷發(fā)展、數(shù)字人文蓬勃興起的背景下,圖書館對數(shù)字人文的貢獻(xiàn)、數(shù)字人文項(xiàng)目和圖書館的關(guān)系,以及數(shù)字人文項(xiàng)目中圖書館元數(shù)據(jù)著錄的角色定位等問題亟須圖書館思考和解決。
1 圖書館類型豐富的館藏資源是數(shù)字人文的重要來源素材
1. 1 豐富的館藏資源在數(shù)字人文中的價(jià)值
圖書館的天然使命之一是收藏、整理、保存人類文化遺產(chǎn),其豐富的館藏資源為數(shù)字人文基礎(chǔ)設(shè)施建設(shè)奠定了扎實(shí)的基礎(chǔ),數(shù)字人文中的特藏資源建設(shè)、專題庫建設(shè)等都是在館藏資源的基礎(chǔ)上利用各種技術(shù)進(jìn)行組織關(guān)聯(lián)揭示并達(dá)到傳承利用目的的。目前,數(shù)字人文平臺(tái)呈現(xiàn)全種類、全媒體化特點(diǎn),內(nèi)容與媒介分離,數(shù)據(jù)、知識(shí)和事實(shí)成為社會(huì)記憶的最小單位被聚集在一起,跨機(jī)構(gòu)文化記憶基礎(chǔ)設(shè)施的全面性、系統(tǒng)性和連續(xù)性成為可能 [2] 。 任何一個(gè)數(shù)字人文項(xiàng)目的基礎(chǔ)都是資源和數(shù)據(jù),首先是對各種載體的資源和數(shù)據(jù)進(jìn)行界定分析、采集處理;其次是對采集到的數(shù)據(jù)進(jìn)行全面系統(tǒng)的描述編目,對特征屬性進(jìn)行揭示,以方便數(shù)據(jù)的組織排序和檢索利用,雖然形式上與圖書館編目系統(tǒng)不同,但本質(zhì)上都是對資源的描述;再次是對數(shù)據(jù)的本體、屬性和關(guān)系進(jìn)行關(guān)聯(lián)揭示。
1. 2 數(shù)字人文案例分析
1. 2. 1 抗日戰(zhàn)爭與近代中日關(guān)系文獻(xiàn)數(shù)據(jù)平臺(tái)。抗日戰(zhàn)爭與近代中日關(guān)系文獻(xiàn)數(shù)據(jù)平臺(tái)以公益開放為理念,憑借豐富的史料資料成為亞洲地區(qū)開放程度最高的抗戰(zhàn)史料庫,受到社會(huì)各界的關(guān)注。 抗日戰(zhàn)爭與近代中日關(guān)系文獻(xiàn)數(shù)據(jù)平臺(tái)非常重視對抗戰(zhàn)文獻(xiàn)的界定和搜集,收錄了圖書、報(bào)紙、期刊、檔案、音頻、視頻、圖片等 7 種類型的文獻(xiàn),總量超過
5,000 萬頁,其中近現(xiàn)代報(bào)紙 1,001 種,總量達(dá) 800萬頁 [3] ,整體而言文本數(shù)據(jù)占比較大,音視頻數(shù)據(jù)占比較小。 該平臺(tái)檢索界面一目了然,可通過題名、責(zé)任者、
關(guān)鍵詞、出版地、出版者等進(jìn)行檢索。 平臺(tái)中的各類資源以《中國文獻(xiàn)編目規(guī)則》為指導(dǎo),遵循不同的著錄標(biāo)準(zhǔn),如:圖書遵照 GB/ T3792. 1—2009中普通圖書著錄規(guī)則著錄,報(bào)紙和期刊遵照 GB/T3792. 3—2009 中連續(xù)性資源著錄規(guī)則著錄,音頻和視頻則遵照 GB/ T3792. 9—2009 中的電子資源著錄規(guī)則著錄,檔案和圖片也有各自相應(yīng)的著錄標(biāo)準(zhǔn)。
1. 2. 2 文都時(shí)空。 文都時(shí)空是關(guān)于南京文學(xué)的“線上百科全書”,其作為第一個(gè)以南京文學(xué)為主題的數(shù)據(jù)庫與可視化平臺(tái),將文學(xué)文化大數(shù)據(jù)與數(shù)字人文研究相結(jié)合,基于文學(xué)研究、文化研究、數(shù)字人文等領(lǐng)域的研究成果,對南京歷史文學(xué)及其相關(guān)內(nèi)容進(jìn)行了數(shù)字化、智慧化的豐富呈現(xiàn) [4] ,是一個(gè)優(yōu)秀的數(shù)字人文項(xiàng)目。 該平臺(tái)通過各種途徑搜集了南京地區(qū)包括文學(xué)文本、音頻、影像、地圖等在內(nèi)的多種資源,以及各種與南京文學(xué)相關(guān)的歷史文獻(xiàn)。 文都時(shí)空收集、整理了 2,962 部文學(xué)作品、2,421 個(gè)人物、1,902 個(gè)地名、649 個(gè)文學(xué)事件,每個(gè)(部)作品、人、地、事件都是獨(dú)立本體,但各本體之間又有一定的聯(lián)系,從而形成了錯(cuò)綜交叉的知識(shí)圖譜,揭示了南京文學(xué)要素之間的復(fù)雜關(guān)系,便于用戶全方位了解南京文學(xué)。 例如,用戶在該平臺(tái)檢索“袁枚”,關(guān)于這個(gè)人物的細(xì)粒度、多維度屬性,包括其作品以及與其相關(guān)的地名、事件、人物等,都能被關(guān)聯(lián)揭示。
2 圖書館海量翔實(shí)的編目數(shù)據(jù)是數(shù)字人文的重要內(nèi)容基礎(chǔ)
2. 1 編目數(shù)據(jù)在數(shù)字人文中的價(jià)值
信息組織與信息檢索具有密切的聯(lián)系,信息組織服務(wù)于信息檢索,任何文獻(xiàn)資源(包括多媒體資源)不經(jīng)編目形成目錄,是無法被讀者查找使用的。編目通過文獻(xiàn)信息的外在形式特征和內(nèi)容特征對其進(jìn)行揭示,借助著錄項(xiàng)目和著錄單元完成記錄的呈現(xiàn)。 每一條機(jī)讀目錄(MARC)都是一種文獻(xiàn)信息的凝練,部分字段是著錄文獻(xiàn)基本的“所見即所得”的信息,如:分類和主題字段是對文獻(xiàn)深層次的內(nèi)容揭示,為資源的細(xì)粒度描述和聚合檢索奠定了基礎(chǔ)。數(shù)字人文是數(shù)字技術(shù)和人文學(xué)科資源交叉融合的產(chǎn)物,數(shù)字人文項(xiàng)目需要圖情、計(jì)算機(jī)和人文學(xué)科等領(lǐng)域人才共同參與設(shè)計(jì),計(jì)算機(jī)領(lǐng)域提供本體構(gòu)建技術(shù)、虛擬現(xiàn)實(shí)技術(shù)和知識(shí)地圖等技術(shù),人文學(xué)科領(lǐng)域提供知識(shí)的分析和標(biāo)注等,圖情領(lǐng)域提供的則是資源存檔、組織以及資源庫和知識(shí)庫建設(shè)等 [5] 。 圖書館編目數(shù)據(jù)是數(shù)字人文的重要基礎(chǔ),對人文資源進(jìn)行組織、關(guān)聯(lián)、復(fù)用等都離不開圖書館的編目數(shù)據(jù)。
2. 2 數(shù)字人文案例分析
家譜作為中華民族彌足珍貴的歷史文化遺產(chǎn),記載了一個(gè)家族繁衍發(fā)展的歷史,上海圖書館研發(fā)的中國家譜知識(shí)服務(wù)平臺(tái)借助關(guān)聯(lián)數(shù)據(jù)技術(shù)和可視化方式為民眾提供了尋根問祖的途徑,為其他圖書館開展數(shù)字人文服務(wù)提供了優(yōu)秀的案例典范。 中國家譜知識(shí)服務(wù)平臺(tái)收錄了約 7 萬種家譜,提供基于譜名、姓氏、譜籍地和堂號(hào)的簡單檢索和高級檢索,同時(shí)提供姓氏瀏覽和時(shí)空瀏覽,極大地滿足了用戶的多維度查找、識(shí)別、選擇和獲取文獻(xiàn)的需求 [6] 。
平臺(tái)家譜檢索結(jié)果中的譜名、責(zé)任者、撰修時(shí)間、堂號(hào)、家譜簡介等,分別對應(yīng)圖書館編目系統(tǒng)中的“200 字段 $ a 子字段” “200 字段 $ f 子字段”“210 出版發(fā)行字段 $ d 子字段”“210 字段 $ c 子字段”“330 摘要或文摘附注字段 $ a 子字段”,檢索結(jié)果左側(cè)欄還有版本類型和館藏地字段,分別對應(yīng)圖書館編目系統(tǒng)中的“205 版本說明字段 $ a 子字段”和“905 館藏地字段 $ a 子字段”;姓氏檢索結(jié)果包括譜名、責(zé)任者、堂號(hào)、撰修時(shí)間、摘要、版本、數(shù)量、館藏機(jī)構(gòu)等,其中數(shù)量對應(yīng)圖書館編目系統(tǒng)中的“215 載體形態(tài)項(xiàng)字段 $ a 子字段”,可見家譜編目的重要性。 中國家譜知識(shí)服務(wù)平臺(tái)中每條 MARC記錄對家譜的外在揭示信息都是數(shù)字人文項(xiàng)目中關(guān)鍵的數(shù)據(jù)來源,沒有編目數(shù)據(jù)數(shù)字人文項(xiàng)目只能是空談。
3 圖書館新編目標(biāo)準(zhǔn)為數(shù)字人文的關(guān)聯(lián)揭示和語義化進(jìn)程提供了重要模型
3. 1 編目新內(nèi)容標(biāo)準(zhǔn)和新格式標(biāo)準(zhǔn)在數(shù)字人文中的價(jià)值
資源描述與檢索(RDA)是國際編目界新興的編目內(nèi)容標(biāo)準(zhǔn),是《英美編目條例(第二版)》的升級產(chǎn)品,既滿足了數(shù)字資源的著錄與描述需求,也加強(qiáng)了資源信息間的關(guān)聯(lián),注重資源要素間關(guān)系的揭示。RDA 源自 FR 家族概念模型,即書目記錄的功能需求(FRBR)、規(guī)范記錄的功能需求(FRAD)和主題規(guī)范記錄的功能需求(FRSAD)。 以 FRBR 為例,F(xiàn)R-BR 將書目分為三組實(shí)體,第一組實(shí)體是作品、內(nèi)容表達(dá)、載體表現(xiàn)和單件,第二組實(shí)體是個(gè)人和團(tuán)體,第三組實(shí)體是概念、事件、物體和地點(diǎn),每個(gè)實(shí)體都有屬性與之對應(yīng),每組書目實(shí)體中的實(shí)體之間以及三組實(shí)體書目之間都有一定的對應(yīng)關(guān)系 [7] 。 FRBR以立體思維闡釋了數(shù)據(jù)間的關(guān)聯(lián),每個(gè)實(shí)體都是一個(gè)具有語義的立體數(shù)據(jù),有屬性,有關(guān)系。 關(guān)系是FRBR 模型的重要內(nèi)容,可見 FRBR 模型是實(shí)現(xiàn)數(shù)字人文關(guān)聯(lián)揭示的重要工具。
隨著新技術(shù)的發(fā)展,MARC 的弊端日益顯現(xiàn),新的書目數(shù)據(jù)格式標(biāo)準(zhǔn)書目框架(BIBFRAME)應(yīng)運(yùn)而生。 BIBFRAME 模型經(jīng)歷了從 1. 0 到 2. 0 的發(fā)展,BIBFRAME2. 0 將客觀世界所有描述對象抽象為三類實(shí)體,即創(chuàng)造性作品、實(shí)例、單件。 創(chuàng)造性作品和實(shí)例可以與 MARC 中的字段(題名、責(zé)任者、版本、出版發(fā)行、載體等)屬性一一對應(yīng)。 這種模型更具有普適性,將資源類型由書目拓展到博客文章、軟件、3D 影像、數(shù)據(jù)集等形式。 BIBFRAME 在數(shù)據(jù)的關(guān)聯(lián)揭示方面有天然優(yōu)勢,首先其每個(gè)實(shí)體都有豐富的語義,且實(shí)體間都有關(guān)聯(lián)關(guān)系;其次其應(yīng)用了關(guān)聯(lián)數(shù)據(jù)技術(shù)與網(wǎng)絡(luò)資源關(guān)聯(lián),實(shí)現(xiàn)了資源能夠在網(wǎng)絡(luò)中被共享利用的目標(biāo)。
3. 2 數(shù)字人文案例分析
本體是對某領(lǐng)域知識(shí)進(jìn)行抽象后形成的通用概念,設(shè)計(jì)知識(shí)本體的一個(gè)重要原則是盡量復(fù)用已有本體模型和術(shù)語詞表。 以上海家譜知識(shí)服務(wù)平臺(tái)為例,該平臺(tái)基于 BIBFRAME 進(jìn)行家譜本體設(shè)計(jì),在復(fù)用 BIBFRAME 已有本體模型和術(shù)語詞表基礎(chǔ)上,根據(jù)家譜文獻(xiàn)獨(dú)有的特征自定義了新的類和屬性,如:在 bf:Event(事件)下,增加了新類 shlgen:Family(家族) 等,增加了新的屬性 shlgen:Ancestor (始祖)、shlgen: BranchAncestor ( 支祖)、 shlgen: Notab-leAncestor(先祖名人)、shlgen:FirstMigrateAncestor(始遷祖)等 [8] 。 基于 BIBFRAME 設(shè)計(jì)的家譜本體能夠增強(qiáng)內(nèi)容之間的語義關(guān)聯(lián),新版書目框架中的三個(gè)核心類目及其子類目以及屬性之間都有錯(cuò)綜交叉的關(guān)系,如“bf:Work(作品)”類下有“bf:WorkTi-tle(譜名)” “bf:Creator (責(zé)任者)” “bf:Event (事件)”等屬性,同時(shí)“bf:Work(作品)”跟“bf:Authority(規(guī)范數(shù)據(jù))”下的“bf:Subject(主題)”和“bf:Place(地名)”有關(guān)聯(lián)。
4 圖書館編目規(guī)范控制為數(shù)字人文中數(shù)據(jù)的規(guī)范提供了重要引領(lǐng)
4. 1 編目規(guī)范控制在數(shù)字人文中的價(jià)值
文獻(xiàn)資源成為大數(shù)據(jù)需經(jīng)歷數(shù)字化、數(shù)據(jù)化、語義化和知識(shí)化四個(gè)進(jìn)程。 數(shù)據(jù)化進(jìn)程中的規(guī)范表示能夠消除歧義,從而使數(shù)據(jù)能夠被機(jī)器準(zhǔn)確地識(shí)別、計(jì)算和理解 [9] 。 作為從圖書館編目工作中發(fā)展起來的一項(xiàng)工作,規(guī)范控制能夠保證書目屬性描述的一致性,滿足用戶精準(zhǔn)查找和識(shí)別的需求 [10] 。 例如,F(xiàn)RAD 模型定義了 16 個(gè)實(shí)體,其中名稱、標(biāo)識(shí)符、受控檢索點(diǎn)、規(guī)則和機(jī)構(gòu)是規(guī)范控制實(shí)施的核心對象。
4. 2 數(shù)字人文案例分析
上海圖書館的中國家譜知識(shí)服務(wù)平臺(tái)利用BIBFRAME 對家譜中涉及的人、地、事件、名稱等實(shí)體完成基于概念的本體 RDF 構(gòu)建,本質(zhì)上就是規(guī)范控制;文都時(shí)空也有規(guī)范數(shù)據(jù)管理,涵蓋 21,823 個(gè)實(shí)體詞表,64,956 條規(guī)范數(shù)據(jù)關(guān)系。 數(shù)據(jù)基礎(chǔ)設(shè)施中的主觀知識(shí)層包括受控詞表,詞表只有通過簡單知識(shí)組織系統(tǒng)和關(guān)聯(lián)數(shù)據(jù)技術(shù)發(fā)布為規(guī)范的知識(shí)組織體系才能被使用。
5 結(jié)語
數(shù)字人文項(xiàng)目是數(shù)字人文基礎(chǔ)設(shè)施建設(shè)的表現(xiàn)形式,數(shù)字人文項(xiàng)目的不斷增多促使數(shù)字人文基礎(chǔ)設(shè)施建設(shè)更加完善。 隨著數(shù)字人文的不斷推進(jìn),圖書館元數(shù)據(jù)著錄有了新的發(fā)展契機(jī),其將在資源收集保存領(lǐng)域和編目組織領(lǐng)域內(nèi)繼續(xù)發(fā)揮優(yōu)勢,助力圖書館發(fā)展。
參考文獻(xiàn):
[1] 中共中央辦公廳國務(wù)院辦公廳印發(fā)《關(guān)于推進(jìn)實(shí)施國家文化數(shù)字化戰(zhàn)略的意見》 [EB/ OL]. [2024- 07-28]. https:/ / www. gov. cn/ xinwen/2022-05/22/ content_5691759. htm.
[2] 夏翠娟. 構(gòu)建數(shù)智時(shí)代社會(huì)記憶的多重證據(jù)參照體系:理論與實(shí)踐探索[J]. 中國圖書館學(xué)報(bào),2022(5):86-102.
[3] 抗日戰(zhàn)爭與近代中日關(guān)系文獻(xiàn)數(shù)據(jù)平臺(tái)[EB/ OL]. [2024-07-28]. https:/ / www. modernhistory. org. cn/ #/ .
[4] 文都時(shí)空[EB/ OL]. [2024-07-28]. https:/ / www. njlit.com/ #/ gywd.
[5] 莎拉·奧比奇勒,伊曼紐拉·博羅斯,安托萬·杜塞特,等. 歷史報(bào)紙研究的綜合性跨學(xué)科工作流程:基于人文學(xué)者、計(jì)算機(jī)科學(xué)家和圖書館員的視角[J]. 張晨文,譯. 數(shù)字人文研究,2022(3):83-100.
[6] 中國家譜知識(shí)服務(wù)平臺(tái)[EB/OL].[2024-07-28].https:/ /jiapu. library. sh. cn/ #/ .
[7] 羅翀. RDA 全視角解讀[M]. 北京:國家圖書館出版社,2015:12-13.
[8] 夏翠娟,劉煒,張磊,等. 基于書目框架(BIBFRAME)的家譜本體設(shè)計(jì)[J]. 圖書館論壇,2014(11):5-19.
[9] 祁天驕. 從歷史檔案到歷史大數(shù)據(jù):基于威尼斯時(shí)光機(jī)十年路徑的探索[J]. 中國圖書館學(xué)報(bào),2022(5):116-129.
[10] 劉煒,張春景,夏翠娟. 萬維網(wǎng)時(shí)代的規(guī)范控制[J].中國圖書館學(xué)報(bào),2015(3):22-33.
(編校:徐黎娟)