999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖書館古籍數字資源整合研究?

2014-08-15 00:49:30
圖書館 2014年4期
關鍵詞:語義數據庫圖書館

(國家圖書館 北京 100081)

1 圖書館古籍數字資源整合現狀綜述

古籍文獻資源具有稀缺性、易損性,且存世量少,多年來,讀者要使用古籍文獻時需到館查詢卡片記錄,有限制地在固定地點閱覽部分古籍文獻,造成大量的古籍文獻束之高閣,極大地降低了古籍文獻的利用率。近年來,數字化成為古籍文獻保存與利用的主要途徑,圖書館制作了多種類型的數據庫供讀者使用,并不斷對古籍文獻進行深入挖掘,為讀者提供精細化知識服務。目前,對古籍文獻聚合的實踐具有以下幾個特點:

1.1 建設了大量的書目數據庫

書目數據是圖書館對文獻進行揭示與整合、為用戶提供信息服務的最基本的工具之一,通過書目數據,用戶能夠便利地找到自己所需要的文獻,這一知識產品代表著圖書館的核心競爭力。

絕大多數圖書館都對本館所藏的古籍文獻進行了編目,形成大量的書目數據,其特點在于一般均按照規范的元數據標準進行著錄。部分圖書館在基本的著錄項之外還基于古籍的特點增加了一些特殊字段。如:山東大學古籍數據庫的元數據包括書名、卷數、作者、類別、抄刻者、封面、牌記、開本、版框、刻工、序跋、藏印、附注等23個字段。中國國家圖書館的古籍普查登記元數據包括題名、著者、版本、分類、版式、裝幀、裝具、序跋、刻工、批校題跋、鈐印、附件、文獻來源、修復歷史、叢書子目、定級、定損、相關書影等字段。

1.2 對古籍文獻進行再加工,提供增值信息

多年來,圖書館一直致力于對古籍文獻進行再加工,為用戶提供增值信息。其中,制作索引數據庫是較為常見的形式。

索引數據庫的建設主要包括以下三方面的工作:一是對一些已出版的索引類工具書進行全文數字化,提供用戶使用,如:“中英文圖書數字化國際合作計劃(CADAL)”數字化的古籍索引類文獻有數百種之多;二是在古籍數據庫的基礎上建設索引數據庫,如:明人文集聯合目錄與篇目索引資料庫整合了臺灣地區各收藏單位的藏品資料,包括故宮博物院圖書館、臺灣大學圖書館、中研院傅斯年圖書館、國家圖書館及漢學研究中心所藏明人文集,具備有全文、篇目、書名、作者檢索等多項檢索功能;〔1〕三是建設專門用于古籍的自動索引系統,并利用索引系統進行古籍文獻的索引工作,如:湘潭大學研制的古籍索引自動編輯系統(RPSYBJ)可自動編制古籍的逐字索引、句子索引、人名索引、地名索引及其他專題索引,并利用該系統編制了《宋詞別集索引三種》。〔2〕

1.3 出現大量的全文影像數據庫

近年來,古籍數字化工作蓬勃開展,除了圖書館進行的本館館藏古籍數字化外,還有一些跨地區的項目,如古登堡計劃(Project Gutenberg)、中美百萬冊圖書數字圖書館計劃等項目中的文獻數字化都包含中國古籍。在各方的努力下,大量的中國古籍已經被數字化,古籍全文數據庫成為用戶利用古籍文獻的重要途徑。

除對普通古籍進行數字化、建設全文影像數據庫外,圖書館還基于本館的特色館藏建設了很多專題數據庫。如:中國國家圖書館館藏西夏文獻大多為西夏、元代孤本,是研究古代西夏、元代紙張、絲綢質料的珍貴實物資料,對研究西夏佛教史具有重要價值,中國國家圖書館整合這些文獻,建設了“西夏碎金”數據庫,收錄館藏西夏古籍書目數據124條、館藏西夏古籍原件影像近5000拍、西夏研究論文篇名數據1202條。又如:上海圖書館共收藏有約17000種、110000余冊中國家譜,是國內外收藏中國家譜(原件)數量最多的單位,最早者為宋內府寫本《仙源類譜》(殘頁)。另上海圖書館為推動本館特色館藏的開發利用,建設了家譜數據庫。

1.4 多個古籍收藏機構共同建設古籍數據庫成為古籍文獻利用的發展趨勢

目前,一些大型項目均是由多個收藏機構合作共同建設,合作原因多種多樣。一種是由于文獻內容、類型上互為補益促成的跨區域合作。如:由大英圖書館發起,眾多國際敦煌文獻收藏機構共同參與的敦煌文獻保存和數字化項目——國際敦煌項目(International Dunhuang Project,IDP)。另一種是由于古籍文獻的數字化及開發利用一般需要大量的人力、物力、財力,一些中小型圖書館無力開發本館館藏,因而與其他館合作建設。如:由北京大學、北京師范大學、南京大學、四川大學等高校合力建設的學苑汲古數據庫。

2 館藏古籍數字資源整合存在問題研究

2.1 對古籍文獻的組織與利用多基于書目數據

目前圖書館對古籍文獻的組織與利用多是基于書目數據得以實現,這一特點既有優點,也有弊端,書目數據產生于對印本文獻的編目,在大量的數字資源成為編目對象時,書目數據暴露出一些弱點:①書目數據主要是以文獻為單元進行描述,無法對文獻的內容進行深入的揭示,更無法在知識元之間建立有效的關聯,實現在語義層面上的深度聚合;②基于書目數據形成的知識結構是線性的、等級式的,而當數字圖書館將海量的、分布的、動態的網絡信息資源納入整合的范圍時,知識結構必須進化為網狀的具有各種關系的概念群,才能夠支持對知識的深度聚合;③在檢索中只能支持詞形匹配,而不支持智能推理,因而無法實現語義檢索;④書目數據的規則與結構的設計主要是基于手工編目的需求,而在網絡環境下,編目的對象由靜態的印本文獻發展為動態的數字文獻,書目數據只是作為原始文獻的替代物,無法通過對知識的自動學習發展出新知識,完成自身的進化。

對資源進行整合不僅應實現基于文獻的整合,更重要的是實現基于知識的整合,為用戶提供更高效的知識服務。古籍文獻記敘的內容涉及到天文、地理、文化、藝術、醫藥、農業、歷史等多個學科領域,除對歷史研究外,對于相關各學科領域的研究都有著重要的利用價值,應進行深入的挖掘。目前對古籍資源整合的深度只停留在文獻層面,沒有對古籍文獻中的知識進行深入挖掘。

2.2 古籍文獻收藏機構多而分散

古籍文獻的收藏機構眾多,除中國大陸外,還分布在全球多個地區,主要有中國臺灣、美國、英國、日本、韓國等。如:美國國會圖書館收藏有包括宋元明清善本古籍5萬余冊,地方志400多種,其中100多種為中國國內孤本,其他尚有400多種滿文數據和3000種云南納西族東巴文資料。哈佛燕京圖書館現有中國古籍4673種、44993冊,中國地方志4000種,叢書1500種,所藏《永樂大典》2冊、《四庫全書》2冊、宋版書16種、元版書38種、明版本1275種均為中國以外的孤本。〔3〕資源的稀缺性與分散性影響了對古籍文獻的利用。同時,由于發布者不同,數據結構、命名方式、元數據格式和元數據方案,系統結構模型、調用協議、用戶界面等各個方面都有很多的差異,特別是命名方式、數據結構、句法結構、語法結構等方面的差異會帶來語義不一致的問題,嚴重影響了語義網環境下對信息資源的語義揭示與語義互聯。

3 解決問題途徑研究

筆者認為,要解決上述兩大問題,應分三步驟進行古籍數字化資源的整合,第一步,結合古籍數字化資源特點,加強對文本自動分析技術、本體等的研究,構建古籍資源的知識體系;第二步,基于這些知識組織工具進行古籍知識庫的構建,實現對知識的語義揭示、語義關聯;第三步,加強各方合作,實現多來源異構資源的統一檢索。

3.1 應用文本自動分析技術有效實現古籍中知識的挖掘

3.1.1 文本自動分析技術概述。近年來,古籍文獻由印本文獻轉為大量的半結構化或非結構化的數字化資源,同時,圖書館對書目數據賦予的功能也隨之發生了變化,不再只針對文獻,而是更多地關注文獻的內容。在這些變化的影響下,只依靠傳統的人工編目勢必無法滿足古籍資源利用的需求,因此,必須引入非人工或半人工的方式進行文獻的揭示與組織,加強對數字資源的智能化處理技術的研究,在語義層面上深化館藏古籍資源的知識組織,建立人與機器之間的互理解通路,形成數字圖書館知識認知與共享的基礎。

對古籍數字化資源進行智能化處理以文本自動分析技術為基礎,這些技術主要包括:①文本抽取技術。對于抽取出來的信息,應按照一定的算法計算權重、過濾錯誤或冗余信息,這樣,通過多種方法的結合使提取出的信息具有專指性、準確性、客觀性、完整性。②中文分詞技術。分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。盡管已有多年的研究和實踐,國內建設了多個分詞系統,但是由于漢語的復雜性,漢語分詞技術仍是中文信息處理的一個技術難點。因此,較為合理的中文分詞方法應是建設基礎的分詞詞典,通過大量實驗數據積累語料庫,同時用已建的元數據對分詞詞典進行檢驗,不斷改善。

文本自動分析需要以語料庫作為基礎工具,一個完整規范的語料庫對知識挖掘的準確性具有重要的作用。近年來,一些古籍研究機構建設了一批高質量的語料庫,為我國古籍文獻的整理與挖掘打下了良好的基礎。如:中國社會科學院語言研究所建立的小型語料庫包括近代漢語書面語語料150萬字、中古近代漢語語料約1000萬字;浙江師范大學建設了楚辭語庫、前四史語庫、六朝語庫、太平廣記語庫、唐詩語庫、宋詞語庫;四川大學建設的中國古漢語語料庫有1億字的中國古漢語語料和有關中國古漢語研究的資料等。但是,由于目前語料庫的建設非常分散,沒有形成一個較為完整的體系,缺少對語義語料庫和語用語料庫的研究與建設,因此,對于實現基于語義的古籍數字資源自動分析的支持作用還很有限。

3.1.2 文本自動分析技術在古籍數字資源整合中的應用研究。利用智能化的文本自動分析技術可以對古籍文獻的內容進行深入研究與輔助處理,實現對知識的揭示與發現。古漢語在語義與語法規則上與現代漢語有大量的差異,因此,利用文本自動分析技術在處理古籍數字資源時應關注古漢語的特點。如:關注對一字多音的識別,加強注音語料庫的建設,通過利用上下文信息等方法確定多音字。

關注對漢字借用、代替等現象的識別,其中的難點在于:通假字由于借用是不固定的、臨時的,因此對語境的依賴性大;異體字由于各個地方對正體字的不同認定造成對異體字的判定也因地而異。對文本進行分析時,對于每個獨立的著錄對象,應結合該資源的來源(如地域、機構等)、上下文語境等信息。

關注對名詞特別是人名、地名、物名、職官名等的正確識別,特別注意歷史沿革、地域差異等對名詞的影響。加強對命名實體識別技術的研究。命名實體是指現實世界中具體的或抽象的實體,如人、地點、組織等。通常用唯一的標志符(即專有名詞)表示,如人名、地名、組織名等。廣義上講,命名實體還可以包含時間、數量表達式等。〔4〕

古人對句子的注釋很多采用征引式的注釋方法,因此,應對這類注釋再進行注釋,同時,也可以通過這種注釋方法建立不同語句之間的關聯關系。

較為重要的古籍往往有多個校本,造成校勘工作繁重,應利用文本自動分析技術進行自動校勘,提供避諱字表、異體字表等輔助校勘工具,加強對誤字、倒錯、異文、脫文、衍文等多版本間差異的準確發現。

3.2 加強本體構建與應用

3.2.1 本體的概念及功能。語義網是對萬維網的擴展,目的是使現有的萬維網具有一定的推理和自動處理能力。語義萬維網通過給萬維網上的文檔添加能夠被計算機所理解的語義,從而使整個互聯網成為一個通用的信息交換媒介。〔5〕

本體(Ontology)是某一領域中的術語及術語間關系的規范說明,提供對領域知識的共同理解與描述,用于共享、交流和重用,由概念及概念之間的關系構成,概念及概念間的關系經過精確定義,主要供機器或計算機所使用并可用數學方式表達。〔6〕本體是語義化的基礎工具,對語義網體系結構起著關鍵的支撐作用。在語義網體系結構中,本體的作用主要表現在:概念描述、語義揭示、一致性、推理支持。〔7〕

本體在古籍數字資源的整合中承擔以下的功能:①基于語義分析,支持對文本的自動分析;②支持對古籍數字資源進行自動編目及規范控制;③支持自動抽取古籍文獻中的知識概念,并建立知識關聯;④支持語料庫的智能擴展,自動發現和挖掘新詞,發現缺失的概念;⑤作為基本的知識組織工具支持知識庫的自動推理、自動聚類的功能。

3.2.2 古籍本體的構建方式。古籍文獻的內容博大精深,涉及多個學科,因此,本體的構建應分步實現,第一步,在小范圍內進行本體的建設,主要建設方向分三類:一是基于古籍文獻中的通用知識構建通用本體,被定義的知識可以應用于各類型古籍,作為基礎支持工具,如:針對古籍文獻形式構建的本體,基于人物構建的本體等;二是基于特定的學科專業領域構建領域本體,如:中醫古籍本體的構建可以生命、形體、經絡、腦穴、診法、中藥、方劑、病證、療法、針灸、養生、氣功等中醫特定知識單元為概念〔8〕;三是基于特定的古籍文獻類型構建領域本體,如:由于家譜的主要內容是記錄家族歷史,與人物有著密切關系,因此,家譜文獻的本體構建應以人物、家族為核心概念,重點分析人物之間的關系、家族之間的關系、人物與家族的關系、家族及人物與機構的關系、人物與作品的關系、家族及人物與事件的關系等概念關系。第二步,整合各類本體,構建古籍資源的知識組織體系。

3.3 基于本體構建語義知識庫

知識庫是在數據庫的基礎上結合人工智能領域技術構建而成的,建設的目的在于通過管理和存儲知識來實現知識的序化、共享、重用。建設的過程即對知識的獲取、表示、利用,既包括對原始信息或既有知識進行理解、提取、分類,將知識以計算機能夠理解和處理的形式來表示,也包括通過分析和推理產生新知識。其特點在于:從信息資源中抽取知識點,按照一定的知識表示方法,深入到文獻知識層面按照一定的知識體系進行整序和分析,形成知識集合;不但能夠表示顯性知識,而且能夠組織隱性知識;具有學習、歸納推理及動態更新的功能;不但明顯地表達事實和關系,還能夠明顯地表達領域知識和推理規則;通過對知識庫進行挖掘,能夠發現事實上的知識,也能發現規則上的知識。

知識庫的作用在于作推動知識有序化、知識的交流與共享,對館藏古籍數字資源的整合有著重要的作用,圖書館對古籍知識庫的構建進行了一些研究和實踐。目前主要向兩個方向發展,一是基于本體建設的綜合性、基礎性知識庫,如:北京大學數據分析研究中心與中國國家圖書館合作建設的中國歷代典籍總目分析系統采用實體關系分層描述古籍書目并構建了古籍文獻知識本體;二是基于領域本體針對特定學科古籍文獻建設的知識庫,如:中國中醫研究院對中醫古籍的本體構建進行了大量的研究,建設了中醫古籍知識庫系統,并在此基礎上開發中醫藥文獻服務系統。〔9〕但這些嘗試都還處在探索階段,主要工作都集中在對本體的建設上,對知識庫的架構、功能等的研究還較為欠缺。

目前,對基于本體的古籍知識庫的建設應按以下幾個步驟有序推進:①深化對館藏古籍數字化資源的語義挖掘與語義互聯的研究;②推動知識表示、利用、存儲與獲取的輔助工具的研究開發;③研究傳統知識組織工具的自動更新、自動豐富機制,使之具備吸收新信息、新概念、新結構的能力,在此基礎上開發數字資源知識組織工具;④加強各類型語料的積累,為知識庫的建設打下良好的基礎;⑤基于各種語義工具及已建元數據構建知識庫;⑥有機整合已建知識庫的成果,構建知識庫體系架構。最終實現數字資源的結構化、語義化,整合眾多的知識節點與知識關聯,構成知識網絡。

3.4 加強合作,實現多源異構資源的統一發現

目前,很多收藏機構都對藏本進行加工,制作各種類型的數據庫。近20年來,國內外利用計算機技術開發研制了近500種古籍數字化資源,其中包括81種古籍電子索引,近148種古籍書目數據庫和近270種古籍全文數據庫。〔10〕有學者對互聯網上的華文數字典籍檢索入口進行整理,〔11〕在中國大陸之外的地區收集到的數量為:香港地區(5個)、臺灣地區(36個)、日本地區(21個)、韓國地區(7個)、歐美地區(26個)。多個發布平臺必然造成信息孤島現象,給用戶帶來資源發現、知識獲取上的困難,成為古籍利用的瓶頸。

實現對多源異構資源的統一發現有以下幾種主要途徑:一是通過跨庫檢索技術,并發地檢索本地的和廣域網上多個分布式異構數據源,并對檢索結果進行整合,為用戶提供一個統一的檢索接口。如MetaLib。這一方式具有時效性好的特點,且不必為資源的整合投入大量的人力物力。二是建立元數據倉儲,將多個來源的元數據采集到本地,按照一定的規則進行清洗、轉換,形成統一的格式,并提供檢索服務。這一方式由于對元數據進行了規范化的處理,因此,檢索的效果較好。三是建立統一的內容管理平臺、統一的元數據標準、統一的檢索平臺,采用多方共建的方式進行資源建設與服務。這種方式可以避免資源的重復建設,數據規范性好,質量較高,不必再對已建數據進行清洗、轉換等工作,節省人力物力。以上三種方式各有優勢,但也存在著一些問題,前兩種方式由于原數據庫為滿足本庫的顯示與檢索功能一般對元數據進行了個性化的處理,因此,實現統一檢索后,針對不同類型資源的個性化檢索的效果往往不盡如人意。第三種方式需要多個資源擁有者之間形成緊密型的合作關系,而由于古籍文獻的收藏機構分散于全球各地,因此合作多是圍繞本地區或同一文獻類型,較難形成跨區域跨文獻類型的大型合作組織。

因此,筆者認為,對多源異構的古籍數字資源的整合應將三者結合在一起。即:在資源建設、標準建設、學術研究等各方面加強相關各方的合作,以多方共建的形式建設大型古籍數字資源的元數據倉儲,再通過跨庫檢索等整合技術對這些大型的元數據倉儲進行再整合,最終實現對所有古籍資源的整合檢索。

1.華夏記憶.〔2013 -10 -10〕.http://www.nlc.gov.cn/newhxjy/gjtsg/gwszzy/zykth/yywx/

2.陳東輝.關于古籍索引工作的若干思考.國家圖書館學刊,1997(1):43-47

3.毛建軍.美國中文古籍數字化概述.圖書館學研究,2012(1):19-20

4.朱鎖玲.命名實體識別在方志內容挖掘中的應用研究.南京:南京農業大學,2011:7

5.語義網.〔2012 - 12 - 26〕.http://zh.wikipedia.org/wiki/%E8%AF%AD%E4%B9%89%E7%BD%91

6.司莉.KOS在網絡信息組織中的應用與發展.武漢:武漢大學出版社,2007:156

7.戴維民等.語義網信息組織技術與方法.上海:學林出版社,2008:13

8.谷建軍.基于敘詞表的中醫古籍文獻領域本體建模方法研究.北京:中國中醫科學院,2006:76

9.VSP行業應用案例五:中醫古籍知識庫系統以及中醫文獻服務系統.〔2013 -10 -10〕.http://www.myvsp.cn/download/anli/wxsjby.pdf

10.毛建軍.古籍數字化理論與實踐.北京:航空工業出版社,2009:99-149

11.王偉.全球中國古籍書目總匯.〔2013-10-10〕.http://blog.sina.com.cn/s/blog_6a5826b6010180j0.html

猜你喜歡
語義數據庫圖書館
語言與語義
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
數據庫
財經(2017年2期)2017-03-10 14:35:35
飛躍圖書館
數據庫
財經(2016年15期)2016-06-03 07:38:02
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
圖書館里的是是非非
認知范疇模糊與語義模糊
主站蜘蛛池模板: 久久毛片网| 日韩精品少妇无码受不了| 亚洲国产综合精品一区| 久久性妇女精品免费| 毛片一区二区在线看| 国产99热| 日本三区视频| 国产精品美女网站| 国产成人精品在线1区| 人妻无码一区二区视频| 99在线视频免费观看| 不卡无码h在线观看| 日韩欧美国产区| 麻豆精品在线视频| 在线免费无码视频| 九月婷婷亚洲综合在线| 高清不卡毛片| 色综合网址| 一本二本三本不卡无码| 欧美午夜一区| 扒开粉嫩的小缝隙喷白浆视频| 欧美www在线观看| 老司机午夜精品视频你懂的| 伊人成人在线视频| 国产性生大片免费观看性欧美| 欧美视频在线不卡| 欧美三级不卡在线观看视频| 亚洲中文在线看视频一区| 国产精品午夜福利麻豆| 国产特级毛片aaaaaaa高清| 91丝袜在线观看| 夜夜操狠狠操| 91破解版在线亚洲| 欧美一区二区三区香蕉视| 伊人无码视屏| 制服丝袜一区| 国产又爽又黄无遮挡免费观看 | 超薄丝袜足j国产在线视频| 亚洲男人的天堂网| 99人妻碰碰碰久久久久禁片| 国产三区二区| 亚洲视频a| 欧美一级99在线观看国产| 国产丰满大乳无码免费播放| 欧美日韩国产一级| 一本大道无码日韩精品影视| 日韩无码视频网站| 伊人色天堂| 欧美精品亚洲二区| 青青极品在线| 亚洲成人在线免费观看| 亚洲国产无码有码| 玖玖免费视频在线观看| 国产精品尹人在线观看| 国产免费高清无需播放器| 一区二区三区成人| 欧美不卡在线视频| 午夜性刺激在线观看免费| 亚洲毛片网站| 野花国产精品入口| 国产综合日韩另类一区二区| 91免费国产在线观看尤物| 亚洲日韩欧美在线观看| 亚洲国产精品久久久久秋霞影院| 97超爽成人免费视频在线播放| 高清乱码精品福利在线视频| 亚洲成网777777国产精品| 亚洲天堂成人在线观看| 国产日韩欧美视频| 91精品国产麻豆国产自产在线| 亚洲第一在线播放| 精品国产成人a在线观看| 在线观看亚洲成人| 亚洲成aⅴ人片在线影院八| 久久国产香蕉| 最新国产在线| 中文字幕人妻av一区二区| 丁香六月激情综合| 99热这里只有精品久久免费| 亚洲精品日产AⅤ| 91亚洲免费| 97精品伊人久久大香线蕉|