曾 勤
摘要TextGrid是德國D-Grid應用于人文科學的一個網格項目,目的是利用網格技術,為人文學者提供一個處理、分析、注釋、編輯、鏈接和發布文本數據的網格工作平臺,主要應用于文獻編輯、語言學和辭典編纂等,并不斷拓展在其他領域的應用。該文簡要概述TextGrid及其對我國網格發展的啟示。
關鍵詞網格德國TextGrid
1引言
“網格”一詞源于人們熟悉的電力網格,最初由研究并行計算和超級計算的學者提出,面向科學計算領域,被視為一種如電網那樣的基礎設施,希望像電力一樣,打開開關就在一種“無形”的虛擬環境中共享和充分利用超級計算資源。因特網實現了計算機硬件的連通,Web實現了網頁的連通,而網格是把整個因特網整合成一臺巨大的超級計算機,實現各種資源的全面共享,徹底消除資源“孤島”,為用戶提供一體化信息和應用服務(計算、存儲、訪問等)。目前全球代表性的重大網格項目包括:亞太地區的ApGfid網格,美國的TeraGrid網格,歐盟的DATA-Grid和EuroGrid,英國e-Science計劃,德國網格Deutschland Grid/D—Grid等。我國的代表項目有中國國家網格(CNGrid)和中國教育科研網格(China-Grid)等。這些網格項目主要是構建重要科學領域的全球協作基礎設施,應用于生物、醫學、物理、地理等自然科學領域。
e-Science作為一種新的全球性學術研究和協作環境,高性能計算資源、海量科學數據庫、科學數字圖書館、野外觀測臺站、大型科學裝置、計算模擬的軟件工具等通過高速的網絡聯接,組成e-Science的基礎設施與資源,實現資源集成共享,形成支撐科研人員大范圍交流協作的協同工作環境。在e-Science基礎設施支撐下,科研人員組成跨學科、跨組織、跨地域的虛擬組織,通過遠程實驗觀測、計算模擬、協同工作等新的科研方法和手段開展科學研究活動。e-Science的基本特點是開放式的科學研究、大范圍的資源共享和廣泛的協同合作。而與e-Science相當的e-Humanities則旨在為人文學者提供一個動態而又虛擬的網絡和跨學科環境,讓人文學者能夠通過分布式資源、協同合作的方法和標準化的網格計算,進行學術文本數據處理、分析、注釋、編輯和鏈接,開展跨學科、跨組織、跨地域的人文科學研究。但是與網格技術被廣泛應用于自然科學領域相比,用于人文科學的網格項目較為少見。本文將根據文獻“TextGrid and eHumanities”簡要介紹德國Text-Grid項目,希望對我國同類項目的發展提供一點借鑒和啟示。
2TextGrid概述
德國Deutschland Grid(http://www.d-grid.de)簡稱D-Grid,由德國聯邦教育和研究部資助,致力于將網格計算應用于科學研究。主要應用領域包括氣象、高能物理、生物醫學研究、生命科學應用和復雜工程解決方案等。作為D-Grid項目中唯一應用于人文科學的TextGrid(http://www.textgrid.de)于2006年2月開始啟動,由六所德國大學圖書館和研究機構(Goftingen State and University Library;Darm-stadt University of Technology;Insfitut far Deutsche Sprache.Mannheim;University of Trier;University of Applied Sciences,Worms;University of Wurzburg)以及兩個商業公司(DAASI International,Tubingen and Saphor,Tubingen)共同合作開發,旨在創建一個虛擬研究圖書館,在支持TEI編碼的環境下開放源碼和接口,為人文科學學者提供處理、分析、注釋、編輯、鏈接和發布文本數據的網格工作平臺,它的目標是在一個動態而又虛擬的網絡和跨學科環境下促進學術研究。
人文科學學者運用計算機技術的歷史可以追述到20世紀40年代末,Pater Roberto A.Busa首次使用IBM電腦,運用計算機技術創建了一個完整的關于St.Thomas Aquinas作品的詞匯索引。從60年代以來,運用計算機技術開發文本分析的應用軟件工具大致有三種類型:1)針對具體問題、語言或項目的專門程序;2)通用軟件工具,如tustep提供高度可配置與操作的構件模塊進行文本處理和分析;3)自80年代發展起來的易于使用的腳本編程語言。在以文本為基礎的人文計算中,一個重要進展就是由TEI(http://www.tei-c.org)發展起來的標準化文本編碼。它最初是在SGML框架內,現在轉換為XML(P4)和Schema(P5)。TEI使用標示字體進行數據交換和文本結構理論交流,為廣泛的學科提供組合式標簽集合。因此TEI不只是提供信息交換,而且還是幫助學者提高描述文本特征能力的數據描述語言。
為滿足e-Humanities發展,TextGfid以e-Science環境下的科學研究方法為基礎,為人文科學研究提供一個人文計算基礎設施。首先在學術文本處理領域,運用實證方法創建和使用數字文本,解決傳統的和新出現的問題;其次通過利用分布式資源,引進合作方法和標準化工具提高文本數據處理水平。另外由于學科知識的局限性,有不少人文學者缺乏計算機科學知識的系統培訓和對較復雜的網絡技術的了解,因此TextGfid還需要為研究者提供一個易于安裝和使用的圖形用戶界面和開放式接口、統一出版平臺,以及允許用戶定義工作流程和數據結構。TextGrid將自動完成如符號標記,創建索引,詞語分類,結構分析,類型設置等一系列步驟。即使地理上相距遙遠、操作系統不同、編程語言不同,TextGrid也能夠提供一個統一的平臺,允許用戶對自己的模塊進行擴展,對不同模塊和數據進行整合和無縫鏈接。并且提供訪問資源的透明度和安全性,為研究者創建開放式的科學研究、大范圍的資源共享和廣泛的異地協同合作的服務平臺。
3TextGrid具體應用案例
TextGrid的應用之一是要在統一的字符編碼標準、網絡服務及其他標準基礎上,為文字處理發展模塊化平臺。雖然最初重點是針對文獻編輯,但是現在項目組已經在語言學和辭典編纂等方面開展工作并拓展它在其他領域的應用。它的開放式和可擴展的框架允許任何感興趣的組織加入。隨著一個活躍的TextGrid組織的逐步發展,它將會成為一個有生命的人文科學領域研究平臺。
3.1文獻編輯
TextGrid支持不同階段各個版本的創建,從對書目資源的最初收集、注釋、鏈接和整理進行排序,
到對各種版本提供廣泛全面的檢索。主要是對歷史性的手稿和出版物通過高品質掃描將其數字化,并將由此產生的大量圖像數據鏈接到存儲網格,從而允許研究者對如此大量的數據資源進行存儲和訪問。原始資料的數字圖片和可被計算機處理的文本之間的鏈接,幫助用戶利用抄本的摘錄閱讀手稿中的圖片、印刷與原稿相似且更具可讀性的版本、從可檢索和已注釋的文本到掃描手稿相應部分的導航。通過部分自動操作(如分割原始圖像)和整合鏈接過程,TextGrid軟件工具可以大為簡化繁瑣的編碼任務。
由于德國出版物的版本非常復雜,有時一部著作出版發行了上百個版本,在創建不同評論版本時,大量工作在于創建注釋和元數據,對用于建立索引的人名或地名的標注可以提高讀者對文本的理解程度。此外,網格中具有超強計算能力的軟件工具可以自動整理和實時更新包括作品的起源以及各種評論的不同資源信息。TextGrid還提供一些易于使用的工具,支持編輯者共同創建注釋和統一的書目信息,并將它們應用于全面檢索、生成網頁和自動翻譯等進一步處理過程中。TextGrid整合不同學術版本的目標,得到了由編輯者引入的鏈接的明確支持,而且終端用戶同樣能夠在所有鏈接的電子文本中執行全面的檢索,包括使用文本的元數據限制搜索范圍,從而排除一般網絡搜索引擎所產生的大量不相干的結果。
3.2辭典編纂學和語言學的應用
TextGrid的目標之一是利用計算語言學、信息檢索和網格計算等尖端的技術,基于可以被公開訪問的語義網格框架,提供一個支持德國歷史語言學和現代德語文集編輯的綜合平臺。此外,除了全文本檢索,增加智能服務來滿足不同語言學科的需求:如在語源學中用于搜索外來詞匯、方言學中搜索區域異體字、詞形學中在較大的復合單元中搜索詞位和單個詞素、句法中搜索適當的名詞和術語、語義學中搜索詞義(概念)以及相關語義的詞、篇章語言學中搜索特定的文本類型等。
首先,TextGfid整合了從中古高地德語到歌德時代的八部歷史語言字典和涵蓋大部分西日耳曼語的五部方言字典,隨后還會不斷增加,并且將界面定義為針對更多外語字典和詞匯資源的整合。其次,發展了不同時期的詞形學分析工具,將該工具整合到一個信息檢索系統中,可以自動發現不同詞形的詞位。同時通過詞條、部分語句、地區和語言的形態句法信息豐富每個文集的標號內容。依據對稱和轉換,可擴大詞匯入構項之間由于原始的交叉參考詞匯所產生的詞群。雖然這些確定的語義關系在印刷文獻中沒有被明確地標記,由于信息檢索技術產生了新的鏈接,它們可以自動完成,由此產生的參考網絡也可以手動地進行標注和擴大,或者在必要時進行限制。通過標準界面提供統一的搜索功能,如分類搜索中心詞(詞條),語法信息和其他內容(依賴于具體的字典:引證,定義等)以及對不加限定的純文本、基于原有和新插人參考文獻的語義上相關術語的搜索,大大提高了字典的實用性。
TextGrid的未來發展戰略是建立一個能夠更好地展現和管理不同地區和時代的詞匯數據的辭典編纂者平臺,能夠計算語義關聯;生成同現矩陣;校正不同語言或方言文集;繼續擴大和豐富為辭典的鏈接而創建的詞匯網;增加新的詞素并對其標注;為今后對不同時期意思相同的詞建立一個超詞條的目錄。
4對我國同類項目發展的啟示
網格作為國家教育信息化重要的基礎設施,其規模和應用水平已成為衡量一個國家教育與科研綜合實力的一個重要標志,是創辦世界一流大學、培養一流人才的重要物質條件。中國教育科研網格(ChinaGrid)是教育部“十五”211工程公共服務體系建設的重大專項,主要由生物信息學網格、圖像處理網格、遠程教育網格、流體力學網格和海量信息處理網格這五大專業應用網格構成,充分利用中國教育科研網和高校的大量計算資源和信息資源,開發相應的網格軟件和運用網格技術將CERNET上分散、異構、局部自治的海量資源整合起來,通過有序管理和協同計算,消除信息孤島,發揮綜合效能,實現資源的廣泛共享、有效聚合、充分釋放,形成高水平、低成本的計算服務平臺。它整合了全國20所高校的高性能計算資源、存儲資源、數據資源、知識資源、專家資源等,為前沿科學研究探索提供了必備手段和條件。
隨著我國ChinaGrid項目的不斷拓展,借鑒德國D-Grid的發展計劃與應用,可否建立ChinaGrid項目下的“ChinaTextGrid”,開發相應的TextGrid軟件和運用網格技術為人文科學研究提供e-Humanities的基礎設施?
眾所周知我國幅員遼闊,歷史悠久,無論是國家圖書館還是各高校圖書館和研究機構在人文科學領域都擁有豐富的館藏信息資源,內容形式多種多樣,包括圖書、善本、珍貴資料、報刊、地圖、照片、手稿、影視音頻資料等。例如對我國古典文學名著《紅樓夢》的“紅學”研究,其相關文獻資源的內容、形式和規模應該不亞于德國對Jean Paul的研究。Wtirzburg大學圖書館對Jean Paul資源的整合案例“Jean-Paul—Portal”(http://www.jean-paul-portal.de)為我們提供了很好的借鑒:Jean Paul是公元1800年左右德語古典文學史上著名的領軍作家,他的作品及其研究評論著作和龐大的遺著(40,000頁的手稿)大約有4 TB的數據。Wtirzburg大學圖書館嘗試多媒體版本形式,用標準信息處理技術和TEI標記將手稿材料圖像、抄本、所有印刷本圖像、打印文檔和評論版著作進行整合,對文本進行編碼,同時以紙本印刷和電子形式出版。
借鑒德國TextGrid對Jean Paul資源的整合案例,我們可以考慮研發中文信息處理技術,將分布在世界各地圖書館或研究機構的“紅學”資源,包括《紅樓夢》版本、曹雪芹研究、版本研究、主題研究、藝術研究、人物研究、語言研究、結構研究、詩詞研究等海量文獻資源進行整合,對不同版本的著作及評論、歷史性的手稿、抄本、圖片、影視音頻資料等,通過高品質掃描技術將其數字化,將由此產生的大量圖像數據鏈接到存儲網格,利用各高校的校園網格在ChinaGrid提供的統一平臺和標準化工具基礎上,共同創建和統一書目信息,對《紅樓夢》相關的信息資源進行編輯、注釋、鏈接、整理和排序,對各種版本提供廣泛全面的檢索,利用具有超強計算能力的網格軟件工具對作品的起源或各種評論的不同信息資源自動整理和實時更新,提高文本數據處理水平,為“紅學”研究者提供海量的數據資源存儲和透明訪問,達到資源共享和異地學術研究合作。
ChinaGrid提高了211工程高校公共服務體系的整體水平,實現了高性能計算環境、大型儀器設備等方面的整合共享,避免了重復投資,提高了使用效率。在ChinaGrid廣泛應用于科研、教學等自然科學領域的基礎上,為人文科學研究者提供全球性學術研究和協作的基礎設施,對豐富的人文資源進行開放式的科學研究、大范圍的資源共享和廣泛的異地協同合作是未來e-Humanities的發展方向,值得我們進一步的探索和研究。同時也是對高校數字圖書館建設應用網格技術提供一體化平臺、實現資源全面共享、解決海量數據處理、進行資源集成和知識管理的一個新挑戰。