牛文淵 李 洋,3*
(1 塔里木大學西域文化研究院, 新疆 阿拉爾 843300)(2 塔里木大學歷史與哲學學院, 新疆 阿拉爾 843300)(3 武漢大學歷史學院, 湖北 武漢 430072)
西域是歷史上對我國古代西北邊疆地區的專有稱謂,其特定的政治內涵和具體的地理范圍隨時代不同而變化,也分狹義和廣義兩種[1,2]。本文所述,以狹義的西域為主,即指天山以南,昆侖山以北,蔥嶺以東,玉門以西的地域[3],兼及周邊區域。西域自古以來就是中國領土的一部分,也是絲綢之路的重要部分。西域歷史文化資源豐富,主要種類包括:歷史文獻、不可移動文物、可移動文物、非物質文化遺產;中外研究者以此為研究對象產生的研究專著、論文、影像資料等西域歷史文化研究成果等。
近年來,隨著國家“一帶一路”倡議的提出,學術界逐漸重視西域歷史文化類資源的數字化工作[4-6],國內數個相關數據庫陸續建成并投入使用。相比于歷史文化類其他專題數據庫建設研究[7-9]而言,西域歷史文化類數據庫建設的調查與研究有待加強。因此,本文擬通過對國內西域歷史文化類數據庫的建設狀況調查和用戶體驗評價,分析制約數據庫建設的因素,結合塔里木大學在建數字西域平臺的情況,提出下一階段建設策略,以提高資源的利用效率和研究價值,改善用戶體驗,為西域歷史文化研究提供信息資源保障。
經初步調查,目前國內以西域歷史文化為主題且運行狀況良好的數據庫共有8個,下文首先對這8個數據庫進行簡要介紹,然后通過建設狀況調查與用戶體驗評價,分析制約數據庫建設的因素。
(1)“絲綢之路民族歷史文化研究數據庫”
該數據庫是同方知網(北京)技術有限公司(簡稱“中國知網”)在中宣部與國家廣電總局聯合運作的“中英文絲路文獻數據庫多國合作項目”資助下,以“民族”這個貫穿絲路歷史發展的核心元素,系統整合了“中國知網”旗下《中國知識資源總庫》中學術期刊、博碩士論文、會議論文、報紙、年鑒、工具書等不同類型的文獻資源構建而成。該數據庫包括六個專題板塊:“絲路民族歷史”、“現代民族研究”、“絲路語文史”、“絲路名人史”、“特色專題”、“專家視角”??偽墨I量約53~55萬篇,年更新資源量約3. 5~4萬篇。關鍵詞聚合與人工編輯的聯合應用,使得該數據庫聚合的文獻主題契合度高。其搜索引擎可以單獨搜索庫內資源或合并搜索總庫資源,加之《中國知識資源總庫》收錄文獻的全面性,可對一個研究方向形成較為全面的闡述。
(2)“絲綢之路宗教歷史文化研究數據庫”
作為“絲綢之路民族歷史文化研究數據庫”的姐妹庫,該數據庫以“宗教”為主題,包括九個專題板塊,又可分為兩大類:一類是絲路歷史上重要宗教的分別整合(包括“佛教”、“道教”、“伊斯蘭教”、“猶太與基督宗教”、“祆教與摩尼教”、“中國與印度宗教”等);另一類則對絲路沿線宗教的專題性研究進行歸納總結:包括“宗教名人”、“特色專題”和“專家視角”等??偽墨I量約12~14萬篇;年更新資源量約1萬篇。其建設特點與“絲綢之路民族歷史文化研究數據庫”相似。
(3)“新疆地方文獻數字化資源中心”
該數據庫是由北京超星集團提供技術支持,全國地方文獻資源共建共享聯盟聯合新疆自治區圖書館創建的地方文獻數字化資源數據庫群的一個省館節點。該數據庫按照聯盟統一標準劃分為十四個欄目,包括“特色文獻推薦”、“最新文獻速遞”、“地方人士著述”、“地方期刊數據庫”、“地方報紙數據庫”、“地方百科資料庫”、“地方人物數據庫”、“地方視頻資料庫”、“地方圖片數據庫”、“地方專利數據庫”、“新疆地方志專藏”、“新疆年鑒專藏”、“地方文獻搜索引擎”、“地方圖書數據庫”等。所提供的“地方文獻搜索引擎”既可對庫內資源單獨搜索又可對超星總庫資源合并搜索。全國地方文獻資源共建共享聯盟和北京超星集團成熟的運營模式使得該數據在技術引擎、欄目設置和資源數量等方面有較明顯的優勢。此外,在新疆地區還有喀什圖書館和哈密圖書館加入聯盟,各自創建了相似的地市館節點。
(4)“新疆歷史在線”
該數據庫由新疆社會科學院《西域研究》雜志社主辦,包括“學術信息”、“地方史”、“民族史”、“宗教史”、“文化史”、“文物考古”、“歷史地理”和“過刊瀏覽”八個欄目,這些欄目轉載或鏈接其他網站的眾多資料文獻,并提供《西域研究》部分過刊瀏覽和精品文章轉載。該數據庫提供類似“中國知網”搜索引擎的搜索服務,功能較為完善,同時作為《西域研究》雜志的官方網站提供遠程稿件處理系統入口。
(5)“新疆經典人文特色數據庫”
該數據庫由新疆烏魯木齊一心閱讀文化科技有限公司構建,有國語、維語和哈薩克語三個版本,內容一致。該數據庫劃分為四個欄目,其中“新疆地方志”的主要講述新疆特色城鎮,地方傳奇故事,地名由來考證等;“新疆人物志”主要講述新疆歷史文化名人;“新疆博物館志”主要是新疆境內博物館制作的紀錄片或宣傳片;“新疆印象”主要是關于新疆非物質文化遺產或特色文物的紀錄片。該數據庫共收錄520余部視頻資料。
(6)“西域文物考古數據庫”
該數據庫經新疆美術攝影出版社與美國克魯格出版社授權,由谷浪遠景(北京)科技發展有限公司研發,較為全面地匯集了新疆文物考古成果。該數據庫以地圖和地州縣市名稱為導覽,將新疆文物考古成果按地區展示,具體分為“文獻圖鑒”、“考古區域”、“文物類別”三類。數據來源以《西域文物考古全集》、《西域民俗研究》及《西域巖畫圖案全集》為主,收錄了新疆及周邊約1萬處文物遺址的相關資料,包括文字約1 000萬字,圖片約6萬幅。該數據庫采取商業化運作,目前國內外約10所大學購買了該數據庫的使用權限或本地鏡像。
(7)“‘一帶一路’數據庫:史話庫”
社會科學文獻出版社為配合國家“一帶一路”倡議實施,整合國內外研究資源構建了“‘一帶一路’數據庫”。該數據庫是“‘一帶一路’數據庫”的子庫,收錄關于“一帶一路”的國內外歷史文化類文獻資料780篇,提供基本檢索功能。
(8)“絲路審美文化中外互通資源數據庫”
該數據庫由蘭州大學文學院構建,包括四個專題板塊:“絲路審美文化數據庫”收錄絲綢之路文化相關的論文、著作、圖片和影像資源;“專家講座”收集專家講座視頻;“論壇會議”收錄會議資訊;“古絲綢之路沿線地理交通圖示”仍在策劃階段,建成后將以靜態圖片、二維動畫、3D建模等形式展示古絲路沿線的地理交通。該數據庫收錄論文3篇,著作20部,圖片資訊70篇,影視作品44部,講座視頻18部,學術論壇及會議鏈接23條。
表1是上述數據庫建設狀況基本信息表,體現建設現狀如下:(1)數據庫構建單位以文化機構和文化企業為主,其專業領域與發展規劃決定數據庫建設方式,如:“中國知網”旗下數據庫借助《中國知識資源總庫》進行同主題文獻的聚合分類,實現快速搭建“行業知識服務與知識管理平臺”、“專題知識庫”;新疆自治區圖書館以加入全國地方文獻資源共建共享聯盟的方式通過館藏資源數字化建成數據庫;“新疆經典人文特色數據庫”則是一心閱讀文化科技有限公司從書店轉型進行區域特色數據庫研發的成果之一。(2)涉及領域覆蓋了歷史學、民族學、語言學、考古學、宗教學、地方志、非物質文化遺產、文化產業,旅游管理等,既有綜合庫,如:“新疆地方文獻數字化資源中心”;又有專題庫,如:“絲綢之路民族歷史文化研究數據庫”、“絲綢之路宗教歷史文化研究數據庫”和“西域文物考古數據庫”。(3)數據庫資源以傳統資源為主,包括文獻、圖片、視頻三種資源類型,其中文獻占絕大多數,如:“絲綢之路民族歷史文化研究數據庫”和“絲綢之路宗教歷史文化研究數據庫”的資源是期刊論文、學位論文等文獻;“新疆經典人文特色數據庫”的資源是紀錄片和電視節目視頻;“西域文物考古數據庫”的資源則全部是來自正式出版物。(4)多數數據庫的目標用戶以科研人員為主,個別數據庫的目標用戶為普通大眾。(5)數據庫的開放程度差異較大,“新疆歷史在線”、“新疆經典人文特色數據庫”、“‘一帶一路’數據庫:史話庫”、“絲路審美文化中外互通資源數據庫”四個數據庫完全開放,其他為有限開放或僅限購買。

表1 數據庫基本信息表

(1)各數據庫的用戶整體滿意度差別較大。8個數據庫的平均分為0. 78,極差0. 32,標準差0. 114 8,反映出這8個西域歷史文化類數據庫建設水平參差不齊。
(2)選題建庫的用戶滿意度較高。特色性評分≧0. 8的數據庫6個,占總數75%,說明這類數據庫由于涉及神秘西域歷史文化而在選題上占據先機。一致性評分≧0. 8的數據庫6個,占總數75%,可能與西域歷史文化類數據庫自身的選題面較窄有關。
(3)數據資源的用戶滿意度較低。數據資源的優劣直接決定數據庫的核心競爭力,“絲綢之路民族歷史文化研究數據庫”、“絲綢之路宗教歷史文化研究數據庫”、“新疆歷史在線”的數據資源加權合計≧0. 4(等于1分制0. 8),顯示其在數據資源上的突出優勢,相應的整體用戶體驗滿意度也高于其他數據庫。值得注意的是,數據資源中數據來源的用戶滿意度普遍較低,并與其面向人員的專業性程度正相關,也就是說,專業性明確的數據庫涉及領域較專一,數據相對能滿足用戶需求,專業性不明確的數據庫涉及領域較分散,數據較難滿足用戶需求。
(4)系統功能的用戶滿意度較高?!敖z路審美文化中外互通資源數據庫”系統功能評分0. 12(等于1分制0. 6)是該項最低分,其他數據庫得分均在0. 15(等于1分制0. 75)之上,說明現有數據庫搜索引擎技術帶來的用戶體驗差別不大,且現有技術已能滿足大多數用戶的基本體驗。

表2 數據庫用戶體驗評價統計表
(1)缺少牽頭整合各類數據庫資源的組織機構
數據庫構建單位希望通過已有資源快速服務用戶,以便快速進入市場,加之專題數據庫在專業性明確的條件下,往往追求數據資源的“專而精”。然而,用戶更加希望“一站式”獲取資源,即在同一數據庫獲得領域更寬廣、內容更豐富的數據資源。數據庫構建單位出發點和用戶需求之間的矛盾,可以通過整合各類數據庫資源而消減,然而目前缺少能夠牽頭整合工作的組織機構。
(2)數據庫建設商業驅動力不足
用戶體驗調查表明,數據資源用戶滿意度不高的主要原因是缺乏商業驅動力,沒有盈利就難以持續提升數據資源質量。
(3)數據資源專業性與通俗性之間的矛盾
用戶體驗調查表明專業人士普遍對專業性不明確的數據庫資源持不滿態度,因為它們帶來過多無用信息而影響工作效率;非專業人士認為專業數據資源晦澀難懂、趣味性低,獲取知識難度大。因此,專業性資源和通俗性資源之間存在矛盾,且兩者的元數據差別較大,通常不適合放在同一數據庫。
(4)數據庫建設人才知識的不全面性
西域歷史文化類數據庫建設與三種人才有關,即數據庫工程師,文獻情報專業人員,歷史文化學者。這三種人才在數據庫建設方面,均會受到自身知識不全面性的約束。例如,數據庫工程師和文獻情報專業人員無法準確判斷數據資源的專業價值;歷史文化學者則不太重視數據庫的建設路徑且不掌握關鍵技術。了解西域歷史文化和文獻情報分類理論,并掌握數據庫搭建技術的復合型人才缺口明顯。
2012年,塔里木大學西域文化研究院提出數字西域平臺的概念,旨在建設以環塔里木地區為中心,輻射中西南亞,涉及文化、歷史、考古、旅游、經濟等多學科的綜合科研資源平臺。經歷數年的探索和積累,現已完成總體框架構建,包括數字西域服務平臺和數字西域專題數據庫群,前者集中提供系統功能,后者按專題提供數據資源支撐。下文將從建設原則、總體框架、建設方式和關鍵技術等方面對其建設現狀進行介紹。
數字西域平臺建設遵循以下原則:
(1)協調性原則
已有西域歷史文化類數據庫資源分散,數據利用率低,存在一定程度的學術研究壁壘。數字西域平臺強調協調性原則,以便打破壁壘,提高利用率,實現平臺共建、數據資源共享。
(2)統一性原則
為實現平臺共建、數據資源共享,數字西域平臺總體設計和專題數據庫設計遵循統一性原則,保證數據資源的標準化與規范化。
(3)擴充性原則
在數字西域平臺建設中保證擴充性,可滿足專題數據庫逐步構建、按需增加、實施分布式存儲與運行,并可以納入其它機構的專題數據庫。在專題數據庫中保證擴充性,可滿足數據類型、數據字段和數據記錄不斷擴充。
圖1是數字西域平臺的總體框架,主體包括數字西域服務平臺和數字西域專題數據庫群兩大部分。數字西域服務平臺提供通過提供用戶管理、權限管理、跨庫檢索、數據組織等功能。數字西域專題數據庫群設置5個專題數據庫,分別是環塔里木歷史文化資源信息庫、環塔里木非物質文化遺產信息庫、西域-絲路文獻信息庫、中西南亞國別信息庫、西域新疆信息庫。兩者通過數字西域平臺用戶界面進行連接。

圖1 數字西域平臺總體框架圖
數字西域平臺的建設以自主設計研發為主,兼顧其他方式。其中,數字西域服務平臺由塔里木大學數字西域實驗室自主設計研發,以保證學校在平臺研發中的原創價值與主體地位,保證平臺理念的準確實施;同時,為充分利用資源,降低資金成本與時間成本,實現效益最大化,專題數據庫的建設采用多種方式,包括自主設計研發、合作共建、委托企業搭建、購買重組等。
(1)多源數據融合技術
多源數據融合技術指通過協同利用不同來源的異構數據,使其互為補充、融為一體,以獲得事物客觀評價的數據處理技術。西域歷史文化類資源的采集、數字化以及3S技術應用等多種數據積累手段造成了多源異構數據。多源數據融合技術使這些容量巨大、類別龐雜、格式多樣的多源異構數據有機融合、深度利用。其關鍵在于,深入挖掘并規范化表達描述同一主題的多源數據語義,并將規范化表達的數據語義經共同目標融合到一起。就數字西域平臺而言,研發該技術能夠幫助用戶快速、高效地利用數據資源;研發高級階段,該技術能夠自動聚合同主題的多源異構數據,實現自動深度挖掘數據語義,便于開展深入研究。
(2)跨庫檢索技術
跨庫檢索技術是指在呈現給用戶的一個檢索系統界面中,對存在于多個數據庫的資源進行相關搜索,也被稱為統一檢索平臺。該技術可以在用戶提交一次數據檢索命令時,把分布于不同服務器主機、不同網絡、不同數據庫存儲系統中的數據一同檢索出來,并集成檢索結果,在用戶操作界面上進行統一展示[12,13]。數字西域平臺采用跨庫檢索的優勢在于,用戶只需登錄一次就可完成所有專題庫的權限認證,實現在平臺范圍內搜索資源,免去專題庫間切換與重復登錄,從而提高系統功能的易用性,提高用戶工作效率。
數字西域平臺建設分為數字西域服務平臺建設和數字西域專題數據庫群建設兩大部分。服務平臺已完成詳細設計和關鍵技術研發,進入功能實施與細化階段,其用戶界面如圖2所示。
數字西域專題數據庫群建設包括五項專題數據庫建設,具體情況為:
(1)環塔里木歷史文化資源信息庫
以北京谷浪遠景科技發展有限公司的“西域文物考古數據庫”為基礎重組建庫,內含新疆文物局版權所有的新疆境內88個縣市的不可移動文物,共計近萬處遺址,6萬幅圖片、700萬文字。
(2)環塔里木非物質文化遺產信息庫
以塔里木大學與浙江大學合作完成的國家科技支撐計劃項目《環塔里木非遺文化旅游綜合服務系統構建與應用》為基礎,建成環塔里木非物質文化遺產信息庫,該專題數據庫包含300項新疆境內的各類非遺基礎資料,32項深度挖掘非遺項目資料,非遺傳承人信息,新疆境內非遺旅游精品線路,新疆境內非遺項目的最新動態等。
(3)西域-絲路文獻信息庫
計劃與塔里木大學圖書館合作,以其特色館藏“西域文獻庫”為基礎,對館內西域文獻庫中有關西域文化的特色館藏資源進行數字化,構建“西域-絲路文獻信息庫”。
(4)中西南亞國別信息庫
以北京新文圖信科技有限公司的“區域研究數據庫:中亞”為基礎重組建庫,包括基礎文獻庫、國外智庫、國內智庫、咨詢觀察庫、基本事實庫,現處于重組階段。
(5)西域新疆信息庫
該專題庫是具有西域、新疆地域歷史文化特色的專題性數據庫,現處于邏輯設計階段。
數字西域平臺的建設與發展以塔里木大學數字西域重點實驗室委托,該實驗室的建規劃分三步走,即“西域歷史文化資源數字化保護”、“數字西域平臺建設及西域文化數字化傳播”、“西域歷史文化資源產業化及社會應用示范推廣”。數字西域平臺建設作為其重要環節位于承上啟下的第二階段,既是第一階段研究成果匯總與加強,也是第三階段的數據資源保障。從學校層面看,數字西域平臺已為塔里木大學在西域研究領域帶來了良好的聲譽,下一階段應努力將其打造成為國內西域研究的特色品牌。從更大的層面看,數字西域平臺占據了突出的地緣優勢,可直接服務于國家“一路一帶”倡議、實現新疆工作總目標和兵團向南發展。
數字西域平臺的規劃體系包括,5年短期規劃,完成5個已規劃專題庫建設,正式運行并按權限原則對外開放;10年中長期規劃,新增“西域古籍專題庫”、“西域古地圖地理信息專題庫”、“西域當代藝術專題庫”等,擴充至8個專題庫。
(1)“平臺聚、分庫專”。數據資源按不同的專題數據庫進行組織,各專題數據庫的數據資源和目標用戶由其主題決定,但專題數據庫形成集群,由數字西域服務平臺聚合在一起呈現給用戶。
(2)數據資源多樣性整合。除傳統的文獻、圖片和視頻外,研究西域歷史文化的資源還包括三維模型、遙感影像、空間矢量數據等。
(3)多重保障數據資源可持續更新。由塔里木大學西域文化研究院組織牽頭,以提供數據庫使用權限等方式聚集更多單位合作共建,促進資源交換整合。面向個人用戶,數字西域平臺會采取嚴格的權限控制,實行資源互換和適當收費兩種方式,保障數字資源的可持續更新。
(4)人力資源整合,培養復合型人才。數字西域平臺建設是多學科、多領域專家學者合作共贏的過程,應借此契機培養復合型數據庫建設人才,避免知識不全面性對平臺發展的制約。
經過對國內8個西域歷史文化類數據庫的調查發現,現有數據庫在選題建庫和系統功能等方面用戶滿意度較高,但在數據資源方面用戶滿意度較低,從而導致用戶整體滿意度差異較大,分析認為其制約因素主要包括:缺少整合資源的組織機構、商業驅動力不足、專業性與通俗性之間的矛盾、建設人才知識的不全面性等。在此基礎上,結合塔里木大學數字西域平臺的建設情況,提出四點建設策略,即:(1)“平臺聚、分庫?!钡慕ㄔO思路;(2)多源數據整合的技術手段;(3)可持續更新的運營能力;(4)復合型的建庫人才。在未來的建設中,堅持塔里木大學在平臺建設中主體地位,對服務平臺進行關鍵技術的自主設計研發,同時綜合利用自主研發、合作共建、委托企業搭建、購買重組等方式建設專題庫,通過多源數據融合技術、跨庫檢索技術改善兩者連接方式,以提高資源的利用效率和研究價值,并獲得優質的用戶體驗,為西域歷史文化研究提供專業、準確、便捷的信息獲取源,也力爭成為塔里木大學在西域研究領域的特色品牌,最終服務于國家“一路一帶”倡議、實現新疆工作總目標和兵團向南發展。
致謝
本文在成文過程中,萬朝林老師提出了有意義的觀點及建議。作者在此表示衷心感謝。