●李娜 宋生艷
網絡原生數字資源開發利用策略研究
●李娜 宋生艷
文章在分析網絡原生數字資源內涵與特征的基礎上,簡述網絡原生數字資源開發過程中涉及的幾個突出問題,進而引入新時期我國信息資源開發利用戰略思想,從政策支持、采集與儲存、信息深度聚合與動態組織、完善立法等方面提出網絡原生數字資源開發利用的相關策略。
網絡原生數字資源 開發利用 開放存取
互聯網為人們提供充分開放、自由發表言論及傳播信息的平臺,基于人類互聯網活動而產生的網絡原生數字資源也因此應運而生,呈現幾何級增長。據CNNIC2008-2009中國互聯網研究報告統計:截至2008年12月31日,中國的青少年網民達到1.67億人,占到全國網民的55.9%。可見,網絡原生數字資源逐漸成為互聯網時代數字信息的主流,探討網絡原生數字資源開發利用策略,對提高用戶的低碳意識,傳承社會特色文化,具有重要的歷史價值和學術價值。
綜觀國內外目前對網絡原生數字資源的研究,究竟何為網絡原生數字資源,時至今日還沒有統一的定義。聯合國教科文組織(UNESCO)把原生數字資源定義為:除了數字形式再沒有其他載體形式的信息資源。也可以從兩個方面理解:一是直接產生于互聯網活動是網民在互聯網活動中的即興原創,并直接發布,具有網絡“原生態”性。二是網絡原生數字資源從產生、發布、傳播交流到最后的長期保存都只能以數字載體形式存在。在低碳背景下,網絡原生數字資源借助新媒體技術生產的特色資源,具有與其他網絡信息資源相區別的網絡原創性、數字形式唯一性和極易滅失性等獨特特征,構成當前和未來網絡數字資源發展的高級階段。
(一)開發活動缺乏戰略思想指導及總體規劃
當前,由于網絡原生數字資源缺乏政府主導,我國信息資源開發各自為政現象十分嚴重,其開發戰略思想仍然處于基礎性開發階段,信息資源的深度挖掘、資源的再組織等“瓶頸”約束問題日益突出。另外,缺乏網絡原生數字聯盟共建共享的機制,信息共建共享程度低。
(二)知識產權問題成為瓶頸問題
目前,缺乏開放獲取背景下知識產權保護與共享的相關法規,客觀上制約了網絡原生數字資源的開發、傳播與共享。
(三)網絡原生數字資源長期保存復雜和棘手
相對于其他非原生網絡數字資源,網絡原生數字資源具有網絡原創性、數字形式唯一性、極易滅失性等獨特特征,因而開辟一條不同于非原生網絡數字資源的保存標準、保存方法,從保存技術而言,也更加復雜和棘手。
(一)總體規劃,創新網絡原生數字資源開發戰略思想
我們應該看到,新信息環境下,資源產業建設是增強國家綜合國力和國際競爭力的重要標志,要實現黨中央設定的2021年達到更高水平的小康社會、2049年基本實現現代化的目標,必須把強化資源的國家控制力作為主軸。從宏觀上,政府應當制定資源開發規劃,從技術、經濟、法律、人文方面對網絡數字資源進行綜合性調控,設立網絡原生數字資源開發基金,并針對網絡數字資源的不同類型和性質,采用市場驅動模式,加大對信息資源產業的扶持力度,促進網絡原生數字資源開發有章可循。從微觀上,圖書館行業、科研機構等部門要界定本行業資源的開發范疇,應用現代信息技術、采取合作機制,科學有序地加快網絡原生數字資源開發利用進程。
(二)網絡原生數字資源的采集和保存
網絡原生數字資源的原創性、唯一性和極易滅失性等特征要求人們重視其采集和長期保存。總結國內外一些具有代表性的案例,結合我國實情,依據保存范圍的不同,采集方式分為批量采集、專題采集、選擇性采集和混合式采集四種,資源開發部門應依據需求選擇合適的方式采集。
1.批量采集。它是利用機器人、爬蟲等搜索工具,將目標網站上的所有網絡原生數字資源全部采集下來的一種收割方式。通常是采用自動采集機對域名內的網站進行自動收割,需要投入大量資金和技術設備,因采集信息量大,垃圾信息難以控制,信息質量良莠不齊。
2.選擇性采集。它是依據網絡原生數字資源的文化、研究和經濟價值,有選擇地保存信息的一種收割方式,是對所保存的每一項主題都要經過價值評判、甄別、評估,然后優先選擇所需的、高質量的資源進行采集,采選的信息質量高。但內容甄別、篩選非常費時費力,這種方式主觀性較強,一些有特殊價值的信息可能會采集不到,而永久隱藏在網絡深處得不到利用。像英國的UKWAC項目、克羅地亞HAW項目就是選擇性收割方法。
3.專題采集。專題采集是針對某一主題進行信息資源收割策略,既能反映某一事件的全貌,也能滿足用戶對特定主題信息的需求。具有代表性項目如美國Minerva項目同InternetArchive合作,收集像伊拉克戰爭、9ll事件等某一主題信息進行專題采集。
4.混合式采集。上述三種信息采集方式各有優缺點,但三者可以互相補充。混合式采集就是將三者綜合運用,最終將資源采集策略最優化。對于不同類型的網絡原生數字資源,可以選擇最合適的采集方式加以收割,研究歐洲18個WA項目,發現大多數是選擇混合式采集方式。
5.采集與保存的標準、策略。鑒于網絡原生數字資源變幻莫測、極易滅失等特性,圖書館在進行網絡原生數字資源采集與保存時面臨諸多問題,主要包括:如何收割動態網站、音/視頻網站、個人網站等原生數字資源,如何將收割下來的資源科學、有序地呈現給用戶,如何收割那些加密或收費的網絡原生資源等等。為了使網絡原生數字資源采集和保存暢通有序,應當構建資源采集和保存標準,這些標準主要包括:網頁存檔格式標準、資源編碼標準、資源標識/著錄標準、資源選擇標準、無數據編碼與傳輸標準、數據存儲轉換格式標準等等,以約束采集和保存的整個流程,并在完善組織技術、方法的前提下,實現網絡原生數字資源組織與OA技術的無縫鏈接和有機融合。
(三)關聯數據的資源深度聚合
研究發現,未來原生數字資源知識組織體系的主攻方向和新研究視角是知識鏈接與知識關聯的研究。為此,應當運用網絡對信息資源的調配算法:蟻群算法、遺傳算法和模糊聚類算法等,實現關聯數據的信息動態聚合、信息檢索技術等,將網絡原生數字資源“碎化”為具有一定語義的細粒度知識元,以批量、智能化地處理多樣化的網絡原生數字資源,改變網絡原生數字資源的信息揭示方法、信息組織方式,將用戶信息需求意圖與網絡原生數字資源進行聚合,實現面向用戶的網絡原生數字資源的多粒度、多層次的動態組織模式,把有利于用戶認知的方式的網絡原生數字資源加以組織后展示給用戶。
(四)加快立法工作,提升法律支持環境
社會信息化的起點和歸宿是信息資源的開發利用,而網絡原生數字資源作為新的生產要素、新的資源類型,已構成信息資源產業開發的一個重要組成部分。為保證資源采集、保存、利用無后顧之憂,互聯網信息采集與保存相關立法顯得十分重要。首先要重視解決版權和知識產權問題,圖書館在針對一個網站實施資源捕捉、存檔和供用戶利用之前,要提前獲取網站所有者的許可。其次要建立數字出版物和互聯網原生數字資源的呈繳制度,通過立法來約束數字出版物及原生資源創作者或法人向指定的開發機構提交其原生數字產品。研究發現,法國、英國等國家是網絡原生數字資源呈繳制度方面的先行者,其以法律形式規定了圖書館對該國網絡原生數字資源采集和保存的權利和義務,值得我國資源開發者借鑒。
在開放獲取的環境下,網絡原生數字資源建設的共享聯盟是發展走向。為此,我們認為,各圖書館在開發網絡原生數字資源階段,一方面要以本機構的用戶需求為主導,自主創新本機構的資源開發和利用。另一方面要融入開放獲取(OA)與合作分享智能資源,教師和各研究機構聯盟建設知識倉儲,以此擴大圖書館資源覆蓋范圍,最大限度地實現網絡原生數字資源的共建共享。
[1]PalfreyJ,GasserU.Born dig ital Understanding the f irst generationof dig ital nat ives.New York:Basic Book s,2008.
[2]中共中央辦公廳、國務院辦公廳關于印發《2006-2020年國家信息化發展戰略》的通知(中辦發[2006]11號)
[3]常娥,袁曦臨.網絡原生數字資源管理問題探析[J].圖書館建設,2009(5)
[4]索傳軍.網絡信息資源組織研究的新視角[J].圖書情報工作,2013(7)
[5]陳紅星,張淑芳.網絡原生數字資源:概念、特征與類型[J].圖書館建設,2010(5)
(作者單位:山西大學商務學院 山西太原 030031)
(責編:呂尚)
F49
A
1004-4914(2014)04-062-02
本文為山西省社科聯2013至2014年度基金項目“網絡原生數字資源開發利用策略研究”(項目編號:SSKLZDKT2013095)研究成果之一。]