魏大威,張 煒(國家圖書館)
國家數(shù)字圖書館網(wǎng)絡(luò)資源保存和服務(wù)思考
魏大威,張煒
(國家圖書館)
作為保存人類文化遺產(chǎn)、傳播知識(shí)信息的樞紐,國家數(shù)字圖書館一直注重?cái)?shù)據(jù)的建設(shè)、管理和利用。伴隨現(xiàn)代科技和人類社會(huì)進(jìn)步所形成的生態(tài)環(huán)境變化,國家數(shù)字圖書館開始對(duì)存在于網(wǎng)絡(luò)中有價(jià)值的信息資源進(jìn)行有效保存和利用,從而實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下的融合和創(chuàng)新。
數(shù)字圖書館;網(wǎng)絡(luò)資源;保存;服務(wù)
網(wǎng)絡(luò)和信息技術(shù)的快速發(fā)展帶來全球社會(huì)生態(tài)的重大變化。受社會(huì)對(duì)海量數(shù)據(jù)處理和深層發(fā)現(xiàn)的需求所趨,對(duì)網(wǎng)絡(luò)大數(shù)據(jù)的有效管理和利用已被歐美、日韓等國家上升為國家戰(zhàn)略。作為新一代信息技術(shù)和現(xiàn)代公共文化服務(wù)充分融合的圖書館行業(yè),應(yīng)該抓住知識(shí)社會(huì)中的這一創(chuàng)新機(jī)遇,加快對(duì)數(shù)量巨大、來源分散、格式多樣的網(wǎng)絡(luò)資源采集、存儲(chǔ)和關(guān)聯(lián)分析,從中發(fā)現(xiàn)新知識(shí),創(chuàng)造新價(jià)值,提升新能力,實(shí)現(xiàn)數(shù)字圖書館的整體提升。
據(jù)英國著名的調(diào)研機(jī)構(gòu)Netcraft統(tǒng)計(jì),2015年全球網(wǎng)站數(shù)量已接近10億大關(guān),國際電信聯(lián)盟(ITU)發(fā)布的全球互聯(lián)網(wǎng)使用情況報(bào)告預(yù)測,2015年底全球網(wǎng)民規(guī)模為32億;據(jù)中國互聯(lián)網(wǎng)信息中心(CNNIC)統(tǒng)計(jì),2015年我國域名為2231萬個(gè),其中“.cn”的總數(shù)為1225萬個(gè),占總量的54.9%,國內(nèi)網(wǎng)站357萬個(gè),其中CN下網(wǎng)站數(shù)為163萬個(gè),網(wǎng)民規(guī)模6.68億,互聯(lián)網(wǎng)普及率為48.8%。從這些數(shù)字可以看出,無論是網(wǎng)絡(luò)信息的覆蓋程度還是其作為戰(zhàn)略資源所創(chuàng)造的價(jià)值,都達(dá)到了前所未有的高度。存在于互聯(lián)網(wǎng)中的海量信息,一次又一次的刷新著世界的面貌,通過不斷的流通、聚合,頻繁的重組、關(guān)聯(lián),鑄造著全球最大規(guī)模的海量信息資源庫,其重要性,正隨著全球信息化步伐的加快而越來越顯現(xiàn),網(wǎng)絡(luò)信息已經(jīng)真正成為推動(dòng)國家進(jìn)步的重要戰(zhàn)略要素。然而,如此巨大而且重要的網(wǎng)絡(luò)資源,其壽命卻非常短暫,據(jù)統(tǒng)計(jì),平均每周大約2%的網(wǎng)頁會(huì)消失。因此,對(duì)其采取積極有效的保存措施并提供利用,能夠使數(shù)字圖書館找到與科技更深入融合發(fā)展的新切入點(diǎn)。
隨著信息環(huán)境的日新月異和現(xiàn)代社會(huì)變革與進(jìn)步的加快,面對(duì)大量異構(gòu)的網(wǎng)絡(luò)資源,圖書館的文獻(xiàn)保存職能已從傳統(tǒng)的紙質(zhì)文獻(xiàn)迅速擴(kuò)展到網(wǎng)絡(luò)信息領(lǐng)域。國家數(shù)字圖書館作為保存人類文化遺產(chǎn)、傳播知識(shí)信息的樞紐,一直注重?cái)?shù)據(jù)的建設(shè)、管理和利用。建有磁帶庫、磁盤陣列、光纖導(dǎo)向器組成的整體存儲(chǔ)系統(tǒng),總存儲(chǔ)量達(dá)到2270TB。截至2014年底,數(shù)字資源總量已經(jīng)達(dá)到1024TB,其中,電子圖書367萬種414萬冊(cè),電子期刊約5.8萬種,電子報(bào)紙約1.5萬種,學(xué)位論文約521萬篇,會(huì)議論文約507萬篇,音頻資料約109萬首,視頻資料約13.2萬小時(shí)。特色數(shù)字化資源超過2.6億頁。開展海外民國文獻(xiàn)數(shù)字化、國家珍貴古籍?dāng)?shù)字化,館藏音像資料數(shù)字化。外購數(shù)據(jù)庫達(dá)到277個(gè),其中中文數(shù)據(jù)庫127個(gè),外文數(shù)據(jù)庫150個(gè)。開發(fā)的文津搜索系統(tǒng),積累了超過3億條元數(shù)據(jù)。數(shù)字化資源正在通過互聯(lián)網(wǎng)、移動(dòng)通信網(wǎng)、廣電網(wǎng)等渠道以及觸摸屏、智能手機(jī)、數(shù)字電視等終端,向讀者提供海量知識(shí)信息。基于前期大數(shù)據(jù)的生產(chǎn)、挖掘和服務(wù)經(jīng)驗(yàn),國家數(shù)字圖書館將以海量網(wǎng)絡(luò)信息資源的保存與服務(wù)為起點(diǎn),對(duì)互聯(lián)網(wǎng)中有價(jià)值的信息進(jìn)行提煉和積累,利用創(chuàng)新思維、創(chuàng)新渠道推進(jìn)網(wǎng)絡(luò)信息資源的開放、共享,從而進(jìn)一步整合完善現(xiàn)代公共文化服務(wù)體系,保障并促進(jìn)中華優(yōu)秀文明的廣泛、久遠(yuǎn)的傳播。
2.1國外網(wǎng)絡(luò)資源保存的應(yīng)用與實(shí)踐
權(quán)威調(diào)研機(jī)構(gòu)互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)的報(bào)告顯示,預(yù)計(jì)到2020年全球數(shù)據(jù)總量將超過40ZB(相當(dāng)于4萬億GB),在過去幾年里,全球的數(shù)據(jù)量以每年58%的速度在增長,未來這個(gè)速度還會(huì)更快,這其中絕大多數(shù)的數(shù)據(jù)來源于網(wǎng)絡(luò)。網(wǎng)絡(luò)資源不僅能全面反映國家社會(huì)各領(lǐng)域的真實(shí)面貌,還為政府決策、企業(yè)經(jīng)營、網(wǎng)絡(luò)安全和人民生活提供了重要的信息素材,對(duì)分析一個(gè)國家的發(fā)展現(xiàn)狀并做出正確的判斷和決策具有重要意義。
網(wǎng)絡(luò)信息的保存與利用在世界各國已經(jīng)受到普遍重視。2012年美國政府就發(fā)布了《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,面向網(wǎng)絡(luò)信息進(jìn)行收集、監(jiān)控、分析和研究。美國國家安全局(NSA)在2011年投資20億美元建成了猶他數(shù)據(jù)中心,其存儲(chǔ)能力高達(dá)1YB,相當(dāng)于人類目前為止產(chǎn)生的所有數(shù)據(jù)的1000倍。2013年5月,NSA動(dòng)工新建了另一個(gè)高性能計(jì)算中心,規(guī)模是猶他數(shù)據(jù)中心的6倍。歐盟在2014年初啟動(dòng)了“地平線2020”計(jì)劃來加強(qiáng)歐盟網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)、泛歐洲的網(wǎng)絡(luò)數(shù)據(jù)保存和管理、網(wǎng)絡(luò)數(shù)據(jù)挖掘和利用,以實(shí)現(xiàn)整合歐盟各國的信息資源,促進(jìn)科技創(chuàng)新,推動(dòng)經(jīng)濟(jì)增長和就業(yè)。
近年來,國外許多科研和文化機(jī)構(gòu)在網(wǎng)絡(luò)信息保存方面已完成或正在推進(jìn)的全球項(xiàng)目也有近百項(xiàng)。從國際影響力和成果來看,具有代表性的是美國的Internet Archive(IA)項(xiàng)目和美國國會(huì)圖書館的Minerva項(xiàng)目、法國國家圖書館的BNF WEBARCHIVE(BNF)項(xiàng)目、英國的UKWAC項(xiàng)目、澳大利亞國家圖書館的Pandora項(xiàng)目等。其中,美國的IA項(xiàng)目目前數(shù)據(jù)總量達(dá)到了9PB,保存了4000多億個(gè)網(wǎng)頁;法國的BNF項(xiàng)目,目前已經(jīng)完成了對(duì)200億個(gè)網(wǎng)絡(luò)資源對(duì)象的保存,總數(shù)量達(dá)到450TB;英國的UKWAC項(xiàng)目目前已經(jīng)對(duì)1.4萬個(gè)網(wǎng)站進(jìn)行了6.5萬次以上的存檔,共采集資源24TB;澳大利亞國家圖書館的Pandora項(xiàng)目目前已經(jīng)完成了對(duì)10萬個(gè)網(wǎng)站的保存工作,總文件數(shù)量達(dá)到了2.6億個(gè),數(shù)據(jù)量共12.22TB。
2.2國內(nèi)網(wǎng)絡(luò)資源保存工作的進(jìn)展和效果
我國開展的網(wǎng)絡(luò)信息采集與保存的實(shí)踐性項(xiàng)目屈指可數(shù)。國內(nèi)高校曾將網(wǎng)絡(luò)信息保存作為科研項(xiàng)目開展過實(shí)踐研究,北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室開發(fā)建設(shè)的“中國Web信息博物館”(Web Infomall)項(xiàng)目,是2002年在國家“973”和“985”項(xiàng)目支持下開展的中國網(wǎng)頁歷史信息存儲(chǔ)與展示系統(tǒng)。
2003年,國家數(shù)字圖書館在國內(nèi)開展了網(wǎng)絡(luò)信息資源采集試驗(yàn);2007年,加入國際互聯(lián)網(wǎng)保存聯(lián)盟;2009年,成立了國家圖書館互聯(lián)網(wǎng)信息保存保護(hù)中心,致力于中國互聯(lián)網(wǎng)信息資源長期保存和保護(hù)。經(jīng)過10多年的建設(shè),在網(wǎng)絡(luò)資源評(píng)價(jià)體系、采集策略、技術(shù)應(yīng)用、平臺(tái)建設(shè)、數(shù)據(jù)挖掘和分析,用戶服務(wù)和體驗(yàn)、合作模式等方面都積累了一定經(jīng)驗(yàn)。截至2015年,保存范圍包括國內(nèi)網(wǎng)站、國外網(wǎng)站和國內(nèi)專題三部分。已累計(jì)的數(shù)據(jù)量超過100TB。(1)國家數(shù)字圖書館在對(duì)網(wǎng)絡(luò)信息有針對(duì)性采集的同時(shí),還注重有效的內(nèi)容組織和發(fā)布,實(shí)現(xiàn)在公共互聯(lián)網(wǎng)上,面向全社會(huì)的公益性查詢服務(wù)。(2)嘗試引入社會(huì)力量參與“網(wǎng)絡(luò)信息保存項(xiàng)目”建設(shè)和合作,有效彌補(bǔ)前期建設(shè)中網(wǎng)絡(luò)帶寬、軟件研發(fā)和隊(duì)伍建設(shè)等方面的不足,從而保障數(shù)據(jù)的多元聚集和結(jié)構(gòu)優(yōu)化,降低項(xiàng)目運(yùn)行成本,實(shí)現(xiàn)人員有效配置,進(jìn)而運(yùn)用商業(yè)平臺(tái)的運(yùn)作模式加快項(xiàng)目發(fā)展,實(shí)現(xiàn)效用的成果轉(zhuǎn)化。(3)十分重視標(biāo)準(zhǔn)規(guī)范建設(shè),積極推進(jìn)符合我國國情和中文語境的網(wǎng)絡(luò)信息采集技術(shù)應(yīng)用與相關(guān)規(guī)范標(biāo)準(zhǔn)建設(shè)工作,建立元數(shù)據(jù)著錄規(guī)則,加強(qiáng)采集數(shù)據(jù)的管理,確保數(shù)據(jù)的可用性、穩(wěn)定性和準(zhǔn)確性,提高服務(wù)效能。(4)著手研發(fā)適用于中文信息采集環(huán)境的集成式管理系統(tǒng)。依托文化惠民工程之一的數(shù)字圖書館推廣工程,網(wǎng)絡(luò)信息資源保存工作已經(jīng)作為數(shù)字資源聯(lián)合建設(shè)的重要組成部分面向全國公共圖書館逐步展開,2014年首都圖書館、湖北省圖書館、浙江圖書館、吉林圖書館以及新疆建設(shè)兵團(tuán)圖書館5家省級(jí)公共圖書館成為首批聯(lián)建成員,2015年包括貴州省圖書館在內(nèi)的76家省市級(jí)圖書館進(jìn)行了網(wǎng)絡(luò)信息保存工作的踴躍申報(bào)。
2.3利用網(wǎng)絡(luò)資源驅(qū)動(dòng)文化創(chuàng)新和發(fā)展
信息技術(shù)和互聯(lián)網(wǎng)技術(shù)無論在全局性戰(zhàn)略布局還是重點(diǎn)決策方面,都得到了國家的高度重視,以互聯(lián)網(wǎng)技術(shù)為代表的科技創(chuàng)新正在引領(lǐng)經(jīng)濟(jì)創(chuàng)新、政府管理創(chuàng)新以及文化創(chuàng)新。十八屆五中全會(huì)不僅提出了“實(shí)施網(wǎng)絡(luò)強(qiáng)國戰(zhàn)略”,還提出了“實(shí)施‘互聯(lián)網(wǎng)+’行動(dòng)計(jì)劃,發(fā)展分享經(jīng)濟(jì),實(shí)施國家大數(shù)據(jù)戰(zhàn)略”。在關(guān)于制定“十三五”規(guī)劃的建議中也指出,破解發(fā)展難題,厚植發(fā)展優(yōu)勢(shì),必須牢固樹立創(chuàng)新、協(xié)調(diào)、綠色、開放、共享的發(fā)展理念。而數(shù)據(jù)資源的開放共享,是實(shí)施大數(shù)據(jù)戰(zhàn)略的關(guān)鍵所在。在2015年9月國務(wù)院發(fā)布的《關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知》中,特別提到要加強(qiáng)互聯(lián)網(wǎng)信息采集、保存和分析能力建設(shè),制定完善互聯(lián)網(wǎng)信息保存相關(guān)法律法規(guī),構(gòu)建互聯(lián)網(wǎng)信息保存和信息服務(wù)體系。我國在2020年要完成公共文化服務(wù)體系基本建成的階段性目標(biāo),離不開堅(jiān)持文化創(chuàng)新,使創(chuàng)新在文化領(lǐng)域蔚然成風(fēng)。利用創(chuàng)新思維、創(chuàng)新渠道推進(jìn)網(wǎng)絡(luò)信息資源的開放、共享,對(duì)于公共文化資源體系的進(jìn)一步整合完善、縮小數(shù)字鴻溝具有重要意義。
現(xiàn)代公共文化服務(wù)體系的整體發(fā)展,需要戰(zhàn)略性與操作性相融合的創(chuàng)新理念支撐,從公共文化服務(wù)視角出發(fā),今后圖書館服務(wù)將跳出圖書館本位概念里的服務(wù)范圍,緊密依托互聯(lián)網(wǎng)+環(huán)境下的文化創(chuàng)新和科技創(chuàng)新成果,跨越原有機(jī)構(gòu)和業(yè)務(wù)門檻,以“大文化”的理念構(gòu)建現(xiàn)代公共文化服務(wù)體系與新信息技術(shù)融合的新業(yè)態(tài)和新模式。以海量網(wǎng)絡(luò)信息資源的保存與服務(wù)為起點(diǎn),國家數(shù)字圖書館將聯(lián)合檔案館、博物館、美術(shù)館、文化館等公共文化機(jī)構(gòu),共建大數(shù)據(jù)環(huán)境下的公共文化資源生產(chǎn)體系,充分發(fā)揮互聯(lián)網(wǎng)+環(huán)境下大數(shù)據(jù)等延伸技術(shù)產(chǎn)物在公共文化服務(wù)體系建設(shè)中的優(yōu)化和集成作用,匯集多種文化資源建設(shè),形成超大規(guī)模的元數(shù)據(jù)倉儲(chǔ),實(shí)現(xiàn)不同異構(gòu)數(shù)字資源元數(shù)據(jù)的集中管理;利用關(guān)聯(lián)技術(shù)實(shí)現(xiàn)數(shù)字資源信息層和知識(shí)層的深度整合,從而使海量、多樣的資源得到合理組織和開發(fā);利用大數(shù)據(jù)挖掘技術(shù),為社會(huì)公眾提供更深層面、更細(xì)粒度、更準(zhǔn)確的資源揭示,從而使公共文化服務(wù)所承擔(dān)的內(nèi)容和責(zé)任更加拓展。
數(shù)字圖書館作為新一代信息技術(shù)和現(xiàn)代公共文化服務(wù)充分融合的圖書館新業(yè)態(tài),應(yīng)該把技術(shù)創(chuàng)新與制度創(chuàng)新放在同等重要的位置,完善體制機(jī)制,推動(dòng)原始創(chuàng)新,加強(qiáng)集成創(chuàng)新,增強(qiáng)引進(jìn)消化吸收再創(chuàng)新能力。
3.1搭建先進(jìn)的分布式網(wǎng)絡(luò)信息采集平臺(tái)
全面系統(tǒng)地采集和保存中文互聯(lián)網(wǎng)信息資源,有重點(diǎn)地采集和保存國外網(wǎng)絡(luò)信息,是網(wǎng)絡(luò)信息保存與利用的根本任務(wù),利用先進(jìn)技術(shù),對(duì)不同廣度、深度的網(wǎng)絡(luò)信息的采集是至關(guān)重要的。同時(shí),網(wǎng)絡(luò)信息資源的數(shù)量龐大(以PB為單位進(jìn)行計(jì)量)以及數(shù)據(jù)安全、網(wǎng)絡(luò)帶寬的考慮,需要建設(shè)網(wǎng)絡(luò)信息采集國家中心以及各省中心,利用嚴(yán)格監(jiān)管的調(diào)度機(jī)制進(jìn)行網(wǎng)絡(luò)信息的分布式采集,以保障采集資源使用合理,發(fā)揮最大效力,從而確保網(wǎng)絡(luò)信息采集的完整和時(shí)效性。
網(wǎng)絡(luò)信息采集平臺(tái)還要重點(diǎn)解決以下幾方面問題:(1)要確立網(wǎng)絡(luò)信息的保存標(biāo)準(zhǔn),標(biāo)準(zhǔn)化對(duì)于網(wǎng)絡(luò)資源采集與長期保存具有重要意義,不僅有利于保證網(wǎng)絡(luò)資源的長期可獲取性與保護(hù)其完整性,還可以減少網(wǎng)絡(luò)資源長期管理與保存的費(fèi)用;(2)采集技術(shù)的運(yùn)用,結(jié)合國內(nèi)外的先進(jìn)經(jīng)驗(yàn),針對(duì)不同采集對(duì)象運(yùn)用或研發(fā)采集不同類型采集工具,制定采集頻率、采集策略、保存格式等內(nèi)容,解決中文的全文檢索及挖掘問題、深層網(wǎng)頁的采集問題等;(3)保存方式,需要建立統(tǒng)一的存儲(chǔ)標(biāo)準(zhǔn),從而促進(jìn)網(wǎng)絡(luò)信息資源保存系統(tǒng)之間數(shù)據(jù)的共享。
3.2構(gòu)建可靠完備數(shù)據(jù)保存中心
以網(wǎng)絡(luò)信息內(nèi)容為核心,以先進(jìn)技術(shù)為支撐,以保存、保護(hù)和利用為目標(biāo),建設(shè)國家網(wǎng)絡(luò)信息保存中心,全面保存網(wǎng)絡(luò)化、移動(dòng)化、社交化、視頻化的網(wǎng)絡(luò)信息,實(shí)現(xiàn)網(wǎng)絡(luò)信息的長期保存、長效可用。
采用分布式存儲(chǔ)架構(gòu)和云存儲(chǔ)技術(shù),基于先進(jìn)的存儲(chǔ)設(shè)備構(gòu)建一套較為完整的網(wǎng)絡(luò)信息保存中心,實(shí)現(xiàn)EB級(jí)別的存儲(chǔ)容量,滿足信息采集中心、數(shù)據(jù)分析中心的信息存儲(chǔ)需要,為服務(wù)體系的應(yīng)用提供數(shù)據(jù)保存支持和數(shù)據(jù)空間支持。同時(shí),網(wǎng)絡(luò)信息保存中心的技術(shù)架構(gòu)還將具有延續(xù)性、擴(kuò)展性的特點(diǎn),不但可以持續(xù)地為數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)服務(wù)提供支持,還將隨著數(shù)據(jù)的增長、應(yīng)用的擴(kuò)展而有序地?cái)U(kuò)充保存中心的保存能力和服務(wù)能力。
網(wǎng)絡(luò)信息保存保護(hù)系統(tǒng)將構(gòu)建統(tǒng)一調(diào)度、集中索引、分布式保存的“保存模式”,實(shí)現(xiàn)海量網(wǎng)絡(luò)信息的保存。通過分級(jí)分布的保存模式,實(shí)施與資源相匹配的保存策略,實(shí)現(xiàn)網(wǎng)絡(luò)信息的集中保存和長效利用,為信息采集中心提供資源保存服務(wù),為數(shù)據(jù)分析中心提供數(shù)據(jù)支撐服務(wù),為網(wǎng)絡(luò)信息的檢索服務(wù)、學(xué)術(shù)研究、決策支持等提供基礎(chǔ)支撐和數(shù)據(jù)支撐。
3.3建設(shè)一流的數(shù)據(jù)分析中心
利用云計(jì)算技術(shù)和并行數(shù)據(jù)庫技術(shù)實(shí)現(xiàn)異構(gòu)異源海量網(wǎng)絡(luò)數(shù)據(jù)的離線或在線運(yùn)算,提高數(shù)據(jù)處理效率。利用大數(shù)據(jù)挖掘技術(shù)和人工智能技術(shù)對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析和深度挖掘,從大量紛繁復(fù)雜的數(shù)據(jù)中找出規(guī)律性和發(fā)展趨勢(shì),揭示出事物之間的關(guān)聯(lián),提供決策建議。通過數(shù)據(jù)可視化技術(shù)將抽象的數(shù)據(jù)關(guān)系通過表現(xiàn)元素直觀地進(jìn)行展示,并提供交互功能,提升服務(wù)品質(zhì)。
3.4推進(jìn)制定符合國情的網(wǎng)絡(luò)政策
網(wǎng)絡(luò)和信息安全牽涉到國家安全和社會(huì)穩(wěn)定,是我們面臨的新的綜合性挑戰(zhàn)。從實(shí)踐看,面對(duì)互聯(lián)網(wǎng)技術(shù)和應(yīng)用飛速發(fā)展,現(xiàn)行管理體制存在明顯弊端,主要是多頭管理、職能交叉、權(quán)責(zé)不一、效率不高。同時(shí),隨著互聯(lián)網(wǎng)媒體屬性越來越強(qiáng),網(wǎng)上媒體管理和產(chǎn)業(yè)管理遠(yuǎn)遠(yuǎn)跟不上形勢(shì)發(fā)展變化。特別是面對(duì)傳播快、影響大、覆蓋廣、社會(huì)動(dòng)員能力強(qiáng)的微客、微信等社交網(wǎng)絡(luò)和即時(shí)通信工具用戶的快速增長,如何加強(qiáng)網(wǎng)絡(luò)法制建設(shè)和輿論引導(dǎo),確保網(wǎng)絡(luò)信息傳播秩序、國家安全和社會(huì)穩(wěn)定已經(jīng)成為擺在我們面前的現(xiàn)實(shí)突出問題。
互聯(lián)網(wǎng)資源的采集、保存及后續(xù)利用均涉及大量法律問題,為保證有關(guān)工作合法有效地開展,有必要在借鑒國外立法經(jīng)驗(yàn)的基礎(chǔ)上,盡快修訂現(xiàn)行法規(guī),明確賦予法定保存機(jī)構(gòu)采集、保存互聯(lián)網(wǎng)資源的法定權(quán)利,推動(dòng)構(gòu)建我國網(wǎng)絡(luò)信息保存相關(guān)領(lǐng)域的政策保障體系。加大依法管理網(wǎng)絡(luò)力度,完善互聯(lián)網(wǎng)管理領(lǐng)導(dǎo)體制,形成從技術(shù)到內(nèi)容、從日常安全到打擊犯罪的互聯(lián)網(wǎng)管理合力,確保網(wǎng)絡(luò)正確運(yùn)用和安全。
3.5帶動(dòng)技術(shù)與應(yīng)用領(lǐng)域的創(chuàng)新體系建設(shè)
不難想象,互聯(lián)網(wǎng)信息的保存,數(shù)據(jù)資源量將是非常龐大的,并且這些數(shù)據(jù)的增長量也是非常驚人的。在這些海量數(shù)據(jù)的采集、整理和加工過程中,我們需要現(xiàn)有的基礎(chǔ)設(shè)施和技術(shù)做支撐,同時(shí),面對(duì)如此龐大的數(shù)據(jù)規(guī)模,數(shù)據(jù)又是來自不同機(jī)構(gòu),結(jié)構(gòu)各異,數(shù)據(jù)保存保護(hù)技術(shù)面臨著巨大挑戰(zhàn),突破這些挑戰(zhàn),也為技術(shù)的革新帶來了巨大動(dòng)力。另一方面,海量數(shù)據(jù)量也為技術(shù)革新提供了數(shù)據(jù)支撐,具有很好的科研價(jià)值,也是其他商業(yè)機(jī)構(gòu)或科研院所在數(shù)據(jù)規(guī)模上無法達(dá)到的。因此在建設(shè)中,需要實(shí)現(xiàn)相關(guān)技術(shù)、合作模式以及資源及工程管理策略方面的革新,從而適應(yīng)海量分布式異構(gòu)的互聯(lián)網(wǎng)信息的要求。
我們?cè)趯?shí)現(xiàn)互聯(lián)網(wǎng)信息的采集、組織加工和保存等基本流程后,還要利用已有的海量數(shù)據(jù)實(shí)現(xiàn)信息的增值,真正實(shí)現(xiàn)數(shù)據(jù)的價(jià)值。對(duì)這些數(shù)據(jù)進(jìn)行有針對(duì)性的分析,便能產(chǎn)生意想不到的效果和用途。目前,大數(shù)據(jù)分析已經(jīng)成為一大趨勢(shì),用在了社會(huì)生活的各行各業(yè),我們需要在采集、組織加工和保存的基礎(chǔ)上對(duì)信息進(jìn)行有效管理,對(duì)不同行業(yè)的數(shù)據(jù)分析采用不同的管理策略,為信息分析提供數(shù)據(jù)支撐,從而為其他領(lǐng)域的行業(yè)創(chuàng)新提供新的思路。
3.6建設(shè)覆蓋全國的多層級(jí)網(wǎng)絡(luò)信息提供服務(wù)體系
充分利用網(wǎng)絡(luò)信息保存保護(hù)成果,以全面采集、組織和分析后的網(wǎng)絡(luò)數(shù)據(jù)信息面向社會(huì)各層級(jí)展開高水平、高保障的信息提供服務(wù)。
面向中央和國家領(lǐng)導(dǎo)機(jī)關(guān)的決策支持服務(wù)。網(wǎng)絡(luò)信息保存工作將高度重視海量網(wǎng)絡(luò)信息作為我國戰(zhàn)略性資源的重要性,著眼于國家信息安全與社會(huì)信息化建設(shè)的長遠(yuǎn)發(fā)展,依托強(qiáng)大可靠的信息基礎(chǔ)設(shè)施和自主創(chuàng)新的關(guān)鍵性研發(fā)技術(shù),在健全的法律規(guī)范體系下全面采集、保存和利用來自社會(huì)各領(lǐng)域的網(wǎng)絡(luò)信息數(shù)據(jù),為中央和國家領(lǐng)導(dǎo)機(jī)關(guān)的發(fā)展規(guī)劃和重大政策制定等提供數(shù)據(jù)保障和智力支持。同時(shí),通過基于網(wǎng)絡(luò)信息的數(shù)據(jù)整理和挖掘大力推進(jìn)社會(huì)熱點(diǎn)問題及專題性信息資源庫的建設(shè),加強(qiáng)網(wǎng)絡(luò)輿情匯集與分析,不斷增強(qiáng)網(wǎng)絡(luò)安全保障能力。
面向科研教育機(jī)構(gòu)的學(xué)術(shù)研究服務(wù)。網(wǎng)絡(luò)信息保存工作將以重點(diǎn)科研生產(chǎn)單位、教育研究機(jī)構(gòu)為服務(wù)對(duì)象,利用強(qiáng)大的資源信息優(yōu)勢(shì),建設(shè)和完善專業(yè)化、規(guī)模化、現(xiàn)代化的網(wǎng)絡(luò)資源儲(chǔ)備庫,加強(qiáng)科學(xué)研究性信息數(shù)據(jù)的收集整理,通過數(shù)據(jù)挖掘、關(guān)聯(lián)分析等加工處理,依據(jù)研究機(jī)構(gòu)和用戶的不同需求有針對(duì)性地提供特色學(xué)術(shù)研究信息服務(wù),與相關(guān)科研與教育機(jī)構(gòu)形成合力,為社會(huì)進(jìn)步和科技創(chuàng)新增添源動(dòng)力。
面向社會(huì)大眾的信息檢索與揭示服務(wù)。網(wǎng)絡(luò)信息保存工作將在統(tǒng)一集中管理的基礎(chǔ)上,通過各類新興媒體形式提供一站式信息檢索與信息檢索平臺(tái),以多領(lǐng)域、多維度的網(wǎng)絡(luò)信息內(nèi)容向社會(huì)大眾提供豐富全面的歷史性和積累性網(wǎng)絡(luò)信息查詢與揭示服務(wù)。作為重要的數(shù)字文化遺產(chǎn)和日常信息傳播資源,網(wǎng)絡(luò)信息保存保護(hù)成果將以先進(jìn)技術(shù)為支撐,在保障網(wǎng)絡(luò)和信息安全的前提下面向公眾提供精準(zhǔn)權(quán)威的網(wǎng)絡(luò)信息發(fā)布結(jié)果,從而促進(jìn)我國全民知識(shí)信息共享水平得到有效提升。
互聯(lián)網(wǎng)被稱為20世紀(jì)人類最大的發(fā)明,不論你是否愿意,是否知道,每個(gè)人都已被網(wǎng)絡(luò)其中,在不知不覺中融入互聯(lián)網(wǎng)生態(tài)圈。在互聯(lián)網(wǎng)時(shí)代,圖書館信息資源生態(tài)也在發(fā)生巨變,一個(gè)嶄新的知識(shí)網(wǎng)絡(luò)環(huán)境已經(jīng)產(chǎn)生,數(shù)字圖書館將抓住這一發(fā)展機(jī)遇,通過云計(jì)算、大數(shù)據(jù)技術(shù)對(duì)網(wǎng)絡(luò)信息進(jìn)行采集、保存、管理與分析,從而在海量的網(wǎng)絡(luò)數(shù)據(jù)中發(fā)現(xiàn)其中蘊(yùn)含的事物發(fā)展規(guī)律,發(fā)現(xiàn)新知識(shí),創(chuàng)造新價(jià)值,提升新能力,進(jìn)而為國家決策、經(jīng)濟(jì)和社會(huì)發(fā)展提供支持,這將是數(shù)字圖書館的未來發(fā)展方向。
[1]December2015WebServerSurvey[EB/OL].[2015-12-01].http://news.netcraft.com/.
[2]CNNIC:2015年第36次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].[2015-12-01].http://www. cnnic.net.cn/hlwfzyj/hlwxzbg/.
[3]歐盟“地平線2020”計(jì)劃啟動(dòng)加強(qiáng)基礎(chǔ)科學(xué)研究[EB/OL].[2015-12-01].http://www.chinanews. com/gj/2014/02-01/5801917.shtml.
[4]Historique de l'archivage du web à la BnF[EB/OL].[2015-12-01].http://www.bnf.fr/fr/professionnels/ archivage_web_bnf/a.depot_legal_internet_histoire.html.
[5]中共十八屆五中全會(huì)公報(bào)[EB/OL].[2015-12-01].http://news.163.com/15/1030/02/B7537G1T 00014AED.html.
[6]關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知[EB/ OL].[2015-12-01].http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.
[7]習(xí)近平與“十三五”十四大戰(zhàn)略:網(wǎng)絡(luò)強(qiáng)國戰(zhàn)略[EB/OL].[2015-11-19].http://www.chinanews. com/gn/2015/11-12/7618720.shtml.
[8]中共中央關(guān)于全面深化改革若干重大問題的決定[EB/OL].[2015-11-01].http://news.xinhuanet. com/2013-11/15/c_118164235.htm.
Thinking on the Preservation and Service of the National Digital Library Network Resources
Wei Da-wei,Zhang Wei
The national digital library,as a hub for the preservation of the cultural heritage of mankind and the dissemination of knowledge information,has been focused on the construction,management and utilization of the data.With the changes of the ecological environment in modern science and technology and the progress of human society,the national digital library begin to exist in value in the network information resources for effective conservation and utilization,so as to realize the data integration and innovation.
Digital Library;Network Resources;Conservation;Service
G250.73
A
1005-8214(2016)09-0038-04
魏大威(1976-),男,國家圖書館副館長、研究館員;張煒(1973-),女,國家圖書館研究館員。
2016-02-26[責(zé)任編輯]王崗
本文系國家社科基金項(xiàng)目“網(wǎng)絡(luò)信息采集與保存策略研究”(項(xiàng)目編號(hào):15BTQ019)的成果之一。