呂 琳 魏大威
(1.國(guó)家圖書(shū)館 北京 100081;2.中央司法警官學(xué)院 河北保定 071000)
在過(guò)去的十多年中,國(guó)際互聯(lián)網(wǎng)存檔相關(guān)組織的成員及科研團(tuán)體嘗試開(kāi)發(fā)各種采集工具、索引工具、訪(fǎng)問(wèn)工具,來(lái)實(shí)現(xiàn)互聯(lián)網(wǎng)信息采集和長(zhǎng)期保存。Internet Archive通過(guò)各種技術(shù)、戰(zhàn)略和伙伴關(guān)系,獲取了龐大的歷史網(wǎng)絡(luò)數(shù)據(jù)集,其資源總量已超過(guò)13PB[1]。互聯(lián)網(wǎng)長(zhǎng)期保存的資源與其他數(shù)字資源相比顯得更為復(fù)雜,如前者的網(wǎng)頁(yè)正文信息具有多樣化的特征(文本、圖像、視頻等),網(wǎng)頁(yè)之間存在相互鏈接,網(wǎng)頁(yè)采用腳本和樣式等技術(shù)手段也不同。數(shù)字資源保存過(guò)程中,與之相關(guān)的參考信息、出處信息、上下文信息、固定信息等也需要一并進(jìn)行長(zhǎng)期保存。如何高效地保存、管理和交換這些數(shù)據(jù)對(duì)象本身就是一個(gè)挑戰(zhàn)。
展開(kāi)對(duì)互聯(lián)網(wǎng)信息長(zhǎng)期保存的可視化分析研究,其主要原因是面對(duì)多樣的數(shù)據(jù)類(lèi)型、異構(gòu)的數(shù)據(jù)源、對(duì)多維度數(shù)據(jù)展示的需求,網(wǎng)絡(luò)軟硬件環(huán)境的變化,借助于數(shù)理統(tǒng)計(jì)分析方法、大數(shù)據(jù)分析技術(shù),將一些無(wú)序的、潛在的、隱藏在原始數(shù)據(jù)背后的信息轉(zhuǎn)變?yōu)轱@現(xiàn)的知識(shí),通過(guò)圖形技術(shù)及交互技術(shù),以更加直觀、更易于認(rèn)知的方式展示,達(dá)到互聯(lián)網(wǎng)信息更好地長(zhǎng)期保存,利于管理及服務(wù)的目的。
Stephen Few[2]給出的數(shù)據(jù)可視化定義是:“數(shù)據(jù)可視化的主要目標(biāo)是通過(guò)統(tǒng)計(jì)圖形、繪圖和信息圖形清晰有效地傳達(dá)信息,可以使用點(diǎn)、線(xiàn)或條來(lái)對(duì)數(shù)字?jǐn)?shù)據(jù)進(jìn)行編碼,以視覺(jué)傳達(dá)定量消息,有效的可視化幫助用戶(hù)分析和推理數(shù)據(jù)和證據(jù)。”數(shù)字可視化主要處理兩種類(lèi)型的數(shù)據(jù):分類(lèi)(如文本標(biāo)簽)和定量數(shù)據(jù)(時(shí)間序列、偏差、頻率分布、相關(guān)名、地理空間等)。它可以使抽象的數(shù)據(jù)以更易于理解、訪(fǎng)問(wèn)和可用的方式呈現(xiàn)。目前,人們常說(shuō)的可視化分析則更關(guān)注視覺(jué)表示與數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)挖掘技術(shù)相結(jié)合,其應(yīng)用范圍主要為分析推理技術(shù)、數(shù)據(jù)表示與轉(zhuǎn)換、交互技術(shù)相結(jié)合。
將可視化分析技術(shù)引入互聯(lián)網(wǎng)信息保存領(lǐng)域旨在利用數(shù)理統(tǒng)計(jì)或大數(shù)據(jù)分析方法對(duì)已采集的互聯(lián)網(wǎng)信息進(jìn)行基于鏈接、時(shí)序、空間、趨勢(shì)、決策等多維度的應(yīng)用,從原始資源中挖掘出所需信息,并借助于計(jì)算機(jī)學(xué)圖形學(xué)與圖像學(xué)處理技術(shù),將抽象的數(shù)據(jù)以計(jì)算機(jī)所支持的可視化形式展現(xiàn),以增加人的認(rèn)知能力。其主要表現(xiàn)在以下三個(gè)方面:
(1)數(shù)據(jù)推理分析。分析推理技術(shù),使用戶(hù)能夠直接在支持評(píng)估、規(guī)劃和決策方面,獲得深刻見(jiàn)解。根據(jù)Card和Pirolli[3-4]等人的信息覓食理論,信息管理人員和使用者對(duì)原始存檔的信息使用聚類(lèi)、時(shí)序、關(guān)聯(lián)、回歸分析等方法提取出所需數(shù)據(jù),然后通過(guò)可視化界面對(duì)其顯示圖像進(jìn)行一維或多維數(shù)據(jù)疊加顯示、放大縮小查看細(xì)節(jié)信息、降維處理、人機(jī)交互等操作,從視覺(jué)角度來(lái)發(fā)現(xiàn)新問(wèn)題,在此基礎(chǔ)上提出假設(shè)條件并通過(guò)推理驗(yàn)證形成新知識(shí),為下一步的決策分析提供幫助。
(2)數(shù)據(jù)表示與轉(zhuǎn)換。數(shù)據(jù)表示和轉(zhuǎn)換是指轉(zhuǎn)換所有類(lèi)型的沖突和動(dòng)態(tài)數(shù)據(jù),用以支持可視化和分析的方式。數(shù)據(jù)表示是適用于基于計(jì)算機(jī)轉(zhuǎn)換的結(jié)構(gòu)化形式。這些結(jié)構(gòu)必須存在于原始數(shù)據(jù)中,或者可以從數(shù)據(jù)本身導(dǎo)出。它們必須盡可能保留原始數(shù)據(jù)中的信息、知識(shí)內(nèi)容以及相關(guān)內(nèi)容。底層數(shù)據(jù)表示的結(jié)構(gòu)對(duì)于視覺(jué)分析工具的用戶(hù)通常既不可訪(fǎng)問(wèn)也不直觀,其性質(zhì)也往往比原始數(shù)據(jù)復(fù)雜得多,并不一定比原始數(shù)據(jù)小。數(shù)據(jù)表示的結(jié)構(gòu)可以包含數(shù)百或數(shù)千個(gè)維度,并且對(duì)于人來(lái)說(shuō)是不可理解的,但是它們必須可變換成用于可視化和分析的低維表示[5]。
存檔的原始資料經(jīng)過(guò)數(shù)據(jù)分析處理轉(zhuǎn)換,再到被人們視覺(jué)所感知的數(shù)據(jù)形式,要經(jīng)過(guò)一系列的轉(zhuǎn)換過(guò)程,即要將數(shù)據(jù)映射成帶有可視化表征(空間基、圖形屬性)的可視化結(jié)構(gòu),再根據(jù)大小、比例、位置在指定設(shè)備上顯示。
(3)視覺(jué)表現(xiàn)方面。視覺(jué)表現(xiàn)主要是借助于計(jì)算機(jī)圖形、圖像學(xué)技術(shù),數(shù)據(jù)之間的位置關(guān)系(如不同的位置表示關(guān)系,多種坐標(biāo)軸)、數(shù)據(jù)屬性及表現(xiàn)方式的差異,突出共同點(diǎn)與異常點(diǎn)。使用者可以更快速地察覺(jué)數(shù)據(jù)的顯著變化,通過(guò)視覺(jué)的獲取分析數(shù)據(jù)可增加其對(duì)推理過(guò)程的感知,從而使推理分析過(guò)程變得更為集中。
目前,互聯(lián)網(wǎng)信息采集歸檔資源的可視化研究是針對(duì)互聯(lián)網(wǎng)信息采集和長(zhǎng)期保存整體工作流程展開(kāi)的,尤其是對(duì)互聯(lián)網(wǎng)信息歸檔周期各階段相應(yīng)的任務(wù)及產(chǎn)生的相關(guān)數(shù)據(jù)進(jìn)行收集整理。互聯(lián)網(wǎng)采集信息歸檔資源的可視化分析工作流程圖借鑒了Bolette Jurik[6]的理論研究,并在此基礎(chǔ)上與實(shí)際工作相結(jié)合,進(jìn)行部分調(diào)整,最終確定工作流程。如圖1所示:

圖1 互聯(lián)網(wǎng)存檔資源可視化工作流程圖
互聯(lián)網(wǎng)信息采集歸檔的可視化分析可分為如下幾個(gè)階段:
(1)數(shù)據(jù)的獲取。根據(jù)專(zhuān)題確定的采集策略和采集范圍,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)軟件獲取數(shù)據(jù)存儲(chǔ)在本地?cái)?shù)據(jù)庫(kù)中,通過(guò)手工/自動(dòng)抽取技術(shù)來(lái)錄入描述、管理、使用性元數(shù)據(jù)[7]。
(2)語(yǔ)料庫(kù)的建立。建立語(yǔ)料庫(kù)索引文件和派生語(yǔ)料庫(kù)。語(yǔ)料庫(kù)索引文件中包含了互聯(lián)網(wǎng)歸檔中的所有Web對(duì)象地址,并為不同的目的分析提供基礎(chǔ)。派生語(yǔ)料庫(kù)可以針對(duì)某一特定類(lèi)型文件展開(kāi)研究,它基于語(yǔ)料庫(kù)索引文件派生出來(lái)。
(3)數(shù)據(jù)分析。基于語(yǔ)料庫(kù)已有的數(shù)據(jù),根據(jù)分析需求采用關(guān)聯(lián)、聚類(lèi)、時(shí)序方法進(jìn)行數(shù)據(jù)深度挖掘,生成目標(biāo)數(shù)據(jù)集。
(4)分析數(shù)據(jù)可視化。不同的目標(biāo)數(shù)據(jù)集根據(jù)其自身數(shù)據(jù)特征,采用不同的可視化顯示工具,為使用者提供更直觀、更易于分析與決策的圖形界面模式。
互聯(lián)網(wǎng)采集與長(zhǎng)期保存工作可分為網(wǎng)絡(luò)信息采集、加工、管理、維護(hù)及數(shù)字資源長(zhǎng)期保存這五個(gè)部分。需要長(zhǎng)期保存的數(shù)據(jù)資源除了互聯(lián)網(wǎng)信息采集資源外,還需要保留關(guān)于結(jié)構(gòu)的、上下文、來(lái)源和訪(fǎng)問(wèn)信息,確保保存期數(shù)據(jù)的真實(shí)性和完整性,以更好地實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)歸檔資源生命周期的管理[8]。
(1)采集資源內(nèi)容保存文件。網(wǎng)絡(luò)爬蟲(chóng)根據(jù)一定策略從某一個(gè)URL開(kāi)始,沿著頁(yè)面所有超鏈接,按廣度優(yōu)先或深度優(yōu)先方式沿某一路徑展開(kāi)相關(guān)數(shù)據(jù)的抓取,并將它們添加到遞歸訪(fǎng)問(wèn)的URL中。對(duì)抓取的信息進(jìn)行存儲(chǔ)時(shí)需要一個(gè)容器格式,允許一個(gè)文件簡(jiǎn)單而安全地?cái)y帶大量的組成數(shù)據(jù)對(duì)象,保留原始網(wǎng)頁(yè)鏈接邏輯關(guān)系,用于存儲(chǔ)管理和交換。1996年以來(lái),互聯(lián)網(wǎng)存檔(IA)使用原始的ARC格式文件來(lái)管理數(shù)十億個(gè)對(duì)象。WARC(Web Archive)文件格式是互聯(lián)網(wǎng)信息采集存檔時(shí)所常用的文件保存格式。它是國(guó)際互聯(lián)網(wǎng)保存聯(lián)盟(IIPC)標(biāo)準(zhǔn)工作組于2005年向ISO TC46 / SC4 / WG12提出,2009年被公布的國(guó)際標(biāo)準(zhǔn),已被澳大利亞國(guó)家圖書(shū)館、加拿大圖家圖書(shū)館、美國(guó)國(guó)會(huì)圖書(shū)館、英國(guó)國(guó)家圖書(shū)館、法國(guó)國(guó)家圖書(shū)館、中國(guó)國(guó)家圖書(shū)館等所采用。它所存儲(chǔ)的范圍包含:網(wǎng)頁(yè)資源信息、存儲(chǔ)互聯(lián)應(yīng)用層協(xié)議的有效載荷內(nèi)容和控制信息、存儲(chǔ)和其他存儲(chǔ)相關(guān)聯(lián)的數(shù)據(jù)轉(zhuǎn)換結(jié)果、超長(zhǎng)記錄的管理等多方面內(nèi)容。
(2)采集的相關(guān)過(guò)程數(shù)據(jù)。在進(jìn)行互聯(lián)網(wǎng)信息采集過(guò)程中,除了WARC文件之外,還有一些數(shù)據(jù)資源需要被合理保存。互聯(lián)網(wǎng)信息長(zhǎng)期保存的技術(shù)方法根據(jù)操作規(guī)模有所不同,目前對(duì)于大規(guī)模的互聯(lián)網(wǎng)信息長(zhǎng)期保存確定了三種主要的技術(shù)方法:客戶(hù)端歸檔、事物歸檔、服務(wù)器歸檔[9]。在客戶(hù)端的網(wǎng)絡(luò)爬取工具Heritrix或HTTrack,其抓取工具遵循“種子”指令,將與種子關(guān)聯(lián)的一些數(shù)據(jù)信息(如URL、爬網(wǎng)的頻率范圍、爬網(wǎng)的深度、數(shù)據(jù)字節(jié)數(shù))存儲(chǔ)在特定的文件中。
(3)手工錄入數(shù)據(jù)和系統(tǒng)自動(dòng)生成。根據(jù)數(shù)字圖書(shū)館長(zhǎng)期保存元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范[10]、數(shù)字資源對(duì)象管理規(guī)范[11]的要求及實(shí)際工作需要的部分元數(shù)據(jù),確定最終在互聯(lián)網(wǎng)信息歸檔的全部元數(shù)據(jù)集合。一部分元數(shù)據(jù)可以通過(guò)采集獲取的原始數(shù)據(jù)分析的基礎(chǔ)上獲得,另一部分則需要從事互聯(lián)網(wǎng)信息長(zhǎng)期保存相關(guān)的操作人員及管理人員通過(guò)手工的方式錄進(jìn)相應(yīng)的系統(tǒng)中;對(duì)于系統(tǒng)中的固定屬性(如唯一標(biāo)識(shí)符)則由系統(tǒng)程序自動(dòng)生成并存儲(chǔ)至相應(yīng)的元數(shù)據(jù)管理單元中。
除了手工錄入的數(shù)據(jù)之外,前兩種數(shù)據(jù)來(lái)源可以通過(guò)數(shù)據(jù)分析方法實(shí)現(xiàn)自動(dòng)提取。研究采用的網(wǎng)絡(luò)信息采集工具為國(guó)際互聯(lián)網(wǎng)保存聯(lián)盟(IIPC)推薦的網(wǎng)絡(luò)爬蟲(chóng)工具Heritrix,其文件保存格式為WARC。
3.2.1 Heritrix采集信息提取
在指定了采集專(zhuān)題后,對(duì)相關(guān)專(zhuān)題的互聯(lián)網(wǎng)信息進(jìn)行采集時(shí),采集軟件中會(huì)留下大量的參數(shù)信息。互聯(lián)網(wǎng)信息抓取工具Heritrix用來(lái)獲取完整的、精確的、站點(diǎn)內(nèi)容的深度復(fù)制,包括獲取圖像以及其他非文本內(nèi)容,抓取并存儲(chǔ)相關(guān)內(nèi)容[12]。在采集過(guò)程中,Heritrix會(huì)產(chǎn)生大量的日志文件及報(bào)告,包含大量用于描述、結(jié)構(gòu)性、管理相關(guān)的特征參數(shù)。在進(jìn)行統(tǒng)計(jì)時(shí),經(jīng)常會(huì)用到的幾個(gè)日志文件見(jiàn)表1。

表1 Heritrix采集過(guò)程中的特征數(shù)據(jù)
3.2.2 WARC文件特征數(shù)據(jù)提取
對(duì)WARC進(jìn)行分析,并從文件讀取出相應(yīng)的數(shù)據(jù)資源,進(jìn)行分別存儲(chǔ)。主要可獲取的資源有特征數(shù)據(jù)和內(nèi)容數(shù)據(jù)。特征資源如時(shí)間戳、IP地址、MIME媒體類(lèi)型等,內(nèi)容數(shù)據(jù)主要是指網(wǎng)頁(yè)的正文相關(guān)的數(shù)據(jù)資源。
國(guó)際標(biāo)準(zhǔn)化組織給出的WARC(Web Archive)文件格式定義為:“提供將多個(gè)資源記錄(數(shù)據(jù)對(duì)象)連接在一起的約定,每個(gè)資源記錄由一組簡(jiǎn)單文本標(biāo)題和任意數(shù)據(jù)塊組成一個(gè)長(zhǎng)文件”[13]。換句話(huà)說(shuō),WARC格式文件就是由一個(gè)或多個(gè)WARC記錄的簡(jiǎn)單連接,其中第一個(gè)記錄通常是描述要記錄的記錄[14]。記錄內(nèi)容包含與檢索直接結(jié)果相關(guān)的內(nèi)容(如網(wǎng)頁(yè)、內(nèi)聯(lián)圖像、獨(dú)立文件等)或是歸檔相關(guān)的附加信息(如元數(shù)據(jù)、變換內(nèi)容)。WARC記錄一般由一個(gè)記錄頭、記錄內(nèi)容塊及兩個(gè)換行符組成。記錄頭格式具有強(qiáng)制命名字段,大部分遵循HTTP / 1.1 [RFC2616]和[RFC2822]標(biāo)題的傳統(tǒng),主要用于記錄記錄的日期、類(lèi)型和長(zhǎng)度,并支持每個(gè)收獲的資源(文件)的方便檢索。如圖2所示:

圖2 WARC文件格式解析[15]
(1)特征屬性提取。有8種WARC記錄類(lèi)型:WARC信息、響應(yīng)、資源、請(qǐng)求、元數(shù)據(jù)、回訪(fǎng)、轉(zhuǎn)換和延續(xù)。從WARC文件頭中來(lái)獲取時(shí)間戳、元數(shù)據(jù)、重訪(fǎng)、MIME媒體類(lèi)型、轉(zhuǎn)換、數(shù)據(jù)分割等。目前,已開(kāi)發(fā)的關(guān)于WARC文件格式內(nèi)容自動(dòng)抽取相關(guān)的軟件有: WGET、Warc-Tools、WarcBase、ArchiveSpark、WEAR等。
(2)內(nèi)容數(shù)據(jù)提取。互聯(lián)網(wǎng)信息歸檔資源內(nèi)容挖掘主要是從網(wǎng)頁(yè)內(nèi)挖掘、提取和整合有用的數(shù)據(jù)、信息和知識(shí)。采集歸檔的網(wǎng)頁(yè)信息中包含了文本信息、圖像、視頻、音頻等多媒體資料。從目前已存儲(chǔ)的各類(lèi)資源總量上來(lái)看,文本資源、圖像資源所占比例較大。本文在網(wǎng)頁(yè)內(nèi)容提取研究過(guò)程中,側(cè)重于文本和圖像數(shù)據(jù)提取的相關(guān)研究與技術(shù)。
互聯(lián)網(wǎng)信息歸檔資源文本內(nèi)容可視化是將蘊(yùn)含于其中的語(yǔ)義特征(如主題聚類(lèi)、詞頻分析等),以網(wǎng)絡(luò)云標(biāo)簽、時(shí)間軸等可視化模式顯示在指定的終端設(shè)備上。在對(duì)文本資源進(jìn)行提取時(shí),可以應(yīng)用已有的網(wǎng)頁(yè)文本提取工具(如Apache Tika、Jsoup)進(jìn)行信息提取。按使用者的需求不同,可以將信息按提取粒度大小不同分為:粗粒度(篇章級(jí)):標(biāo)簽提取、文章分類(lèi)、情感分析、垃圾評(píng)論的過(guò)濾等;中粒度(短串級(jí)):詞重要性、句法結(jié)構(gòu)、近義詞替換、語(yǔ)義歸一化等;細(xì)粒度(詞匯級(jí)):中文分詞、專(zhuān)有名詞識(shí)別、詞性標(biāo)注、需求詞識(shí)別、同義詞分析、詞匯關(guān)系計(jì)算、語(yǔ)義網(wǎng)分析等。
圖像數(shù)據(jù)同樣也是網(wǎng)絡(luò)歸檔資源的網(wǎng)頁(yè)內(nèi)容信息中的重要組成部分。將可視化技術(shù)應(yīng)用于圖像信息資源檢索研究,對(duì)圖像數(shù)據(jù)進(jìn)行語(yǔ)義分析、特征提取、圖像自動(dòng)標(biāo)注,是對(duì)網(wǎng)絡(luò)存檔資源粒度的進(jìn)一步細(xì)化。這既可以改善用戶(hù)體驗(yàn)、擴(kuò)展檢索模式,又可以提高圖像檢索系統(tǒng)的性能。
采集的內(nèi)容包含的媒體類(lèi)型不斷增加,管理數(shù)據(jù)包含相應(yīng)的元數(shù)據(jù)總量也在不斷增長(zhǎng)。在此基礎(chǔ)上,通過(guò)大數(shù)據(jù)分析技術(shù)將挖掘信息和知識(shí)發(fā)現(xiàn)作為目標(biāo),將網(wǎng)頁(yè)原始內(nèi)容提取的信息或特征屬性數(shù)據(jù)通過(guò)一維信息、多維信息、時(shí)序信息、空間信息等方式進(jìn)行可視化展示[16-17]。
互聯(lián)網(wǎng)信息歸檔的網(wǎng)頁(yè)包含的文本內(nèi)容進(jìn)行的文本挖掘技術(shù),可用于分析當(dāng)前新聞熱點(diǎn),常采用的可視化方式主要有文本可視化、圖像可視化和圖(網(wǎng)絡(luò))可視化。
英國(guó)網(wǎng)絡(luò)檔案館采用N-Gram搜索對(duì)互聯(lián)網(wǎng)歸檔資源文本進(jìn)行可視化分析,發(fā)現(xiàn)其網(wǎng)絡(luò)存檔中隨時(shí)間推移,用戶(hù)每月定義的搜索詞或短語(yǔ)的變化情況。荷蘭阿姆斯特丹大學(xué)的WebART團(tuán)隊(duì)[18]基于荷蘭國(guó)家圖書(shū)館網(wǎng)絡(luò)存檔收集的Nu.nl每日快照數(shù)據(jù)進(jìn)行分析,通過(guò)ANTA對(duì)搜索結(jié)果進(jìn)行共詞分析,再利用GEPHI修正圖中的時(shí)間戳,顯示與主要新聞事件相關(guān)的詞頻可視化和隨時(shí)間推移的術(shù)語(yǔ)同時(shí)發(fā)生的分析,如圖3所示。

圖3 基于時(shí)間的共詞分析[19]
基于圖像的可視化方式來(lái)使用互聯(lián)網(wǎng)信息歸檔資源,探索和敘述事件歷史記錄。Chorit和Rasmussen在對(duì)1999年美國(guó)歷史系師生做的基于美國(guó)國(guó)會(huì)圖書(shū)館歷史圖片庫(kù)的實(shí)驗(yàn)中發(fā)現(xiàn),用戶(hù)對(duì)時(shí)事性感知在整個(gè)檢索過(guò)程中起到重要作用[20]。荷蘭阿姆斯特丹大學(xué)基于互聯(lián)網(wǎng)信息歸檔資料,從包含圖像的文件夾進(jìn)行特征數(shù)據(jù)提取,并作為單獨(dú)的圖像返回到每一個(gè)URL的文件夾。通過(guò)WebARTist進(jìn)行關(guān)鍵字查找,結(jié)果調(diào)用JavaScript可視化工具,自動(dòng)在交互式時(shí)間軸上搜索相應(yīng)的結(jié)果,如圖4所示:

圖4 基于時(shí)間的圖像分析
圖4是互聯(lián)網(wǎng)歸檔資料中對(duì)穆罕默德·胡斯尼·穆巴拉克所有的新聞專(zhuān)題、事件進(jìn)行圖像語(yǔ)義標(biāo)注及圖像檢索的系統(tǒng)。圖4右側(cè)圖像下方顯示的內(nèi)容是以時(shí)間軸的方式列舉出每次事件相關(guān)的單獨(dú)圖像或圖像集,使用者可通過(guò)時(shí)間軸交互的方式去查找某一事件的相關(guān)圖像。
在網(wǎng)絡(luò)理論中,鏈接分析是用于評(píng)估節(jié)點(diǎn)之間的關(guān)系(連接)的數(shù)據(jù)分析技術(shù)[21]。互聯(lián)網(wǎng)中,不同的網(wǎng)站和網(wǎng)頁(yè)通過(guò)鏈接而建立起相互之間的連接,它不僅可以將不同社交媒體的用戶(hù)連接起來(lái),還可以讓不同公司、組織、政府機(jī)構(gòu)建立起連接。鏈接分析不僅可以揭示某一熱點(diǎn)討論的核心,分析哪些用戶(hù)扮演了重要角色,也可以分析在線(xiàn)組和內(nèi)聚區(qū)域之間的分?jǐn)?shù),實(shí)體的大小和實(shí)體之間的關(guān)系。
隨著大型網(wǎng)站被捕獲,它們之間的鏈接和連接也被捕獲。這些網(wǎng)絡(luò)鏈接的網(wǎng)站和數(shù)據(jù)可以被挖掘以觀察個(gè)人、組織及其他事物隨時(shí)間的關(guān)系變化。正如在實(shí)時(shí)網(wǎng)絡(luò)上的網(wǎng)站和社交網(wǎng)絡(luò)上進(jìn)行的這種分析一樣,它可以與互聯(lián)網(wǎng)歸檔數(shù)據(jù)集一起使用,以查看隨時(shí)間或過(guò)去點(diǎn)的變化。互聯(lián)網(wǎng)信息歸檔研究允許多維度數(shù)據(jù)基于時(shí)間進(jìn)行分析[22]。
對(duì)于給定的域,可以使用鏈接分析來(lái)了解在線(xiàn)機(jī)構(gòu)的結(jié)構(gòu),它們之間的關(guān)系以及它們與外界的交互以及它們對(duì)用戶(hù)的導(dǎo)航性。對(duì)于英國(guó)政府二級(jí)域名(包括以.gov.uk結(jié)尾的所有網(wǎng)站),鏈接分析可用于分析政府部門(mén)和機(jī)構(gòu)之間的變化結(jié)構(gòu)和關(guān)系;他們?cè)谏鐣?huì)和信息網(wǎng)絡(luò)中的地位,公民與政府互動(dòng)的水平和層次。英國(guó)網(wǎng)絡(luò)檔案館的互聯(lián)網(wǎng)信息歸檔,鏈接分析的可視化研究主要基于JISC UK Web域數(shù)據(jù)集(1996—2010),分析HTML頁(yè)面并從每個(gè)鏈接中提取“href”屬性,再將這些公共后綴聚合(如所有“* .ac.uk”被計(jì)算為“ac.uk”,所有“* .com”為“com”等),使用d3.js可視化引擎相結(jié)合,生成可視化的和弦圖,用于趨勢(shì)分析。圖5所采用的數(shù)據(jù)集為原始數(shù)據(jù)集的六分之一所計(jì)算出的結(jié)果:

圖5 英國(guó)國(guó)家圖書(shū)館基于域名后綴的鏈接分析
互聯(lián)網(wǎng)上的數(shù)據(jù)資源與其他數(shù)字資源的區(qū)別是種類(lèi)繁雜,每年都會(huì)有新的技術(shù)產(chǎn)生并應(yīng)用其中(如新的編程語(yǔ)言、新的數(shù)據(jù)格式等),同時(shí)也會(huì)有一些舊的數(shù)據(jù)文件被新技術(shù)文件所取代。網(wǎng)絡(luò)爬蟲(chóng)獲取的數(shù)據(jù)資源所包含的內(nèi)容隨著時(shí)間的變化,其文件格式、編程語(yǔ)言、標(biāo)記和其他屬性都會(huì)產(chǎn)生變化。對(duì)這些與網(wǎng)絡(luò)存檔相關(guān)的內(nèi)外環(huán)境數(shù)據(jù)進(jìn)行統(tǒng)計(jì),分析其變化趨勢(shì),有利于采集策略的調(diào)整及數(shù)字資源長(zhǎng)期保護(hù)存儲(chǔ)方案的制定。
在互聯(lián)網(wǎng)信息歸檔研究領(lǐng)域中,數(shù)字格式風(fēng)險(xiǎn)評(píng)估是數(shù)字資源長(zhǎng)期保存風(fēng)險(xiǎn)評(píng)估的組成部分之一,對(duì)其進(jìn)行檢測(cè)將影響數(shù)字內(nèi)容對(duì)象的可訪(fǎng)問(wèn)性和長(zhǎng)期保存的技術(shù)環(huán)境和文件格式的更改時(shí)間和可能性[23]。丹麥國(guó)家圖書(shū)館通過(guò)網(wǎng)絡(luò)爬取過(guò)程中所產(chǎn)生的crawl.log文件對(duì)采集存檔的.dk域名下的數(shù)據(jù)進(jìn)行分析,得到各種文本、音頻、視頻及其他文件在2005—2016年存檔文件所占的比例[24]。英國(guó)網(wǎng)絡(luò)檔案館對(duì)互聯(lián)網(wǎng)歸檔的JISC UK Web域數(shù)據(jù)集(1996—2010)進(jìn)行分析,對(duì)所有HTTP 200響應(yīng)中的數(shù)據(jù)格式(MIME類(lèi)型)進(jìn)行分類(lèi)和統(tǒng)計(jì)。使用格式數(shù)據(jù)集生成的示例可視化,顯示流行圖像格式和HTML隨時(shí)間推移的趨勢(shì)。捕獲網(wǎng)站的分析可使這些數(shù)據(jù)集顯示各種網(wǎng)絡(luò)格式的上升和下降。
圖6是英國(guó)網(wǎng)絡(luò)檔案館對(duì)1996—2010年所采集的互聯(lián)網(wǎng)信息歸檔資源中的圖像數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。研究表明JPEG的使用多年一直保持穩(wěn)定,TIFF、GIF和XBM圖像則變得更少,XBM格式的使用下降特別突出。該圖表也顯示了PNG格式與通常用于創(chuàng)建的ICON格式的顯著上升。

圖6 采集的圖像格式統(tǒng)計(jì)分析
圖7是基于已收集存檔資源的HTML版本格式進(jìn)行的評(píng)估。圖中縱向上的數(shù)據(jù)是不同版本的HTML資源占當(dāng)年所有HTML資源總量的比例。隨著時(shí)間的推移,互聯(lián)網(wǎng)采集獲取到更多的版本。圖7表明HTML 2.0-4.01和XHTML 1.0-1.1都存在于2010年爬網(wǎng)數(shù)據(jù)中。

圖7 HTML版本使用時(shí)間[25]
從英國(guó)網(wǎng)絡(luò)檔案館對(duì)JISC UK Web域數(shù)據(jù)集中1996—2010年圖像格式和HTML版本的評(píng)估來(lái)看,格式范圍可能不像以前所想的那樣嚴(yán)重,文本和圖像的網(wǎng)絡(luò)格式可能不會(huì)像以前所擔(dān)心的那樣很快過(guò)時(shí)(Jackson,2012)。
地理空間數(shù)據(jù)的可視化主要是指與地理位置相關(guān)的數(shù)據(jù)與地理可視化相關(guān)技術(shù)及應(yīng)用軟件相結(jié)合,對(duì)與之相關(guān)的對(duì)象屬性建立可視化表征,對(duì)與時(shí)間和空間密切相關(guān)的模式及規(guī)律進(jìn)行展示。
互聯(lián)網(wǎng)歸檔資源中有部分?jǐn)?shù)據(jù)與地理數(shù)據(jù)相關(guān),如網(wǎng)站中使用的地理術(shù)語(yǔ)、采集網(wǎng)頁(yè)內(nèi)容包含的地理位置 /坐標(biāo),郵編等。這些數(shù)據(jù)經(jīng)提取、變換、加載至地理信息系統(tǒng)相關(guān)的軟件(如ArcGis、MapInfo、Suffer等)相結(jié)合,顯示為可視化的二維或三維圖像為管理者和研究人員提供相關(guān)的決策分析輔助。英國(guó)網(wǎng)絡(luò)檔案館[26]的GeoIndex對(duì)1996—2010年間的“.uk”結(jié)尾域的數(shù)據(jù)集中,掃描約25億響應(yīng)數(shù)據(jù)的地理參考值,特別是郵政編碼。在爬行過(guò)的特定URL中發(fā)現(xiàn)的這組郵政編碼引用形成了英國(guó)網(wǎng)絡(luò)歷史地理位置,其數(shù)據(jù)結(jié)構(gòu)為每個(gè)單獨(dú)爬行捕獲給定歸檔網(wǎng)頁(yè)上的給定郵政編碼的權(quán)限,就是像在特定時(shí)間訪(fǎng)問(wèn)網(wǎng)絡(luò)爬蟲(chóng)一樣。郵政編碼、URL和時(shí)間戳的每個(gè)組合只會(huì)出現(xiàn)一次,無(wú)論特定郵政編碼在給定的頁(yè)面中出現(xiàn)多少次。
4.5.1 可視化分析技術(shù)特點(diǎn)分析
從認(rèn)知模式上看,可視化分析技術(shù)在數(shù)據(jù)顯示方面不再依賴(lài)于簡(jiǎn)單的圖像顯示模式,而是基于認(rèn)知心理學(xué)、社會(huì)心理學(xué)及計(jì)算機(jī)用戶(hù)滿(mǎn)意度等人為因素,圖形、圖像顯示上則更注重顯示方式變化、空間排列位置不同、多視圖顯示等來(lái)突出事物的特征。在內(nèi)容可視化實(shí)例中,以網(wǎng)絡(luò)可視化分析方式運(yùn)用,顯示時(shí)間與新聞詞頻的共詞分析結(jié)果,以人們更易理解的方法,來(lái)洞察事物的發(fā)展變化規(guī)律。
從交互模式上看,可視化分析技術(shù)較靜態(tài)可視化分析來(lái)說(shuō),更善于接受用戶(hù)的意圖和需求,增加現(xiàn)實(shí)感及知識(shí)的驅(qū)動(dòng)。交互技術(shù)在可視分析中的運(yùn)用方式有動(dòng)態(tài)改變聚集點(diǎn)、標(biāo)記感興趣的區(qū)域、動(dòng)態(tài)過(guò)濾等,使用者可以從不同的角度和方式觀察數(shù)據(jù),更好地解讀和剖析事物。在基于圖像的可視化實(shí)例中,對(duì)時(shí)間軸和相關(guān)的圖片/文件夾進(jìn)行簡(jiǎn)單操作,可以更好地捕捉到自己想要的顯示/隱藏信息內(nèi)容。
4.5.2 可視化分析技術(shù)范圍分析
首先,在對(duì)事物/對(duì)象自身全部或某一特征進(jìn)行分析時(shí)可選用文本可視化或圖像可視化。網(wǎng)絡(luò)存檔資源的主題熱度、基于時(shí)間序列的主題跟蹤、事物的發(fā)展趨勢(shì)預(yù)測(cè)等方面則側(cè)重于對(duì)事物/對(duì)象自身所隱含的語(yǔ)義特征展示。其次,在對(duì)事物/對(duì)象之間的關(guān)聯(lián)進(jìn)行分析時(shí)適合選用網(wǎng)絡(luò)可視化分析技術(shù)。在網(wǎng)絡(luò)存檔資源的應(yīng)用服務(wù)和長(zhǎng)期保存管理過(guò)程中,事物/對(duì)象的分析需要多維度展開(kāi)。常用在社會(huì)科學(xué)研究領(lǐng)域的共詞分析、社會(huì)網(wǎng)絡(luò)化分析是網(wǎng)絡(luò)可視化技術(shù)應(yīng)用的實(shí)例。最后,分析事物分布特征則可選擇空間數(shù)據(jù)可視化。網(wǎng)絡(luò)存檔資源長(zhǎng)期保存管理和提供應(yīng)用服務(wù),數(shù)據(jù)存儲(chǔ)并不是僅存在一個(gè)地點(diǎn)或數(shù)據(jù)服務(wù)僅由一家機(jī)構(gòu)提供。數(shù)據(jù)管理的分析采用空間數(shù)據(jù)可視化分析方法來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)存檔資源長(zhǎng)期保存及數(shù)據(jù)共享的應(yīng)用服務(wù)。
互聯(lián)網(wǎng)歸檔的資源相關(guān)研究?jī)H20余年,對(duì)其進(jìn)行可視化分析也是近幾年才展開(kāi),很多方面有進(jìn)一步提升的空間。它對(duì)我國(guó)的互聯(lián)網(wǎng)信息長(zhǎng)期保存可視化分析應(yīng)用仍有一定的借鑒和指導(dǎo)作用,具體表現(xiàn)在:
(1)在應(yīng)用服務(wù)方面。借鑒互聯(lián)網(wǎng)信息歸檔資源正文內(nèi)容的文本、圖像及圖譜可視化應(yīng)用的成功經(jīng)驗(yàn),可視化技術(shù)在應(yīng)用服務(wù)方面,可以從兩方面展開(kāi):一方面是側(cè)重于信息粒度的細(xì)化。例如,訪(fǎng)問(wèn)者在對(duì)網(wǎng)絡(luò)存檔專(zhuān)題“一帶一路”進(jìn)行訪(fǎng)問(wèn)時(shí),對(duì)此專(zhuān)題歸檔的數(shù)據(jù)進(jìn)行可視化分析后,以更符合人認(rèn)知的方式——云標(biāo)簽?zāi)J斤@示在指定終端。云標(biāo)簽對(duì)專(zhuān)題聚集的熱點(diǎn)詞集使用不同的字體、字號(hào)、顏色、排列次序,增強(qiáng)使用者的視覺(jué)感觀。訪(fǎng)問(wèn)者可以從指定專(zhuān)題中選取中一個(gè)或多個(gè)熱點(diǎn)詞來(lái)進(jìn)一步縮小信息檢索范圍,快速地獲取所需信息。另一方面是基于時(shí)間軸的存檔資源可視化服務(wù)模式。高頻率的連續(xù)采集專(zhuān)題的互聯(lián)網(wǎng)信息歸檔資源(如全國(guó)人民代表大會(huì)),提供基于時(shí)序分析的可視化分析。使用者操作時(shí)間軸快速地了解會(huì)議的全程或獲取各時(shí)間節(jié)點(diǎn)的聚集熱點(diǎn),也可對(duì)所關(guān)注問(wèn)題的交互區(qū)熱點(diǎn)進(jìn)行操作來(lái)獲取相應(yīng)的具體存檔內(nèi)容。
(2)在互聯(lián)網(wǎng)信息長(zhǎng)期保存管理方面。互聯(lián)網(wǎng)信息歸檔生命周期由評(píng)估與選擇、數(shù)據(jù)采集、存儲(chǔ)與組織、質(zhì)量保證與分析等若干模塊組成,且各部分之間都存在一定的關(guān)聯(lián)。這其中的很多模塊都需要對(duì)數(shù)據(jù)進(jìn)行分析處理,如互聯(lián)網(wǎng)信息長(zhǎng)期保存環(huán)境檢測(cè)、數(shù)據(jù)的完整性與可信性評(píng)估、采集專(zhuān)題的確定、網(wǎng)站選擇等。互聯(lián)網(wǎng)信息長(zhǎng)期保存的原始元數(shù)據(jù)借助于可視化分析技術(shù)中的分析推理、人機(jī)交互分析及隱含關(guān)系展示等,給管理者提供更高效、直觀的輔助決策信息。
數(shù)據(jù)創(chuàng)造的真正價(jià)值在于洞察隱藏在數(shù)據(jù)中的深層次價(jià)值,并提供一種稀缺的附加服務(wù)。互聯(lián)網(wǎng)信息長(zhǎng)期保存的可視化分析是對(duì)整個(gè)互聯(lián)網(wǎng)信息保存生命周期的全部數(shù)據(jù)進(jìn)行全面、深入分析,既要從歸檔正文內(nèi)容及相關(guān)元數(shù)據(jù)進(jìn)行挖掘以提供更好的數(shù)據(jù)索引、提取、推導(dǎo)服務(wù),也要從數(shù)字資源長(zhǎng)期保存管理角度提供高效的評(píng)估、審計(jì)控制等方面的輔助分析服務(wù)。目前,互聯(lián)網(wǎng)信息保存的可視化分析研究仍處于起步階段,在多維數(shù)據(jù)關(guān)聯(lián)可視化分析、Post-WIMP交互技術(shù)應(yīng)用等方面的研究仍有待提高。
(來(lái)稿時(shí)間:2017年8月)
參考文獻(xiàn):
1.Jefferson Bailey.Who,what,when,where,why,WARC: new tools at the Internet Archive[C/OL].Web Arching Week in London 2017.[2017-08-25].http://netpreserve.org/wac2017/ abstracts/#_abstract60.
2.Few,StephenS.Few.Eenie, meenie, minie, Moe: selecting the right graph for your message[J/OL].Intelligent Enterprise,2004,7:35-42.[2017-08-25].https://www.perceptualedge.com/articles/ie/the_right_graph.pdf.
3.Card SK,Mackinlay JD, Shneiderman B.Readings in Information Visualization : Using Vision To think[J] .San Francisco:Morgan Kaufmann Publishers,1999,1-712.
4.Prirolli P,Card SK.The sensemaking Process and leverage points for analyst technology as identified though cognitive task analysis[C] .In: Maybury M,ed.Proc .of the Int’1 Conf.on Intelligence Analysis .MacLean:MITRE,2005,1-6.
5.James J.Thomas and Kristin A.Cook .Illuminating the Path:The R&D Agenda for Visual Analytics, National Visualization and Analytics Center[M].National Visualization and Analytics Center,2005.
6.Jurik, B.,Zierau, E..‘Data management of web archive research data’, Researchers[C/OL].[2017-08-25].practitioners and their use of the archived web (London, 2017).DOI: 10.14296/resaw.0002.
7.杰弗里·波梅蘭茨.元數(shù)據(jù):用數(shù)據(jù)的數(shù)據(jù)管理你的世界[M].中信出版集團(tuán),2017.
8.魏大威,張煒.國(guó)家數(shù)字圖書(shū)館網(wǎng)絡(luò)資源保存和服務(wù)思考[J].圖書(shū)館理論與實(shí)踐,2016(9):38-46.
9.Julien Masanés .Web Archiving[M/OL].[2017-08-25].https://link.springer.com/book/10.1007/978-3-540-46332-0.
10.文化部.WH/Z 1-2012圖書(shū)館數(shù)字資源長(zhǎng)期保存元數(shù)據(jù)規(guī)范[M].北京:國(guó)家圖書(shū)館出版社,2016.
11.國(guó)家圖書(shū)館.國(guó)家圖書(shū)館數(shù)字資源對(duì)象管理規(guī)范[M].北京:國(guó)家圖書(shū)館出版社,2013.
12.Heritrix[EB/OL].[2017-08-25].https://fliaping.gitbooks.io/create-your-vertical-search-engine-with-solr/content/crawl-webpage-by-using-heritrix.html.
13.WARC[EB/OL].[2017-08-25].https://www.iso.org/standard/44717.html.
14.WARC[EB/OL].[2017-08-25].https://iipc.github.io/warcspecifications/specifications/warcformat/warc-1.0/.
15.WARC[EB/OL].[2017-08-25].http://commoncrawl.org/2014/04/navigating-the-warc-file-format/.
16.任磊,杜一,馬帥,等.大數(shù)據(jù)可視化分析綜述[J].軟件學(xué)報(bào),2014, 25(9):1909-1936.
17.Rita Rana Chhikara, Prabha Sharma.A hybrid feature selection approach based on improved PSO and filter approaches for image steganalysis[J].International Journal of Machine Learning and Cybernetics, 2016, 12(7):1195-1206.
18.SearchingTheArchive [EB/OL].[2017-08-25].https://wiki.digitalmethods.net/Dmi/Winter13-SearchingTheArchive.
19.https://wiki.digitalmethods.net/Dmi/Winter13Searching TheArchive.
20.Choi Y,Rasmussen E M.Users’ relevance criteria in image retrieval in.American history[J].Information Processing & Manageent,2002, 38(5):695-726.
21.Link_analysis[EB/OL].[2017-08-25].https://en.wikipedia.org/wiki/Link_analysis.
22.Big Data: Demonstrating the Value of the UK Web Domain Dataset for Social Science Research[EB/OL].[2017-08-25].https://www.oii.ox.ac.uk/research/projects/uk-web-domain-dataset-forsocial-science-research.
23.OCLC Digital Archive Preservation Policy and Supporting Documentation [EB/OL].[2017-08-25].http://web.archive.org/web/20120307173539/http:/www.oclc.org/support/documentation/digitalarchive/preservationpolicy.pdf.
24.Bolette Jurik, Eld Zierau.Data Management of Web Archive Research Data[EB/OL].[2017-08-25].https://archivedweb.blogs.sas.ac.uk/files/2017/06/RESAW2017-JurikZierau-Data_management_of_web_archive_research_data.pdf.
25.Format Profile[EB/OL].[2017-08-25].http://www.webarchive.org.uk/ukwa/visualisation/ukwa.ds.2/fmt.
26.GeoIndex[EB/OL].[2017-08-25].http://www.webarchive.org.uk/ukwa/visualisation/ukwa.ds.2/geo.