摘 要:探討幾種不同網絡信息資源的組織方法和方式,并對網絡信息資源組織的發展趨勢提出一些看法。
關鍵詞:網絡信息資源;組織方法;方式
中圖分類號:G20 文獻標志碼:A 文章編號:1673-291X(2013)30-0280-03
網絡信息資源就是依據互聯網傳播,它是由信息存儲技術、數據庫技術、網絡通信技術與超文本、超媒體技術所支撐的信息資源。網絡信息資源組織就是通過一定的技術和手段,對網絡上產生和傳播的信息資源進行搜集、整理,使之從無序到有序,便于用戶訪問和使用的過程。隨著計算機技術的發展與完善,網絡上的信息量成幾何倍數在增加。我們知道網絡上信息傳播的速度和產生的速度已經達到令人驚詫的地步,知道互聯網和正在利用互聯網的人都在成倍數地增加,但是隨之而來的不足和缺點也越來越突出,就是由于局部的有序性和整體的無序性、缺乏統一的標準和版權等問題,許多信息用戶需要信息,但是他們卻不知道怎么在網絡上準確地查找到自己所需要的信息,或者不能夠找全自己所需要的全部信息。因此對網絡信息資源的組織也越來越重要,如何改進網絡信息資源的組織方式,提高信息的可利用率已經迫在眉睫了。
一、網絡信息資源的組織方法
(一)分類組織法
分類組織法主要是從宏觀的角度上揭示信息的內涵,方便用戶的查詢和使用,其優勢是首先可以限定檢索范圍,提高檢準率。其次其等級結構可以提供檢索詞的上下文,可以方便分類瀏覽。另外多媒體信息在網絡信息資源中的比例越來越大,其內容特征難以用文字表達,分類組織法的聚類功能及號碼標識為之提供了一條解決途徑。但是由于網絡信息資源的新特點,分類法也在進一步的調整,增加新的類目,修訂類名,增加新的術語作為索引詞,控制類目的深度等。傳統文獻分類法如DDC、LCC、UDC,在網絡信息資源組織中被直接采用。自編分類系統也相繼出現,其類型主要有以下三種:一是等級式主題分類系統,如雅虎中國就是采用該方法建立其檢索系統;二是分面組配分類系統,如中文搜索引擎“中華網目”;三是學科分類系統,如“網絡指南針”等。
(二)主題分類法
主題標引是網絡信息資源組織的另一種主要模式。它是一種利用自然語言或規范語言對信息內容進行標引的方法。主題法組織網絡信息資源一般分為以下幾種類型[1]:(1)使用關鍵詞法組織網絡信息,關鍵詞法就是將信息原來所用的、能描述其主題概念的那些具有關鍵性的詞抽出來,不加規范或只作極少的規范化處理,按字順排列,以提供檢索途徑的方法。作為一種自然語言,關鍵詞能夠直觀揭示信息中所包含的知識,并且不必查表選詞,不必依賴專業標引人員,因而在網絡信息組織中得到了廣泛的應用,各種搜索引擎和數據庫大多采用了此種方法;(2)使用敘詞法組織網絡信息。其主要是采用受控語言作為標識,來表達信息所論及的事物的主題,并將全部標識按字順排列,且都有完善的參照系統來顯示主題概念間的關系。但是由于其需要專業的人員進行編排,往往有些滯后,成本也高;(3)使用關鍵詞法與敘詞法相結合組織網絡信息。這種方法可以綜合利用兩者的優點,準確地對信息資源進行描述和組織。
(三)元數據組織
元數據的一般定義是“關于數據的數據”(dataabout data)。元數據包括著錄項目和著錄格式兩個方面。網絡信息資源的元數據著錄項目已提出的有Dublin Core,VRA Core Categoriesfor Visual Resource,CDWA等。著錄格式有HTML和XML兩種[2]。元數據可以描述信息資源的特征,進而對網絡信息資源進行定位,有利于網絡信息資源的獲取。根據元數據所提供的描述信息,參照相應的評估標準,結合使用環境,用戶便能夠做出對信息對象取舍的決定,選擇適合用戶使用的資源。
(四)基于語義的網絡信息組織
XML是由W3C于1998年2月發布的一種描述任意文本結構的標準。XML的目的是標示網絡數據以供機器辨識跟處理,并且去除了多余的煩瑣的代碼。 XML的新特點是將數據的內容與顯示格式分開,程序的開發者可以根據自己的需要創建屬于自己的標記,對信息進行確切描述,并使用文檔類型定義(Document Type Definition,DTD)或XMLSchema來約束這些標簽的結構。
其利用RDF實現信息之間的語義關聯,RDF是一種描述和使用數據的方法,它提出了一個簡單的數據模型,通過屬性(Property)和值(Value)來描述資源以及資源與資源之間的關系。RDF的實質是一種二元表達關系,因為任何復雜的關系都可以轉換成多個簡單的二元關系來表示,所以RDF可以用簡單的二元關系模型來表達復雜的關系模型。同時,RDF還提供了一種基于XML語法的RDF圖[3]。如某單位A是資源A的創建者,具體表示(見下圖):
二、網絡信息資源的組織方式
(一)文件方式
以文件方式組織網絡信息資源簡單方便,由于計算機所處理的最終結果都是以文件方式保留在磁盤里,所以它可以存儲圖形、圖像、圖表、音頻、視頻等非結構化信息,可以方便地利用文件系統來管理。技術簡單,非常容易實現,但是由于網絡的普及和信息量的增多,信息結構較為復雜,這種方式難以實現有效控制和管理。
(二)數據庫方式
該方式指將所有獲得的信息資源按照固定的記錄格式存儲,用戶通過關鍵字查詢,就可以找到所需信息線索,然后就可以鏈接相關的數據庫,查獲相關的信息資源。利用數據庫技術對網絡信息資源進行管理有很大的優勢:首先,數據庫技術利用嚴謹的數據模型對信息進行規范化處理,利用關系代數理論進行信息查詢的優化,提高了效率。其次,數據的最小存取單位是字段,可根據用戶需求靈活地改變查詢結果集的大小,從而大大降低了網絡數據傳輸的負載[4]。數據庫組織方法是目前網絡信息資源組織的普遍使用方法,特別是在數據量比較大的時候。
(三)搜索引擎方式
搜索引擎是一種以查詢為目的的網絡信息資源組織方式,它通過網絡蜘蛛等爬行程序,將網絡上的信息資源或者是與某一個課題相關的站點收錄到自己的數據庫中,抽取關鍵詞并進行索引,并提供檢索入口,將用戶輸入的詞語與數據庫中的信息資源相匹配,按照相關性高低將檢索結果輸出,呈現給用戶的一種程序。其特點是使用方便,操作簡單,缺點是缺乏統一的規范,有時檢索的結果不能滿足用戶的需求。
(四)主題指南方式
主題指南方式綜合使用主題組織法與分類組織法,利用網絡的超鏈接技術將眾多的網絡信息資源以節點為基本單位組成檢索體系,其類目用主題詞標識,Yahoo就是一種代表性的主題指南。用戶檢索時從較大的類目開始,通過超鏈的指引,逐層點擊瀏覽,直到所需信息。該方式的優點是具有嚴密的系統性和良好的包容性和可擴充性,能較好地滿足用戶的族性檢索要求,檢準率高,特別適合建立專業性或專題性的網絡信息體系[5]。缺點是很難確定一個全面的范疇體系作基礎,來涵蓋所有的網絡信息資源。另外用戶為了快速地查到自己所需的信息,還需要對相應的體系結構有一定的了解。
(五)超媒體組織方式
它是指以超文本與多媒體技術相結合而組織利用網上信息資源的方式,它是將文字、表格、聲音、圖像、視頻等多媒體信息以超文本方式組織起來,使人們可以通過高度鏈接的網絡結構在各種信息庫中自由航行,檢索到所需要的信息[6]。這種方式可組織各類媒體的信息,方便地描述和建立各媒體信息之間的語義聯系,并且其節點中的內容可多可少,結構可以任意伸縮,具有良好的包容性和可擴充性。由于超媒體的諸多優點,使它成為了Internet上占主流地位的信息資源組織與檢索的方式。
三、網絡信息資源組織的發展趨勢
(一)實現信息資源組織標準化和規范化
由于網絡信息資源的多樣性和存讀的開放性,使得信息資源組織標準化和規范化有很大的難度。標準化主要包括編制和使用標準化的網絡分類表,制定和執行標準化的標引規則,從而使不同的標引機構對網絡信息的揭示和表達趨于一致[7]。目前,國際和國內已先后頒布了多種相關標準,如《分類表編制指南:方法示例》(ISOlR919)、《多語種分類表的版面設計》(ISO/R.1149)、《文獻工作—文獻審讀、主題分析與選定標引詞的方法》(IS05693)等。
(二)探索發展新的技術
隨著計算機技術的飛速發展,一些新的發明也給了網絡信息資源組織以強有力的技術支持,但是都還不是很成熟,都需要進一步的開發和研究。(1)數據挖掘技術。它使用復雜的統計分析和模型技術從大量的數據或信息中抽取或識別出用戶需要的深層次信息。它既能挖掘數據又可挖掘文本。(2)自動標引技術。隨著信息時代的到來,網絡信息資源急劇增加,利用人工對海量數據進行標引已經成為不可能,因此自動標引技術的實現尤為重要。計算機對網絡信息資源進行自動標引時,或應用網絡搜索軟件如Web spider(蜘蛛)、crawler(爬蟲)等來實現自動標引,或應用人機結合標引的方式進行標引。(3)信息推送技術。信息推送是網絡公司通過一定的技術標準或協議,從網上的信息源或信息制作商獲取信息,通過學習固定的頻道向用戶發送信息的新型的信息傳播系統。它能深刻地改變互聯網絡的傳播方式,并對信息采集、加工、利用和控制產生重大影響。(4)基于內容的多媒體檢索技術。基于內容的多媒體檢索技術是利用圖像/視頻內容的特征進行特征檢索。除了根據內容的特征來進行特征檢索的同時還提供了許多其他檢索手段,如可通過提供樣本圖像進行相似性檢索,通過人機交互進行瀏覽檢索等,這種技術融合了圖像理解技術,拓寬了檢索的途徑,具有一定的人工智能技術。
(三)分類、主題一體化
分類法的族性檢索與主題法的特性檢索都是在檢索體系中所不可少的,它們各有自己的優點與不足。在網絡信息資源的組織中應該將二者組織在一起使用,Yahoo等搜索引擎均較好地將分類與主題檢索系統綜合在一起。分類、主題一體化是對分類法和敘詞表的術語、標識、參照、索引等實施統一的控制,使二者有機地融為一體。敘詞表采用完整的參照系統、編制范疇表和詞族表,兩者有機地結合,可以相互補充。走分類主題一體化道路,克服分類檢索語言單純以學科聚類,主題語言單純以事物聚類的局限性。如可以在搜索引擎輸出關鍵詞檢索結果的同時,列出相應的分類途徑和相似上位類的站點或者資源,也可以選擇在搜索結果中二次檢索,這種方法既可以用關鍵詞進行檢索,也保留了分類法的等級分類體系,較好地克服了了分類檢索與主題檢索各自的缺點。
(四)自然語言與人工語言結合
網絡檢索工具都采用自然語言標引和檢索,這樣的結果是詞間的相互關系得不到揭示,同義詞和近義詞得不到控制,后控詞表可以很好地解決這樣的問題,它既有規范語言的特點,也十分地接近自然語言。網絡信息的特點和網絡用戶的多樣性,決定了自然語言更適合計算機網絡檢索。為此改進的措施是自然語言和受控制語言一體化。自然語言以其成本低、方便用戶利用、處理時差短、檢索效率高等優勢已將成為檢索的主流。然而人工語言的優點也是自然語言所無法比擬的,促進自然語言與人工語言互相取長補短、共同發展應成為檢索語言的研究發展方向。
參考文獻:
[1] 畢靜.略論網絡信息資源的組織[J].晉圖學刊,2006,(2):5-7.
[2] 臧國全,柯平,郭少友.虛擬圖書館中元數據研究[J].圖書館,2001,(1):23-25.
[3] 劉瑛,黃奇.基于語義的網絡信息資源組織[J].信息系統,2006,(1):112-114.
[4] 施雁冰.網絡信息資源的組織[J].科技情報開發與經濟,2007,(17):82-83.
[5] 鄧惠心,陳書華.論網絡信息資源組織[J].圖書館,2007,(5):78-80.
[6] 徐險峰.網絡信息資源組織的方式與方法[J].圖書館學刊,2006,(4):100-102.
[7] 馬宏惠,路一.論網絡信息資源的組織[J].情報探索,2007,(8):54-56.
Organization Methods in Network Information Resources
WANG Miao
(Nanyang Library,Nanyang 473000,China)
Abstract:This paper investigates the methods of network information organization in some different ways.In the last,it introduces the development trends of etwork information resource organization.
Key words:network information resource;organization method;ways