趙 峰
中國人民銀行棗莊市中心支行
Web 數據的有效管理是近年來Internet 領域內專家研究的熱點,隨著網絡使用量的增長、內容復雜度的增大、數據系統自身及應用方面的變化,造成數據庫的管理面臨著嚴峻挑戰。而Web 數據管理主要以方便用戶查詢各種信息為目的,在Web 環境中將各種復雜數據進行有條理的整理與集成。本文將根據所讀文獻對領域內關于Web數據管理的研究現狀及所面臨的問題進行總結與探討。
隨著網絡系統的發展,電腦硬件的配置也在提升,使用網絡的用戶也在逐日增多。網絡數據量增長的速度也在逐漸增大,數據的復雜度也越來越高,Web 是眾多用戶數據共享的關鍵平臺,在人們生活中扮演的角色也逐日重要。用戶使用互聯網的主要目的就是從網上得到自己想要的信息,或者是下載一些娛樂信息,但是由于數據量的龐大,用戶在選擇時根本無從下手,反而給用戶帶來困擾。這就需要管理者對Web 數據進行梳理、分類并組織,以方便用戶使用。
目前網絡數據管理方式正趨向開放性發展,用戶對數據的要求也是各有不同,這都要求Web 數據不論是從數據獲取方面、還是數據管理方式上都要滿足用戶的查詢和使用需求。網絡數據的復雜性、用戶要求的提高等,都使得數據的管理相對于過去要更為優化,對管理者提出了更高的專業要求。
Web 數據管理就是要解決用戶查詢數據時的困難,讓用戶需要時能以最短的時間在龐大的數據庫中找到自己所需要的信息,而且數據庫中的數據不僅要內容豐富,而且還要求用戶查詢到的信息具有一定的準確度。目前用戶在查詢信息時常用的搜索方式主要有:一,Web 搜索引擎,這種數據獲取手段是用戶常用的方式,但是系統在建立時對設計者的要求較高,因為這種引擎方式具有較高的復雜度,投入應用后管理投入較高;二,Deep Web,用戶在使用這種數據獲取方式時獲取的信息具有很高的質量,但是獲取的數據有很大的離散性,不利于用戶對信息的運用;三,元搜索,它是建立在前兩種搜索方式之上的,它具備了前兩者的優點,同時又對其缺點進行了彌補,即不但使用方便,而且獲取數據的精確度比較高,可以說是目前獲取Web 數據的最好方式。
Web 網絡的形成,最大限度的滿足了用戶對各種信息的需要,當然這都離不開高效的數據管理方式,這也是業內人士一直研究的主要領域。而現在正在使用的管理方式主要由三種,即HTML,數據庫以及XML。其中HTML會在數據進行交換的時候比較常用,這種文件屬于半結構化數據,一般來說其結構和信息會混合一塊兒,不具有明顯模式。XML 也是常用與數據交換,但是它更注重信息內容,用戶使用時比較容易,比較適合Web 的信息交換。因為它本身屬于半結構,所以能為這類數據進一步的研究帶來積極作用。而數據庫也是數據管理較為常用的方式,雖然用戶使用起來比較方便,但是對于系統管理者來說比較麻煩,管理投入也相對較大。因此Web 數據要根據用戶的需求,采取有效的管理方式,爭取更加個性化、開放化。在管理方式變化的同時,也使得互聯網的發展能夠更進一步,從而為人類提高更優質的數據服務。
數據管理的前提是要將獲取的數據進行有效存儲,它主要指數據管理者將獲取的數據在邏輯或者物理形式上存儲在相關設備上。當前最常用的是將數據進行邏輯存儲,具體有四種形式:一,三元組表存儲,這種方式比較直接,原理也比較簡單,是很多Web 數據管理者常用的方式。三元組是指數據的主謂賓,當獲取數據后直接存儲相應存儲在列表中,特別實在關系數據庫中使用起來簡單明了,受到管理者的高度青睞。同時它有自身的缺點,即用戶使用時由于所需信息存儲在同一數據表中,使得數據查詢耗費時間長,效率不高。二,垂直數據存儲,它對三元組進行了優化,存儲結構上進行了簡化。三,水平數據存儲,將垂直數據存儲中各個列進行合并到同一數據表,讓所有屬性信息在一張表上存儲,但是由于數據列量比較大,而且空值多,合并時就會造成空間資源浪費的現象。四,模式生成,相對于水平存儲節約了空間存儲資源,將數據中屬性相同的列存儲在同一單元中,因此又稱為實例集存儲。
Web 數據進行集成時一般分為兩種方式:數據倉庫集成與虛擬集成。數據倉庫集成是將獲取的數據以數據庫的形式供用戶查詢;用戶在使用虛擬方式集成的數據時需要通過第三方平臺,當獲取到所需信息時根本就不知道信息的數據源。由于Web 網絡數據結構經常變化、結構相對復雜、數據量也比較龐大,而虛擬數據集成方法針對這種環境有很強的適應能力,因此也受到數據管理者的關注。
Web 數據管理技術融合了當前很多高新科技,如數據空間與數據搜索等,它將龐大的數據量進行分類整合、組織及存儲,為用戶查詢提供方便。但是面對各類數據結構的復雜性,它還存在一些不足之處,需要在以后實踐過程中進行優化。
第一,數據質量上有待于提高。目前數據的獲取源已經足夠多,但是其質量還需提高,而且有的數據還存在錯誤的情況,與數字有關的信息其準確度有時候還存在一定偏差。
第二,數據急需統一維護。數據管理系統時刻要與用戶打交道,還要與數據相聯系,但是數據以用戶需求均具有隨時變化的特點,這些都要求系統隨時跟上變化,但是如果系統不進行統一管理,系統就會混亂化。因此要想系統與數據更新保持一致,就必須將系統數據進行統一管理。
隨著互聯網的不斷發展,Web 數據規模也在不斷擴大,人們對網絡數據查詢的要求也在提高,這就要求數據管理者根據實際情況不斷更新數據管理方式。為讓Web 數據系統能夠更好地服務于大眾,不僅要擴大數據獲取源,還要不斷提高獲取數據的精度,爭取讓用戶能夠更高效的查詢信息,并且查詢途徑更加多樣化。