肖瑞蘭
關鍵詞:資源開發;實現技術;網絡
摘 要:信息資源建設就是運用最新的科學技術對我國資源的一次數字勘探。資源數字化過程的背后,不僅可能發生“產權轉移”,而且可能發生“基因變異”,是一次知識的創新。將改變“中國是一個資源貧乏國家”的傳統觀念,有資格成為世界獨一無二的資源大國。
中圖分類號:G250文獻標識碼:A 文章編號:1003-1588(2009)03-0002-04
Characteristic Resources Bank Construction Implementation Technology
XIAO Rui-lan
(Henan Provincial Institute of Scientific& Technical Information,Zhengzhou 450003,China)
Key words: developement of resources;implementation technology;network
Abstract: The information resources construction is a digital exploration of the resource of our country, which is by the use of the latest science and technology. Just like the fact that development of modern information technology avails scientists to describe the human biological gene atlas, it also avails modern culture, science and technology and anthropologists to describe the cultural gene atlas of nationality. In the cyberspace, the modern's culture gene is loaded by bit. Behind the process of the resource digitalization, not only the the property rights transfering, but also the genetic mutation will probably take place, which is an innovation of knowledge. The 5000-year-long Chinese history becomes 5000 years' investment and wealth. It will change the traditional concept that China is a poor country of resources. However, China will become a unique great country with plenty of resources.
過去,人們覺得信息匱乏,是因為獲取信息的手段有限。今天,人們仍然覺得信息匱乏,是因為信息過于泛濫。從經濟的角度思維,垃圾郵件、垃圾信息占用了人們的有效經濟運動時間,浪費了大量精力,降低了工作效率。隨著技術應用和傳播介質的變化,信息資源開發利用已經從過去的傳統信息資料檢索,跨越到網絡環境下的海量信息精確搜索、信息互動,以及圍繞信息展開各種業務的變革。由此產生的數字化、信息化生存意識,已成為時代的主旋律。
1 搭建系統平臺
在我國,網絡信息資源開發滯后于應用,動態數據庫存在低層次重復建設問題。交流共享、信息服務、知識戰略儲備等意識處于較低水平。相關軟件產品的規劃能力、設計水平不足,存在零散、價值較低的信息孤島,導致相當部分重要信息流失等現象依然存在。作為知識經濟的重要載體,高校數字化資源是基礎設施重要組成部分,已成為評價一個學校信息基礎水平的重要標志和本世紀我國教育系統文化科技競爭的焦點之一。
1.1 特征內容
資源開發要處理的信息量巨大,基本在TB甚至PB數量級,良莠并存,且更新變化迅速;信息來源不同,格式多樣,非結構化的或者半結構化的數據,包括文本數據和多媒體數據,地理位置分布廣泛;訪問的用戶多,信息需求多樣化。核心問題是Internet為傳播載體的TB甚至PB級超大規模數據為基礎和面向需求各異的用戶群實現高性能、高準確度的信息服務。
1.1.1 多種語言。作為文化產品的網絡已經成為最大的信息資源集合,由220種語言寫成、約40多億公共頁面,以及5500多億深層次網絡頁面,已經成為讀者尋找信息的第一所在。從圖書情報部門發展趨勢來看,一是數字化。即提供服務的文獻載體、手段、方式是數字化、網絡化的;二是結點化。以網站、網頁及豐富的內容吸引更多用戶的注意力和“點擊率”;三是特色化。即特色的館藏、專題數據庫、個性化的服務,來滿足用戶特定的需求。誠然,數字圖書館的出現,并不意味著傳統圖書館的消亡。對讀者提供信息資源一致性的服務,要求不同文化背景、使用不同語言的讀者,都可以在數字圖書館中訪問到多種數據庫和知識庫,取得自己的目標文獻資源。
1.1.2 智能檢索。簡單地使用傳統的圖書館中慣用的檢索手段如關鍵詞、題名、布爾邏輯等查詢方式,遠遠無法解決浩瀚的信息資源的查準和查全的問題。網絡環境下海量多媒體信息需要有智能化的搜索引擎、交互式智能化而又簡單易用的多媒體檢索工具,讓讀者從系統的各種數據庫和知識庫中獲取有組織、連續性的、真正所需的信息資源,讓使用者不必預先了解或學習檢索各種類型數據庫的技術和方法,這就意味著必須有異構平臺的統一檢索界面的功能,并可根據讀者的需求提供個性化的主動服務。在檢索方法上的要求是以人工智能為基礎。讀者可以通過自己熟悉的自然語言,不斷地與系統進行交互,逐步縮小搜索目標,并將檢索結果予以知識化關聯,最終獲得確切的信息資源。
1.1.3存儲媒體多樣化??萍嫉陌l展,導致了人們對信息的需求與日俱增,反之社會的進步促使信息生產量飛速增長,網絡的普及和電子出版物等新型手段使得信息的發布和使用更便利。對圖書館、情報及科研部門來說信息的收集量、處理量和存儲量相應地不斷增大。存儲介質亦由傳統的紙質轉變為多種媒體,數字信號可以處理多種媒體的信息,如文字、聲音、圖象、動畫、三維體、虛擬空間等。對于這些不同的媒體可以采用不同的文件存儲格式和壓縮方式。這些媒體信息僅數字化是遠遠不夠的,需專業人員對信息內容再加工,根據各種媒體的特性進行標引、加工、限制、縮放等。使媒體信息間存在相互關連,如內容、事件、形狀、次序、色彩、音調等,方便用戶快捷查找電子資源。
1.1.4 傳播與服務。數字化資源服務平臺是一個將收藏、服務和人集成在一起的一個環境,支持數字化數據、信息和知識的整個生命周期的活動,包括生成、發布、傳播、利用和保存。它所提供的服務卻是主動的,隨時發布和廣播各種信息資源的消息,并及時提供導航式和個性化服務。服務模式由被動轉變為主動式服務,從根本上改變未來教育的模式和方法。
1.2 網絡環境
數字信息的存取已突破數字信息存放的地點的限制,一個良好的、高速的網絡運行環境以及空間安全,是系統運行的基礎。
1.2.1 網絡主干。網絡主干選擇合理與否直接影響數據中心的經濟性、可擴充性。主干網設計要考慮諸多因素,如可用性、可靠性、性能價格比以及網絡安全性、靈活性、可擴充性。在園區主干網常采用FDDI光纖網,ATM信元交換網,快速以太網和交換式以太網。這四種方案均可實現100Mbps及以上的傳輸速率。
在管理信息系統網絡中,交換機是肩負著所有局域網互連、交換處理的重要設備,資源庫系統主干亦選用1000M交換式以太網技術,以第三層交換機為中心,傳輸介質采用光纖,連接外圍子網。網絡核心交換機選型應注意:(1)是否支持純鏈路交換,具備高速的背板交換總線,巨大的數據包吞吐量和穩定的結構;(2)支持多種標準局域網協議;(3)支持標準的網絡管理;(4)是否同時支持直通式和存儲轉發式兩種數據包處理方式;(5)具有較低的幀的丟失率和較小的網絡延遲;(6)在橋接表中可維持大量的活動的MAC地址;(7)VLAN具有控制網絡上的廣播風暴、增加網絡的安全性、集中化的管理控制等優勢。利用交換機與路由器的結合,可以構成虛擬網絡技術。
1.2.2 服務器。選型原則:(1)強大的系統性能。包括整數及浮點運算速度、存儲能力等;(2)開放性。采用世界主流操作系統及符合國際標準的網絡連接等;(3)延續性。從低端的工作站產品到高端的服務器產品應保持從操作系統到硬件結構的高度一致性及兼容性;(4)選擇市場占有率大的產品。獲得更多的應用軟件和應用技術上的支持;(5)系統的性能/價格比。至于操作系統,依據標準及現有設備情況,兼顧UNIX高可靠性和Windows NT易擴展性和易開發性,可同時采用UNIX和Windows NT,構成混合式的網絡操作平臺。 1.2.3 相關標準。資源庫作為一個數據服務中心,其建設包含局域網、廣域網連接及與其它網絡的聯通,標準化至關重要。相關標準如:(1)標準通用置標語言SGML及其相關標準;(2)擴展的置標語言(XML);(3)資源描述框架(RDF)模型與句法(W3C標準);(4)信息檢索:應用服務定義和協議技術規范:ANSI/NISO Z.39.50;(5)RL:統一資源特征;(6)通用多八位編碼字符集(UCS):ISO/IEC10646;(7)都柏林核心元素集等。
2 資源庫開發實現技術
現代高新技術所支持的資源庫系統的多項支撐技術,如數據采集與導入、自動分類、數據管理、全文檢索、元數據檢索、信息發布、版權保護、信息定制與推送、對象資源調度、網絡與系統管理等是一個跨學科的綜合研究課題,涉及近30個學科和分支。消除信息孤島,推進信息資源開發利用,搭建一流的數字化資源服務平臺,都需加以重視和逐步解決。
2.1 信息獲取技術
指從網絡收集數據的過程。分主動獲取和被動獲取。被動獲取通常是將設備接入網絡的特定部位進行獲取。主動獲取是指基于Web的信息采集直接從Web上采集或下載信息。如Google、百度、天網等搜索引擎后臺都采用了并行體系結構,來保證采集過程的通暢?;谥黝}的信息采集,只采集相關的信息,來降低采集的代價。與主題采集不同的個性化信息采集,是針對某個用戶,即使對同一主題,個性化的信息采集系統對不同用戶也可能返回不同結果。
2.2 內容分析技術
內容主要是指非結構化的或者半結構化的數據,包括文本數據和多媒體數據。獲取數據后,對數據進行格式處理、編碼處理、意義分析等相關的處理。主要有詞法分析、句法分析和語義分析等。
2.2.1 詞法分析
詞法分析是對自然語言的形態進行分析,判定詞的結構、類別和性質的過程,包括形態分析、中文的分詞及詞性標注。英文形態分析技術采用自動機的方法,技術比較成熟。
中文分詞方法有兩大類:基于機械匹配的分詞方法及基于概率統計的分詞方法。前者通過對已有詞典的機械匹配來得到分詞結果。后者不需要任何詞典就可以得到分詞結果,或者對粗切分結果進行基于概率統計的處理來得到最終的分詞結果。中文分詞技術面臨的兩個最大問題是切分歧義和未定義詞問題。前者要解決在上下文環境下不同切分結果的選擇;后者要解決詞典中未收錄詞(如人名、地名、機構名等)的識別。目前比較主流的方法是通過對真實文本的概率統計來求解切分歧義和未定義詞問題。
詞性標注的根本目的是對某個具有多個可能詞性的詞,在確定的上下文中多里挑一。國外20世紀60年代就開始自動詞性標注的研究,經歷了從規則方法到統計方法的過程。使用規則方法可達77%的正確率。后來,一些學者采用基于概率統計的方法,將詞性自動標注的正確率提高到96%~97%,在性能上也進一步優化,使得自動詞性標注達到了實用水平。
2.2.2 句法分析。句法分析是將線性的詞序列轉變成某種句法結構(常見的是短語結構樹)的過程。實現時,句法分析系統通常由短語規則和具體算法組成。短語規則指出了從詞到短語、從短語到句子結合的規律。句法分析的主要目標也是多里挑一來消除句法歧義。
2.2.3 語義分析。語義分析的目標有兩個:一是確定每個語言單位在文中的某種語義類,即根據上下文從語言單位可能的多個語義中選擇最恰當的語義;二是確定這些語言單位之間的語義關系,常被稱為語義分析。語義分析需要語義詞典的支持,中文語義詞典有HowNet、同義詞詞林等。
2.3 聚分類技術
聚類、分類技術是模式識別的基本技術,是文本處理最常用的兩項技術。兩者都是將未知文本歸入某個類別的過程。包括特征選擇、信息表示、相似度計算及分組算法等。不論是聚類還是分類,其結果都能降低大規模文本處理的復雜性。
2.4 字符編碼集
每個國家(或區域)都規定了計算機信息交換用的字符編碼集,如美國擴展的ASCII碼、中國的GB2312-80、日本的JIS等,作為該國家(區域)信息處理的基礎,有著統一編碼的重要作用。由于各本地字符集代碼范圍重疊,相互間信息交換困難,軟件本地化版本獨立維護成本較高。因此有必要將本地化工作中的共性抽取出來,做一致性處理,將特殊的本地化處理內容降低到最少,這就是所謂的國際化。各種語言信息被規范為本地信息,而底層字符集采用包含了所有字符的Unicode。例如,對于不同的數據庫如SQL Server,Oracle,Mysql,Sybase等,字符集的選擇很重要。如果考慮多語言版本,數據庫的字符集就應該統一采用ISO8859-1,需要輸出的時候在不同的字符集之間做轉換就可以了。國際標準組織Unicode提供有:GB和Unicode轉換表;BIG5和Unicode轉換表;JIS和Unicode轉換表;KSC和Unicode轉換表。由于GBK不是國家標準,只是采用Microsoft的CodePage版本。
字符內碼是用來代表字符的內碼。我們在輸入和存儲文檔時都要使用內碼,內碼分為單字節內碼和雙字節內碼。單字節內碼(SBCS),支持256個字符編碼;雙字節內碼(DBCS),支持65000個字符編碼,主要用來對大字符集的東方文字進行編碼。
GB2312-80是在國內計算機漢字信息技術發展初始階段制訂的,包含常用的一、二級漢字和9區的符號。該字符集是幾乎所有的中文系統和國際化的軟件都支持的中文字符集,是最基本的中文字符集。GBK是GB2312-80的擴展,向上兼容,包含20902個漢字,編碼范圍是0x8140~0xFEFE。GBK2K在GBK的基礎上擴展了漢字,增加了藏、蒙等少數民族的文字。GBK2K從根本上解決了字位不夠、字形不足導致從數據庫讀出字段顯示中文亂碼的問題。Java提供了對GBK字符集的支持。
3 瀏覽與Web檢索技術
管理信息系統的核心是對數據庫進行包括添加、修改和查詢等操作。由用戶界面、網絡通訊、資源庫、管理和檢索系統及咨詢系統組成,瀏覽器/服務器(B/S)模式。微軟公司推出新品的ASP語言后,這種模式發展更加迅猛。
3.1 信息過濾技術
對陸續到達的信息進行過濾操作,將符合用戶需求的信息保留,并根據用戶的操作不斷調整過濾策略。如果把信息檢索稱為一種典型的“拉”的方式(用戶主動,系統被動服務)的話,那么信息過濾則可以稱為“推”方式(用戶被動,系統主動服務)。
信息過濾分兩種:①基于內容的信息過濾。通常采用某種方式來表示用戶的興趣模型和信息資源模型。實現時,可以采用各種分類技術。內容過濾的最主要工作之一是對用戶興趣的不斷學習和反饋,以保證在任一時刻過濾的文本和當前用戶興趣相吻合;②基于合作的信息過濾。是從用戶相似度的角度出發。假設是經常訪問相似資源的用戶興趣相似,相似興趣的用戶又會訪問相似的資源。因此,通過對相似興趣用戶的判定,來確定某個用戶對某一未知資源是否感興趣。合作過濾常常和內容過濾方法配合使用。
3.2 在線瀏覽技術
在線瀏覽系統包括在線瀏覽器(閱讀器)、對象數據裝載、元數據導入和應用服務器四個子系統。瀏覽器實現對文本等格式的瀏覽和網頁瀏覽;對象數據裝載子系統將文件裝載到對象服務器;元數據導入是將基本信息、對象數據標識信息、分類信息及目錄信息導入到網上數據庫,以保證為讀者提供最新的數據;應用服務器程序完成接收客戶端請求、數據庫訪問和數據傳輸等功能。對讀者來講只需要下載一個小的軟件就可以通過通用瀏覽器IE、Netscape Navigator等上網閱讀。
3.3 Web檢索技術
所謂Web檢索是指以檢索查詢方式從Web中挑選出和用戶需求最相關的頁面。Web檢索的關鍵是將用戶的需求和網頁進行匹配。
3.3.1 基于內容的檢索。大多情況下,用戶習慣通過概念來提交查詢。概念查詢的一種實現是基于文本式的描述,用關鍵詞、關鍵詞邏輯組合或自然語言來表達查詢的概念?;趦热莸臋z索是指根據媒體對象的語義、特征進行檢索。如根據頁面所提供的內容,可以是標題、正文、錨文本或URL本身。突破了原來文本處理機械匹配的模式,實現了智能化的信息處理,具備對信息進行自動分類和篩選的功能。不但會幫助掃描網絡上所有信息,還可以進行信息的分類和篩選,其目的不是為用戶抓到1萬個信息,而是提供50個有用的信息。包括三種主要模型:布爾模型、向量空間模型及概率模型。最著名的概率檢索原型系統是倫敦城市大學的OKAPI。其他的概率檢索模型還包括基于神經網絡的概率模型、基于語言學模型的檢索模型。
3.3.2 基于結構的檢索。Web檢索的對象是Web,而Web的最大特征是互聯。Web中各頁面之間的鏈接關系是一可利用的重要信息。基于這一信息的技術稱為鏈接分析技術。鏈接分析方法常常和基于內容的檢索方法相結合。鏈接分析方法能夠反映Web社會的一些最自然的屬性,能夠在大規模真實環境下提高檢索結果。Google搜索引擎中就成功地應用了PageRank算法。
3.3.3 基于日志的檢索。Web日志記錄了用戶訪問Web的歷史信息。根據該歷史信息可以挖掘出許多對提高檢索效果有用的信息,從而可以改進檢索的結果。通過分析用戶的歷史請求,可以獲得用戶的興趣愛好,從而提供最符合用戶興趣的結果。通過分析用戶瀏覽結果記錄,也可以獲得用戶的興趣愛好和行為方式,從而指導檢索過程。其他用戶的訪問和瀏覽信息(如訪問頻度、用戶查詢聚類、用戶瀏覽結果聚類等)同樣對提高單個特定用戶的檢索結果有幫助。利用日志信息提高檢索結果是當前商用搜索引擎的一個發展趨勢。
信息資源庫建設,是對中國傳統文化進行一次數字勘探和開發,如同現代信息技術的發展使科學家能夠描繪人類的生物基因圖譜一樣,現代信息技術的發展也使現代文化科技和人類學家能夠描繪一個民族的“文化基因圖譜”。實際是一次知識的創新,目的就是要使5000年文化由包袱變成財富,改變“中國是一個資源貧乏國家”的傳統觀念。中國將再一次有資格成為“資源大國”,而且是世界上獨一無二的資源大國。
參考文獻:
[1] 徐文伯.中國數字圖書館[M].北京:人民出版社,2002.
[2] 張軍.網絡信息鏈的動力與動態演化[J].圖書館學研究,2009,(4).
[3] 王斌.內容為王[J].計算機世界,2004,(37).