〔摘 要〕從數字圖書館知識組織方式、知識組織策略、web信息預處理及信息預測和知識檢索,闡述了數字圖書館的知識組織與知識檢索。
〔關鍵詞〕知識組織;知識檢索;數字圖書館
〔中圖分類號〕G250.76 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)01-0073-05
Knowledge Organization and Knowledge Retrieval of Digital Library
Bai Xiaoling
(Library,Hubei Institute for Nationalities,Enshi 445000,China)
〔Abstract〕This article elaborated the digital library knowledge organization and the knowledge retrieval from the digital library knowledge organization way,the knowledge organization strategy,the web information pretreatment and the information forecast and the knowledge retrieval.
〔Key words〕knowledge organization;knowledge retrieval;digital library
知識組織是信息組織的延伸,是將經過大腦處理后的信息,即知識進行組織的方式,這種方式更有利于實現用戶解決問題。但也不一定,因為知識使用者和知識創建者之間還有一個背景知識匹配問題。對于數字圖書館來說,知識組織就是通過知識挖掘、知識發現、知識匹配、數據融合、推送技術、智能搜索等多種智能技術和軟件技術對信息進行精簡。發現隱含在信息中的有用知識單元并組織成知識庫。其任務就是將繁雜的數字化信息按照一定的結構序化為知識庫,然后將知識庫提供給數字圖書館的用戶。如何科學、合理、方便、有效地進行數字圖書館的知識組織,是一個急待探索的現實問題。
知識檢索是將知識按一定的方式組織和存儲起來,并根據用戶的需要找出有關知識信息的過程,它涉及知識的表示、存儲、組織和存取等多個環節。知識檢索技術已經成為現代社會各種應用的關鍵。但是,基于關鍵詞匹配的傳統信息檢索技術難以避免丟失相關信息或產生大量冗余信息。在這種情況下,人們不斷地探索新的知識資源組織方法、新的知識檢索理論與技術,嘗試將人工智能技術應用于知識檢索,建立知識檢索的理論、方法與技術。總之,知識組織是知識檢索的基礎,知識檢索是實現知識組織的手段。因此,對數字圖書館知識檢索進行探索,必須探討知識的組織方式和知識檢索方式。
1 數字圖書館知識組織方式
1.1 文本方式
文本方式就是文件夾方式:比如你打開我的電腦,里面有c、d、e、f盤,然后每個盤里又有不同的文件。一種全局性的信息結構,它將文檔中的不同部分通過關鍵字建立鏈接,使信息得以用交互方式搜索。它是超級文本的簡稱。具體說來,文本是一個具有符號名的一組相關的邏輯記錄集合。一個文本可以包括數據程序或字符,是計算機保存處理結果的基本單位。以文本方式組織數字圖書館信息資源的優點是:實現簡單方式,能存儲非結構化信息。但是,當信息結構較為復雜時,文本方式難以實現有效的控制和管理,而且也存在文本大小和數量的沖突。因此,文本方式只能是數字圖書館進行知識組織的輔助方式。
1.2 數據庫方式
數據庫是在計算機存儲設備上合理存放的相互關聯的數據集合。數據庫本質的3個方面是相關數據、共同存取組織方式、數據共享。以數據庫方式進行數字圖書館的知識組織,其優點是可以高速處理大量結構化和非結構化數據,并且以信息項作為數據的最小存取單位;不足是目前數據庫技術尚不能提供數據化的數據。如專題信息之間的知識關聯。此方式適用于規范數據、行業數據等。以物理形態可劃分為,層次型數據庫、網狀型數據庫、關系型數據庫。
1.3 主題樹方式
主題樹方式就像注冊表那樣的結構。主題樹是一種可供檢索和查詢的等級式主題目錄,組織信息資源的方法,是將信息資源按照某種事先確定的概念體系分門別類地逐層加以組織。用戶可以先通過瀏覽的方式層層遍歷,直到找到所需要的信息線索,再通過信息線索鏈接到相應的網絡信息資源。主題樹以超文本鏈接的方式將不同學科、專業、行業和區域的信息按照分類或主題目錄的方式組織起來。它提供一種界面機制,用戶利用這個界面,通過主題目錄間接地連接并使用多個實際的數據資源。利用主題樹方式進行數字圖書館的知識組織,其優點是具有良好的可擴充性和嚴密的系統性,但利用這種方式必須事先建立一套完整的主題目錄分類體系。此方式適合建立專業性信息資源體系,不適合建立大型的綜合性的信息資源系統。
1.4 超媒體方式
超媒體是超文本(hypertext)和多媒體在信息瀏覽環境下的結合。它是超級媒體的簡稱。它將文字、圖表、聲音、圖像、視頻等多媒體信息以超文本方式組織起來,人們通過瀏覽的方式搜尋所需信息。這種方式避免了檢索語言的復雜性,使人們可以通過高度鏈接的網絡在各種知識庫中自由遨游;但是,資源的有序化整理和組織存在較大難度,而且當超媒體網絡過于龐大時,用戶很難準確、迅速地定位于其真正需要的信息節點上。此方式適合對動態信息進行組織。在Internet瀏覽頁,通過鼠標的點擊,用戶不僅能從一個文本跳到另一個文本,而且可以激活一段聲音,顯示一個圖形,甚至可以播放一段動畫。Internet采用超文本和超媒體的信息組織方式,將信息的鏈接擴展到整個Internet上。Web就是一種超文本信息系統,Web的一個主要的概念就是超文本鏈接,它使得文本不再像一本書一樣是固定的線性的。而是可以從一個位置跳到另外的位置。你可以從中獲取更多的信息。可以轉到別的主題上。想要了解某一個主題的內容只要在這個主題上點一下,就可以跳轉到包含這一主題的文檔上。正是這種多連接性我們才把它稱為Web。
1.5 知識庫方式[2]
知識庫(Knowledge Base)是知識工程中結構化,易操作,易利用,全面有組織的知識集群,是針對某一(或某些)領域問題求解的需要,采用某種(或若干)知識表示方式在計算機存儲器中存儲、組織、管理和使用的互相聯系的知識片集合。這些知識片包括與領域相關的理論知識、事實數據,由專家經驗得到的啟發式知識,如某領域內有關的定義、定理和運算法則以及常識性知識等。知識庫系統從組織結構上支持數字圖書館的知識組織。現在多是由數據庫系統從組織結構上組織數字信息的。但數據庫技術不能提供數據信息之間的知識關聯。知識庫則比數據庫有更強的知識組織功能。知識庫是以一致的形式存儲數字信息的機構,其組織的信息是高度結構化的符號數據。數字圖書館可以采用順序文件、索引文件、倒排文件等組織數字文件的形式來組成知識庫。
1.6 集成化搜索引擎方式
集成搜索引擎顧名思義就是集合了N多搜索類別,且集成了N個專業的搜索引擎于一身,能方便用戶更全面更快捷地搜索到所需的內容。集成搜索引擎(All-in-One Search Page),亦稱為“多引擎同步檢索系統 ”(如:引擎之家)是在一個WWW頁面上鏈接若干種獨立的搜索引擎,檢索時需點選或指定搜索引擎,一次檢索輸入,多引擎同時搜索,用起來相當方便。集成搜索引擎無自建數據庫,不需研發支持技術,當然也不能控制和優化檢索結果。但集成搜索引擎制作與維護技術簡單,可隨時對所鏈接的搜索引擎進行增刪調整和及時更新,尤其大規模專業(如FLASH、MP3等)搜索引擎集成鏈接,深受特定用戶群歡迎。
集成化搜索引擎是今后知識組織發展的一個重要方向。對于其具體組織方式是在主題樹中集成搜索引擎功能.將各個搜索引擎按主題樹的結構方式組織起來(一種搜索引擎可能分布在多個樹枝上),通過瀏覽主題樹來選擇搜索引擎,供進一步查詢需要。
2 數字圖書館知識組織策略
2.1 采用分類主題一體化模式來組織數字圖書館的知識[3]
分類法和主題法是圖書館傳統的知識組織方法,當然也可以應用于數字圖書館的知識組織,但基于數字圖書館獨有的特點,分類主題一體化應成為目前數字圖書館知識組織的適用模式,它采用分類主題一體化語言來組織知識。分類主題一體化語言是由分類法與主題法有機結合而成的一種標引語言,它是在一個語言系統中包括分類表和敘詞表兩個主要部分,并對兩部分的概念、標識、參照、索引實施統一控制,從而同時滿足分類標引和主題標引的需要;比較有代表性的美國MeSH就是采用了知識樹和字順表相結合的方式來揭示知識和檢索知識。也可以是由原來的一種或幾種分類語言與一種或幾種主題語言合成的語言對應系統,以實現分類語言與主題語言的標識互換。分類主題一體化語言實現了分類語言與主題語言的結構整合和性能互補。
利用搜索引擎來進行知識組織是分類主題一體化知識組織模式的雛形,搜索引擎的分類體系雖然有較好的適應性和實用性,但是它在知識體系的建構和展示等方面仍存在不少缺陷。理想的分類主題一體化模式應包括三部分:一個結構簡明的知識分類體系。通過該知識分類系統,實現對信息知識領域的宏觀控制;一個智能化的控制詞表。通過它可實現對作者語言與用戶語言的控制和轉換。自動標引系統可以把使采自信息源的作者語言轉換為標引語言;查詢系統則可以把用戶語言轉換為標引語言,使用戶語言與作者語言通過標引語言達到最佳的匹配;建立分類體系與控制詞表的系統聯系,將標引語言進而也將作者語言和用戶語言納入分類體系。從而不但實現自然語言檢索,也可以在任何類下進行語詞檢索。
2.2 采用元數據來組織數字圖書館的知識
元數據通常被定義為“關于數據的數據”。元數據技術在數字圖書館系統中有著重要的地位,在知識組織方面元數據技術發揮著關鍵性的作用。元知識概括地說就是關于“知識的知識”,在產生式系統中,元知識由元事實和元規則構成。元知識可以最大限度地滿足數字圖書館知識組織的要求,但是元知識的廣泛利用還有待知識工程(包括人工智能)的發展和普及。而人工智能的許多方面仍處在探索階段,距離實際的推廣應用還有一段時間。運用元數據來組織數字圖書館知識是目前較好的選擇,這體現在以下兩方面。
2.2.1 知識發現
知識發現是近幾年興起的一個極有發展前途又有廣泛應用前景的新領域,其研究的主要目標是采用有效的算法,從大量現有或歷史數據集合中發現并找出最初未知、但最終可理解的有用知識,并用簡明的方式顯示出來。目前,關系數據庫應用廣泛,并且具有統一的組織結構、一體化的查詢語言、關系之間及屬性之間具有平等性等優點,因此,數據庫知識發現的相關研究非常活躍。常用的知識發現方法主要有:分類規則、關聯規則、序貫模式、相似模式和聚類模式。知識發現一般包括以下幾個步驟:建立問題;建立目標數據集;數據清理和預處理;數據轉換;選定數據開采算法;數據開采;解釋;評價知識。這些步驟通常需要經過多次反復,以提高學習效果。數字圖書館注重信息資源的開發和共享利用,知識發現技術正適應了這種需要。圖書館擁有內容豐富的館藏文獻及大量的數據庫,這些可作為知識發現的對象,在提供全文檢索和網絡信息檢索的基礎上可從中挖掘出有用的知識,并揭示出其間的規律。在這個過程中,因為網絡信息資源的無序性與分散性問題,許多人對網絡資源進行了手工編目與加工,并著重在資源的選擇性、文獻與權限等方面給某些網址和數據集增添了許多有價值的摘要說明。通過人工追加的元數據而非機器抽取的關鍵詞,用戶可以構造更確切的查詢式來對相關度較高的結果集進行檢索,從而得到比用關鍵詞等檢索方式更精確的檢索結果。
2.2.2 知識保存
數字信息與知識以數字載體的形式存儲,具有豐富、生動、方便、快捷等優點,但它與物質載體的信息與知識相比壽命卻顯著下降,數字信息如何實現長期保存成為數字圖書館和信息業所面臨的巨大挑戰。目前對于數字資源的長期保存通常有兩種策略:一是對原硬件、操作系統和軟件進行仿真,二是定期把上一代計算機上的數字信息遷移到下一代計算機。不管是采用“仿真” 策略還是“遷移”策略,數宇信息資源的長期保存都與元數據的創建和維護有關。我國國家圖書館制定的《中文元數據方案》,正在成為數字信息的形成與管理中使用標準,有助于數字信息在存取與保存時的完整性。也直接降低保存數字信息的費用。目前,在數字信息長期保護方面還沒有統一或通用的元數據格式,但有關研究項目已經提出了若干種格式。
2.3 集成分類法、主題詞表和語義元數據[4]構造數字圖書館知識組織系統
上文提到分類法和主題詞表是傳統圖書館中最重要的知識組織工具,當然也可以應用于數字圖書館的知識組織,但二者直接應用于數字圖書館中,尚有許多缺陷。例如,分類法和主題詞表相對于網絡信息資源的迅速更新和變化,其結構和內容難于自動更新;二者體系龐大、結構復雜,難于被普通用戶所掌握;它們都側重于對文獻的標引和組織,對數字圖書館需要的檢索服務考慮較少。因此,將分類法和主題詞表應用于數字圖書館的知識組織,必須對它們進行改造。數字圖書館中,元數據中所包含的原始文獻的內容標引信息是標引員在理解文獻內容的基礎上,根據分類法、主題法的知識體系和標識系統來表示的,稱為語義元數據。由于元數據資源沒有像傳統圖書館中的館藏那樣,進行分類排架和目錄組織,從而肢解了隱藏其中的知識系統,因此,構建數字圖書館知識組織系統的關鍵是使元數據資源中被掩蓋的知識體系顯現出來,發揮其資源組織和檢索服務功能。這就是集成分類法、主題詞表和語義元數據構造數字圖書館的知識組織系統的基本方法。
2.4 采用專家系統來組織數字圖書館的知識[5]
人工智能是計算機科學的一個分支,它研究如何用計算機來模擬人的思維和行為從事推理、學習、思考、規劃等活動,解決需人類專家才能解決的復雜問題。在人工智能的多個研究方向中,專家系統是最成功的一個研究領域。專家系統的基本結構主要包括4個組成部分:知識庫、推理機、工作存儲器、人機接口。其中,知識庫和推理機是專家系統的核心,建立知識庫的關鍵問題是采用什么知識表示方法能準確地表達領域知識;推理機設計的主要問題是確定推理機制;人機接口是一個用戶窗口,以處理各種咨詢問題;工作存儲器則是一個“黑板”,用于推理過程中的中問假設和結論。目前在圖書情報領域應用較多的是情報檢索及分類專家系統,這些專家系統多數是依照其它專業領域的專家系統。將專家系統應用于數字圖書館的建設,探索智能化的知識組織系統是一個新的研究課題。與現行的各類知識組織系統相比較,專家系統在知識處理和組織上有如下優勢:專家系統除存有數據元素外,還存貯數據元素的組合規則,在需要時可以通過學習和推理機制實現知識和信息的重構;專家系統可以按款目意義組織數據庫,并能夠理解自然語言的查詢,以很強的交往形式啟發用戶準確表達自己的信息需求,實現智能查詢;專家系統具有閱讀和理解能力,能自動而非人工輸人新增加的數據;專家系統以自然語言來實現人機接口,并以很強的交返形式啟發用戶準確表達自己的知識需求,具有很強的系統易用性。專家系統的這些性能決定了它在知識組織方面比以往任柯其他方法都顯得靈活先進。
3 知識檢索
知識檢索是一種全新的信息檢索方式,是在現有的信息檢索技術以及模型上發展而來的。知識檢索和信息檢索的不同,就在于知識檢索強調了語義,不會和信息檢索一樣,只是基于字面的機械匹配,它從文章的語義、概念出發,能夠揭示文章的內在含義。做到了語義和概念層次上的標引工作,知識檢索就提高了查全率和查準率,降低了用戶的負擔。知識檢索一般包括以下兩方面。
3.1 WEB信息的預處理[6]
信息預處理的主要功能是過濾文件系統信息,為文件系統的表達提供一種滿意的索引輸出。其基本目的是為了獲取最優的索引記錄,使用戶能很容易地檢索到所需信息。
3.2 信息過濾
信息過濾(Information Filtering)稱為信息篩選,簡稱IF,信息過濾的含義應該包括兩個層面的內容:一方面是從大量無序的信息中去除無用的信息;另一方面是從動態的信息流中將滿足用戶需求和興趣的信息挑選出來。
3.3 格式過濾
信息預處理應該能夠過濾不同格式的文檔,以及圖片、聲音、視頻等信息。這使得搜索引擎不僅能夠檢索文字,而且能夠檢索原始格式文件的所有信息。
3.4 語詞切分
語詞是信息表達的最小單位,而漢語不同于西方語言,其句子的語詞間沒有分隔符因此需要進行語詞切分。常用的語詞切分方法有按詞典進行最大詞組匹配、逆向最大詞組匹配、最佳匹配法,聯想——回溯法、全自動詞典切詞等。近年來,又出現了基于神經元網絡的和專家系統的分詞方法和基于統計和頻度分析的分詞方法。
3.5 詞法分析
詞法分析作為漢語分析的基礎,分析結果的準確性將在很大程度上影響后來的句法分析和語義分析。詞法分析過程中應注意以下問題:①切分排歧。歧義處理是自動切分的難題之一,一般把切分歧義分為兩種結構類型:交集型歧義(交叉歧義)和組合型歧義(覆蓋歧義)。②未登錄詞識別。未登錄詞是指沒有包括在分詞詞表中但必須切分出來的詞,包括各類專有名詞、術語、縮略詞和新詞等。③詞性消歧。詞性兼類是詞性標注的主要問題,進行詞性標注時的難點在于兼類詞的消歧。
3.6 詞性標注和短語識別
詞性標注就是采用適當的方法。根據上下文的語法關系消除句子中的語法兼類,確定其詞性并加以標注的過程。漢語短語識別就是把漢語文本中的短語作為一個整體識別出來,而不對內部結構做分析。漢語句子在切分的基礎上,利用基于規則和統計的方法進行詞性標注。在此基礎上,還要利用各種語法規則,識別出重要的短語結構。
3.7 自動標引
自動標引是指直接通過計算機的操作處理,賦予檢索標識的活動。自動標引是根據檢索的需要發展起來的,是電子環境下出現的一種新的標引形式。從網頁文檔中提取出一組能最大程度上概括其內容特征、可作為用戶檢索入口的關鍵性信息,用該組信息對文件進行標引,使用戶可以通過輸入關鍵信息檢索到該文文件的簡要信息,如標題、摘要、時間、作者和URL等,進一步點擊可查詢到該文檔。
3.8 自動分類
建立并維護一套完整的分類目錄體系,根據文件的信息特征,計算出與其相關程度最大的一個或多個分類,將文檔劃歸到這些分類中去,使用戶可以通過瀏覽分類體系直接查詢到該文檔[7]。
4 知識檢索表達及信息預測
知識檢索包括文件信息表達和查詢信息表達以及相關信息預測過程[8]。
4.1 信息表達
信息的表達有多種方式,如布爾表達、矢量空間表達、自然語言表達等,每種表達方式由應用系統服務者提出并由整個應用系統的目的和需求所決定,并對應于相應的存儲模式和檢索算法,信息查詢和組織的效率,也就是速度和存儲的空間在很大程度上決定了檢索服務系統的性能。
4.2 查詢分析
用戶端的查詢信息首先要進行分析處理,提取出查詢項索引、邏輯表達式或其它查詢特征描述。和文件信息索引不同的是:查詢索引處理是及時地提交處理形成索引,而文件信息索引是由搜索引擎按某種策略進行遠程數據的搜索和獲取預先生成的本地索引。查詢索引和文件索引采取同樣的表達方式,因此能夠采取相似性估計算法檢索出相關文件。
4.3 查詢擴展
查詢擴展指在檢索前,先根據擴展詞表自動把用戶查詢關鍵詞的同義、近義詞擴展進來形成新的查詢,然后提交檢索。其核心是從詞的概念層次來認識和擴充用戶的檢索請求,從而提高檢索的查全率。近年來,為了提高信息檢索的性能,將應用領域知識和索引、相關性、估計、查詢表達相結合實現查詢擴展,即查詢索引還包括不在用戶查詢中出現的查詢詞部分。
4.4 查詢詞的選擇策略
查詢詞的選擇包括,非獨立詞:非獨立詞指的是和查詢詞具有較大相關性的詞。但是預先必須計算文件集合中的所有詞之間的相關性。反饋詞:根據用戶反饋的文件信息,按照在相關文件和非相關文件中詞的出現頻率和分布決定出重要的詞,將這些詞增加到用戶查詢中。交互式選擇:用戶從通過上述策略得出的待選詞中決定最后的查詢詞。反饋網絡屬于人機交互范疇,目的在于提高查詢性能和針對性。不同的用戶根據實際情況提供不同的反饋信息,不同的信息檢索服務系統按照其功能與檢索方法也有不同的反饋結構和交互方式,因此查詢結果也不盡相同。
4.5 信息檢索模型
信息檢索系統的核心是搜索引擎,它需要從大量復雜信息中,篩選出符合用戶需要的信息。根據搜索引擎查找相關信息方式的不同,可將信息檢索分為:布爾邏輯模型、模糊邏輯模型、矢量空間模型以及概率模型等。
綜上所述,知識檢索就是綜合應用信息管理科學、人工智能、認知科學及語言學等多學科的先進理論與技術,基于知識和知識組織,融合知識處理和多媒體信息處理等多種方法與技術,充分表達和優化用戶需求,能高效存取所有媒體類型的知識源,并能準確精選用戶需要的結果。知識檢索是傳統信息檢索的發展,它利用語義分析的結果,對知識源進行概念級的檢索,對用戶提出的問題給出準確度和相關度最高的檢索結果。知識檢索的實質是把借助語義知識庫理解、分析和規范后的檢索請求與經過語義知識庫分析的信息源索引庫進行語義匹配。并提交給界面主體的過程。知識檢索是針對信息檢索中存在的語義性較差、智能性低、知識性較弱等現狀提出的一種基于語義和知識關聯。運用知識處理技術和知識組織技術,實現信息查詢語義化、智能化的一種高級信息檢索方式。未來在語義網上,知識檢索的對象是定義完善的本體,知識檢索是指根據用戶需求或問題的實際情況找出可利用的知識使問題得到圓滿解決的過程。知識檢索實際上是約束與知識之間的映射過程。知識檢索是在需要的時候把知識從知識庫中取出來。
參考文獻
[1]王輝.關于知識組織與信息組織[J].情報科學,2003,21(5):496-498.
[2]鄧君,畢強.國內機構知識庫研究進展[J].圖書與情報,2007,(5):37-42.
[3]劉維開.數字圖書館的知識組織研究[J].現代情報,2002,22(10):123-124,126.
[4]王軍.VISION:集成分類法、主題詞表和語義元數據的概念網絡[J].情報學報,2003,22(4):412-418.
[5]盛小平,周媛.數字圖書館知識組織策略[J].大學圖書館學報,2002,20(2):13-18,21.
[6]化柏林,趙亮.知識抽取中的嵌套向量分詞技術[J].現代圖書情報技術,2007,(7):50-53.
[7]欒芳芳.多種載體信息資源的自動分類方法與實踐[J].現代圖書情報技術,2007,(7):83-87.
[8]季葉克.情報信息預測合理化之探討[J].圖書館學刊,2005,27(5):51-53.