林 捷
(泉州師范學院 數學與計算機科學學院,福建 泉州 362000)
信息檢索模型[1]作為一項至關重要的技術被廣泛運用在各類垂直搜索[2]引擎中.傳統的信息檢索模型,如經典的布爾模型、向量空間模型、概率模型、統計語言模型等,顯著提高了查詢結果的精確度.雖然這些傳統的信息檢索模型解決了許多信息檢索方面的問題,但是仍然存在著各自的缺陷.例如通過這些信息檢索模型進行信息檢索的時候,用戶經常發現查全率往往無法滿足具體的要求,大量相關的信息或者文檔被遺漏,無法獲取足夠的信息.
針對這些問題,國內外的專家提出了許多新的模型以及改進方法,其中包括融入商空間理論對檢索模型的優化,本文提出了一種基于商空間理論的開放式信息檢索模型,通過計算主題關鍵字語義團的粒度,從語義識別的角度改善查全率不足的問題,并且運用于某企業情報采集分析系統,大大提高了企業的情報采集能力,提高了企業效率.
商空間理論[3]是一種多粒度計算的理論,來源于Hobss所認為的“人類問題求解的基本特征之一,就是具有從不同的粒度上觀察世界,并很容易地從一個抽象層次轉換到其它層次的能力,即分層次地處理它們”.在國內,清華大學的張拔院士和張鈴教授提出了一種基于商空間的粒度計算模型.在該模型中,用不同集合表示不同粒度等級的概念,一簇就構成空間的一個知識基劃分,不同的集合簇就構成不同的商空間.而商空間粒度的問題,也就等價于研究在給定知識基上的各種子集合之間的關系和變換.通過這種方式大大的降低了目標問題的復雜度.
在問題求解過程中,通常使用一個三元組(X,F,T)來描述某個問題.其中,X表示問題研究對象的集合,稱為論域.F表示論域X的各種屬性函數集合,對于論域X中的任何元素x∈X,都存在F(x)用于表示x所具備的屬性.對于不同的元素x,F(x)既可以是固定值,也可能是一個范圍.T(x)表示論域X的結構,表示X中所有元素間的結構關系.那么,求解問題(x,F(x),T(x))實際上就是指對論域及其相關的結構、屬性進行分析和研究.
由于人類能從不同粒度來處理問題,假設x是論域中最細的粒度,從一個較粗的角度看問題,把x和與其性質相近的對象看成是等價的,并作為一個整體或者一個元素而構成粒度較大的新論域[X],這一轉換過程正是借鑒了數學中商集的概念.
開放式信息檢索模型通過對主題關鍵字語義團采用論域劃分技術來尋求復雜問題在不同粒度層次的解.
通常的論域劃分技術分以下幾種:
屬性劃分法:對于三元組(X,F,T)上的屬性F選擇不同粗細的粒度,從屬性F的粒度層次的角度對論域X進行劃分,從而獲得降低粒度的目的.
結構劃分法:對于三元組(X,F,T)上的結構T選擇不同粗細的粒度,從結構T的粒度層次的角度對論域X進行劃分,從而獲得降低粒度的目的.
投影劃分法:假設元素X的屬性函數F是n維的,如果有多個屬性函數分量 F1,F2,F3,F4…Fn,如果忽略其中的 i個屬性(其中 i 約束劃分法:假設論域X存在多個約束條件,分別為C1,C2…Cn,那么可按 Ci進行劃分. 保假原理 首先將命題在商空間上的三元組(X,F,T)上的描述轉化為低粒度空間([X],[F],[T])上討論,對于問題求解,即從已知前提X而推出所需結論Y.如果將推導過程看成由X經X1,X2…Xn,最后推得Y,我們可得出一條由X到Y推理路徑X→X1→X2→X3→…Xn→Y.數學邏輯上可以描述為:由 X推出Y有解的充分必要條件是x、y在X上的同一條連通路徑中.采用拓撲學方法,得出以下保假原理結論. 定理1.1 假設(X,T)是([X],[T])的一個低粒度空間,如果求[X1]到[Y1]的問題在([X],[T])域上無解,那么求解X到Y的問題在(X,T)上也無解. 綜上所述,保假原理可表示當某命題在粒度較大空間中是假命題,那么該命題在比粒度較小的商空間中也將被認定為假命題. 保真原理 保真原理是商空間理論粒度計算中的一個重要定理,同時也是作為上述保假原理的一個重要補充,保假原理從問題分析的反面角度出發,去掉不包含問題解的部分,有效縮小檢索范圍.對于大部分滿足商空間理論粒度計算的結論都僅具有保假性,但在某些條件下也同時具有保真性. 定理 1.2 設(X1,T1),(X2,T2)是(X,T)上兩個不相同的半序空間,如果Xi(其中i=1、2)從作為某一前提滿足Xi→Yi的問題有解,那么對于合成空間(X3,T3)如果滿足X3=X1∩X2,Y3=Y1∩Y2,那么 X3→Y3同樣有解. 綜上所述,保真原理可表示為當某個命題在兩個較大粒度的商空間中為真時,那么在特定條件下,該命題在上述兩個商空間的并集中也判定為真. 為了驗證基于商空間的開發式信息檢索模型能夠改善查全率不足的問題,本文將該模型運用于某企業競爭情報分析系統中,擬解決原有系統中數據分析能力薄弱的問題,系統架構如圖1所示: 圖1 基于商空間的開放式信息檢索模型框架圖 從系統框架圖可知,本文模型主要可以分為三個模塊,包括源信息收集處理和索引庫的建立、用戶信息檢索模塊以及基于商空間的粒度計算模塊. 其中,源信息收集處理和索引庫的建立通過多種不同的來源,比如互聯網、本地文件系統以及本地或者遠程的數據庫系統采集海量的數據,介于采集到的數據存在著格式和結構上差異較大,信息冗余度較大,系統將對數據源進行有效信息的抽取以及相關預處理,包括了信息統一結構化、文檔去重等工作,處理之后形成文檔檢索庫,再通過快速索引技術建立索引庫提供索引服務. 用戶信息檢索模塊是用戶與系統交互的借口,接受用戶提交的查詢關鍵字交由搜索器進行進一步的查詢.該模塊具備友好的用戶界面以及高效的搜索器能夠從索引庫中迅速獲取與關鍵字匹配的結果序列. 基于商空間的粒度計算模塊包括商空間開放式信息知識庫、粒計算模塊以及檢索結果質量判斷模塊.該模塊屬于本文提出的基于商空間的開發式信息檢索模型在企業情報信息檢索系統中的運用. 商空間開放式信息知識庫的建立 商空間開放式信息知識庫工作時采用本文中提及的論域劃分技術建立商空間概念字典提供進一步的粒度計算支撐.對于每一個詞元,我們引用商空間三元組(X,F,T)描述,X表示語義相同的關鍵詞組,F表示論域的屬性集,T用于描述不同劃分方式的之間的比重.例如,如果用“動物”來表示關鍵詞組 X,那么“[昆蟲 |非昆蟲]”和“[冷血動物 |恒溫動物]”都作為屬性集F中的元素存在,但是這兩種元素是對關鍵詞組的不同粒度的劃分,并且前者T的比重要大于后者. 建立知識庫的過程如下: 步驟1:使用關鍵字訓練集為數據記錄集合加注標記 步驟2:采用基于粒度計算原理的聚類算法[4]進行聚類,輸出各類樣本組合及該分支的閾值T 步驟3:定義基于商空間的分類標準并進行屬性切分 步驟4:重新分類當前數據記錄集合 步驟5:重構形成新的三元組,存入知識庫 其中,基于粒度計算原理的聚類算法如下: 步驟1:對所有數據類別進行層次編號,對樣本進行序列化 步驟2:設初始閾值為最大閾值r,采用傳統聚類方法[5]對樣本進行聚類計算,從而得到聚類層次圖. 步驟3:在閾值T處切分聚類譜系圖G得到分支,每個分支構成一個子類Si 步驟4: 步驟5:對既定的數據樣本集進一步分類,計算數據樣本的各個子類類別重心.鑒于不同數據樣本集的規模并不平均,所以在進行分類時需要調整各個子類的類別重心,如果樣本數較少,則類別重心需要適當擴張,反之,類別重心適當向內退縮. 步驟6:計算各樣本與調整后的各個子類的類別重心之間的SVM夾角余弦cosθ,將各個樣本并入cosθ值最大的子類中. 粒度計算模塊 粒度計算模塊的主要功能是通過將關鍵詞放入商空間開放式信息知識庫中進行檢索,獲取不同粒度層面上的解,即將原始論域X轉化為新論域[X]的過程.通過這種方式提高信息檢索的查全率,該模塊主要工作流程如下: 步驟1:根據前一階段的搜索結果序列判定結果 步驟2:利用商空間開放式信息知識庫對關鍵詞集構造粒度層次樹 步驟4:將各個粒度層次上的搜索結果進行合成. 本章實驗基礎是采用Java開發的企業情報信息采集系統[6].對于企業情報信息采集,本章采用基于商空間的粒度計算分類算法,查詢結果取得了更高的檢索查全率.首先在用戶界面模塊中,采用基于詞典的分詞方法對主題關鍵詞團進行切詞,所使用的測試集包含3625個去重后的詞.然后采用本文提出的粒度計算方法進行文本檢索,并且根據不同領域分類顯示搜索結果.表1給出了各類經典搜索方法和本文方法檢索的查全率和查準率的比較. 圖2將上述實驗結果采用直方圖的方式展示出來,通過與各種經典算法查詢出來的結果進行比較,本文算法能夠保證一定的查準率范圍,極大程度的提高了查詢的查全率. 表1 網頁搜索結果比較 圖2 各類搜索結果比較 本文針對大部分垂直搜索中查全率不足的問題提出一種基于商空間的開放式信息檢索模型,通過建立商空間信息知識庫,采用粒度計算的方法對關鍵詞團進行擴展,尋求其在不同粒度層面的解,改進查全率不足的問題.本文將該模型運用于某企業競爭情報分析系統中,改善原有系統中數據分析能力薄弱的問題. 本文提出的基于商空間的開放式信息檢索模型還存在不少需要完善和改進的部分,比如對動態粒度閾值控制和商空間論域元素模型等,這些將是今后研究的重點. 本文作者創新點:提出一種基于商空間的開發式信息檢索模型,將粒計算方法用于改進垂直檢索中查全率不足的問題,并且運用于某企業競爭情報分析系統,取得良好的成效. 〔1〕李曉玲.Internet信息檢索探討 [J].重慶交通學院學報,2001,03. 〔2〕林文清.B2B垂直搜索引擎在信息獲取技術中的應用[J].情報雜志,2007,9:120~121. 〔3〕張鈴,張鈸.模糊商空間理論(模糊粒度計算方法)[J].軟件學報,2003,14. 〔4〕東波,白碩,李國杰.聚類,分類中的粒度原理[J].計算機學報,2002,25(8):810—816. 〔5〕郭偉,唐曉君,劉萬軍.一種基于劃分的聚類算法分析與改進[J].遼寧工程技術大學學報,2004,06. 〔6〕余志紅.競爭情報在企業發展中的價值初探[J].貴陽學院學報(自然科學版),2006,02.3.2 商空間粒度推理模型
4 系統架構以及相關關鍵技術
4.1 系統架構

4.2 關鍵技術分析



5 實驗環境與結構分析


6 結束語