周 晶 孫喜民 羅 鵬
(國網電子商務有限公司 北京 100039)
在傳統模式下,搜索引擎都是根據頁面相互間的鏈接關系進行頁面分析,但不能表示頁面包含的信息內容,因此無法對其中的頁面信息進行提取與處理[1~3]。對信息的檢索過程也是通過關鍵詞分解與匹配來完成,不能深入理解與處理知識。由于互聯網已從原先只包含網頁超鏈接的簡單文檔萬維網轉變到了目前含有大量實體關系的數據萬維網,從而使當前的互聯網搜索引擎無法完全滿足查準率、查全率與智能化的要求[4~8]。
智能信息的搜索需以知識理解與邏輯推理作為判斷依據,在此基礎上對各項檢索內容與信息對象進行搜索分析[9]。相對于傳統搜索模式,智能信息的搜索可以對搜索過程與相關結果實施智能化處理,并且廣泛使用知識圖譜與語義網等,可以更加準確、全面地表達出不同信息對象間的語義關系,從而準確理解用戶發送的信息檢索要求極其需要表達的信息對象含義,這就為搜索引擎創造了語意理解的功能并使其具備一定的推理能力[10~11]。
知識圖譜最早是Google創造的一項互聯網應用技術,可以進一步優化初始搜索結果,更加精確描述實體概念與屬性,并使實體與概念間建立其更加明確的關系。從本質層面上分析,可以將知識圖譜視為一個語義網絡,是對不同知識集合的關聯,是通過連接多種信息對象而構成的一個關系網,可以采用結構化語義來描述真實世界,具備從關系角度對問題進行分析的能力[12~15]。可以利用知識圖譜來分析與信息搜索相關的復雜關系,并從語義層上理解用戶的真實意圖,從而有效提升搜索的效率。
通過設置合理的知識層次與知識概念映射方法,構建得到關于頂層知識本體與領域知識本體的架構。以本體分析工具為基礎,集成地球環境知識本體(SWEET)、上層知識通用本體庫(SUMO)等,根據地理信息標準規范知識構建得到時空方面的頂層知識本體,由此得到圖1所示的地理信息知識本體圖譜架構。

圖1 面向地理環境應用領域的知識圖譜框架圖
選擇關于地理環境知識的圖譜架構作為分析依據,利用分詞、搜索引擎Lucene、語義框架Jena多種工具,建立多結構信息資源的語義標注、注冊與索引。
以定制化方式對應用領域的各項數據信息進行搜集,之后采用半自動方法標注數據資源的信息,再自動索引數據資源的內容,得到關于資源描述框架(RDF)的語義信息。
RDF都是使用開放的三元組結構,可以實現靈活擴展,并不太適合用于傳統關系存儲模型,此外還需能夠支持數據檢索與分析方面的功能。根據以上分析,我們通過列數據庫分布式與擴展模型并引入列數據庫擴展方法構建得到了語義信息的動態存儲方法,可以采用分布式方法來管理所有數據資源,也可以實現語義信息的高效檢索過程。
語義相似程度指的是不同概念詞間的相互關聯性,通常可以根據語義距離與語義相關性來評價語義相似度。計算語義相似度時可以選擇的模型包括基于距離、內容或屬性的語義相似度模型,得到的計算結果準確度也存在較大區別,主要取決于概念與知識的組織方式與準確性。利用知識圖譜構建得到關于概念實例的映射關系以及跨域語義相似度分析模型,以此實現對智能信息的搜索分析。
在建立語義相似度分析模型的時候,需假定下述幾項條件并確定計算方法。首先,知識圖譜下層結構中的各項概念應比上層結構的概念更加詳細與明確,并且概念差異性表現為深度增大而不斷變小的情況,二元關系具有比繼承關系更遠的語義距離。

上式中的 dep(C1)和 dep(C2)對應各個不同節點位于知識圖譜中的層次。
其次,為知識圖譜各部位設置不同的節點稠密度,當細分得到的子節點數量增加后,子節點間語義距離將逐漸減小,同時相似度上升,否則各子節點的抽象性越高,相似性也越低。之后,定義節點。L以及與該節點存在繼承關系或二元關系的連接節點c。所具有的密度權重,表示知識圖譜包含此類連接。

圖2 地理環境應用知識圖譜的形態與關系
各節點比如下:

通過結合應用信息量分析方法與知識圖譜計算方法,使動態概率估計與固定知識結構相互結合,從而對不同概念的相似性進行客觀表達。知識圖譜所包含的概念詞匯信息取決于該詞在文獻集里的出現頻率。根據D.Lin提出的信息量度量方法可以發現,兩個概念詞的相似度取決于兩者具有共同含義的信息量和總信息量相比所得的結果。知識圖譜里的.與c,共同含義指的兩者間的共享父節點cn,如下所示:

示該文檔所包含的詞匯總數,words(c)代表概念。同義詞與入口詞構成的集合,同時還應專門指出,概念出現于文獻集中的概率還要加上文獻中這一概念子類的出現概率。由此可以得到:

根據知識圖譜對語義與搜索對象的信息相似度分析方法,除了需要考慮知識圖譜的屬性、層次位置、定義密度各項信息以外,同時還要結合數據集的自身特征,對實際客觀原貌進行模擬分析,采用并行訓一算架構可以完成分解任務的過程,促進訓一算效率的顯著提升。
從“國家地理網”與“中國臺灣網”等多個網站上分別收集了約1000篇關于地理信息的文檔進行測試,同時保留未做標記的文本資料,其中每篇文檔含有的字數平均為2000左右,通過分詞處理后得到約1600個,根據給出的智能信息搜索方法,分別從查準率與查全率兩個方面比較了信息搜索準確率的情況,具體見圖3。
采用普通智能搜索方法,關于B的概念可以擴展查詢到包括上位概念與子概念的所有文檔,并且在上位概念文檔中還可以發現存在和B沒有關聯性的文檔,查詢到兄弟節點F與G對應的各個文檔,將會引起搜索漂移的現象,由此導致查準率下降的現象。選擇圖3的信息內容作為研究例子,可以看到查詢結果產生了B,通過檢索得到文檔概念集合是{B,C,D,E,A,F,G},之后計算出查準率是(100^5)/(10^6+30)=56%,查全率是(100^5)/(10^6)=83%。
采用的智能搜索模型是在添加用戶反饋的條件下,將查詢信息輸入后再進行語義分析,使領域關鍵字B被映射至本體概念,再擴展查詢所得結果,因為子節點屬于父節點概念細化的結果,所以可以進行準確的子節點擴展查詢。以父節點實施擴展時,得到的文檔中有部分和B兄弟節點存在關系,所以可以采用擴展算法的兄弟概念和文檔建立匹配關系,并從返回結果數據中剔除關于F與G的條口;之后再擴展得到B的緊密屬性,根據索引策略可知匹配得到的文檔中沒有形成B,但形成了關于B的密切文檔,所以可能和B存在較大的關聯。結合圖3給出的信息可以發現,查詢結果中存在B,未將其添加到新型智能搜索引擎中時,可以檢索得到如下的文檔概念集合{B,C,D,E,A},由此得到查準率是600/(400+100+200)=86%,查全率是600/600=100%。因此,分別選擇原型智能搜索系統和Lu-Gene全文檢索系統實施測試,得到圖4所示的實驗測試結果。

圖3 信息搜索準確率提升對比示意圖
用戶在開展實際應用的過程中所關注的內容通常表現出明顯的相似性,因此智能搜索系統可以根據這些用戶提供的反饋信息對各項需求內容進行記錄與分析,也可以進行多次反饋迭代,使系統搜索查準率獲得顯著提升。

圖4 搜索準確率對比圖
1)通過設置合理的知識層次與知識概念映射方法,構建得到關于頂層知識本體與領域知識本體的架構。并結合應用信息量分析方法與知識圖譜計算方法,使動態概率估計與固定知識結構相互結合,對不同概念的相似性進行客觀表達。
2)從“國家地理網”與“中國臺灣網”等多個網站上分別收集了約1000篇關于地理信息的文檔進行測試,得到查詢結果中存在B,得到查準率86%,查全率100%。用戶在開展實際應用的過程中所關注的內容通常表現出明顯的相似性,可以進行多次反饋迭代,使系統搜索查準率獲得顯著提升。