王 銳,張穎慧,陳 麗
(1.中國移動通信集團公司廣東分公司 廣州 510623;2.億陽信通股份有限公司 北京 100095;3.廣東交通職業技術學院計算機工程學院 廣州510650)
目前,隨著通信網絡的發展,網絡容量愈來愈龐大,新型設備層出不窮,電信運營商之間的競爭也越來越激烈,為了盤活網絡存量資產,加快網絡割接效率,達到有效使用網絡資源和快速開通業務的目的,各通信運營商建立了自己的網絡資源管理系統,包括傳輸、無線、數據、交換、動力、管線等各專業資源數據,為企業網絡管理和規劃、運營生產提供數據支撐。早期的資源管理系統各自獨立,例如無線資源管理系統、傳輸資源管理系統等,目前逐步向統一資源管理系統演進和發展,形成統一的網絡資源管理平臺。
綜合資源管理系統作為通信運營商OSS域的核心系統之一,管理了通信網絡中各專業的網絡資源。其最關鍵的業務應用之一就是給使用者提供從海量資源數據中快速、精確定位所需資源的能力,從而為后續資源的其他業務應用提供快捷的數據支撐及應用入口。
傳統的資源數據搜索方法都基于關系型數據庫,用戶查詢界面的方法主要有兩種。一種是完全基于用戶特定查詢條件需求的定制化開發,即用戶根據自己的搜索需求,給出一系列搜索條件,然后資源系統建設廠商根據搜索條件需求,從網絡資源數據的數據庫中按需進行搜索;另一種是資源系統建設廠商實現查詢條件在一定范圍的自定義能力,允許用戶在資源模型的范圍內,根據資源的屬性對查詢條件進行自定義,從而自行配置出滿足自己需要的搜索條件,由系統根據搜索條件從網絡資源數據的數據庫中按需進行搜索。
本文通過基于配置策略的網絡資源數據搜索方法,實現綜合、跨專業、快速、簡潔、準確的資源搜索方法,具體表現在:建立了在多個資源系統或多個專業資源搜索的索引,當發現資源有更新時,及時更新資源索引信息;同時針對資源模型進行業務模型抽象,建立網絡資源特有的數據抽取字段及索引分詞字段,使用戶以最少的輸入條件獲取盡可能多的匹配信息;同時通過關注優先技術,屏蔽傳統權限預定義模式,通過分析用戶行為,保障用戶搜索定位結果逐步趨向個人最期望獲取的搜索結果,即隨需而變。
傳統的資源數據搜索方法一般都存在如下缺點。
(1)按需定制化開發的搜索方法
·需要針對不同的用戶需求,開發出不同的資源數據搜索功能。一旦用戶需求有變更則必須重新進行定制開發,隨著資源系統業務應用的日益廣泛,需求的變更幾乎是必然的,這就導致后續的應用開發和維護成本非常高昂。
·主要針對某個資源管理系統或某個專業,如果涉及公共資源或多個專業資源關聯信息的搜索,就需要到各個系統或各個專業分別進行資源的搜索,搜索的信息孤立而且效率較低。
·無法根據用戶的關注點或查詢的頻次,個性化地提供搜索結果,無法提供基于用戶行為的搜索結果。
(2)基于模型的自定義搜索方法
·實現技術門檻較高,尤其是涉及多表關聯的資源數據搜索方法的自定義,目前業內缺乏成功的案例,絕大部分只實現了基于單表的資源搜索。
·用戶需要對資源模型有一定了解,自定義搜索條件有一定的難度及工作量。
由于目前傳統的資源數據搜索方法都是基于關系型數據庫的搜索模式,所以對于綜合資源系統這種資源模型復雜(資源關聯關系繁多),而且日益海量的數據的搜索,存在搜索效率低下的問題,無法滿足實際生產的需要。
基于以上問題,在資源項目中,引入了全文檢索技術。通過如下方面解決傳統資源檢索面臨的問題。
·統一檢索入庫,所有的資源準實時同步到索引庫中,采用統一的檢索頁面進行資源檢索。
·提供分次策略的可配置性及可維護性。按照業務屬性組合成用于某個業務屬性的精確查詢維度及全文模糊匹配維度策略,以滿足可擴展的業務需求。
·提供用戶的屬性、檢索信息和業務屬性的相關性,記錄分析用戶的檢索喜好,提供快速及智能的查詢結果優化分析。
基于配置策略的網絡資源數據搜索平臺的技術架構,主要包括配置控制層、資源索引層和資源搜索層,如圖1所示。

·配置控制層:根據資源數據的業務特點,進行數據的模型配置,支撐資源的索引建立和搜索,是整個系統的核心控制中樞。
·資源索引層:負責從網絡資源管理系統及外部系統提取資源數據,并按照從配置控制層抽取的資源搜索模型進行數據清洗以及相關的索引分詞策略配置,完成索引庫的創建,以便進行資源數據搜索。由于傳統關系型數據庫的搜索必須依賴于資源存儲的數據庫表查詢,而本搜索平臺是基于搜索引擎的設計,支持從多數據源獲取數據,滿足綜合資源管理的業務定位要求。故本搜索平臺在設計上考慮了對多數據源、多數據格式的支持,如 DB、XML、Excel。
·資源搜索層:負責分析用戶行為,即根據用戶輸入條件按照配置控制層定義的資源搜索模型權值,從資源索引層進行數據搜索,并將搜索結果轉化為用戶可識別的格式化數據。
下面就核心的配置控制模塊作進一步表述。
在資源管理系統中,所涵蓋的數據覆蓋了業務、物理、邏輯、空間等領域,并且數據量達到TB級以上。采用搜索引擎技術很好地解決了傳統關系型數據庫查詢單一以及效率低下的問題。配置控制層就是通過對資源業務模型以及索引模型的關系進行配置,使搜索引擎的查詢效率滿足用戶需求。
配置控制層包括了業務模型的描述以及依賴業務模型的索引模型配置。在本搜索平臺的全生命周期運行中,包括數據抽取、索引入庫、輸入分析、資源搜索等環節,都需要通過配置控制層進行相關的業務分析處理,主要包括如下信息。
(1)業務模型
業務模型表示從復雜的資源特征數據中抽取出共有的以及適合搜索的信息,并將關系型數據轉化成平面的二維數據格式。業務模型的定義為數據的抽取采集提供了執行指導和標準。
業務模型主要包括以下兩類。
·群體模型:群體特征屬性,如專業、網絡層次、地區、狀態等,按照群體將資源分類后,可以依據群體特征為后續的模型配置完成各種個性化的場景定制。
·個體模型:根據群體特征屬性進行細分,如網元名稱、電路名稱、管理IP地址、互聯IP地址等,個體模型的配置依賴于群體模型。
(2)搜索模型
為了有效地保障查詢的命中率,合理的分詞技術是關鍵。搜索模型就是針對業務模型,按照業務特征進行索引字段、分詞策略和權重的定義,提高資源搜索的命中率以及關注優先級。
(3)視圖模型
視圖模型是將搜索結果進行轉換,把結果轉換成用戶識別的業務結構化數據。
本方法的實施流程如圖2所示,具體包括創建資源索引(步驟1)和資源檢索查詢(步驟2)。
步驟1.1:建立資源模型的示意如圖3所示,根據目前電信資源業務模型,將資源搜索按照資源專業劃分為IP承載網、核心網、無線網、智能網、CMNET、GPRS、WLAN、IMS、集客、傳輸、動環、空間等大類。根據各大類包含的資源模型相似度,抽取資源模型的基礎屬性、擴展屬性。
基礎屬性指該大類內所有資源都具備的常用屬性,如IP承載網網元的基礎屬性包括網元名稱、別名、集團標準名、所屬站點、所屬機房、所屬專業、狀態、網元類型、管理IP地址、廠商等,傳輸鏈路的基礎屬性包括鏈路名稱、本端站點、本端網元、本端端口、對端站點、對端網元、對端端口等,集客的基礎屬性包括產品編碼、產品類型、客戶名稱、行業、客戶級別等。
擴展屬性指該資源預留的可擴展搜索屬性,對目前沒有固化的資源搜索屬性,做出針對性的搜索擴展,如對基站滿足廣東是否超級基站的搜索需求擴展。


為保證搜索結果的有效、準確,降低后續搜索擴展對框架的影響,就上述屬性進行約束,各類屬性均基于10個名稱類屬性、5個枚舉類屬性和3個日期類屬性約束定義。名稱屬性對應n0,n1,n2,…,n9,如名稱、站點、機房等,枚舉屬性對應s0,s1,s2…,s4,如專業、類型、狀態等,日期屬性對應d0,d1,d2,如創建日期、最后修改日期等。
步驟1.2:根據綜合資源管理的數據范圍,按照模型從各網管系統進行數據抽取。針對資源內部數據,可采用DB方式從各資源關系模型中抽取搜索模型字段,而對于其他網管系統,不一定完全能采用DB,可能采用Web Service+FTP方式進行XML格式數據傳遞,因此數據的來源可能是文件或XML消息。為了適應數據來源的多樣性,需要對數據采集模塊進行適配器設計,使其支持不同的數據源。同時,為了及時維護索引,還需要增加任務調度接口。資源索引建立的UML類圖設計如圖4所示。
以DB方式實現數據網的資源索引策略描述主要的運行過程,即配置數據集與索引模型的映射以及執行的SQL。運行過程如圖5所示。

圖5配置定義了索引文檔調用的數據源(如數據網數據視圖 view_search_datanet)、查詢 SQL、更新調度 SQL、索引字段與SQL結果集的映射。
步驟1.3:基于步驟1.1,將各大類資源數據進行基礎屬性、擴展屬性、全部屬性的組合打包,實現基于基礎屬性包、擴展屬性包、全部屬性包的多重屬性分詞,如BTS可以將n0,n1,n2,n3,n4屬性打包分詞,BSC可以將n0,n2,n4,s打包分詞,同樣也可以將BTS的n0字段與BSC的n0字段打包分詞。
對各搜索屬性、屬性包進行特有的分詞規則定制。如基本名稱類,采用資源特有的中文詞庫的中文分詞規則;對于特殊類名稱,由于特殊詞組多,命名規則特殊,采用較松散的字符串匹配分詞;對于枚舉類,采用全詞匹配;對于描述類,由于內容偏多,采用基于統計的分詞,根據關鍵詞的出現次數,獲取匹配率最高的數據。
屬性的打包配置分析如下。
(1)定義分詞策略
定義分詞策略運行流程如圖6所示。

圖6 定義分詞策略運行流程
(2)查詢索引庫策略
將n0,n1,n2,n3打包成n_s屬性包,如作為BSC網元的查詢索引庫策略,其運行流程如圖7所示。
(3)為n_s配置相應的分詞策略
為n_s配置相應的分詞策略的流程如圖8所示。

圖7 查詢索引庫策略運行流程

圖8為n_s配置相應的分詞策略流程
步驟2.1:根據資源模型類型及搜索模型,定義其顯示的業務名稱,這里需要配置映射規則,保障搜索結果的格式化顯示。
以實現無線專業的視圖模型配置為例,說明索引字段對應的業務顯示屬性映射,如圖9所示。

圖9 實現無線專業的視圖模型配置
步驟2.2:針對資源的搜索模型,劃分了不同的維度模型,如專業、網元類型、狀態、名稱、廠商等屬性,分別屬于大類、基礎、擴展。而這些信息的查詢權重不同,可以定義查詢的權重策略,優先查詢權重高的索引字段。
以BSC網元的查詢權重配置為例,說明按照專業及維度建立索引字段的權重配置,如圖10所示。

圖10 建立索引字段的權重配置
步驟2.3:針對用戶經常關注的資源進行記錄,記錄其專業及網元類型,保障用戶搜索資源時,進行用戶行為習慣的專業權重規則匹配。目前模式策略有兩種:統計優先原則,即根據用戶一段時間內的資源關注記錄,進行專業及網元類型匯總統計,將匯總結果最高的專業及網元類型作為默認搜索的權重規則匹配條件;最近優先原則,即將用戶上次關注的資源的所在專業和網元類型作為搜索的權重規則匹配條件。其實現步驟如下。
·用戶輸入關鍵字“廣州”進行搜索,查詢結果按照順序顯示如下:站點廣州羅沖圍;IP承載網的廣州地市的AR01;傳輸電路廣州西德勝—清遠核心站點30N0002等。
·用戶點擊 “傳輸電路廣州西德勝—清遠核心站點30N0002”,進行資源履歷信息或拓撲查詢等業務操作,系統記錄當前用戶點擊的“傳輸電路廣州西德勝—清遠核心站點30N0002”的所屬專業及網元類型,并進行點擊次數的計數器累加。
·用戶下次輸入“廣州”搜索,系統根據傳輸或傳輸電路的權重規則,自動優先查詢“業務站點A”字段。則當前的查詢結果按照順序顯示如下:傳輸電路廣州西德勝—清遠核心站點30N0002;IP承載網的廣州地市的AR01;站點廣州羅沖圍等。
至此,完成了從數據抽取、索引創建到客戶搜索查詢的過程。
本文彌補了傳統的基于關系型數據庫的搜索技術對于海量資源數據的搜索效率不高及資源定位不準確以及需要根據需求定制搜索功能等缺陷,充分利用資源索引策略的配置和建立,結合用戶行為分析、關注優先的技術,在提升搜索效率的基礎上,真正實現了用戶搜索結果的隨需而變。
目前此搜索方法已經應用于網絡資源管理系統中,運行結果穩定、可靠,用戶能夠迅速、準確、便捷地查詢和配置資源數據,給網管支撐、網絡管理和監控等工作帶來價值和便捷。后續將進一步完善網絡資源管理的中文分詞和業務模型研究,提升搜索結果的廣度、深度和準度。
1 程錦,張建.網絡化制造資源垂直搜索引擎的研究與應用.計算機應用,2007,27(5):1 116~1 118
2 王莉云,王華,陳剛等.基于Lucene的全文檢索系統的設計與實現.計算機工程與設計,2007,28(24):5 959~5 961
3 朱學昊,王儒敬,余鋒林等.基于Lucene的站內搜索設計與實現.計算機應用與軟件,2008,25(10)