摘要:隨著信息量以爆炸般的速度在急劇增長,當前在信息管理方面所面臨的最嚴峻的挑戰不再是信息匾乏,而是缺少時間和精力來對如此眾多的信息進行分析、歸類與操作。本文探討了在內容管理系統中內容分類的實現方法。
關鍵詞:內容管理系統 內容分類 方法
0 引言
隨著信息量以爆炸般的速度在急劇增長,當前在信息管理方面所面臨的最嚴峻的挑戰不再是信息匾乏,而是缺少時間和精力來對如此眾多的信息進行分析、歸類與操作。因此內容的分類不僅有利于更快捷地實現內容的查詢,而且有效的分類方法同樣有助于對紛雜的信息進行組織與歸類,有助于人們縮小查詢的范圍,節省時間和精力。可見內容管理對內容分類的要求是十分必要的。
現在分類的方法大體上分為人工分類、自動化分類以及人機結合的混和方法三種。顯而易見,人工分類是最容易被想到的。但是這種方法顯而易見的過多的依賴于個人,且成本太高。并且當內容量過大的時候,單單依靠手工方法進行分類也不太現實,很容易成為系統的瓶頸。因此,人們更加關注于自動化分類方法。現在主要應用的自動化分類方法主要有以下幾種方法。
1 自動化分類方法
1.1 基于規則的分類方法:這種方法需要由對相關內容極為了解的專家創建與維護一套規則用于將某篇文檔劃分到某個類中。專家使用If-Then的規則形式組織歸類的相關概念。規則能夠支持復雜的操作,而且建立在規則之上的決策樹也相當準確。規則衡量了一個給定的文檔是否符合某個主題的判斷標準。顯然,建立這樣一種規則并不容易,并且專家對相關內容知識的了解程度也相當重要。
1.2 基于自然語言的學習算法:該方法利用神經網絡的方法,通過分析文檔的內容區分文檔并將文檔進行分類。由于這種方法具有較高的容錯能力及語言獨立的操作性等特點,正在成為一種相對穩定的分類方法。這種方法通過選擇文檔的表示方式或可能的格式,利用神經網絡實現對內容的分類,可以被應用到文本文檔或文本片斷的分類中去。
1.3 語義分析:這是以從文檔中提取關鍵的概念作為分類與檢索的基礎。語義分析過程共分為兩個階段,第一個階段的工作主要集中于一系列的語言算法以及語言獨立的統計技術的實現。當用戶對系統中收集的信息進行查詢時則觸發該過程的第二階段,系統可以根據用戶的查詢需求以及可視化的分類結構呈現給用戶個性化的、相關的查詢結果。
1.4 模式匹配:這種方法是指尋找經常聚在一起的一組詞或詞組的過程。一個主題可能通過語義分析進行處理。其他的識別模式還包括詞在文檔當中的出現頻率、詞的位置、詞與詞之間的親近程度以及相關詞的聚類。模式匹配方法具有語言獨立的特點。
1.5 聚類分析:這是通過識別內容中的共性元素將內容劃分為相似內容子集。每篇文檔可以看作一些內容的合集,聚類本質上就是將每一袋中的相似內容聚為一組。
以上每一種分類方法都有其自身的優點與不足,沒有哪一種單一的分類方法是十全十的。每種方法都有其適用的方面。所以,現在人們往往采用混合的分類方法。下面我們著重分析一種基于神經網絡的分類方法。
2 基于聚類分析的分類方法
聚類分析是一種解決分類問題的探測性的數據分析方法。它的目標是把人、事務、事件等聚為組或類,每一類描述它的對象所屬的類。該方法是通過建立一個對象間的相似性度量,使得類間的相似性盡量小,而類內的相似性盡量大,從而得到在某種判別準則之下的最佳分類,這種分類的結果未必使用簡單的概念就可以描述的。換言之,其分類的標準并不是顯而易見的。
假設特征向量由n個特征參數x,x,…,x組成聚類分析按照一定的準則,將這些特征向量點劃分為若干個群。聚類也用于將一個內容的集合劃分為子集,也就是類。每一類內的對象之間都比該類對象與屬于其它類的對象之間具有更大的相似性。
芬蘭學者T.Kohonen提出一種可以使得輸入信號映射到低維空間,且保持相同特征的輸入信號在空間上對應鄰近區域的學習方式,稱為Kohonen自組織特征映射(self-organizing feature maps, SOFM)也稱Kohonen自組織神經網絡。
Kohonen自組織神經網絡是一種前饋型網絡。在這種類型的神經網絡中各神經元接受前一層的輸入,并輸出給下一層,沒有反饋。節點分為兩類,即輸入單元和計算單元,每一計算單元可有任意多個輸入,但只有一個輸出。前饋網絡可分為不同的層,第I層的輸入只與第I-1層的輸出相連,輸入和輸出節點與外界相連,而其它中間層則稱為隱層。
前饋型網絡,由于Kohonen自組織特征映射網絡除了具備以下主要性能,因此采用Kohonen自組織神經網絡來實現內容的聚類。①對輸入數據有聚類作用,并可用聚類中心代表原輸入,起到數據壓縮作用。②保持拓撲有序性,輸入中特性相似的點映射后在空間上是鄰近的。③分布密度匹配,原數據中分布密的區域在映射圖上對應較大的區域,分布稀的則對應的區域也較小。
自組織網絡采用沒有指導的學習過程,不必給定應有的輸出,訓練數據只有輸入而沒有輸出,網絡只靠輸入模式本身的特征,根據一定的判斷標準自行修改單元連接的強度,使權矢量在輸入向量空間中的分布近似于樣本的分布。這也就是為什么采用自組織神經網絡來解決內容的分類問題的原因和依據,因為在對內容進行聚類前,可以分成什么樣的類以及不同的內容歸屬的類別本來就是未知的。
3 實現的步驟及方法
在此研究一種利用智能技術得到內容的分類結構的方法。該方法通過人或統計工具對文本內容進行預處理,將文本內容以標準化的特征向量表示,然后利用Kohonen自組織特征映射網絡實現內容的自動聚類。現將對文本內容進行聚類的方法與步驟簡單描述如下:
3.1 用標準的矢量形式表示文本內容。要實現內容的自動聚類,首先要把待聚類的內容集用標準的矢量形式表示出來。由于給不同的文本內容建立關鍵字是可行的,而且關鍵字又是最易于代表文本內容語義的,因此可以通過文本內容的關鍵字作為中間橋梁將內容表示成標準的矢量形式。用標準的矢量形式表示文本內容,這是利用神經網絡實現內容的自動聚類的基礎。
3.2 選擇樣本文檔。Kohonen網絡采用的是無監督學習算法,因此在通過該網絡對內容進行聚類前需要選擇樣本內容作為訓練集,使自組織網絡學習如何對內容進行聚類。樣本的選擇應當具有代表性與廣泛性。
3.3 初始化網絡的輸入節點、輸出節點以及連接權值。將以n個關鍵字或文本特征表示文本內容的n維矢量作為輸入向量,同時生成含有m個輸出節點的二維映射。
3.4 將代表文本內容的特征向量輸入到網絡中。
3.5 在輸出節點中選擇最佳匹配節點。計算輸入節點與所有的輸出節點權值的接近程度,選擇距離最小,即輸出節 點權值與輸入值最接近的節點作為獲勝節點。
3.6 調整權值。調整獲勝節點及其鄰域的節點的權值,從而使這些輸出節點的權值與輸入值更接近。
3.7 標注代表不同類的輸出節點。不斷重復以上過程,學習算法結束后,各輸出節點的權值顯示了聚類中心,將不同的類加以標注,以示區分。經過訓練的網絡可以用上述同樣的方法對新的文本內容進行聚類。
3.8 對分類結果中包含大量輸入樣本的類別,遞歸應用以上步驟,繼續在大類下劃分更小的類。
經過以上過程便可以得到文本內容的分類結構,該分類結構可能是類與類之間相互獨立的結構,也可能是層次結構。基于這種由智能聚類得到的分類結構,我們便可以利用經過訓練的網絡用同樣的方法實現對不同文本內容的分類。
參考文獻:
[1]朱愛華.基于語義網格的內容管理系統[J].廣播與電視技術.2009.(01).
[2]薛勤,何險峰.內容分類與元數據在內容管理系統中的應用[J].四川氣象.2007.(04).