聚類就是將物理或抽象對象的集合分組成為由類似的對象組成的多個類或簇的過程。聚類分析的重要特征就是“物以類聚”,即在同一個簇中的對象之間具有較高的相似度(較低的相異度),而不同簇中的對象之間相似度較低。聚類分析是一種無指導學習,不依賴預先定義的類和帶類標號的訓練樣本集合,因此聚類分析是一種觀察式學習,不是示例式學習。聚類是一個具有挑戰性的研究領域,為了對數據對象進行聚類,目前已經出現了大量算法,總的來說可以分為五類:基于劃分的方法、基于層次的方法、基于密度的方法、基于網格的方法以及基于模型的方法。