[摘要] 本文介紹了SQL Server中聚簇索引和非聚簇索引的使用,并針對索引的選擇進行了探討。
[關鍵詞] 聚簇索引 非聚簇索引 SQL Server
在應用系統中,尤其在聯機事務處理(OLTP)系統中,對數據查詢及處理速度已成為衡量應用系統成敗的標準。而采用索引來加快數據處理速度也成為廣大數據庫用戶所接受的優化方法。
但是,索引并不總是提高系統的性能,在增、刪、改操作中索引的存在會增加一定的工作量。因此,在適當的地方增加適當的索引并從不合理的地方刪除次優的索引,將有助于優化那些性能較差的SQL Server應用。實踐表明,合理的索引設計是建立在對各種查詢的分析和預測上的,只有正確地使索引與程序結合起來,才能產生最佳的優化方案。本文就SQL Server索引的使用進行了一些探討。
一、聚簇索引(clustered indexes)的使用
聚簇索引是一種對磁盤上實際數據重新組織以按指定的一個或多個列的值排序的索引。使用聚簇索引查找數據幾乎總是比使用非聚簇索引快。每張表只能建一個聚簇索引,建立聚簇索引的思想是:
1.大多數表都應該有聚簇索引或使用分區來降低對表尾頁的競爭,在一個高事務的環境中,對最后一頁的封鎖嚴重影響系統的吞吐量。
2.在聚簇索引下,數據在物理上按順序排在數據頁上,重復值也排在一起,因而在那些包含范圍檢查(between、<、<=、>、>=)或使用group by或order by的查詢時,一旦找到具有范圍中第一個鍵值的行,具有后續索引值的行保證物理上毗連在一起而不必進一步搜索,避免了大范圍掃描,可以大大提高查詢速度。
3.在一個頻繁發生插入操作的表上建立聚簇索引時,不要建在具有單調上升值的列(如IDENTITY)上,否則會經常引起封鎖沖突。
4.在聚簇索引中不要包含經常修改的列,因為碼值修改后,數據行必須移動到新的位置。
5.選擇聚簇索引應基于where子句和連接操作的類型。
聚簇索引的侯選列是:
(1)主鍵列,該列在where子句中使用并且插入是隨機的。
(2)按范圍存取的列,如pri_order>100 and pri_order< 200。
(3)在group by或order by中使用的列。
(4)不經常修改的列。
(5)在連接操作中使用的列。
二、非聚簇索引(nonclustered indexes)的使用
SQL Server缺省情況下建立的索引是非聚簇索引,由于非聚簇索引不重新組織表中的數據,而是對每一行存儲索引列值并用一個指針指向數據所在的頁面。每個非聚簇索引提供訪問數據的不同排序順序。在建立非聚簇索引時,要權衡索引對查詢速度的加快與降低修改速度之間的利弊。另外,還要考慮這些問題:
1.索引需要使用多少空間。
2.合適的列是否穩定。
3.索引鍵是如何選擇的,掃描效果是否更佳。
4.是否有許多重復值。
對更新頻繁的表來說,表上的非聚簇索引比聚簇索引和根本沒有索引需要更多的額外開銷。對移到新頁的每一行而言,指向該數據的每個非聚簇索引的頁級行也必須更新,有時可能還需要索引頁的分理。從一個頁面刪除數據的進程也會有類似的開銷,另外,刪除進程還必須把數據移到頁面上部,以保證數據的連續性。所以,建立非聚簇索引要非常慎重。非聚簇索引常被用在以下情況:某列常用于集合函數(如Sum,....);某列常用于join,order by,group by;查尋出的數據不超過表中數據量的20%。
三、索引的選擇技術
索引的有無,建立方式的不同將會導致不同的查詢效果,選擇什么樣的索引基于用戶對數據的查詢條件。一般來說建立索引的思路是:
1.主鍵時常作為where子句的條件,應在表的主鍵列上建立聚簇索引,尤其當經常用它作為連接的時候。
2.有大量重復值且經常有范圍查詢和排序、分組發生的列,或者非常頻繁地被訪問的列,可考慮建立聚簇索引。
3.經常同時存取多列,且每列都含有重復值可考慮建立復合索引來覆蓋一個或一組查詢,并把查詢引用最頻繁的列作為前導列,如果可能盡量使關鍵查詢形成覆蓋查詢。
4.如果知道索引鍵的所有值都是惟一的,那么確保把索引定義成惟一索引。
5.在一個經常做插入操作的表上建索引時,使用fillfactor(填充因子)來減少頁分裂,同時提高并發度降低死鎖的發生。如果在只讀表上建索引,則可以把fillfactor置為100。
6.在選擇索引鍵時,設法選擇那些采用小數據類型的列作為鍵以使每個索引頁能夠容納盡可能多的索引鍵和指針,通過這種方式,可使一個查詢必須遍歷的索引頁面降到最小。此外,盡可能地使用整數為鍵值,因為它能夠提供比任何數據類型都快地訪問速度。
四、結束語
實踐表明,不恰當的索引不但于事無補,反而會降低系統的執行性能。因為大量的索引在插入、修改和刪除操作時比沒有索引花費更多的系統時間。例如下面情況下建立的索引是不恰當的:
1.在查詢中很少或從不引用的列不會受益于索引,因為索引很少或從來不必搜索基于這些列的行。
2.只有兩個或三個值的列,如男性和女性(是或否),從不會從索引中得到好處。
另外,鑒于索引加快了查詢速度,但減慢了數據更新速度的特點。可通過在一個段上建表,而在另一個段上建其非聚簇索引,而這兩段分別在單獨的物理設備上來改善操作性能。