VB.net 2010 視頻教程 VB.net 2010 視頻教程 VB.net 2010 視頻教程
SQL Server 2008 視頻教程 c#入門經典教程 Visual Basic從門到精通視頻教程
當前位置:
魔兽世界wow > 數據庫 > sql語句 >
  • sql語句大全之sqlserver性能優化之索引的使用和優

  • 2018-11-28 17:01 來源:未知

魔兽世界地图: sqlserver性能優化之索引的使用和優化


在應用系統中,尤其在聯機事務處理系統中,對數據查詢及處理速度已成為衡量應用系統成敗的標準。而采用索引來加快數據處理速度也成為廣大數據庫用戶所接受的優化方法。

在良好的數據庫設計基礎上,能有效地使用索引是SQL Server取得高性能的基礎,SQL Server采用基于代價的優化模型,它對每一個提交的有關表的查詢,決定是否使用索引或用哪一個索引。因為查詢執行的大部分開銷是磁盤I/O,使用索引提高性能的一個主要目標是避免全表掃描,因為全表掃描需要從磁盤上讀表的每一個數據頁,如果有索引指向數據值,則查詢只需讀幾次磁盤就可以了。所以如果建立了合理的索引,優化器就能利用索引加速數據的查詢過程。但是,索引并不總是提高系統的性能,在增、刪、改操作中索引的存在會增加一定的工作量,因此,在適當的地方增加適當的索引并從不合理的地方刪除次優的索引,將有助于優化那些性能較差的SQL Server應用。實踐表明,合理的索引設計是建立在對各種查詢的分析和預測上的,只有正確地使索引與程序結合起來,才能產生最佳的優化方案。本文就SQL Server索引的性能問題進行了一些分析和實踐。

一、聚簇索引(clustered indexes)的使用


  聚簇索引是一種對磁盤上實際數據重新組織以按指定的一個或多個列的值排序。由于聚簇索引的索引頁面指針指向數據頁面,所以使用聚簇索引查找數據幾乎總是比使用非聚簇索引快。每張表只能建一個聚簇索引,并且建聚簇索引需要至少相當該表120%的附加空間,以存放該表的副本和索引中間頁。建立聚簇索引的思想是:

  1、大多數表都應該有聚簇索引或使用分區來降低對表尾頁的競爭,在一個高事務的環境中,對最后一頁的封鎖嚴重影響系統的吞吐量。

  2、在聚簇索引下,數據在物理上按順序排在數據頁上,重復值也排在一起,因而在那些包含范圍檢查(between、<、<=、>、>=)或使用group by或order by的查詢時,一旦找到具有范圍中第一個鍵值的行,具有后續索引值的行保證物理上毗連在一起而不必進一步搜索,避免了大范圍掃描,可以大大提高查詢速度。

  3、在一個頻繁發生插入操作的表上建立聚簇索引時,不要建在具有單調上升值的列(如IDENTITY)上,否則會經常引起封鎖沖突。

  4、在聚簇索引中不要包含經常修改的列,因為碼值修改后,數據行必須移動到新的位置。

  5、選擇聚簇索引應基于where子句和連接操作的類型。聚簇索引的侯選列是:

    1、主鍵列,該列在where子句中使用并且插入是隨機的。
2、按范圍存取的列,如pri_order > 100 and pri_order < 200。
    3、在group by或order by中使用的列。
    4、不經常修改的列。
    5、在連接操作中使用的列。

二、非聚簇索引(nonclustered indexes)的使用


  SQL Server缺省情況下建立的索引是非聚簇索引,由于非聚簇索引不重新組織表中的數據,而是對每一行存儲索引列值并用一個指針指向數據所在的頁面?;瘓浠八搗薔鄞廝饕哂性謁饕峁購褪荼舊碇淶囊桓齠鍆餳?。一個表如果沒有聚簇索引時,可有250個非聚簇索引。每個非聚簇索引提供訪問數據的不同排序順序。在建立非聚簇索引時,要權衡索引對查詢速度的加快與降低修改速度之間的利弊。另外,還要考慮這些問題:

  1、索引需要使用多少空間。

  2、合適的列是否穩定。

  3、索引鍵是如何選擇的,掃描效果是否更佳。

  4、是否有許多重復值。

  對更新頻繁的表來說,表上的非聚簇索引比聚簇索引和根本沒有索引需要更多的額外開銷。對移到新頁的每一行而言,指向該數據的每個非聚簇索引的頁級行也必須更新,有時可能還需要索引頁的分理。從一個頁面刪除數據的進程也會有類似的開銷,另外,刪除進程還必須把數據移到頁面上部,以保證數據的連續性。所以,建立非聚簇索引要非常慎重。非聚簇索引常被用在以下情況: 

  1、某列常用于集合函數(如Sum,....)。

  2、某列常用于join,order by,group by。

  3、查尋出的數據不超過表中數據量的20%。


三、覆蓋索引(covering indexes)的使用


  覆蓋索引是指那些索引項中包含查尋所需要的全部信息的非聚簇索引,這種索引之所以比較快也正是因為索引頁中包含了查尋所必須的數據,不需去訪問數據頁。如果非聚簇索引中包含結果數據,那么它的查詢速度將快于聚簇索引。

  但是由于覆蓋索引的索引項比較多,要占用比較大的空間。而且update操作會引起索引值改變。所以如果潛在的覆蓋查詢并不常用或不太關鍵,則覆蓋索引的增加反而會降低性能。

 

四、索引的選擇技術


  p_detail是住房公積金管理系統中記錄個人明細的表,有890000行,觀察在不同索引下的查詢運行效果,測試在C/S環境下進行,客戶機是IBM PII350(內存64M),服務器是DEC Alpha1000A(內存128M),數據庫為SYBASE11.0.3。

查詢1、select count(*) from p_detail where op_date>’19990101’ and op_date<’19991231’ and pri_surplus1>300 

查詢2、select count(*),sum(pri_surplus1) from p_detail where op_date>’19990101’ and pay_month between‘199908’ and’199912’

不建任何索引
(查詢1) 1分15秒
(查詢2) 1分7秒

在op_date上建非聚簇索引
(查詢1) 57秒
(查詢2) 57秒

在op_date上建聚簇索引
(查詢1) <1秒
(查詢2) 52秒

在pay_month、op_date、pri_surplus1上建索引
(查詢1) 34秒
(查詢2) <1秒

在op_date、pay_month、pri_surplus1上建索引
(查詢1) <1秒
(查詢2) <1秒

  從以上查詢效果分析,索引的有無,建立方式的不同將會導致不同的查詢效果,選擇什么樣的索引基于用戶對數據的查詢條件,這些條件體現于where從句和join表達式中。一般來說建立索引的思路是:

  (1)、主鍵時常作為where子句的條件,應在表的主鍵列上建立聚簇索引,尤其當經常用它作為連接的時候。

  (2)、有大量重復值且經常有范圍查詢和排序、分組發生的列,或者非常頻繁地被訪問的列,可考慮建立聚簇索引。

  (3)、經常同時存取多列,且每列都含有重復值可考慮建立復合索引來覆蓋一個或一組查詢,并把查詢引用最頻繁的列作為前導列,如果可能盡量使關鍵查詢形成覆蓋查詢。

  (4)、如果知道索引鍵的所有值都是唯一的,那么確保把索引定義成唯一索引。

  (5)、在一個經常做插入操作的表上建索引時,使用fillfactor(填充因子)來減少頁分裂,同時提高并發度降低死鎖的發生。如果在只讀表上建索引,則可以把fillfactor置為100。

  (6)、在選擇索引鍵時,設法選擇那些采用小數據類型的列作為鍵以使每個索引頁能夠容納盡可能多的索引鍵和指針,通過這種方式,可使一個查詢必須遍歷的索引頁面降到最小。此外,盡可能地使用整數為鍵值,因為它能夠提供比任何數據類型都快的訪問速度。

五、索引的維護


  上面講到,某些不合適的索引影響到SQL Server的性能,隨著應用系統的運行,數據不斷地發生變化,當數據變化達到某一個程度時將會影響到索引的使用。這時需要用戶自己來維護索引。索引的維護包括:

  1、重建索引

  隨著數據行的插入、刪除和數據頁的分裂,有些索引頁可能只包含幾頁數據,另外應用在執行大塊I/O的時候,重建非聚簇索引可以降低分片,維護大塊I/O的效率。重建索引實際上是重新組織B-樹空間。在下面情況下需要重建索引:

  (1)、數據和使用模式大幅度變化。

  (2)、排序的順序發生改變。

  (3)、要進行大量插入操作或已經完成。

  (4)、使用大塊I/O的查詢的磁盤讀次數比預料的要多。

  (5)、由于大量數據修改,使得數據頁和索引頁沒有充分使用而導致空間的使用超出估算。

  (6)、dbcc檢查出索引有問題。

  當重建聚簇索引時,這張表的所有非聚簇索引將被重建.

  2、索引統計信息的更新

  當在一個包含數據的表上創建索引的時候,SQL Server會創建分布數據頁來存放有關索引的兩種統計信息:分布表和密度表。優化器利用這個頁來判斷該索引對某個特定查詢是否有用。但這個統計信息并不動態地重新計算。這意味著,當表的數據改變之后,統計信息有可能是過時的,從而影響優化器追求最有工作的目標。因此,在下面情況下應該運行update statistics命令:

  (1)、數據行的插入和刪除修改了數據的分布。

  (2)、對用truncate table刪除數據的表上增加數據行。

  (3)、修改索引列的值。

六、結束語


  實踐表明,不恰當的索引不但于事無補,反而會降低系統的執行性能。因為大量的索引在插入、修改和刪除操作時比沒有索引花費更多的系統時間。例如下面情況下建立的索引是不恰當的:

  1、在查詢中很少或從不引用的列不會受益于索引,因為索引很少或從來不必搜索基于這些列的行。

  2、只有兩個或三個值的列,如男性和女性(是或否),從不會從索引中得到好處。

  另外,鑒于索引加快了查詢速度,但減慢了數據更新速度的特點??賞ü諞桓齠紊轄ū?,而在另一個段上建其非聚簇索引,而這兩段分別在單獨的物理設備上來改善操作性能。

影響SQL server性能的關鍵三個方面

一、邏輯數據庫和表的設計數據庫的邏輯設計、包括表與表之間的關系是優化關系型數據庫性能的核心。一個好的邏輯數據庫設計可以為優化數據庫和應用程序打下良好的基礎。
  標準化的數據庫邏輯設計包括用多的、有相互關系的窄表來代替很多列的長數據表。下面是一些使用標準化表的一些好處。
  A:由于表窄,因此可以使排序和建立索引更為迅速
  B:由于多表,所以多鏃的索引成為可能
  C:更窄更緊湊的索引
  D:每個表中可以有少一些的索引,因此可以提高insert update delete等的速度,因為這些操作在索引多的情況下會對系統性能產生很大的影響

  E:更少的空值和更少的多余值,增加了數據庫的緊湊性

  由于標準化,所以會增加了在獲取數據時引用表的數目和其間的連接關系的復雜性。太多的表和復雜的連接關系會降低服務器的性能,因此在這兩者之間需要綜合考慮。定義具有相關關系的主鍵和外來鍵時應該注意的事項主要是:用于連接多表的主鍵和參考的鍵要有相同的數據類型。

魔兽世界wow www.geyjm.icu   

二、索引的設計


  A:盡量避免表掃描檢查你的查詢語句的where子句,因為這是優化器重要關注的地方。包含在where里面的每一列(column)都是可能的侯選索引,為能達到最優的性能,考慮在下面給出的例子:對于在where子句中給出了column1這個列。下面的兩個條件可以提高索引的優化查詢性能!第一:在表中的column1列上有一個單索引第二:在表中有多索引,但是column1是第一個索引的列避免定義多索引而column1是第二個或后面的索引,這樣的索引不能優化服務器性能例如:下面的例子用了pubs數據庫。
SELECT au_id, au_lname, au_fname FROM authors WHERE au_lname = 'White' 按下面幾個列上建立的索引將會是對優化器有用的索引
  au_lname
  au_lname, au_fname而在下面幾個列上建立的索引將不會對優化器起到好的作用
  au_address
  au_fname, au_lname考慮使用窄的索引在一個或兩個列上,窄索引比多索引和復合索引更能有效。用窄的索引,在每一頁上將會有更多的行和更少的索引級別(相對與多索引和復合索引而言),這將推進系統性能。對于多列索引,SQL Server維持一個在所有列的索引上的密度統計(用于聯合)和在第一個索引上的
histogram(柱狀圖)統計。根據統計結果,如果在復合索引上的第一個索引很少被選擇使用,那么優化器對很多查詢請求將不會使用索引。有用的索引會提高select語句的性能,包括insert,uodate,delete。但是,由于改變一個表的內容,將會影響索引。每一個insert,update,delete語句將會使性能下降一些。實驗表明,不要在一個單表上用大量的索引,不要在共享的列上(指在多表中用了參考約束)使用重疊的索引。在某一列上檢查唯一的數據的個數,比較它與表中數據的行數做一個比較。這就是數據的選擇性,這比較結果將會幫助你決定是否將某一列作為侯選的索引列,如果需要,建哪一種索引。你可以用下面的查詢語句返回某一列的不同值的數目。
  select count(distinct cloumn_name) from table_name假設column_name是一個10000行的表,則看column_name返回值來決定是否應該使用,及應該使用什么索引。
Unique values Index
5000 Nonclustered index
20 Clustered index
3 No index
  鏃索引和非鏃索引的選擇
  <1:>鏃索引是行的物理順序和索引的順序是一致的。頁級,低層等索引的各個級別上都包含實際的數據頁。一個表只能是有一個鏃索引。由于update,delete語句要求相對多一些的讀操作,因此鏃索引常常能加速這樣的操作。在至少有一個索引的表中,你應該有一個鏃索引。在下面的幾個情況下,你可以考慮用鏃索引:例如:某列包括的不同值的個數是有限的(但是不是極少的)顧客表的州名列有50個左右的不同州名的縮寫值,可以使用鏃索引。例如:對返回一定范圍內值的列可以使用鏃索引,比如用between,>,>=,<,<=等等來對列進行操作的列上。
select * from sales where ord_date between '5/1/93' and '6/1/93'例如:對查詢時返回大量結果的列可以使用鏃索引。

  SELECT * FROM phonebook WHERE last_name = 'Smith'

  當有大量的行正在被插入表中時,要避免在本表一個自然增長(例如,identity列)的列上建立鏃索引。如果你建立了鏃的索引,那么insert的性能就會大大降低。因為每一個插入的行必須到表的最后,表的最后一個數據頁。當一個數據正在被插入(這時這個數據頁是被鎖定的),所有的其他插入行必須等待直到當前的插入已經結束。一個索引的葉級頁中包括實際的數據頁,并且在硬盤上的數據頁的次序是跟鏃索引的邏輯次序一樣的。 

  <2:>一個非鏃的索引就是行的物理次序與索引的次序是不同的。一個非鏃索引的葉級包含了指向行數據頁的指針。在一個表中可以有多個非鏃索引,你可以在以下幾個情況下考慮使用非鏃索引。在有很多不同值的列上可以考慮使用非鏃索引例如:一個part_id列在一個part表中select * from employee where emp_id = 'pcm9809f'查詢語句中用order by子句的列上可以考慮使用鏃索引 
  三、查詢語句的設計
  SQL Server優化器通過分析查詢語句,自動對查詢進行優化并決定最有效的執行方案。優化器分析查詢語句來決定那個子句可以被優化,并針對可以被優化查詢的子句來選擇有用的索引。最后優化器比較所有可能的執行方案并選擇最有效的一個方案出來。在執行一個查詢時,用一個where子句來限制必須處理的行數,除非完全需要,否則應該避免在一個表中無限制地讀并處理所有的行。例如下面的例子,select qty from sales where stor_id=7131是很有效的比下面這個無限制的查詢select qty from sales避免給客戶的最后數據選擇返回大量的結果集。允許SQL Server運行滿足它目的的函數限制結果集的大小是更有效的。這能減少網絡I/O并能提高多用戶的相關并發時的應用程序性能。因為優化器關注的焦點就是where子句的查詢,以利用有用的索引。在表中的每一個索引都可能成為包括在where子句中的侯選索引。為了最好的性能可以遵照下面的用于一個給定列column1的索引。第一:在表中的column1列上有一個單索引第二:在表中有多索引,但是column1是第一個索引的列不要在where子句中使用沒有column1列索引的查詢語句,并避免在where子句用一個多索引的非第一個索引的索引。這時多索引是沒有用的。
For example, given a multicolumn index on the au_lname, au_fname columns of the authors table in 
the pubs database,下面這個query語句利用了au_lname上的索引
SELECT au_id, au_lname, au_fname FROM authors
WHERE au_lname = 'White'
AND au_fname = 'Johnson'
相關教程