SqlServer 索引建立
SqlServer 索引建立
CREATE INDEX语法
CREATE INDEX语句所做的事情与其听上去一样-用于在指定表或视图上基于声明的列创建索引:
1 | CREATE [UNIQUE] [CLUSTERED | NONCLUSTERED] |
CREATE INDEX语句必须随表或者视图出现,并且需要声明列所在(ON)的表。下面解释个选项的作用
- ASC/DESC
这两个选项允许为索引选择升序和降序排列顺序。默认选项为ASC,它是升序。
为什么需要升序和降序两个选项呢?不是反序查看索引不就行了吗?但是如果一列按升序排列,但是其他列要求按降序排列,怎么办呢?因为索引的列是存储在一起的,所以对一列反向查看索引也将倒转其他列的顺序。如果显示地声明某一列是升序,而另一列是降序,那么将直接在索引的物理数据中倒转第二列-突然间就不必改变访问数据的方式了。 - INCLUDE
这是SQL Server2005及后续版本支持的选项。它的目的是为覆盖查询(covered queries)提供更好的支持。
当包含(INCLUDE)列而不是将列放在ON列表上时,SQL Server仅仅在索引的叶级上添加它们。因为在索引叶级上的每一行对应于一个数据行,所以所做的事情在本质上是将更多的原始数据包含在索引的叶级上。这样做有一个好处,因为SQL Server在有了它实际需要的内容就停止工作。SQL Server在遍历索引时没有继续访问实际的数据行就找到所需的所有数据,那么就不必再到达数据行。通过在索引中包含特定的列,可以在叶级“覆盖”利用该特定索引的查询,从而节省了与使用索引指针到达数据页相关的I/O。实际是,比如你为一个日期列创建索引,但是INCLUDE一个订单ID列。那么查找某日期的订单ID,就不必再到实际数据行了,因为在索引中就有了所需的数据。但是注意不要滥用该选项,当包含列时,将增加索引页的叶级的大小。这意味着每页中的行数将更少,因此需要更多的I/O来查看相同数量的行。结果可能是,加快了一个查询的同时可能减慢了其他的查询。要考虑对系统各个部分的影响,而不是仅仅考虑某个时候正在使用的特定查询。 - WITH
WITH非常简单-它只是告诉SQL Server将要提供一个或者多个跟在后面的选项。 - PAD_INDEX
该选项确定了第一次创建索引时,索引的非叶级页将有多满(用百分比表示)。不用在PAD_INDEX中声明百分比,因为将使用后面的FILLTACTOR选项指定的百分比。设置不带有FILLFACTOR选项的PAD_INDEX=ON将是没有意义的。 - FILLFACTOR
当SQL Server第一次创建索引时,默认情况下将尽可能地将页填满,仅留两个记录的控件,可以将FILLTACTOE设置为在0-100之间的任意值。一旦索引构造完成,这个数字将表示页相对满的程度的百分比。但是在进行页拆分时,数据将仍然在两页之间对半分布-除了定期重建索引外,不能不断地控制填充百分比。
当需要调整页密度的时候,使用FILLTACTOR需要从以下几方面考虑:
- 如果是OLTP系统(经常添加和删除),那么需要较低的FILLFACTOR。
- 如果是OLAP或者其他非常稳定(几乎没有添加和删除)的系统,那么需要尽可能高的FILLFACTOR。
- 如果事务比例中等,且有很多基于它的报表类型查询,那么可能需要中等水平的FILLFACTOR(不太低,也不太高)。
- 如果没有提供值,那么SQL Server将把页填充至差两行满为止,同时保证每页至少有一行。(如果行是8000字符宽,那么每页只能放一行,所以无法达到差两行满)。
- IGNORE_DUP_KEY
IGNORE_DUP_KEY选项几乎是一种回避系统的方法。简而言之,它使得唯一约束与其应有的操作方式有些不同。
通常,唯一约束(或唯一索引)不允许任何种类的重复-如果事务尝试基于定义为唯一的列创建重复值,那么事务将被回滚并且拒绝。然而,一旦设置了IGNORE_DUP_KEY选项,就将得到混合的行为。仍然接收错误信息,但是错误将仅仅是一种警告-记录仍然没有被插入。
从IGNORE_DUP_KEY的角度看,不能会事务进行回滚(错误仍是警告错误,而不是关键错误),但重复的行将被拒绝。
一句话,这个东西的态度是,重复行完全没问题,但是你要有一个该值的行存在就OK了(插入时,重复行被忽略,还是全部都不允许插入)。
当你创建唯一索引时,你可以指定IGNORE_DUP_KEY选项,因此本文最开始创建唯一索引的选项可以是:
CREATE UNIQUE NONCLUSTERED INDEX AK_Product_Name ON Production.Product ( [Name] ) WITH ( IGNORE_DUP_KEY = OFF );
IGNORE_DUP_KEY这个名字容易让人误会。唯一索引存在时重复的值永远不会被忽略。更准确的说,唯一索引中永远不允许存在重复键。这个选项的作用仅仅是在多列插入时有用。
比如,你有两个表,表A和表B,有着完全相同的结构。你可能提交如下语句给SQL Server。
INSERT INTO TableA SELECT * FROM TableB;
SQL Server会尝试将所有表B中的数据插入表A。但如果因为唯一索引拒绝表B中含有和表A相同的数据插入A怎么办?你是希望仅仅重复数据插入不成功,还是整个INSERT语句不成功?
这个取决于你设定的IGNORE_DUP_KEY参数,当你创建唯一索引时,通过设置设个参数可以设定当插入不成功时怎么办,设置IGNORE_DUP_KEY的两种参数解释如下:
IGNORE_DUP_KEY=OFF
整个INSERT语句都不会成功并弹出错误提示,这也是默认设置。
IGNORE_DUP_KEY=ON
只有那些具有重复键的行不成功,其它所有的行会成功。并弹出警告信息。
IGNORE_DUP_KEY 选项仅仅影响插入语句。而不会被UPDATE,CREATE INDEX,ALTER INDEX所影响。这个选项也可以在设置主键和唯一约束时进行设置。 - DROP_EXISTING
如果指定DROP_EXISTING选项,那么如果之前已经存在同名索引将在构造新索引之前被删除。当和群集索引一起使用该选项时,这个选项比简单删除并重新创建现有的索引更加有效。如果重新创建与现有索引完全匹配的索引,那么SQL Server知道它不需要涉及非群集索引,然而为了适应不同的行位置,显式删除和创建将导致重新构建所有非群集索引两次。如果使用DROP_EXISTING改变索引的结构,那么NCI只被重新构建一次,而不是两次。 - STATISTICS_NORECOMPUTE
默认情况下,SQL Server试图自动化在表和索引上更新统计信息的过程。通过选择该选项,表示将由自己手动负责更新统计信息。为了关闭这个选项,需要运行UPDATESTATISTICS命令,但不使用NORECOMPUTE。
强烈建议不要使用该选项,因为查询优化器使用索引上的统计信息来指出索引对于给定的查询有多大用处。随着表中数据大量增多或减少,以及列特定值改变。索引上的统计信息会不断变化。基于这两点,可以知道不更新统计信息则查询优化器将基于过时的信息运行查询,打开自动统计信息功能意味着统计信息将周期地更新(多长时间更新一次取决于对表更新的本质和频繁程度)。相反关闭自动更新统计信息意味着信息会过时,或者需要设定计划手动运行UPDATE STATISTICS。 - SORT_IN_TEMPDB
只有在tempdb存储在与包含新索引的数据库物理上分离的驱动器上时,该选项才有意义。为什么?
当SQL Server建立索引时,它必须执行多个读操作以处理各种索引构造步骤。
1、遍历所有的数据,构建对应于实际数据每一行的叶行。类似于实际数据和最后的索引,这些内容进入用于临时存储的页。这些中间页不是最终的索引页,而是每次排序缓冲器已满时临时存储的位置。
2、通过这些中间页单独运行,以将他们合并到最终叶级页。
3、当填充叶级页时,构建非叶级页。
如果没有使用SORT_IN_TEMPDB选项,那么中间页将被写入在其中存储数据库的相同物理文件中。这意味着实际数据的读操作必须与构建过程的写操作竞争。这两种情况造成磁头需要移动到一个不同的位置(读和写)。结果是磁头经常地来回移动-这会花费时间。
另一方面,如果使用SORT_IN_TEMPDB,那么中间页将被写入tempdb中,而不是数据库自己的文件。如果它们在单独的物理驱动器上,这意味着在索引构建的读和写操作之间没有竞争。但是要牢记,只有在tempdb位于与数据库文件分离的独立物理驱动器上,这才会有效。否则,只是名义上发生改变,而I/O竞争仍然是问题。
如果要使用SORT_IN_TEMPDB,那么确保在tempdb中有用于支持大文件的足够空间。 - ONLINE
如果将这个选项设置为ON,那么它将强制表对于一般的访问保持有效,并且不创建任何阻止用户使用索引和/表的锁。默认情况下,全索引操作将获得所需的锁(最终得到表锁),以便对表进行完全和有效的访问,然而,副作用是这将会阻止用户(这是矛盾的:一方面可能正在建立索引以使数据库更为有用,但是同时又使表变得不可用)。 - ALLOW ROW/PAGE LOCKS
这里的ALLOW设置用于确定索引是否允许行锁和页锁。 - MAXDOP
该选项用于为构建索引覆盖关于最大并行度的系统设置。并行度是指将有多少个进程用于一个数据库操作。有一个称为最大并行度的系统设置,允许限制每个操作中的处理器数。索引创建的MAXDOP选项允许将并行度设置为高于或者低于基本系统设置。只要合适就行。 - ON
SQL Server允许通过使用ON选项将数据和索引单独存放。这样做有以下优点:
- 索引需要的空间可以分散到其他的驱动器中。
- 用于索引操作的I/O不会加重物理数据检索的负担。
下面简单补充下XML索引的概念。
XML索引是SQL Server2005新增功能。
除了IGNORE_DUP_KEY和ONLINE之外,XML的创建语法支持前面的CREATE语句中所看到的所有相同选项。
在SQL Server中,可以再类型为XML的列上创建索引。这样做的主要要求如下。 - 在包含需要索引的XML的表上必须具有群集索引。
- 在创建“辅助”索引之前,必须先在XML数据列上创建“主”XML索引。
- XML索引只能放在XML类型的列上创建(而且XML索引是可以再改类型的列上创建的唯一一种索引)。
- XML列必须是基表的一部分-不能在视图上创建索引。
- 主XML索引
在XML索引上创建的第一个索引必须声明为”主索引”。当创建主索引时,SQL Server创建一个新的群集索引,这个群集索引将基表的群集索引和来自任何指定的XML节点的数据组合在一起。 - 辅助XML索引
类似于指向群集索引的群集键的非群集索引,辅助XML索引以很相似的方法指向主XML索引。一旦创建了主XML索引,就只能在XML列上创建多达248个以上的XML索引。
用法案例
- 两个或两个字段以上形成唯一索引,并设置IGNORE_DUP_KEY = ON,当为ON时在使用批量插入SQL语句中可以跳过重复数据
1
CREATE UNIQUE NONCLUSTERED INDEX AK_weixin_mp_article_total_msgid_stat_date ON SPIMainData.dbo.weixin_mp_article_total ( [stat_date], [msgid] ) WITH ( IGNORE_DUP_KEY = ON );
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 🤖!