您的位置：首页 > 其它

索引相关问题讨论

2007-07-01 00:45 197 查看

1. 问题的提出

在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统不是简单地能实现其功能就可，而是要写出高质量的SQL语句，提高系统的可用性。

在多数情况下，使用索引可以更快地遍历表，优化器主要根据定义的索引来提高性能。但是，如果在SQL语句的where子句中写的SQL代码不合理，就会造成优化器删去索引而使用全表扫描，一般就这种SQL语句就是所谓的劣质SQL语句。在编写SQL语句时我们应清楚优化器根据何种原则来删除索引，这有助于写出高性能的SQL语句。

所以，对索引的认识和学习是非常有必要的，这也是本次讨论的主题。

2. 问题的分析

2.1. 索引的概念

索引就是加快检索表中数据的方法。数据库的索引类似于书籍的索引。在书籍中，索引允许用户不必翻阅完整个书就能迅速地找到所需要的信息。在数据库中，索引也允许数据库程序迅速地找到表中的数据，而不必扫描整个数据库。

索引是一种数据结构，通过该数据结构，以需查询的特定属性值为输入，能够快速地定位具有该特定属性值的记录所存储的块，然后通过磁盘I/0，调入包含查询结果的磁盘块至内存进行操作。索引允许数据库程序迅速地找到表中的数据，而不必扫描整个数据库。

如果没有索引，执行查询时必须从第一个记录开始扫描整个表的所有记录，直至找到符合要求的记录。表里面的记录数量越多，这个操作的代价就越高。如果作为搜索条件的列上已经创建了索引，无需扫描任何记录即可迅速得到目标记录所在的位置。

现在以t_customer_info表为例来做说明，并假设我们创建了usr_name列的索引，数据库将在索引中排序name列。

对于索引中的每一项，数据库在内部为它保存一个数据文件中实际记录所在位置的“指针”。因此，如果我们要查找usr_name等于“武松”记录的usr_no（SQL命令为“SELECT usr_no FROMt_customer_info WHERE usr_name=/'武松/';”），数据库能够在usr_name的索引中查找“武松”值，然后直接转到数据文件中相应的行，准确地返回该行的usr_no。在这个过程中，数据库只需处理一个行就可以返回结果。如果没有“usr_name”列的索引，则要扫描数据文件中的所有记录！显然，使用索引和不使用索引查询效率差别是非常大的。

2.2. 索引的优点

1．大大加快数据的检索速度，这也是创建索引的最主要的原因。

2．在使用分组和排序子句进行数据检索时，同样可以显著减少查询中分组和排序的时间。

3．创建唯一性索引，保证数据库表中每一行数据的唯一性。

4．加速表和表之间的连接，特别是在实现数据的参考完整性方面特别有意义。（需讨论）

5．通过使用索引，可以在查询的过程中使用优化隐藏器，提高系统的性能。（需讨论）

2.3. 索引的缺点

1．创建索引和维护索引要耗费时间，这种时间随着数据量的增加而增加。

2．索引需要占物理空间，除了数据表占数据空间之外，每一个索引还要占一定的物理空间，如果要建立聚簇索引，那么需要的空间就会更大。

3.当对表中的数据进行增加、删除和修改的时候，索引也要动态的维护，降低了数据的维护速度。

2.4. 索引的分类

2.4.1. 直接创建索引和间接创建索引

直接创建索引： CREATE INDEX mycolumn_index ON mytable (myclumn)

间接创建索引：定义主键约束或者唯一性键约束，可以间接创建索引

2.4.2. 普通索引和唯一性索引

普通索引：CREATE INDEX mycolumn_index ON mytable (myclumn)

唯一性索引：保证在索引列中的全部数据是唯一的，对聚簇索引和非聚簇索引都可以使用

CREATE UNIQUE COUSTERED INDEX myclumn_cindex ON mytable(mycolumn)

2.4.3. 单个索引和复合索引

单个索引：即非复合索引

复合索引：又叫组合索引，在索引建立语句中同时包含多个字段名，最多16个字段

CREATE INDEX name_index ON username(firstname,lastname)

那么，如果在firstname、lastname、age这三个列上分别创建单列索引，效果是否和创建一个firstname、lastname、age的多列索引一样呢？答案是否定的，两者完全不同。当我们执行查询的时候，MySQL只能使用一个索引。如果你有三个单列的索引，MySQL会试图选择一个限制最严格的索引。但是，即使是限制最严格的单列索引，它的限制能力也肯定远远低于firstname、lastname、age这三个列上的多列索引。

2.4.4. 聚簇索引和非聚簇索引(聚集索引，群集索引)（需讨论）

聚簇索引：物理索引，与基表的物理顺序相同，数据值的顺序总是按照顺序排列

CREATE CLUSTERED INDEX mycolumn_cindex ON mytable(mycolumn) WITH

ALLOW_DUP_ROW(允许有重复记录的聚簇索引)

非聚簇索引：CREATE UNCLUSTERED INDEX mycolumn_cindex ON mytable(mycolumn)

2.5. 索引的使用

1．在频繁进行排序或分组（即进行group by或order by操作）的列上建立索引。

ORDER BY语句决定了Oracle如何将返回的查询结果排序。Order by语句对要排序的列没有什么特别的限制，也可以将函数加入列中（象联接或者附加等）。任何在Order by语句的非索引项或者有计算表达式都将降低查询速度。

2．在条件表达式中经常用到的不同值较多的列上建立检索，在不同值少的列上不要建立索引。

比如在雇员表的“性别”列上只有“男”与“女”两个不同值，因此就无必要建立索引。如果建立索引不但不会提高查询效率，反而会严重降低更新速度。

3．如果待排序的列有多个，可以在这些列上建立复合索引（compound index）。

复合索引的前导列一定好控制好，否则无法起到索引的效果。检查应用程序SQL语句，尽可能在where的查询条件中使用整个索引，如不能满足，至少用到索引首列.如果查询条件不包含索引首列，即使使用了索引的某个域，也不能利用到索引

4．避免高度重复索引。

高度重复索引会降低性能。如果觉得有必要在包含高度重复值的列上建立索引，最好与包含唯一值（或近似唯一的其它列）建立一个复合索引，服务器仍可以使用该索引来访问重复列值，而该索引得处理效率更高。

5．还可以使用并集来避免顺序存取。

尽管在所有的检查列上都有索引，但某些形式的where子句强迫优化器使用顺序存取。下面的查询将强迫对orders表执行顺序操作：

SELECT * FROM orders WHERE (customer_num=104 AND order_num>;1001) OR order_num=1008

虽然在customer_num和order_num上建有索引，但是在上面的语句中优化器还是使用顺序存取路径扫描整个表。因为这个语句要检索的是分离的行的集合，所以应该改为如下语句：

SELECT * FROM orders WHERE customer_num=104 AND order_num>;1001

UNION

SELECT * FROM orders WHERE order_num=1008

这样就能利用索引路径处理查询。

6．IS NULL 与 IS NOT NULL

不能用null作索引，任何包含null值的列都将不会被包含在索引中。即使索引有多列这样的情况下，只要这些列中有一列含有null，该列就会从索引中排除。也就是说如果某列存在空值，即使对该列建索引也不会提高性能。

任何在where子句中使用is null或is not null的语句优化器是不允许使用索引的。

7．带通配符（%）的like语句

同样以上面的例子来看这种情况。目前的需求是这样的，要求在职工表中查询名字中包含cliton的人。可以采用如下的查询SQL语句：

select * from employee where last_name like '%cliton%'

这里由于通配符（%）在搜寻词首出现，所以系统不使用last_name的索引。在很多情况下可能无法避免这种情况，但是一定要心中有底，通配符如此使用会降低查询速度。然而当通配符出现在字符串其他位置时，优化器就能利用索引。在下面的查询中索引得到了使用：

select * from employee where last_name like 'c%'

8．NOT

我们在查询时经常在where子句使用一些逻辑表达式，如大于、小于、等于以及不等于等等，也可以使用and（与）、or（或）以及not（非）。NOT可用来对任何逻辑运算符号取反。下面是一个NOT子句的例子：

... where not (status ='VALID')

如果要使用NOT，则应在取反的短语前面加上括号，并在短语前面加上NOT运算符。NOT运算符包含在另外一个逻辑运算符中，这就是不等于（<>;）运算符。换句话说，即使不在查询where子句中显式地加入NOT词，NOT仍在运算符中，见下例：

... where status <>;'INVALID'

再看下面这个例子：

select * from employee where salary<>;3000;

对这个查询，可以改写为不使用NOT：

select * from employee where salary<3000 or salary>;3000;

虽然这两种查询的结果一样，但是第二种查询方案会比第一种查询方案更快些。第二种查询允许Oracle对salary列使用索引，而第一种查询则不能使用索引。

9.IN

where条件中的’in’在逻辑上相当于’or’，所以语法分析器会将in ('0','1')转化为column='0' or column='1'来执行。我们期望它会根据每个or子句分别查找，再将结果相加，这样可以利用column上的索引；但实际上它却采用了"or策略"，即先取出满足每个or子句的行，存入临时数据库的工作表中，再建立唯一索引以去掉重复行，最后从这个临时表中计算结果。因此，实际过程没有利用column上索引，并且完成时间还要受tempdb数据库性能的影响。in、or子句常会使用工作表，使索引失效；如果不产生大量重复值，可以考虑把子句拆开；拆开的子句中应该包含索引

10．IN和EXISTS

有时候会将一列和一系列值相比较。最简单的办法就是在where子句中使用子查询。在where子句中可以使用两种格式的子查询。

第一种格式是使用IN操作符：

... where column in(select * from ... where ...);

第二种格式是使用EXIST操作符：

... where exists (select 'X' from ...where ...);

我相信绝大多数人会使用第一种格式，因为它比较容易编写，而实际上第二种格式要远比第一种格式的效率高。在Oracle中可以几乎将所有的IN操作符子查询改写为使用EXISTS的子查询。

第二种格式中，子查询以‘select 'X'开始。运用EXISTS子句不管子查询从表中抽取什么数据它只查看where子句。这样优化器就不必遍历整个表而仅根据索引就可完成工作（这里假定在where语句中使用的列存在索引）。相对于IN子句来说，EXISTS使用相连子查询，构造起来要比IN子查询困难一些。

通过使用EXIST，Oracle系统会首先检查主查询，然后运行子查询直到它找到第一个匹配项，这就节省了时间。Oracle系统在执行IN子查询时，首先执行子查询，并将获得的结果列表存放在在一个加了索引的临时表中。在执行子查询之前，系统先将主查询挂起，待子查询执行完毕，存放在临时表中以后再执行主查询。这也就是使用EXISTS比使用IN通常查询速度快的原因。

同时应尽可能使用NOT EXISTS来代替NOT IN，尽管二者都使用了NOT（不能使用索引而降低速度），NOT EXISTS要比NOT IN查询效率更高。

11．避免困难的正规表达式

MATCHES和LIKE关键字支持通配符匹配，技术上叫正规表达式。但这种匹配特别耗费时间。例如：SELECT * FROM customer WHERE zipcode LIKE “98_ _ _”

即使在zipcode字段上建立了索引，在这种情况下也还是采用顺序扫描的方式。如果把语句改为SELECT * FROM customer WHERE zipcode >“98000”，在执行查询时就会利用索引来查询，显然会大大提高速度。

另外，还要避免非开始的子串。例如语句：SELECT * FROM customer WHERE zipcode[2，3] >“80”，

在where子句中采用了非开始子串，因而这个语句也不会使用索引。

3. 问题的讨论a

3.1. 聚簇索引和非聚簇索引

3.2. exists语句

3.3. 全文索引

4. 问题的总结

在大型数据库中，索引是提高速度的一个关键因素。不管表的结构是多么简单，一次50000行的表扫描操作无论如何不会快。如果你的网站上也有这种大规模的表，那么你确实应该花些时间去分析可以采用哪些索引，并考虑是否可以改写查询以优化应用。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航