数据分布对MySQL执行计划的影响
2011-10-20 09:07
375 查看
以前我一直以为,MySQL优化器只会根据数据的基数来判断执行计划的优化,在5.0时,基本上只要基数达不到要求,MySQL就不会选择索引。不过从今天优化一组SQL的情况来看,5.1早已不是这样,MySQL优化器考虑了数据分布的影响,使用不同的值,对同一条SQL可能产生完全不同的执行计划。可以做如下测试。
有一张表 A (id,c1),假设采用“SELECT c1,count(*) FROM table GROUP BY c1”的方式来查看每一列每个值的数据量的结果如下:
假设现在c1上有个索引 idx_1 (c1)。
当我采用只有100个值的1作为条件的筛选值查看执行计划时,
MySQL会毫不犹豫的走 idx_1 索引。
但是改为4作为筛选值,基本上都可以看到全表扫描的执行计划。
虽然从源码目录的 sql/sql_select.cc 中并未找到具体的优化代码,但是从sql/opt_range.cc来看,至少RANGE查询的优化已经通过蒙特卡罗方法来估算要选择的值的出现概率,那么有理由相信,如此简单的选择查询,MYSQL肯定也估算了要查询的值出现的概率,然后以此为依据计算访问路径。
所以,一条SQL优化时,不仅要看数据的离散度,还得看经常被当作筛选值的数值唯一性是否够好,如果被筛选的值唯一性不好,建立索引依然是没有什么意义的,因为MySQL根本不会选择这个索引。
有一张表 A (id,c1),假设采用“SELECT c1,count(*) FROM table GROUP BY c1”的方式来查看每一列每个值的数据量的结果如下:
c1 | count(*) |
1 | 100 |
2 | 1000 |
3 | 10000 |
4 | 100000 |
当我采用只有100个值的1作为条件的筛选值查看执行计划时,
MySQL会毫不犹豫的走 idx_1 索引。
但是改为4作为筛选值,基本上都可以看到全表扫描的执行计划。
EXPLAIN SELECT * FROM A WHERE c1=1; EXPLAIN SELECT * FROM A WHERE c1=4; |
所以,一条SQL优化时,不仅要看数据的离散度,还得看经常被当作筛选值的数值唯一性是否够好,如果被筛选的值唯一性不好,建立索引依然是没有什么意义的,因为MySQL根本不会选择这个索引。
相关文章推荐
- mysql innodb 如何获取用于 生成执行计划的 数据表统计信息
- mysql 执行计划追踪 + json数据
- 数据量增加导致mysql执行计划改变
- order by、limit对mysql执行计划的影响实例
- 高性能可扩展mysql(执行计划,索引分析优化改写,删除重复数据,区间统计,满查询日志)
- WINDOWS 下 MYSQLQ全库数据倒出和执行计划加入
- 数据存储知识(2)--Mysql查看执行计划
- 有关成本统计数据新旧对执行计划的影响
- 左驱动非分区表数据量变化影响分区查询执行计划变形分析!
- Mysql的执行计划explain
- MySQL系列之五:explain执行计划分析
- MySQL统计信息以及执行计划预估方式初探
- mysql执行计划介绍
- 为什么Oracle有时会用索引来查找数据?--强制Oracle使用最优的“执行计划”
- MySQL 执行计划
- mysql 定时执行计划
- mysql之 explain、optimizer_trace 执行计划
- 12.索引的改变对于执行计划的影响
- 使用C语言访问MySQL数据 —— 执行SQL语句(1)
- mysql中 执行计划的extra字段---- using where , using index 和 using where & using index 整理