您的位置：首页 > 数据库

SQL Server调优系列基础篇（联合运算符总结）

2015-01-16 00:00 507 查看

前言
上两篇文章我们介绍了查看查询计划的方式，以及一些常用的连接运算符的优化技巧，本篇我们总结联合运算符的使用方式和优化技巧。
废话少说，直接进入本篇的主题。
技术准备
基于SQL Server2008R2版本，利用微软的一个更简洁的案例库（Northwind）进行解析。
一、联合运算符
所谓的联合运算符，其实应用最多的就两种：UNION ALL和UNION。
这两个运算符用法很简单，前者是将两个数据集结果合并，后者则是合并后进行去重操作，如果有过写T-SQL语句的码农都不会陌生。
我们来分析下这两个运算符在执行计划中的显示，举个例子

SELECT FirstName+N''+LastName,City,Country FROM Employees
UNION ALL
SELECT ContactName,City,Country FROM Customers

就是上面这个图标了，这就是UNION ALL联合运算符的图标。

这个联合运算符很简单的操作，将两个数据集合扫描完通过联合将结果汇总。
我们来看一下UNION 这个运算符，例子如下

select City,Country from Employees
UNION
SELECT City,Country FROM Customers

我们可以看到，UNION 运算符是在串联运算符之后发生了一个Distinct Sort排序操作，经过这个操作会将结果集合中的重复值去掉。
我们一直强调：大数据表的排序是一个非常耗资源的动作！
所以，到这里我们已经找到了可优化的选项，去掉排序，或者更改排序方式。
替换掉Distinct Sort排序操作的方式就是哈序聚合。Distinct Sort排序操作需要的内存和去除重复之前数据集合的数据量成正比，而哈希聚合需要的内存则是和去除重复之后的结果集成正比！
所以如果数据行中重复值很多，那么相比而言通过哈希聚合所消耗的内存会少。
我们来举个例子

select ShipCountry from Orders
UNION
SELECT ShipCountry FROM Orders

这个例子其实没啥用处，这里就是为了演示，我们来看一下结果

我们知道，这张表里这个ShipCountry是存在大面积重复值的，所以采用了哈希匹配来去重操作是最优的方式。
其实，相比哈希匹配连接还有一种更轻量级的去重的连接方式：合并连接
上一篇我已经分析了这个连接方法，用于两个数据集的连接方式，这里其实类似，应用前都必须先将原结果集合排序！
我们知道优化的方式可以采用建立索引来提高排序速度。
我们来重现这种去重方式，我们新建一个表，然后建立索引，代码如下

--新建表
SELECT EmployeeID,FirstName+N' '+LastName AS ContactName,City,Country
INTO NewEmployees
FROM Employees
GO
--添加索引
ALTER TABLE NewEmployees ADD CONSTRAINT PK_NewEmployees PRIMARY KEY(EmployeeID)
CREATE INDEX ContactName ON NewEmployees(ContactName)
CREATE INDEX ContactName ON CUSTOMERS(ContactName)
GO
--新建查询，这里一定要加上一个显示的Order by才能出现合并连接去重
SELECT ContactName FROM NewEmployees
UNION ALL
SELECT ContactName FROM Customers
ORDER BY ContactName

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航