您的位置：首页 > 其它

【 STL之二分查找 (Binary search in STL)】

2017-07-19 16:24 330 查看

正确区分不同的查找算法count,find,binary_search,lower_bound,upper_bound,equal_range

本文是对Effective STL第45条的一个总结，阐述了各种查找算法的异同以及使用他们的时机。

首先可供查找的算法大致有count,find,binary_search,lower_bound,upper_bound,equal_range。带有判别式的如count_if,find_if或者binary_search的派别式版本，其用法大致相同，不影响选择，所以不作考虑。

注意这些查找算法需要序列式容器，或者数组。关联容器有相应的同名成员函数except binary_search。

首先,选择查找算法时，区间是否排序是一个至关重要的因素。

可以按是否需要排序区间分为两组:

A. count,find

B. binary_search,lower_bound,upper_bound,equal_range

A组不需排序区间， B组需要排序区间。

当一个区间被排序，优先选择B组，因为他们提供对数时间的效率。而A则是线性时间。

另外A组B组所依赖的查找判断法则不同，A使用相等性法则(查找对象需要定义operator==), B使用等价性法则(查找对象需要定义operator<,必须在相等时返回false)。

A组的区别

count:计算对象区间中的数目。

find:返回第一个对象的位置。

查找成功的话，find会立即返回，count不会立即返回（直到查找完整个区间），此时find效率较高。

因此除非是要计算对象的数目，否则不考虑count。

B组的区别 {1，3，4，5，6}

binary_search：判断是否存在某个对象

lower_bound: 返回>=对象的第一个位置，lower_bound(2)=3, lower_bound(3)=3

目标对象存在即为目标对象的位置,不存在则为后一个位置.

upper_bound: 返回>对象的第一个位置, upper_bound(2)=3,upper_bound(3)=4

无论是否存在都为后一个位置.

equal_bound: 返回由lower_bound和upper_bound返回值构成的pair,也就是所有等价元素区间。

equal_bound有两个需要注意的地方:

1. 如果返回的两个迭代器相同，说明查找区间为空，没有这样的值

2. 返回迭代器间的距离与迭代器中对象数目是相等的，对于排序区间，他完成了count和find的双重任务

Section II binary search in STL

如果在C++ STL容器中包含了有序的序列，STL提供了四个函数进行搜索，他们是利用二分查找实现的(Binary search).

其中：

假定相同值的元素可能有多个

lower_bound 返回第一个符合条件的元素位置

upper_bound 返回最后一个符合条件的元素位置

equal_range 返回所有等于指定值的头/尾元素的位置，其实就是lower_bound和upper_bound

binary_search 返回是否有需要查找的元素。

Section II Effect STL #45

条款45：注意count、find、binary_search、lower_bound、upper_bound和equal_range的区别

你要寻找什么，而且你有一个容器或者你有一个由迭代器划分出来的区间——你要找的东西就在里面。你要怎么完成搜索呢？你箭袋中的箭有这些：count、count_if、find、find_if、binary_search、lower_bound、upper_bound和equal_range。面对着它们，你要怎么做出选择？

简单。你寻找的是能又快又简单的东西。越快越简单的越好。

暂时，我假设你有一对指定了搜索区间的迭代器。然后，我会考虑到你有的是一个容器而不是一个区间的情况。

要选择搜索策略，必须依赖于你的迭代器是否定义了一个有序区间。如果是，你就可以通过binary_search、lower_bound、upper_bound和equal_range来加速（通常是对数时间——参见条款34）搜索。如果迭代器并没有划分一个有序区间，你就只能用线性时间的算法count、count_if、find和find_if。在下文中，我会忽略掉count和find是否有_if的不同，就像我会忽略掉binary_search、lower_bound、upper_bound和equal_range是否带有判断式的不同。你是依赖默认的搜索谓词还是指定一个自己的，对选择搜索算法的考虑是一样的。

如果你有一个无序区间，你的选择是count或着find。它们分别可以回答略微不同的问题，所以值得仔细去区分它们。count回答的问题是：“是否存在这个值，如果有，那么存在几份拷贝？”而find回答的问题是：“是否存在，如果有，那么它在哪儿？”

假设你想知道的东西是，是否有一个特定的Widget值w在list中。如果用count，代码看起来像这样：

list lw; // Widget的list

Widget w; // 特定的Widget值

…

if (count(lw.begin(), lw.end(), w)) {

… // w在lw中

} else {

… // 不在

}

这里示范了一种惯用法：把count用来作为是否存在的检查。count返回零或者一个正数，所以我们把非零转化为true而把零转化为false。如果这样能使我们要做的更加显而易见：

if (count(lw.begin(), lw.end(), w) != 0) …

而且有些程序员这样写，但是使用隐式转换则更常见，就像最初的例子。

和最初的代码比较，使用find略微更难懂些，因为你必须检查find的返回值和list的end迭代器是否相等：

if (find(lw.begin(), lw.end(), w) != lw.end()) {

… // 找到了

} else {

… // 没找到

}

如果是为了检查是否存在，count这个惯用法编码起来比较简单。但是，当搜索成功时，它的效率比较低，因为当找到匹配的值后find就停止了，而count必须继续搜索，直到区间的结尾以寻找其他匹配的值。对大多数程序员来说，find在效率上的优势足以证明略微增加复杂度是合适的。

通常，只知道区间内是否有某个值是不够的。取而代之的是，你想获得区间中的第一个等于该值的对象。比如，你可能想打印出这个对象，你可能想在它前面插入什么，或者你可能想要删除它（但当迭代时删除的引导参见条款9）。当你需要知道的不止是某个值是否存在，而且要知道哪个对象（或哪些对象）拥有该值，你就得用find：

list::iterator i = find(lw.begin(), lw.end(), w);

if (i != lw.end()) {

… // 找到了，i指向第一个

} else {

… // 没有找到

}

对于有序区间，你有其他的选择，而且你应该明确的使用它们。count和find是线性时间的，但有序区间的搜索算法（binary_search、lower_bound、upper_bound和equal_range）是对数时间的。

从无序区间迁移到有序区间导致了另一个迁移：从使用相等来判断两个值是否相同到使用等价来判断。条款19由一个详细地讲述了相等和等价的区别，所以我在这里不会重复。取而代之的是，我会简单地说明count和find算法都用相等来搜索，而binary_search、lower_bound、upper_bound和equal_range则用等价。

要测试在有序区间中是否存在一个值，使用binary_search。不像标准C库中的（因此也是标准C++库中的）bsearch，binary_search只返回一个bool：这个值是否找到了。binary_search回答这个问题：“它在吗？”它的回答只能是是或者否。如果你需要比这样更多的信息，你需要一个不同的算法。

这里有一个binary_search应用于有序vector的例子（你可以从条款23中知道有序vector的优点）：

span style=”COLOR: #000000”>vector vw; // 建立vector，放入

… // 数据，

sort(vw.begin(), vw.end()); // 把数据排序

<=”” span=”“> align=top v:shapes=”_x0000_i1035”> Widget w; // 要找的值

…

if (binary_search(vw.begin(), vw.end(), w)) {

… // w在vw中

} else {

align=top v:shapes=”_x0000_i1040”> … // 不在

}

如果你有一个有序区间而且你的问题是：“它在吗，如果是，那么在哪儿？”你就需要equal_range，但你可能想要用lower_bound。我会很快讨论equal_range，但首先，让我们看看怎么用lower_bound来在区间中定位某个值。

当你用lower_bound来寻找一个值的时候，它返回一个迭代器，这个迭代器指向这个值的第一个拷贝（如果找到的话）或者到可以插入这个值的位置（如果没找到）。因此lower_bound回答这个问题：“它在吗？如果是，第一个拷贝在哪里？如果不是，它将在哪里？”和find一样，你必须测试lower_bound的结果，来看看它是否指向你要寻找的值。但又不像find，你不能只是检测lower_bound的返回值是否等于end迭代器。取而代之的是，你必须检测lower_bound所标示出的对象是不是你需要的值。

很多程序员这么用lower_bound：

vector::iterator i = lower_bound(vw.begin(), vw.end(), w);

if (i != vw.end() && *i == w) { // 保证i指向一个对象；

// 也就保证了这个对象有正确的值。

// 这是个bug！

=”COLOR: #008000”>// 找到这个值，i指向

// 第一个等于该值的对象

} else {

… // 没找到

}

大部分情况下这是行得通的，但不是真的完全正确。再看一遍检测需要的值是否找到的代码：

if (i != vw.end() && *i == w) …

这是一个相等的测试，但lower_bound搜索用的是等价。大部分情况下，等价测试和相等测试产生的结果相同，但就像条款19论证的，相等和等价的结果不同的情况并不难见到。在这种情况下，上面的代码就是错的。

要完全完成，你就必须检测lower_bound返回的迭代器指向的对象的值是否和你要寻找的值等价。你可以手动完成（条款19演示了你该怎么做，当它值得一做时条款24提供了一个例子），但可以更狡猾地完成，因为你必须确认使用了和lower_bound使用的相同的比较函数。一般而言，那可以是一个任意的函数（或函数对象）。如果你传递一个比较函数给lower_bound，你必须确认和你的手写的等价检测代码使用了相同的比较函数。这意味着如果你改变了你传递给lower_bound的比较函数，你也得对你的等价检测部分作出修改。保持比较函数同步不是火箭发射，但却是另一个要记住的东西，而且我想你已经有很多需要你记的东西了。

这儿有一个简单的方法：使用equal_range。equal_range返回一对迭代器，第一个等于lower_bound返回的迭代器，第二个等于upper_bound返回的（也就是，等价于要搜索值区间的末迭代器的下一个）。因此，equal_range，返回了一对划分出了和你要搜索的值等价的区间的迭代器。一个名字很好的算法，不是吗？（当然，也许叫equivalent_range会更好，但叫equal_range也非常好。）

对于equal_range的返回值，有两个重要的地方。第一，如果这两个迭代器相同，就意味着对象的区间是空的；这个只没有找到。这个结果是用equal_range来回答“它在吗？”这个问题的答案。你可以这么用：

vector vw;

…

sort(vw.begin(), vw.end());

typedef vector::iterator VWIter; // 方便的typedef

typedef pair

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 二分查找 stl 算法

相关文章推荐

新的分享

章节导航