Trie树的两种实现 - hiho一下
2015-10-21 20:56
441 查看
问题的引出
如果有一个字符串的词典,那么对于每一个额外给出的字符串,能否快速地在这个词典里面统计出以这个字符串开头的所有单词的数目呢?最暴力的方案是用这个字符串去和字典里的每个单词比较,判断是否是字典里的单词的前缀。显然,对于每个额外给出的字符串,都要重新查满一次字典,这太慢了。
经典的解决就是用Trie树这种数据结构。
Trie树是什么
Trie树就是字典树,以一颗树的形式表示整个字典。引用hiho一下的例子和图片。树的边代表了每个字母,树的节点用来做统计等额外的工作。当字典中有app,apple,add三个单词时,所构造出来的trie树如下:当要添加一个单词时,先按顺序访问已经有的节点直到不能访问为止,然后将剩余部分的每个字符新建节点,按顺序添加到trie树中。例如,我们要添加单词apart,则先访问a和p,发现不能继续访问了。于是按顺序创建a,r,t三个节点。
使用Trie树时,则按顺序在树中进行访问即可。我们这里的问题,额外需要做的数据结构是在每个节点中添加一个记录访问次数的统计量cnt。创建单词访问节点的同时,将统计量+1。查询单词访问节点的时候,读出该统计量就是以当前字符串为前缀的单词的数量。
Trie树的基本逻辑
我们不妨先假设Trie树的节点已经设计好了,先来看看Trie树的创建基本逻辑addString,以及使用的基本逻辑search。class Trie{ private: TrieNode * root; public: Trie(){ root = new TrieNode(); } void addString(const string & str){ TrieNode * cur = root; for (int i = 0; i < str.size(); ++i){ //or char j = str[i]; when use hashtable. int j = str[i] - 'a'; if(!cur -> hasChild(j)) cur -> setChild(j, new TrieNode()); cur = cur -> getChild(j); cur -> addOne(); } } int search(const string & str){ TrieNode * cur = root; for (int i = 0; i < str.size(); ++i){ //or char j = str[i]; when use hashtable. int j = str[i] - 'a'; if(!cur -> hasChild(j)) return 0; cur = cur -> getChild(j); } return cur -> getCnt(); } ~Trie(){ delete root; } };
Trie树节点的存储方法-固定数组大小
接下来,设计TrieNode的数据结构。第一种,浪费空间争取时间,查询儿子时间O(1)。对每个结点开一个字母集大小的数组,对应的下标是儿子所表示的字母,内容则是这个儿子对应在大数组上的位置:class TrieNode{ private: TrieNode * next[26]; int cnt; public: TrieNode(){ memset(next, 0, sizeof(next)); is_word = false; cnt = 0; } bool hasChild(const int i){ return next[i] != NULL; } TrieNode * getChild(const int i){ return next[i]; } void setChild(const int i, TrieNode * const o){ next[i] = o; } void addOne(){ ++cnt; } int getCnt(){ return cnt; } ~TrieNode(){ for(int i = 0; i < 26; ++i) if(next[i]) delete next[i]; } };
Trie树节点的存储方法-Map
第二种,省空间,浪费查询时间,查询儿子时间O(log(儿子数)).对每个结点挂一个map,只有儿子存在的时候才加入该节点。
class TrieNode{ private: map<char, TrieNode *> next; int cnt; public: TrieNode(){ clear(); cnt = 0; } bool hasChild(const char c){ return next.count(c) != 0; } TrieNode * getChild(const char c){ return next[c]; } void setChild(const char c, TrieNode * const o){ next[c] = o; } void addOne(){ ++cnt; } int getCnt(){ return cnt; } void clear(){ for(map<char, TrieNode *>::iterator it = next.begin(); it != next.end(); ++it){ it -> second -> clear(); } next.clear(); } ~TrieNode(){ clear(); } };
相关文章推荐
- 数据库链接字符串查询网站
- Flex字符串比较 还有Flex字符串操作
- Ruby中创建字符串的一些技巧小结
- ASP下经常用的字符串等函数参考资料
- 将字符串小写转大写并延时输出的批处理代码
- 将字符串转换成System.Drawing.Color类型的方法
- Lua源码中字符串类型的实现
- Lua性能优化技巧(四):关于字符串
- Lua教程(七):数据结构详解
- 字符串聚合函数(去除重复值)
- Ruby中的字符串编写示例
- 总结的5个C#字符串操作方法分享
- sqlserver中求字符串中汉字的个数的sql语句
- sql server字符串非空判断实现方法
- VBS的字符串及日期操作相关函数
- C#实现将千分位字符串转换成数字的方法
- 解析从源码分析常见的基于Array的数据结构动态扩容机制的详解
- jquery 删除字符串最后一个字符的方法解析
- PowerShell实现在字符串中查找大写字母
- PowerShell中使用Out-String命令把对象转换成字符串输出的例子