字符串 之字典树 算法
2013-08-08 23:59
337 查看
字典树(trie树)简介
Trie树|字典树的简介Trie,又称字典树、单词查找树,是一种树形结构,用于保存大量的字符串,其核心思想是空间换时间。它的优点是:利用字符串的公共前缀来节约存储空间。相对来说,Trie树是一种比较简单的数据结构.理解起来比较简单,正所谓简单的东西也得付出代价.故Trie树也有它的缺点,Trie树的内存消耗非常大.当然,或许用左儿子右兄弟的方法建树的话,可能会好点.
其基本性质可以归纳为:
1. 根节点不包含字符,除根节点外每一个节点都只包含一个字符。
2. 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串。
3. 每个节点的所有子节点包含的字符都不相同。
其基本操作有:查找
插入和删除,当然删除操作比较少见.我在这里只是实现了对整个树的删除操作,至于单个word的删除操作也很简单.
搜索字典项目的方法为:
(1) 从根结点开始一次搜索;
(2) 取得要查找关键词的第一个字母,并根据该字母选择对应的子树并转到该子树继续进行检索;
(3) 在相应的子树上,取得要查找关键词的第二个字母,并进一步选择对应的子树进行检索。(4) 迭代过程……(5)
在某个结点处,关键词的所有字母已被取出,则读取附在该结点上的信息,即完成查找。
其他操作类似处理.
举个简单的例子。
给你100000个长度不超过10的单词。对于每一个单词,我们要判断他出没出现过,如果出现了,第一次出现第几个位置。
这题当然可以用hash来,但是我要介绍的是trie树。在某些方面它的用途更大。比如说对于某一个单词,我要询问它的前缀是否出现过。这样hash就不好搞了,而用trie还是很简单。
现在回到例子中,如果我们用最傻的方法,对于每一个单词,我们都要去查找它前面的单词中是否有它。那么这个算法的复杂度就是O(n^2)。显然对于100000的范围难以接受。现在我们换个思路想。假设我要查询的单词是abcd,那么在他前面的单词中,以b,c,d,f之类开头的我显然不必考虑。而只要找以a开头的中是否存在abcd就可以了。同样的,在以a开头中的单词中,我们只要考虑以b作为第二个字母的……这样一个树的模型就渐渐清晰了……
假设有b,abc,abd,bcd,abcd,efg,hii这6个单词,我们构建的树就是这样的
对于每一个节点,从根遍历到他的过程就是一个单词,如果这个节点被标记为红色,就表示这个单词存在,否则不存在。
那么,对于一个单词,我只要顺着他从跟走到对应的节点,再看这个节点是否被标记为红色就可以知道它是否出现过了。把这个节点标记为红色,就相当于插入了这个单词。
这样一来我们询问和插入可以一起完成,所用时间仅仅为单词长度,在这一个样例,便是10。
我们可以看到,trie树每一层的节点数是26^i级别的。所以为了节省空间。我们用动态链表,或者用数组来模拟动态。空间的花费,不会超过单词数×单词长度。
c 代码
//=+
#include
"stdio.h"
#include
"string.h"
#include
"stdlib.h"
struct
dictree
{
struct
dictree
*child[26];
bool
isWord=false;
int
n; //
统计一组字符串中某前缀出现的次数
};
//结点结构,有26个子节点
struct dictree
*root;
void insert (char
*source)
{
int
len,i,j;
struct
dictree
*current,*newnode;
len=strlen(source);
if(len==0)
return;
current=root;
for(i=0;i<len;i++)
{
if(current->child[source[i]-'a']!=0)
{ //插入字符 已经存在
current=current->child[source[i]-'a'];
current->n=current->n+1;
}
else
{
//不存在 新建 节点加入 字典树中
newnode=(struct dictree *)malloc(sizeof(struct
dictree));
for(j=0;j<26;j++)
newnode->child[j]=0;
current->child[source[i]-'a']=newnode;
current=newnode;
current->n=1;
}
}
current->isWord=true;//标识 单词的最后一个 字母为 单词结尾
}
int find(char
*source)
{
int
i,len;
struct
dictree
*current;
相关文章推荐
- TCP&nbsp;Nagle&#039;s&nbsp;&nbsp;算法导致的性能问题
- VBA 处理字符串
- 【C语言】11 指针和字符串
- mysql 字符串追加
- lintcode&九章算法—— No.55 比较字符串 ? 待解决
- 【学习笔记】算法竞赛:chapter 3 & 4 数组、字符串;函数、递归
- lintcode&九章算法——Google面试题 | 有效括号字符串 ? 待解决
- 【原创】【算法】python 选择排序
- 去除字符串中的重复字符,算法不使用额外缓冲。如abbc->abc
- java&nbsp;&nbsp;棋盘覆盖程序&nbsp;算法分析题目
- VC 中如何从字符串中分离文件…
- C++&nbsp;字符串大小写转换
- 算法分析之Paxos 算法
- 第8周项目2.2-4 试编写算法实现将字符串S中所有字符颠倒过来重新排序 void Trans(SqString *&s, char c1, char c2);
- java&nbsp;温习之字符串(统计字串…
- 算法实现题&nbsp;汽车加油问题.
- 笔试算法题(35):最长递增子序列 & 判定一个字符串是否可由另一个字符串旋转得到
- Timestamp 类型的时间转换成字符串
- VTK教程之十&nbsp;可视化基础算法-三维…
- C++&nbsp;字符串分割