您的位置：首页 > 其它

字符串 之字典树 算法

2013-08-08 23:59 337 查看

字典树（trie树）简介

Trie树|字典树的简介Trie,又称字典树、单词查找树,是一种树形结构，用于保存大量的字符串，其核心思想是空间换时间。它的优点是：利用字符串的公共前缀来节约存储空间。相对来说,Trie树是一种比较简单的数据结构.理解起来比较简单,正所谓简单的东西也得付出代价.故Trie树也有它的缺点,Trie树的内存消耗非常大.当然,或许用左儿子右兄弟的方法建树的话,可能会好点.
其基本性质可以归纳为：

1. 根节点不包含字符，除根节点外每一个节点都只包含一个字符。

2. 从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串。

3. 每个节点的所有子节点包含的字符都不相同。

其基本操作有:查找
插入和删除,当然删除操作比较少见.我在这里只是实现了对整个树的删除操作,至于单个word的删除操作也很简单.

搜索字典项目的方法为：

(1) 从根结点开始一次搜索；

(2) 取得要查找关键词的第一个字母，并根据该字母选择对应的子树并转到该子树继续进行检索；

(3) 在相应的子树上，取得要查找关键词的第二个字母,并进一步选择对应的子树进行检索。(4) 迭代过程……(5)
在某个结点处，关键词的所有字母已被取出，则读取附在该结点上的信息，即完成查找。

其他操作类似处理.
举个简单的例子。

给你100000个长度不超过10的单词。对于每一个单词，我们要判断他出没出现过，如果出现了，第一次出现第几个位置。

这题当然可以用hash来，但是我要介绍的是trie树。在某些方面它的用途更大。比如说对于某一个单词，我要询问它的前缀是否出现过。这样hash就不好搞了，而用trie还是很简单。

现在回到例子中，如果我们用最傻的方法，对于每一个单词，我们都要去查找它前面的单词中是否有它。那么这个算法的复杂度就是O(n^2)。显然对于100000的范围难以接受。现在我们换个思路想。假设我要查询的单词是abcd，那么在他前面的单词中，以b，c，d，f之类开头的我显然不必考虑。而只要找以a开头的中是否存在abcd就可以了。同样的，在以a开头中的单词中，我们只要考虑以b作为第二个字母的……这样一个树的模型就渐渐清晰了……

假设有b，abc，abd，bcd，abcd，efg，hii这6个单词，我们构建的树就是这样的

对于每一个节点，从根遍历到他的过程就是一个单词，如果这个节点被标记为红色，就表示这个单词存在，否则不存在。

那么，对于一个单词，我只要顺着他从跟走到对应的节点，再看这个节点是否被标记为红色就可以知道它是否出现过了。把这个节点标记为红色，就相当于插入了这个单词。

这样一来我们询问和插入可以一起完成，所用时间仅仅为单词长度，在这一个样例，便是10。

我们可以看到，trie树每一层的节点数是26^i级别的。所以为了节省空间。我们用动态链表，或者用数组来模拟动态。空间的花费，不会超过单词数×单词长度。

c 代码

//=+

#include
"stdio.h"

#include
"string.h"

#include
"stdlib.h"



struct
dictree

{

    struct
dictree
*child[26];

    bool
isWord=false;

    int
n;    //
统计一组字符串中某前缀出现的次数

};
//结点结构，有26个子节点

struct dictree
*root;

void insert (char
*source)

{

    int
len,i,j;

    struct
dictree
*current,*newnode;


len=strlen(source);

    if(len==0)
return;


current=root;


for(i=0;i<len;i++)


{


if(current->child[source[i]-'a']!=0)


{ //插入字符已经存在


current=current->child[source[i]-'a'];


current->n=current->n+1;


}


else


{
//不存在新建节点加入字典树中


newnode=(struct dictree *)malloc(sizeof(struct
dictree));


for(j=0;j<26;j++)
newnode->child[j]=0;


current->child[source[i]-'a']=newnode;


current=newnode;


current->n=1;


}


}


current->isWord=true;//标识单词的最后一个字母为单词结尾

}

int find(char
*source)

{

    int
i,len;

    struct
dictree
*current;

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

字符串&nbsp;之字典树&nbsp;算法

字典树（trie树）简介

字符串之字典树算法