字典树
编辑
又称单词查找树,
Trie树,是一种
树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的
字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比
哈希树高。
它有3个基本性质:
根节点不包含字符,除根节点外每一个节点都只包含一个字符; 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串; 每个节点的所有子节点包含的字符都不相同。
其基本操作有:
查找、插入和删除,当然删除操作比较少见。
搜索字典项目的方法为:
(1)从根结点开始一次搜索;
(2)取得要查找关键词的第一个字母,并根据该字母选择对应的子树并转到该子树继续进行检索;
(3)在相应的子树上,取得要查找关键词的第二个字母,并进一步选择对应的子树进行检索。
(4)迭代过程……
(5)在某个结点处,关键词的所有字母已被取出,则读取附在该结点上的信息,即完成查找。
其他操作类似处理
串的快速检索
给出N个单词组成的熟词表,以及一篇全用小写英文书写的文章,请你按最早出现的顺序写出所有不在熟词表中的生词。
在这道题中,我们可以用
数组枚举,用哈希,用字典树,先把熟词建一棵树,然后读入文章进行比较,这种方法效率是比较高的。
“串”排序
给定N个互不相同的仅由一个单词构成的英文名,让你将他们按
字典序从小到大输出
用字典树进行排序,采用
数组的方式创建字典树,这棵树的每个结点的所有儿子很显然地按照其字母大小排序。对这棵树进行先序遍历即可。
最长公共前缀
对所有串建立字典树,对于两个串的最长公共前缀的长度即他们所在的结点的公共祖先个数,于是,问题就转化为当时公共祖先问题。
Trie树的基本实现字母树的插入(Insert)、删除( Delete)和查找(Find)都非常简单,用一个一重循环即可,即第i 次循环找到前i 个字母所对应的子树,然后进行相应的操作。实现这棵字母树,我们用最常见的数组保存(静态开辟内存)即可,当然也可以开动态的指针类型(动态开辟内存)。至于结点对儿子的指向,一般有三种方法:
1、对每个结点开一个字母集大小的数组,对应的下标是儿子所表示的字母,内容则是这个儿子对应在大数组上的位置,即标号;
2、对每个结点挂一个链表,按一定顺序记录每个儿子是谁;
3、使用左儿子右兄弟表示法记录这棵树。
三种方法,各有特点。第一种易实现,但实际的空间要求较大;第二种,较易实现,空间要求相对较小,但比较费时;第三种,空间要求最小,但相对费时且不易写。
这里采用第一种,速度较快,适合ACM竞赛。
MAX 为自定义的。根据实际情况。这是只要考虑小写字母 a-z
01 | //copyright:
www.acmerblog.com |
08 | typedef struct TrieNode |
10 | int nCount; //
该节点前缀 出现的次数 |
11 | struct TrieNode
*next[MAX]; //该节点的后续节点 |
14 | TrieNode
Memory[1000000]; //先分配好内存。
malloc 较为费时 |
17 | //初始化一个节点。nCount计数为1,
next都为null |
18 | TrieNode
* createTrieNode() |
20 | TrieNode
* tmp = &Memory[allocp++]; |
22 | for ( int i
= 0;i <MAX;i++) |
27 | void insertTrie(TrieNode
* * pRoot, char *
str) |
29 | TrieNode
* tmp = *pRoot; |
34 | k
= str[i] - 'a' ; //当前字符
应该插入的位置 |
37 | tmp->next[k]->nCount++; |
41 | tmp->next[k]
= createTrieNode(); |
50 | int searchTrie(TrieNode
* root, char *
str) |
67 | return tmp->nCount; //返回最后的那个字符
所在节点的 nCount |
73 | TrieNode
*Root = createTrieNode(); |
74 | while ( gets (s)
&& s[0] != '0' ) //读入0
结束 |
79 | while ( gets (s)) //查询输入的字符串 |
81 | printf ( "%d\n" ,
searchTrie(Root, s)); |