Trie树应用:统计与匹配
2014-08-09 23:00
190 查看
Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。
![](https://img-blog.csdn.net/20140809225841046?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvVG9uZ1dhY2Nz/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
Trie树的基本特征:
1)根节点不包含字符,除根节点外每一个节点都只包含一个字符
2)从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串
3)每个节点的所有子节点包含的字符都不相同
4)按照(根节点)→(t)→(to)的顺序搜索。如果我们要找的单词是“too”,但“to”的子节点为null,则判断要查找的字符串不存在
那假如我们需要统计的是全英文的集合,根节点的子节点就可以是26个英文字母
Trie树的应用:
1)搜索提示:如当输入一个网址,可以自动搜索出可能的选择。当没有完全匹配的搜索结果,可以返回前缀最相似的可能。如输入“te”,可以联想出"tea,ten,ted。。。"
2)字符串检索
I:如某词典存在1W个敏感词,这些敏感词都不允许出现在页面上。现有一段用户输 入文本,要判断其中是否存在敏感词,如有则进行屏蔽。则若用户输入“abcdefg”且词典中记录了“cde”,则会被替换为“ab***ef”
II:如有1000W字符串,其中存在重复,要求去重
3)排序:如给出一系列单词,要求按照字典顺序输出。那只需将所有单词输入Trie树,并深度遍历即可。(注,这里必须在每个作为单词结尾出现的节点上做标记。比如存在abc,abcd,abcdef三个单词,那我们需在c,d,f所在的节点都做好标记,证明此处是某个单词的结尾)
Trie树的实现:
public class Trie{
private int SIZE=26;
private TrieNode root;//字典树的根
Trie(){//初始化字典树
root=new TrieNode();
}
private class TrieNode{//字典树节点
private int num;//有多少单词通过这个节点,即节点字符出现的次数
private TrieNode[] son;//所有的儿子节点
private boolean isEnd;//是不是最后一个节点
private char val;//节点的值
TrieNode(){
num=1;
son=newTrieNode[SIZE];
isEnd=false;
}
}
//建立字典树
public void insert(Stringstr){//在字典树中插入一个单词
if(str==null||str.length()==0){
return;
}
TrieNode node=root;
char[] letters=str.toCharArray();
for(inti=0,len=str.length();i
Trie树的基本特征:
1)根节点不包含字符,除根节点外每一个节点都只包含一个字符
2)从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串
3)每个节点的所有子节点包含的字符都不相同
4)按照(根节点)→(t)→(to)的顺序搜索。如果我们要找的单词是“too”,但“to”的子节点为null,则判断要查找的字符串不存在
那假如我们需要统计的是全英文的集合,根节点的子节点就可以是26个英文字母
Trie树的应用:
1)搜索提示:如当输入一个网址,可以自动搜索出可能的选择。当没有完全匹配的搜索结果,可以返回前缀最相似的可能。如输入“te”,可以联想出"tea,ten,ted。。。"
2)字符串检索
I:如某词典存在1W个敏感词,这些敏感词都不允许出现在页面上。现有一段用户输 入文本,要判断其中是否存在敏感词,如有则进行屏蔽。则若用户输入“abcdefg”且词典中记录了“cde”,则会被替换为“ab***ef”
II:如有1000W字符串,其中存在重复,要求去重
3)排序:如给出一系列单词,要求按照字典顺序输出。那只需将所有单词输入Trie树,并深度遍历即可。(注,这里必须在每个作为单词结尾出现的节点上做标记。比如存在abc,abcd,abcdef三个单词,那我们需在c,d,f所在的节点都做好标记,证明此处是某个单词的结尾)
Trie树的实现:
public class Trie{
private int SIZE=26;
private TrieNode root;//字典树的根
Trie(){//初始化字典树
root=new TrieNode();
}
private class TrieNode{//字典树节点
private int num;//有多少单词通过这个节点,即节点字符出现的次数
private TrieNode[] son;//所有的儿子节点
private boolean isEnd;//是不是最后一个节点
private char val;//节点的值
TrieNode(){
num=1;
son=newTrieNode[SIZE];
isEnd=false;
}
}
//建立字典树
public void insert(Stringstr){//在字典树中插入一个单词
if(str==null||str.length()==0){
return;
}
TrieNode node=root;
char[] letters=str.toCharArray();
for(inti=0,len=str.length();i
相关文章推荐
- Trie树应用:统计与匹配
- Trie树应用:统计与匹配
- Trie树应用:统计与匹配
- Trie树应用:统计与匹配
- Trie树应用:统计与匹配
- Trie树应用:统计与匹配
- Trie树应用:统计与匹配
- Trie树应用:统计与匹配
- Trie树应用:统计与匹配
- Trie树应用:统计与匹配
- Trie树应用:统计与匹配
- Trie树应用:统计与匹配
- Trie树应用:统计与匹配
- Trie树应用:统计与匹配
- Trie树应用:统计与匹配
- 【1251 (统计难题)---Trie树简单应用 】
- Trie树(字典树)实现词频统计或前缀匹配类型的问题
- hdu 1251 统计难题 Trie树的应用
- 统计难题 Trie树/字典树的应用
- HDU1251(统计难题)---Trie树简单应用