您的位置:首页 > 其它

Trie树应用:统计与匹配

2014-08-09 23:00 148 查看
Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。



Trie树的基本特征:

1)根节点不包含字符,除根节点外每一个节点都只包含一个字符

2)从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串

3)每个节点的所有子节点包含的字符都不相同

4)按照(根节点)→(t)→(to)的顺序搜索。如果我们要找的单词是“too”,但“to”的子节点为null,则判断要查找的字符串不存在

那假如我们需要统计的是全英文的集合,根节点的子节点就可以是26个英文字母



Trie树的应用:

1)搜索提示:如当输入一个网址,可以自动搜索出可能的选择。当没有完全匹配的搜索结果,可以返回前缀最相似的可能。如输入“te”,可以联想出"tea,ten,ted。。。"

2)字符串检索

      I:如某词典存在1W个敏感词,这些敏感词都不允许出现在页面上。现有一段用户输 入文本,要判断其中是否存在敏感词,如有则进行屏蔽。则若用户输入“abcdefg”且词典中记录了“cde”,则会被替换为“ab***ef”

      II:如有1000W字符串,其中存在重复,要求去重

3)排序:如给出一系列单词,要求按照字典顺序输出。那只需将所有单词输入Trie树,并深度遍历即可。(注,这里必须在每个作为单词结尾出现的节点上做标记。比如存在abc,abcd,abcdef三个单词,那我们需在c,d,f所在的节点都做好标记,证明此处是某个单词的结尾)



Trie树的实现:

public class Trie{
private int SIZE=26;
private TrieNode root;//字典树的根

Trie(){//初始化字典树
root=new TrieNode();
}

private class TrieNode{//字典树节点
private int num;//有多少单词通过这个节点,即节点字符出现的次数
private TrieNode[] son;//所有的儿子节点
private boolean isEnd;//是不是最后一个节点
private char val;//节点的值

TrieNode(){
num=1;
son=newTrieNode[SIZE];
isEnd=false;
}
}

//建立字典树
public void insert(Stringstr){//在字典树中插入一个单词
if(str==null||str.length()==0){
return;
}
TrieNode node=root;
char[] letters=str.toCharArray();
for(inti=0,len=str.length();i



内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息