您的位置：首页 > 其它

Trie树应用：统计与匹配

2014-08-09 23:00 190 查看

Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希表高。

Trie树的基本特征：

1)根节点不包含字符，除根节点外每一个节点都只包含一个字符

2)从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串

3)每个节点的所有子节点包含的字符都不相同

4）按照（根节点）→（t）→（to）的顺序搜索。如果我们要找的单词是“too”，但“to”的子节点为null，则判断要查找的字符串不存在

那假如我们需要统计的是全英文的集合，根节点的子节点就可以是26个英文字母

Trie树的应用：

1)搜索提示：如当输入一个网址，可以自动搜索出可能的选择。当没有完全匹配的搜索结果，可以返回前缀最相似的可能。如输入“te”，可以联想出"tea,ten,ted。。。"

2）字符串检索

I:如某词典存在1W个敏感词，这些敏感词都不允许出现在页面上。现有一段用户输入文本，要判断其中是否存在敏感词，如有则进行屏蔽。则若用户输入“abcdefg”且词典中记录了“cde”，则会被替换为“ab***ef”

II:如有1000W字符串，其中存在重复，要求去重

3）排序：如给出一系列单词，要求按照字典顺序输出。那只需将所有单词输入Trie树，并深度遍历即可。（注，这里必须在每个作为单词结尾出现的节点上做标记。比如存在abc,abcd,abcdef三个单词，那我们需在c,d,f所在的节点都做好标记，证明此处是某个单词的结尾）

Trie树的实现：

public class Trie{
private int SIZE=26;
private TrieNode root;//字典树的根

Trie(){//初始化字典树
root=new TrieNode();
}

private class TrieNode{//字典树节点
private int num;//有多少单词通过这个节点,即节点字符出现的次数
private TrieNode[] son;//所有的儿子节点
private boolean isEnd;//是不是最后一个节点
private char val;//节点的值

TrieNode(){
num=1;
son=newTrieNode[SIZE];
isEnd=false;
}
}

//建立字典树
public void insert(Stringstr){//在字典树中插入一个单词
if(str==null||str.length()==0){
return;
}
TrieNode node=root;
char[] letters=str.toCharArray();
for(inti=0,len=str.length();i

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 算法数据存储 Trie树字典树

相关文章推荐

新的分享

章节导航