trie树-weizhulinux-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

首页　| 　博文目录　| 　关于我

博客访问： 532833
博文数量： 28
博客积分： 0
博客等级：民兵
技术积分： 3825
用户组：普通用户
注册时间： 2013-07-27 00:06

个人简介

一直从事高性能高并发服务器研究

文章分类

全部博文（28）

系统调用（1）
IO（4）
算法（5）
网络编程（16）
ubuntu使用（2）
未分配的博文（0）

文章存档

2013年（28）

我的朋友

最近访客

推荐博文

相关博文

trie树

分类：大数据

2013-09-20 04:05:19

大数据时代必备算法----trie树
通俗一点来说，trie树在大数据分析领域用于“抽取文章中所有出现过的，用于统计，而非切词”。

举个简单例子来说说它如何工作
假设有b，abc，abd，bcd，abcd，efg，hii这6个单词，我们构建的树的形态如下图

对于每一个红色节点，从根遍历到他的过程就是一个单词。
在输入一个单词，进行查询匹配的时候，从根开始沿着这个单词包含的字母来遍历这个树的某个分支，假如输入单词的全部字母依序可以遍历trie树的某一个分支。那么来看看这个输入单词的最后一个字母对应的trie树某分支的某个节点。如果这个节点被标记为红色，就表示这个单词存在，否则不存在。

那么，对于一个单词，我只要依照它包含的字母按次序从trie树的根走到对应的节点，再看这个节点是否被标记为红色就可以知道它是否出现过了。把这个节点标记为红色，就相当于插入了这个单词。

这样一来，对于每个输入单词，我们查询和插入这个单词可以在trie中一次完成，所用时间仅仅为单词长度。

假设trie树每层的层序号是n，那么trie树每一层的节点数是26^n这个数量级。
实现的时候，如果想节省空间，推荐使用动态链表。如果为了效率，就得忍痛用空间来换时间，用数组实现。
使用动态链表实现，花费的空间不会超过 “单词数 x 最长单词长度”。

朋友们可以考虑下，如果用哈希来完成以上需求，是不是无法达到这个效率呢？
trie树是AC算法的核心。

阅读(4161) | 评论(0) | 转发(1) |

1

上一篇：AVL树

下一篇：哈希表

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们