trie树-zds05-ChinaUnix博客

zds05的ChinaUnix博客

首页　| 　博文目录　| 　关于我

zds05

博客访问： 649389
博文数量： 356
博客积分： 0
博客等级：民兵
技术积分： 2287
用户组：普通用户
注册时间： 2013-04-08 17:08

文章分类

全部博文（356）

english（0）
stock（0）
stock（1）
openresty（1）
bpftrace（0）
大数据（1）
english（0）
汇编（1）
专利（1）
专利（0）
go（4）
lua（1）
tengine（1）
linux调试（0）
git（2）
curl2（1）
curl（0）
儿童英语1（0）
儿童英语（0）
少儿编程（0）
架构（1）
tsar（1）
运维命令（6）
powerdns1（1）
powerdns（0）
xshell（2）
linux内核学习（0）
editer（1）
编码规范（1）
lvs（1）
bochs（1）
趣谈操作系统（0）
docker（3）
nginx（17）
linux系统剖析（0）
sourceinsight（1）
redis（1）
linux监控（0）
rocketdb（0）
perl（1）
正则（1）
suricata（2）
pika（1）
流媒体协议（1）
python（1）
docker（1）
ffmpeg（1）
redis（1）
libevent（1）
nginx（4）
gdb（2）
postgresql（2）
防火墙（1）
词汇（1）
shell（4）
linux编程（37）
现网（1）
性能分析（16）
抓包（7）
分布式（0）
c++（1）
python（1）
socket（1）
squid（5）
python（1）
codis（1）
twenproxy（1）
缓存（8）
tcp/ip（8）
dpdk（1）
ats（86）
http（1）
gdb（2）
其他（3）
遇到的问题（1）
linux命令（35）
linux内核（24）
虚拟机（1）
后台开发（1）
vi（2）
trafficserver（18）
未分配的博文（17）

文章存档

2023年（3）

2022年（7）

2021年（33）

2020年（47）

2019年（36）

2018年（221）

2017年（1）

2015年（1）

2013年（7）

我的朋友

相关博文

trie树

分类：大数据

2018-12-06 14:52:36

原文地址：trie树作者：weizhulinux

大数据时代必备算法----trie树
通俗一点来说，trie树在大数据分析领域用于“抽取文章中所有出现过的，用于统计，而非切词”。

举个简单例子来说说它如何工作
假设有b，abc，abd，bcd，abcd，efg，hii这6个单词，我们构建的树的形态如下图

对于每一个红色节点，从根遍历到他的过程就是一个单词。
在输入一个单词，进行查询匹配的时候，从根开始沿着这个单词包含的字母来遍历这个树的某个分支，假如输入单词的全部字母依序可以遍历trie树的某一个分支。那么来看看这个输入单词的最后一个字母对应的trie树某分支的某个节点。如果这个节点被标记为红色，就表示这个单词存在，否则不存在。

那么，对于一个单词，我只要依照它包含的字母按次序从trie树的根走到对应的节点，再看这个节点是否被标记为红色就可以知道它是否出现过了。把这个节点标记为红色，就相当于插入了这个单词。

这样一来，对于每个输入单词，我们查询和插入这个单词可以在trie中一次完成，所用时间仅仅为单词长度。

假设trie树每层的层序号是n，那么trie树每一层的节点数是26^n这个数量级。
实现的时候，如果想节省空间，推荐使用动态链表。如果为了效率，就得忍痛用空间来换时间，用数组实现。
使用动态链表实现，花费的空间不会超过 “单词数 x 最长单词长度”。

朋友们可以考虑下，如果用哈希来完成以上需求，是不是无法达到这个效率呢？
trie树是AC算法的核心。

阅读(1084) | 评论(0) | 转发(0) |

上一篇：深入浅出TCP之listen

下一篇：红黑树

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6