Trie树-busycai-ChinaUnix博客

Hello, busycai!

首页　| 　博文目录　| 　关于我

busycai

博客访问： 160118
博文数量： 37
博客积分： 2510
博客等级：少校
技术积分： 307
用户组：普通用户
注册时间： 2008-04-01 11:02

文章分类

全部博文（37）

Search Engine（2）
Bullshit（3）
Dev. & Lang.（9）
DS & Algorithm（22）
未分配的博文（1）

文章存档

2011年（1）

2009年（1）

2008年（35）

我的朋友

相关博文

Trie树

分类： C/C++

2008-07-04 22:33:19

// trie.cpp : 定义控制台应用程序的入口点。 #include <stdio.h> #include <iostream> //#include #include <string.h> using namespace std; const int num_chars = 26; class Trie { public: Trie(); Trie(Trie& tr); virtual ~Trie(); int trie_search(const char* word, char* entry ) const; int insert(const char* word, const char* entry); int remove(const char* word, char* entry); protected: struct Trie_node { char* data; //若不为空，表示从root到此结点构成一个单词 Trie_node* branch[num_chars]; //分支 Trie_node(); //构造函数 }; Trie_node* root; //根结点(指针) }; Trie::Trie_node::Trie_node() { data = NULL; for (int i=0; i<num_chars; ++i) branch[i] = NULL; } Trie::Trie():root(NULL) { } Trie::~Trie() { } int Trie::trie_search(const char* word, char* entry ) const { int position = 0;//层数 char char_code; Trie_node *location = root; //从根结点开始 while( location!=NULL && *word!=0 ) { if (*word>='A' && *word<='Z') char_code = *word-'A'; else if (*word>='a' && *word<='z') char_code = *word-'a'; else return 0; //转入相应分支指针 location = location->branch[char_code]; position++; word++; } //找到，获取数据，成功返回 if ( location != NULL && location->data != NULL ) { strcpy(entry,location->data); return 1; } else return 0; } int Trie::insert(const char* word, const char* entry) { int result = 1, position = 0; if ( root == NULL ) root = new Trie_node;//初始插入，根结点为空 char char_code; Trie_node *location = root; //从根结点开始 while( location!=NULL && *word!=0 ) { if (*word>='A' && *word<='Z') char_code = *word-'A'; else if (*word>='a' && *word<='z') char_code = *word-'a'; else return 0; //不存在此分支 if( location->branch[char_code] == NULL ) location->branch[char_code] = new Trie_node; //创建空分支 //转入分支 location = location->branch[char_code]; position++; word++; } if (location->data != NULL) result = 0; //插入失败，已存在数据 //插入数据 else { location->data = new char[strlen(entry)+1];//分配内存 strcpy(location->data, entry); //给data赋值表明单词存在 } return result; } int main() { Trie t; char entry[100]; t.insert("aa", "DET"); t.insert("abacus","NOUN"); t.insert("abalone","NOUN"); t.insert("abandon","VERB"); t.insert("abandoned","ADJ"); t.insert("abashed","ADJ"); t.insert("abate","VERB"); t.insert("this", "PRON"); if (t.trie_search("this", entry)) cout<<"'this' was found. pos: "<<entry<<endl; if (t.trie_search("abate", entry)) cout<<"'abate' is found. pos: "<<entry<<endl; if (t.trie_search("baby", entry)) cout<<"'baby' is found. pos: "<<entry<<endl; else cout<<"'baby' does not exist at all!"<<endl; if (t.trie_search("aa", entry)) cout<<"'aa was found. pos: "<<entry<<endl; system("pause"); }

Trie树就是字符树，其核心思想就是空间换时间。
举个简单的例子。
给你100000个长度不超过10的单词。对于每一个单词，我们要判断他出没出现过，如果出现了，第一次出现第几个位置。
这题当然可以用hash来，但是我要介绍的是trie树。在某些方面它的用途更大。比如说对于某一个单词，我要询问它的前缀是否出现过。这样hash就不好搞了，而用trie还是很简单。
现在回到例子中，如果我们用最傻的方法，对于每一个单词，我们都要去查找它前面的单词中是否有它。那么这个算法的复杂度就是O(n^2)。显然对于100000的范围难以接受。现在我们换个思路想。假设我要查询的单词是abcd，那么在他前面的单词中，以b，c，d，f之类开头的我显然不必考虑。而只要找以a开头的中是否存在abcd就可以了。同样的，在以a开头中的单词中，我们只要考虑以b作为第二个字母的……这样一个树的模型就渐渐清晰了……
假设有b，abc，abd，bcd，abcd，efg，hii这6个单词，我们构建的树就是这样的。

对于每一个节点，从根遍历到他的过程就是一个单词，如果这个节点被标记为红色，就表示这个单词存在，否则不存在。
那么，对于一个单词，我只要顺着他从跟走到对应的节点，再看这个节点是否被标记为红色就可以知道它是否出现过了。把这个节点标记为红色，就相当于插入了这个单词。
这样一来我们询问和插入可以一起完成，所用时间仅仅为单词长度，在这一个样例，便是10。
我们可以看到，trie树每一层的节点数是26^i级别的。所以为了节省空间。我们用动态链表，或者用数组来模拟动态。空间的花费，不会超过单词数×单词长度。

密码破译
【问题描述】
由于最近功课过于繁忙，Tim竟然忘记了自己电脑的密码，幸运的是Tim在设计电脑密码的时候，用了一个非常特殊的方法记录下了密码。这个方法是：Tim把密码和其它的一些假密码共同记录在了一个本子上面。为了能够从这些字符串中找出正确的密码，Tim又在另外一个本子上面写了一个很长的字符串，而正确的密码就是在这个字符串中出现次数最多的一个密码。例如串ababa，假若密码是abab和aba，那么正确的密码是aba，因为aba在这个字符串中出现了2次。
现在你得到了Tim的这两个本子，希望你能够编写一个程序帮助Tim找出正确的密码。
【输入】
输入由两个部分组成。其中第一部分由若干行组成，每一行记录了一个密码，密码的均长度小于等于255位，并且都由小写字母组成。然后一个空行，第二部分记录了一个很长的字符串，并且以’.’结束，其中只包含了小写字母。

【输出】
输出文件名为Pass.out。输出文件由仅有一行，为一个整数，表示正确密码在字符串中出现的次数。如果这个出现次数为0，输出“No find”。

【样例】：
Pass.in Pass.out
ab 6
abc
bdc
abcd

abcabcabcdbdabcbabdbcabdbdbdbd.

阅读(2203) | 评论(1) | 转发(1) |

上一篇：2007百度校园招聘笔试题及解答

下一篇：海量数据搜索算法优化-存储/查询/排序算法

给主人留下些什么吧！~~

chinaunix网友2009-02-04 15:54:00

你的代码有个小问题：char_code应该为整形，不是char

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6