mp3搜索的问题-heixia108-ChinaUnix博客

hope_process

首页　| 　博文目录　| 　关于我

heixia108

博客访问： 752480
博文数量： 251
博客积分： 10367
博客等级：上将
技术积分： 2750
用户组：普通用户
注册时间： 2007-05-10 14:43

文章分类

全部博文（251）

ML（1）
Lisp（2）
资料（1）
OS（13）

oldlinux（3）
compiler（20）
隐藏文件夹（44）

Perl（1）

学习资料（2）

Enhlish（2）

心情（31）

Windows（2）

硬件相关（1）

软件工程（0）

数据挖掘与AI（1）

OpenGL（4）
人物（0）
网络技术与安全（14）
搜索引擎（7）
病毒学习（1）
算法（32）
LDD（7）
Java（16）
C/C++（22）
linux（59）
精典转载（12）
未分配的博文（0）

文章存档

2009年（2）

2008年（86）

2007年（163）

我的朋友

相关博文

mp3搜索的问题

分类： C/C++

2007-12-14 13:13:50

谈到后来，我都觉得自己快“朽木不可雕”了，估计自己跟面试人员的思想差距太大了，虽然他提示我好多，可是我依然不能领悟。
题目是：
“
假设一个mp3搜索引擎收录了2^24首歌曲，并记录了可收听这些歌曲的2^30条URL，但每首歌的URL不超过2^10个。系统会定期检查这些URL，如果一个URL不可用则不出现在搜索结果中。现在歌曲名和URL分别通过整型的SONG_ID和URL_ID唯一确定。对该系统有如下需求：
1) 通过SONG_ID搜索一首歌的URL_ID，给出URL_ID计数和列表
2) 给定一个SONG_ID，为其添加一个新的URL_ID
3) 添加一个新的SONG_ID
4) 给定一个URL_ID，将其置为不可用

限制条件：内存占用不超过1G，单个文件大小不超过2G，一个目录下的文件数不超过128个。
为获得最佳性能，请说明设计的数据结构、搜索算法，以及资源消耗。如果系统数据量扩大，该如何多机分布处理？
”

我所能想到的是：首先的500MB献给URL_ID，做个大的bitmap，用来重置不可用的URL_ID
SONG_ID和URL_ID的对应关系大约是只能放在磁盘上了，因此，以2^10*4=4k为一个分块的大小，存入文件，
其次，
如果磁盘空间是无限的话，那么可以把SONG_ID的索引结构都放到磁盘上，就是说建立：4G*4k/2G=8000个文件来索引整个SONG_ID（感觉很有魄力），如此一来，对于任何SONG_ID，SONG_ID*4k/2G就是表示第几个文件，SONG_ID%2G就是在该文件中的位移。

如果磁盘空间是有限的话，那就Hash整个SONG_ID，用桶来处理冲突。
结构是：
struct SongIndex
{
int song_id;
int file_id;
int file_addr;
};
我当时想到的是这样的方法。但是面试官挑一堆错，比如桶的增长和缩小，采用链式结构又多费空间，我实在是想不到其他更好的方法，不知道有啥其他方法可以再更加优化。

这是百度的一道面试题,据说过关后,2W一月!看来得加把劲学习了...同时该作者也推荐了一本书《Computer.Systems.A.Programmer》，以前看了一点。。。有机会再瞧瞧

转自：

阅读(1043) | 评论(1) | 转发(0) |

上一篇：信息指纹及其应用

下一篇：重叠区间的问题

给主人留下些什么吧！~~

chinaunix网友2009-06-17 14:28:12

B树

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6