NetShadow计划（二）-gaowenhui2010-ChinaUnix博客

gaowenhui2010的ChinaUnix博客

首页　| 　博文目录　| 　关于我

gaowenhui2010

博客访问： 19119
博文数量： 9
博客积分： 212
博客等级：入伍新兵
技术积分： 105
用户组：普通用户
注册时间： 2012-07-19 15:40

文章分类

全部博文（9）

linux（5）
perl（2）
个人兴趣（2）
未分配的博文（0）

文章存档

2012年（9）

我的朋友

相关博文

NetShadow计划（二）

分类： Python/Ruby

2012-07-19 21:57:00

计划的核心部分基本完成，

主要是解析部分

url和标题的提取更加精确

关键词列表也更加合理

以前是只有并的关系

现在加入了或的关系

例如

以前是

‘我国’and ‘经济’

现在可以是

['我国' or '中国'] and [ ‘经济’or ‘股票’]

这样就更加灵活了，可以搜索的范围大了

但还有些细节没有完善

像网络连接状况的判断、异常处理等

一。现在的一个问题就是提取出来的结果如何处理

按之前的计划是存储到数据库

也想过就直接存到文件算了

想想还是存到sqllite好些，方便组织和提取，效率会更好

二。数据库如何设计一个问题，要设计的合理

也为以后做相关的数据挖掘做好数据资料

三。接下来的问题就是如何判断消息的实时性

就是如何去重：这是一大块

1）有的消息可能是好几天都在同一网页上，提取的时候会和之前的重复，这个可能只要判断url和之前的是否相同

不涉及到内容的判断，因为一个网站上不可能用不同的两个链接讲述同一件事情

2）也有不同的网页上得两个（或多个）链接讲的是同一件事，这样就冗余了，这就涉及到新闻内容相似度的判断

但目前想的是，先不做这些工作，这些等到第一个版本的软件处理后，再做进一步的完善，升级

四。再就是界面的问题了

各位看到这篇日志的人，你们作为一个使用者来看，想怎么使用这个NetShadow，可以把自己认为使用方便的

界面的草图发给我，谢谢，相当于是个用户需求分析吧

rg：

慢慢来，加油。。。。。。

阅读(328) | 评论(0) | 转发(0) |

上一篇：没有了

下一篇：NetShadow计划（三）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6