Chinaunix首页 | 论坛 | 博客
  • 博客访问: 18084
  • 博文数量: 9
  • 博客积分: 212
  • 博客等级: 入伍新兵
  • 技术积分: 105
  • 用 户 组: 普通用户
  • 注册时间: 2012-07-19 15:40
文章分类

全部博文(9)

文章存档

2012年(9)

我的朋友

分类: Python/Ruby

2012-07-19 21:57:00

计划的核心部分基本完成,
主要是解析部分
url和标题的提取更加精确
关键词列表也更加合理
以前是只有并的关系
现在加入了或的关系
例如
以前是
‘我国’and ‘经济’
现在可以是
['我国' or '中国'] and [ ‘经济’or ‘股票’]
这样就更加灵活了,可以搜索的范围大了
但还有些细节没有完善
像网络连接状况的判断、异常处理等
 
一。现在的一个问题就是提取出来的结果如何处理
按之前的计划是存储到数据库
也想过就直接存到文件算了
 
想想还是存到sqllite好些,方便组织和提取,效率会更好
 
二。数据库如何设计一个问题,要设计的合理
也为以后做相关的数据挖掘做好数据资料
 
三。接下来的问题就是如何判断消息的实时性
就是如何去重:这是一大块
1)有的消息可能是好几天都在同一网页上,提取的时候会和之前的重复,这个可能只要判断url和之前的是否相同
不涉及到内容的判断,因为一个网站上不可能用不同的两个链接讲述同一件事情
2)也有不同的网页上得两个(或多个)链接讲的是同一件事,这样就冗余了,这就涉及到新闻内容相似度的判断
 
但目前想的是,先不做这些工作,这些等到第一个版本的软件处理后,再做进一步的完善,升级
 
四。再就是界面的问题了
各位看到这篇日志的人,你们作为一个使用者来看,想怎么使用这个NetShadow,可以把自己认为使用方便的
界面的草图发给我,谢谢,相当于是个用户需求分析吧
 
 
rg:
慢慢来,加油。。。。。。
阅读(285) | 评论(0) | 转发(0) |
0

上一篇:没有了

下一篇:NetShadow计划(三)

给主人留下些什么吧!~~