计划的核心部分基本完成,
主要是解析部分
url和标题的提取更加精确
关键词列表也更加合理
以前是只有并的关系
现在加入了或的关系
例如
以前是
‘我国’and ‘经济’
现在可以是
['我国' or '中国'] and [ ‘经济’or ‘股票’]
这样就更加灵活了,可以搜索的范围大了
但还有些细节没有完善
像网络连接状况的判断、异常处理等
一。现在的一个问题就是提取出来的结果如何处理
按之前的计划是存储到数据库
也想过就直接存到文件算了
想想还是存到sqllite好些,方便组织和提取,效率会更好
二。数据库如何设计一个问题,要设计的合理
也为以后做相关的数据挖掘做好数据资料
三。接下来的问题就是如何判断消息的实时性
就是如何去重:这是一大块
1)有的消息可能是好几天都在同一网页上,提取的时候会和之前的重复,这个可能只要判断url和之前的是否相同
不涉及到内容的判断,因为一个网站上不可能用不同的两个链接讲述同一件事情
2)也有不同的网页上得两个(或多个)链接讲的是同一件事,这样就冗余了,这就涉及到新闻内容相似度的判断
但目前想的是,先不做这些工作,这些等到第一个版本的软件处理后,再做进一步的完善,升级
四。再就是界面的问题了
各位看到这篇日志的人,你们作为一个使用者来看,想怎么使用这个NetShadow,可以把自己认为使用方便的
界面的草图发给我,谢谢,相当于是个用户需求分析吧
rg:
慢慢来,加油。。。。。。
阅读(328) | 评论(0) | 转发(0) |