发布时间:2014-10-29 11:50:55
最近写了个爬虫项目,暂时放在github上。https://github.com/shenbaise/goodcrawler 对于爬虫最难的问题应该是javascript和ajax的处理。现在很多网站使用大量ajax,普通爬虫无法获取js生成的内容。 目前大体上有2中方式来解决这个问题。一.........【阅读全文】
发布时间:2014-10-28 17:41:43
发现一个很不错的模拟浏览器包htmlunit,它可以直接执行访问网站地址,并执行相应的JavaScript脚本;这个功能对于网站爬虫有很大的帮助,一些网站使用了ajax,如果使用简单的http访问只能抓到原始的html源码,但对于页面内执行的ajax却无法获取;使用这个包后,可以将执行ajax后的html源码一并抓取下来。网站地址:htt.........【阅读全文】
发布时间:2014-10-27 11:10:26
传递依赖是maven最有特色的、最为方便的优点之一,可以省了很多配置。如a 依赖 b,b 依赖c 默认 a也会依赖 c。但是 也会带来隐患,如版本冲突。当然maven也考虑到解决办法,可以使用exclusions来排除相应的重复依赖。但是我们还会遇到一个严重的问题,那就是,我怎么知道是哪个包的传递依赖产生的冲突 ?.........【阅读全文】
发布时间:2014-10-21 18:00:51
目录一、数据库事务的定义二、数据库事务并发可能带来的问题三、数据库事务隔离级别四、使用Hibernate设置数据库隔离级别五、使用悲观锁解决事务并发问题六、使用乐观锁解决事务并发问题 Hibernate事务与并发问题处理(乐观锁与悲观锁) 一、数据库事务的定义 .........【阅读全文】
发布时间:2014-10-21 15:26:34
因为要提高系统的性能,所以想到要使用一些缓存框架,找到了Hibernate的二级缓存。1. Hibernate一级和二级缓存区别 与Hibernate一级缓存Session范围相对的是SessionFactory范围的二级缓存,SessionFactory也提供了相应的缓存机制。SessionFactory缓存可以依据功能和.........【阅读全文】