Chinaunix首页 | 论坛 | 博客
  • 博客访问: 132203
  • 博文数量: 46
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 335
  • 用 户 组: 普通用户
  • 注册时间: 2014-07-19 19:13
文章分类

全部博文(46)

文章存档

2015年(1)

2014年(45)

我的朋友

发布时间:2014-10-29 11:50:55

最近写了个爬虫项目,暂时放在github上。https://github.com/shenbaise/goodcrawler 对于爬虫最难的问题应该是javascript和ajax的处理。现在很多网站使用大量ajax,普通爬虫无法获取js生成的内容。 目前大体上有2中方式来解决这个问题。一.........【阅读全文】

阅读(1622) | 评论(0) | 转发(0)

发布时间:2014-10-28 17:41:43

发现一个很不错的模拟浏览器包htmlunit,它可以直接执行访问网站地址,并执行相应的JavaScript脚本;这个功能对于网站爬虫有很大的帮助,一些网站使用了ajax,如果使用简单的http访问只能抓到原始的html源码,但对于页面内执行的ajax却无法获取;使用这个包后,可以将执行ajax后的html源码一并抓取下来。网站地址:htt.........【阅读全文】

阅读(1671) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册