htmlunit和爬虫问题_unnkoel-ChinaUnix博客

unnkoel的ChinaUnix博客

首页　| 　博文目录　| 　关于我

unnkoel

博客访问： 135650
博文数量： 46
博客积分： 0
博客等级：民兵
技术积分： 335
用户组：普通用户
注册时间： 2014-07-19 19:13

文章分类

全部博文（46）

jvm（3）
java se（1）
Linux应用（1）
Linux（1）
抓取（2）

开源爬虫（0）

浏览器模拟（2）
web技术（6）

tomcat（1）

Hibernate（4）

jsp（1）
数据库（6）

mysql（5）
spring（2）
项目工具（5）

git与github（1）
协议（6）

实践（2）
IT读书笔记（4）

鸟哥Linux（4）
java（4）

日志（1）

io（0）

io（2）
web架构（5）

分布式文件系统（4）

分布式web服务器（0）

分布式数据库（1）
未分配的博文（0）

文章存档

2015年（1）

2014年（45）

我的朋友

最近访客

推荐博文

htmlunit和爬虫问题

发布时间：2014-10-29 11:50:55

最近写了个爬虫项目，暂时放在github上。https://github.com/shenbaise/goodcrawler 对于爬虫最难的问题应该是javascript和ajax的处理。现在很多网站使用大量ajax，普通爬虫无法获取js生成的内容。目前大体上有2中方式来解决这个问题。一.........【阅读全文】

阅读(1772) | 评论(0) | 转发(0)

java模拟浏览器包htmlunit，selenium

发布时间：2014-10-28 17:41:43

发现一个很不错的模拟浏览器包htmlunit，它可以直接执行访问网站地址，并执行相应的JavaScript脚本；这个功能对于网站爬虫有很大的帮助，一些网站使用了ajax，如果使用简单的http访问只能抓到原始的html源码，但对于页面内执行的ajax却无法获取；使用这个包后，可以将执行ajax后的html源码一并抓取下来。网站地址：htt.........【阅读全文】

阅读(1721) | 评论(0) | 转发(0)

给主人留下些什么吧！~~

留言热议

请登录后留言。

登录注册

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6