Chinaunix首页 | 论坛 | 博客
  • 博客访问: 4049825
  • 博文数量: 272
  • 博客积分: 7846
  • 博客等级: 少将
  • 技术积分: 6476
  • 用 户 组: 普通用户
  • 注册时间: 2009-08-25 16:27
文章分类

全部博文(272)

分类: Python/Ruby

2016-03-19 10:40:54

      别和我说selenium中的webdriver用driver.page_source,我就是不想把整篇HTML文档每次都全部提出来做Soup。因为,对下面这样左右结构的论坛而言,每次内容的改变对于整个HTML页面而言实在是一个很小的部分,如果我想把整个网站所有MOOC课程评论爬下来的话,将要做多少无用功!
     然而,百度遍中文内容并无解答。于是翻出去Google了一把,发现世界上已有前辈对该问题进行了解答: 

     主要思路是使用get_attribute方法,提取innerHTML,如下:

     经验证,一切OK:
阅读(35067) | 评论(0) | 转发(1) |
给主人留下些什么吧!~~