Chinaunix首页 | 论坛 | 博客
  • 博客访问: 291815
  • 博文数量: 82
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 874
  • 用 户 组: 普通用户
  • 注册时间: 2015-03-21 09:58
个人简介

traveling in cumputer science!!

文章分类

全部博文(82)

文章存档

2016年(13)

2015年(69)

我的朋友

分类: Web开发

2015-11-30 14:58:39

方法还有待改进,前期需手动操作,待后续更新。。。

1.从浏览器中获取要登录网站cookie

    例如 chrome,步骤如下:
    setting:

   dvanced:

    contentSetting:

    all cookies and site data:

    search sinalogin cookie and url:

2.通过 chrome 的 Developer Tools (key F12)调试登陆成功的微博主页,然后用里面的访问记录,找到会话期间的cookie

open your sina homepage  press 'F12' get into the debug model
    (1)在地址栏获取url
    (2)然后像图中一样获取session期间的cookie

3.通过python的urllib2结合刚刚找到的cookie访问你的微博主页面

点击(此处)折叠或打开

  1. import urllib2
  2. import urllib
  3. import sys
  4. import re


  5. url = 'your url'
  6. headers = {'cookie':'your cookie'}
  7. req = urllib2.Request(url, headers=headers)
  8. r = urllib2.urlopen(req)
  9. htmlcont = r.read()
  10. print htmlcont
  11. f = open('htmlcode', 'w')
  12. f.write(htmlcont)
  13. f.close()
通过上面的步骤获得了登陆成功页面的HTML代码,可通过浏览器打开,也可通过像selenium一样的工具包进行动态网页解析,提取网页内容。


    
阅读(2008) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~