获取HTML资源[urllib urllib2 httplib]之urllib2(比urllib强)-nba76ers-ChinaUnix博客

Arvil to dreamiforeverlove.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

nba76ers

博客访问： 2917575
博文数量： 471
博客积分： 7081
博客等级：少将
技术积分： 5369
用户组：普通用户
注册时间： 2012-01-04 21:55

文章分类

全部博文（471）

web开发（1）
app开发（4）
tomcat（8）

tomcat配置（8）
Tomcat优化（2）
架构类（4）
gpddddddi（2）
python（32）

经典面试题目（4）

应用开发（1）

python 的we（2）

透彻python编程（14）

python简明教程（10）
web前端开发（8）

css（2）

JS（1）

html（4）
运维自动化（3）

fabric（1）
系统设计题（0）
C的底层知识（0）
智力研究（0）
概率（3）
百度（0）
数组（8）
位存储（3）
递归（0）
算法题（8）
操作系统（2）
java百练（9）
sql百练（13）
linux笔试（4）

linux shell编程（2）

linux面试题（0）
acm总结（3）
图的算法（24）

最大二分匹配（3）

每对顶点间的最短（0）

单源最短路径（2）

最小生成树（4）

拓扑排序（2）

BFS广度优先搜索（6）

DFS深度优先搜索（6）

搜索专题（1）
数据结构（44）

外部排序（1）

stl Map（1）

二叉树（6）

递归专题（0）

堆（0）

优先队列（3）

八大排序与三大查（4）

最优二叉树(哈夫（0）

字符串（8）

B树（0）

红黑树（0）

栈和队列（4）

并查集（不相交集（0）

二叉查找树（4）

Hash散列表（6）

字典树（3）

链表（4）
收集面试（6）
acm（28）

二分搜索专题（3）

快速取幂算法（1）

递推专题（2）

背包问题（2）

贪心算法（3）

动态规划（2）

简单计算（7）

打表（1）

母函数（7）
mysql（85）

sql练习（12）

mysql配置文件优（5）

mysql维护管理（11）

mysql SQL语（9）

性能优化（17）

mysql入门很简单（31）
beautyofprogramm（0）

topK（0）
little java（4）
海量数据专题（2）
spring2.5（15）
struts2（3）
hadoop（4）
java（59）

spring（3）

JVM原理（4）

收集公司笔试（2）

java组件（1）

javaIO（3）

JDK底层实现（5）

jvm 优化系列（3）

线程系列（7）

java反射系列（12）

java 基础用法注（19）
网络编程（20）
linux基础（54）

awk（0）

sed（3）

Linux Shell（18）

linux编程环境（5）

进程管理与监控（8）

linux常用命令解（20）
未分配的博文（6）

文章存档

2014年（90）

2013年（69）

2012年（312）

我的朋友

相关博文

获取HTML资源[urllib urllib2 httplib]之urllib2(比urllib强)

分类： Python/Ruby

2013-02-28 22:19:45

urllib：比较简单，功能相对也比较弱，可以从指定的URL下载文件，或是对一些字符串进行编码解码以使他们成为特定的 URL串。

urllib2：它有各种各样的Handler啊，Processor啊可以处理更复杂的问题，比如网络认证，使用代理服务器，使用cookie等等。

HTTP是基于请求和应答机制的--客户端提出请求，服务端提供应答。urllib2用一个Request对象来映射你提出的HTTP请求,在它最简单的使用形式中你将用你要请求的地址创建一个Request对象，通过调用urlopen并传入Request对象，将返回一个相关请求response对象，这个应答对象如同一个文件对象，所以你可以在Response中调用.read()。

urllib 和urllib2(python3已经合并成一个了)都是接受URL请求的相关模块，但是提供了不同的功能。（老外写的）
1、urllib2可以接受一个Request类的实例来设置URL请求的headers，urllib仅可以接受URL:这意味着你不可以伪装你的User Agent字符串等。
2、urllib提供urlencode方法用来GET查询字符串的产生，而urllib2没有。这是为何urllib常和urllib2一起使用的原因。Data同样可以通过在Get请求的URL本身上面编码来传送。urllib.urlencode(data)

点击(此处)折叠或打开

#coding:utf-8
#!/usr/bin/python
# Filename: web.py
import urllib,urllib2
#网页地址
url=""
#打开链接，返回一个可读的文件对象,可用文件的方法来读
wp=urllib.urlopen(url)
#获取页面内容
content=wp.read()
print "字符串长度：",len(content)
#找开一个文本文件
fp=open("163.txt","w")
#写入数据
fp.write(content)
fp.close();
#两种方法
#fqq=urllib2.urlopen(url, data, timeout)
#urllib2.urlopen(qqurl,data)
qqurl=""
req=urllib2.Request(qqurl)#request方法可以，可以在这里添加要提交的数据
fqq=urllib2.urlopen(req)
the_page=fqq.read()
print "网页的字符串长度：",len(the_page)
fp=open("qq.txt","w")
fp.close
字符串长度： 134602
网页的字符串长度： 170233

我们可以看到登陆人人的过程中浏览器向人人的服务器发送POST请求数据，有四项，其中两项是你的账号和密码。
下面我们就利用代码模拟发出同样的请求就可以啦。
post_data = {
'email':'xxxxx',
'password':'xxxxx',
'origURL':'',
'domain':'renren.com'
}
req = urllib2.Request('', urllib.urlencode(post_data))
html_src = openner.open(req).read()
parser = BeautifulSoup(html_src)

阅读(4516) | 评论(0) | 转发(1) |

上一篇：python 之异常

下一篇：htmllib 模块处理Html文档

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6