python urllib库整理-yaofang123-ChinaUnix博客

读书使人明智！yaofang123.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

yaofang123

博客访问： 1443622
博文数量： 264
博客积分： 5810
博客等级：大校
技术积分： 3528
用户组：普通用户
注册时间： 2011-03-13 17:15

文章分类

全部博文（264）

我的书单（1）
非技术（24）

新东西（0）

自我学习（11）

产品经理（1）

准爸爸指南（1）

生活篇（3）

时间管理（3）

职业规划（4）

其他（1）
android（0）
groovy（1）
Ruby（0）

Ruby心得（0）
Lua（0）

Lua高级（0）

Lua基础（0）
协议相关（1）
自研课程（1）

研5：安全（1）

研4：数据库存储（0）

研3：协议与网络（0）

研2：系统内核（0）

研1：算法与程序（0）
软件配置（7）

haxproxy（0）

IIS（0）

resin（1）

apache（3）

nginx（3）
IDE相关（6）
WEB前端（20）

CSS（4）

ExtJS（0）

JS技术（16）
虚拟化研究（1）
技术理论（13）

编程语言（2）

NoSQL（3）

key-value（2）

资料集（2）

分布式（3）
网络相关（1）
存储相关（2）
系统架构（17）

我的架构（2）

消息队列（2）

技术架构（3）

运维开发（2）

运维架构（2）

WEB架构（6）
开源软件（17）

squid（0）

SVN（13）

服务器运维（2）

puppet应用（0）

func应用（2）
php开发（7）

框架（5）

php高级应用（0）

php基础（2）
Mysql管理（7）

Mysql基础（3）

优化（3）

系统管理（0）

DBA相关（1）
Java开发（2）
Jsp开发（2）

ibatis（0）

spring（0）

maven（0）
python（62）

twisted框架（0）

python源码笔记（0）

Django精（15）

读书笔记（2）

python模块（3）

python前沿（2）

python源码分享（9）

python应用（14）

python基础（17）
C/C++（0）

C算法（0）

C基础开发（0）
linux相关（19）

rpm及yum（0）

linux命令（5）

酷shell（4）

Bind技术（1）

linux开发（0）

linux管理（9）
未分配的博文（53）

文章存档

2011年（264）

我的朋友

相关博文

python urllib库整理

分类： Python/Ruby

2011-06-04 08:29:33

1. python实现MD5加密

import hashlib
print '-' * 25, '更简洁的语法', '-' * 25
print hashlib.new("md5", "JGood is a handsome boy").hexdigest()

2. 整理这个库的用法

urllib.urlopen(url[, data[, proxies]]) : 创建一个表示远程url的类文件对象，然后像本地文件一样操作这个类文件对象来获取远程数据。参数url表示远程数据的路径，一般是网址；参数data表示以post方式提交到url的数据(玩过web的人应该知道提交数据的两种方式：post与get。如果你不清楚，也不必太在意，一般情况下很少用到这个参数)；参数proxies用于设置代理。 urlopen返回一个类文件对象，他提供了如下方法： read() , readline() , readlines() , fileno() , close() ：这些方法的使用方式与文件对象完全一样; info()：返回一个httplib.HTTPMessage 对象，表示远程服务器返回的头信息； getcode()：返回Http状态码。如果是http请求，200表示请求成功完成;404表示网址未找到； geturl()：返回请求的url；

urllib中还提供了一些辅助方法，用于对url进行编码、解码。url中是不能出现一些特殊的符号的，

有些符号有特殊的用途。我们知道以get方式提交数据的时候，会在url中添加key=value这样的字符串，

所以在value中是不允许有'='，因此要对其进行编码；与此同时服务器接收到这些参数的时候，要进行解码，

还原成原始的数据。这个时候，这些辅助方法会很有用： urllib.quote(string[, safe])：对字符串进行编码。参数safe指定了不需要编码的字符; urllib.unquote(string) ：对字符串进行解码； urllib.quote_plus(string [ , safe ] ) ：与urllib.quote类似，但这个方法用'+'来替换' '，

而quote用'%20'来代替' ' urllib.unquote_plus(string ) ：对字符串进行解码； urllib.urlencode(query[, doseq])：将dict或者包含两个元素的元组列表转换成url参数。

例如字典{'name': 'dark-bull', 'age': 200}将被转换为"name=dark-bull&age=200" urllib.pathname2url(path)：将本地路径转换成url路径； urllib.url2pathname(path)：将url路径转换成本地路径；

还可以模拟请求头

头：

我们将会在这里讨论一个特殊的HTTP头，来阐释怎么向你的HTTP请求中加入头。

有一些网站不希望被某些程序浏览或者针对不同的浏览器返回不同的版本。默认情况下，urlib2把自己识别为Python-urllib/x.y（这里的xy是python发行版的主要或次要的版本号，如， Python-urllib/2.5），这些也许会混淆站点，或者完全不工作。浏览器区别自身的方式是通过User-Agent头。当你建立一个Request对象时，你可以加入一个头字典。接下来的这个例子和上面的请求一样，不过它把自己定义为IE的一个版本。

import urllib
import urllib2

url = ''
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
values = {'name' : 'Michael Foord',
'location' : 'Northampton',
'language' : 'Python' }
headers = { 'User-Agent' : user_agent }

data = urllib.urlencode(values)
req = urllib2.Request(url, data, headers)
response = urllib2.urlopen(req)
the_page = response.read()

阅读(2624) | 评论(0) | 转发(0) |

上一篇：浅谈支付网关的接口安全协议

下一篇：python实现组件接口与外部系统接口安全通讯

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6