Chinaunix首页 | 论坛 | 博客
  • 博客访问: 6800
  • 博文数量: 5
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 2
  • 用 户 组: 普通用户
  • 注册时间: 2013-05-27 14:54
文章分类
文章存档

2013年(5)

我的朋友

发布时间:2013-05-27 15:01:20

    urllib2是Python的一个获取URLs的组件。他以urlopen函数的形式提供了一个非常简单的接口,具有利用不同协议获取URLs的能力,同样提供了一个比较复杂的接口来处理一般情况。    urllib2支持获取不同格式的URLs例如:ftp、Gopher等,并利用它们相关网络协议进行获取。    .........【阅读全文】

阅读(272) | 评论(0) | 转发(0)

发布时间:2013-05-27 15:00:46

1 Proxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy,而不受环境变量的影响,可以使用下面的方式:import urllib2enable_proxy = Trueproxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'}).........【阅读全文】

阅读(254) | 评论(0) | 转发(0)

发布时间:2013-05-27 15:00:32

    mechanize是对urllib2的部分功能的替换,能够更好的模拟浏览器行为,在web访问控制方面做得更全面。结合beautifulsoup和re模块,可以有效的解析web页面,我比较喜欢这种方法。    下面主要总结了使用mechanize模拟浏览器的行为和几个例子(谷歌搜索,百度搜索和人人网登录等)1.初.........【阅读全文】

阅读(1366) | 评论(0) | 转发(0)

发布时间:2013-05-27 15:00:18

    BeautifulSoup是Python的一个第三方库,可用于帮助解析html/XML等内容,以抓取特定的网页信息。目前最新的是v4版本,这里主要总结一下我使用的v3版本解析html的一些常用方法。1.初始化   导入模块#!/usr/bin/env pythonfrom BeautifulSoup import BeautifulSoup  .........【阅读全文】

阅读(238) | 评论(0) | 转发(0)

发布时间:2013-05-27 14:57:00

    Python 的 re 模块(Regular Expression 正则表达式)提供各种正则表达式的匹配操作,在文本解析、复杂字符串分析和信息提取时是一个非常有用的工具,下面我主要总结了re的常用方法。1.re的简介    使用python的re模块,尽管不能满足所有复杂的匹配情况,但足够在绝大多数情况下能够有效地.........【阅读全文】

阅读(269) | 评论(0) | 转发(0)
给主人留下些什么吧!~~

mengln772013-05-27 14:56

不错

回复  |  举报
留言热议
请登录后留言。

登录 注册