Beautiful Soup 帮助文档1 快速入门-oychw-ChinaUnix博客

雪峰磁针石测试 linux pythontesting.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

oychw

博客访问： 19982575
博文数量： 679
博客积分： 10495
博客等级：上将
技术积分： 9308
用户组：普通用户
注册时间： 2006-07-18 10:51

文章分类

全部博文（679）

@python（115）

python 标准库（1）

测试（2）

其他（17）

python核心编程（0）

python 模块（0）

python本质参考（3）

python 并发（0）

实例（24）

pexpect（5）

《使用python进行（5）

Robot Framework （43）

python 从入门到（13）
测试新闻（5）
软件水平考试（15）

教程（12）

软件评测师（2）
@network（5）

抓包工具（0）

计算机网络第四（3）
@socity（36）

地理（1）

cctv7（1）

国学（2）

散文（2）

财经（3）

健康（11）

life（2）

卡耐基人际关系学（11）

history（1）
Windows（10）

终端服务（2）

深入解析Windows（6）
@mysql（29）

mysql cluster（5）

Mysql 教程（19）
@LINUX（148）

ubuntu（2）

?哥的 Linux 私房（0）

Unix 和 Linux 自（3）

linux 内核（6）

学习bash shell （3）

shell实例（1）

sed（1）

编辑命令（0）

linux 安全（0）

文件系统（1）

硬盘相关（4）

running linux（7）

Linux 程序设计入（36）

Linux基础教程（1（8）

linux 基础（0）

linux 业界（2）

性能监控（1）

Linux 命令（11）

Linux 文件系统（7）

Linux 简介（9）

linux 使用（4）

@LINUX SERVICE（4）

高效awk编程第3版（3）

实例讲解unix she（1）

LINUX与UNIX SHEL（15）

shell（10）
test（77）

功能测试（2）

质量模型（0）

软件测试的艺术（5）

测试文档（12）

测试基础理论（11）

软件测试基础教程（0）

Jmeter（2）

测试工具（1）

Web 安全测试 Coo（3）

测试面试（1）

性能测试（9）

软件测试第2版（13）
automation（26）

sikuli（3）

selenium（0）

手册（0）

Testcomplete（2）

学习perl（1）

TCL 教程英文版（7）

实战Tcl和TK程序（5）

expect 实例（1）
computer（28）

c（8）

21天学通Java 6（4）

java（1）

Cisco IOS Cookbo（0）

network（10）
it（4）
joke（4）
linux_unix（28）

linux security （2）

硬件相关（2）

Secure Shell 2nd（1）

linux unix性能工（2）
society（84）

一夜风流（2）

@health（1）

法律（3）

sex（1）

励志（1）

english（1）

plan & summary（8）

job（2）

security（10）

economic（17）

health（9）
未分配的博文（65）

文章存档

2012年（5）

2011年（38）

2010年（86）

2009年（145）

2008年（170）

2007年（165）

2006年（89）

我的朋友

相关博文

Beautiful Soup 帮助文档1 快速入门

分类： Python/Ruby

2010-12-16 15:41:01

*在程序中中导入 Beautiful Soup库:

from BeautifulSoup import BeautifulSoup          # For processing HTML
from BeautifulSoup import BeautifulStoneSoup     # For processing XML
import BeautifulSoup 

*Beautiful Soup基本功能的演示：

#!/usr/bin/env python
# -*- coding: gbk -*-
#gtalk： ouyangchongwu#gmail.com
#python qq group: 深圳自动化测试python 113938272

import sys

#设定字符编码为GBK
reload(sys)
sys.setdefaultencoding('gbk')


from BeautifulSoup import BeautifulSoup
import re

doc = ['Page title',
       'This is paragraph one.',
       '
This is paragraph two.',
       '']
soup = BeautifulSoup(''.join(doc))
print soup.prettify()

执行结果：

 
  <br>   Page title<br>  
 
 
  

   This is paragraph
   
    one
   
   .
  

  
   This is paragraph
   
    two
   
   .
  

 



*导航soup的一些方法：

获取第一标签的名字：
>>> soup.contents[0].name
u'html'

获取第一标签的第一个子标签的名字
>>> soup.contents[0].contents[0].name
u'head'

获取父标签的名字
>>> head = soup.contents[0].contents[0]
>>> head.parent.name
u'html'

下一个标签，注意此时head依旧是"Page title"
>>> head.next
Page title

下一个兄弟标签的名字
>>> head.nextSibling.name
u'body'

下一个兄弟标签的名字的第一个子标签
head.nextSibling.contents[0]
This is paragraph one.


下一个兄弟标签的名字的第一个子标签的下一个兄弟标签
>>> head.nextSibling.contents[0].nextSibling
This is paragraph two.


*在soup中查找指定标签或有着指定属性的标签


>>> titleTag = soup.html.head.title
>>> titleTag
Page title

>>> titleTag.string
u'Page title'

>>> len(soup('p'))
2
这里是表示有2个p标签

>>> soup.findAll('p', align="center")
[This is paragraph one.
]

>>> soup.find('p', align="center")
This is paragraph one.


>>> soup('p', align="center")[0]['id']
u'firstpara'

>>> soup.find('p', align=re.compile('^b.*'))['id']
u'secondpara'

>>> soup.find('p').b.string
u'one'

>>> soup('p')[1].b.string
u'two'


*修改soup

为title增加id	
>>> titleTag['id'] = 'theTitle'

修改title
>>> titleTag.contents[0].replaceWith("New title")

>>> soup.html.head
New title

去掉第一个p标签
>>> soup.p.extract()
This is paragraph one.


>>> print soup.prettify()

 
  <br>   New title<br>  
 
 
  
   This is paragraph
   
    two
   
   .
  

 


标签互换
>>> soup.p.replaceWith(soup.b)
>>> print soup.prettify()

 
  <br>   New title<br>  
 
 
  
   two
  
 


>>> soup.body.insert(0, "This page used to have ")
>>> soup.body.insert(2, " <p> tags!")

>>> soup.body
This page used to have This page used to have  <p> tags!two
>>> 



*应用实例：抓取一个网页的所有链接：

#!/usr/bin/env python
# -*- coding: gbk -*-
#gtalk： ouyangchongwu#gmail.com
#python qq group: 深圳自动化测试python 113938272

import sys

#设定字符编码为GBK
reload(sys)
sys.setdefaultencoding('gbk')

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen("http://blog.chinaunix.net/u/21908/")
soup = BeautifulSoup(page)
for incident in soup('a'):
    print incident['href']

以上用正则表达式也是可以实现的，只不过使用BeautifulSoup不要去构造匹配字符串。

阅读(11373) | 评论(0) | 转发(2) |

上一篇：python中利用google缩写服务缩写网址

下一篇：window下如何使用命令行创建schedule task(计划任务)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6