python用BeautifulSoup抓取网页-wwm-ChinaUnix博客

天道酬勤,重剑无锋wwm.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

wwm

博客访问： 7323846
博文数量： 512
博客积分： 12019
博客等级：上将
技术积分： 6857
用户组：普通用户
注册时间： 2005-08-01 16:46

文章分类

全部博文（512）

python（77）

tensorflow（9）
大数据分析（4）
cocos2d-x（3）
nodejs（8）
并行技术研究（1）
杂谈（3）
java（2）
流媒体live strea（9）
flash技术（4）
敏捷（1）
手机网游（15）
中间件（0）
汽车知识（3）
lua（19）
中医和健康（9）
佛教（7）
计算机硬件知识（1）
高性能服务（3）
项目管理（2）
证券知识（27）
算法技术设计与分（4）
数据仓库（11）

数据挖掘（2）
UML（1）
人生感悟（6）
文史类（3）
IT生涯（2）
设计模式（14）
c/c++语言（83）
stl（5）
windows（21）
linux（126）
General（22）
未分配的博文（16）

文章存档

2024年（2）

2022年（2）

2021年（6）

2020年（59）

2019年（4）

2018年（10）

2017年（5）

2016年（2）

2015年（4）

2014年（4）

2013年（16）

2012年（47）

2011年（65）

2010年（46）

2009年（34）

2008年（52）

2007年（52）

2006年（80）

2005年（22）

我的朋友

相关博文

python用BeautifulSoup抓取网页

分类： Python/Ruby

2019-11-21 15:14:26

#coding:utf-8
import urllib
import re
from bs4 import BeautifulSoup
from distutils.filelist import findall

page = urllib.urlopen('')
contents = page.read()
soup = BeautifulSoup(contents,"html.parser")
tag =soup.find('div', class_='wrap')
tag3 =tag.find_all('li')
for v in tag3:
print v.text.encode("utf8")

#下面是过滤操作
c = get_http(url)
c.encoding = "gb2312" #网页若是gb2312
soup = BeautifulSoup(c.text, 'lxml',from_encoding='utf-8')

#去掉注释
comments = soup.findAll(text=lambda text: isinstance(text, Comment))
[s.extract() for s in comments ]

sff = soup.find('div',id="contentText")
#去掉内部script
[s.extract() for s in sff('script')]

   #去掉内部div
[s.extract() for s in sff('div')]

阅读(6367) | 评论(0) | 转发(0) |

上一篇：pandas技巧汇总

下一篇：python常见操作

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6