简单爬虫原理笔记第三章练习-1021eee-ChinaUnix博客

Raven

首页　| 　博文目录　| 　关于我

1021eee

博客访问： 706271
博文数量： 108
博客积分： 10
博客等级：民兵
技术积分： 1436
用户组：普通用户
注册时间： 2012-10-31 09:49

文章分类

全部博文（108）

文章存档

2019年（16）

2015年（2）

2014年（20）

2013年（70）

我的朋友

相关博文

简单爬虫原理笔记第三章练习

分类： Python/Ruby

2019-09-02 15:45:19

import requests
from bs4 import BeautifulSoup

def get_movies():
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom/52.0.2743.82 Safari/537.36',
'Host': 'movie.douban.com'
}
movie_list = []
for i in range(0, 10):
link = '' + str(i * 25)
r = requests.get(link, headers=headers, timeout= 10)
print (str(i+1),"页响应状态码:", r.status_code)
soup = BeautifulSoup(r.text, "lxml")
div_list = soup.find_all('div', class_='hd')
for each in div_list:
movie = each.a.span.text.strip()
movie_list.append(movie)
return movie_list
movies = get_movies()
print (movies)#原书中给的是print (movie_list)，因为一直觉得书不会错，没有多想，结果发现了自己的低级错误，经过查证，确实是书里面的内容有问题，所以遇到问题要自信，不要盲目啊。

阅读(157931) | 评论(0) | 转发(0) |

上一篇：简单爬虫原理笔记第三章，超时

下一篇：简单爬虫原理笔记

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6