python利用beautiful爬取豆瓣网top250-MingZznet-ChinaUnix博客

Mingz技术博客

首页　| 　博文目录　| 　关于我

MingZznet

博客访问： 535872
博文数量： 71
博客积分： 0
博客等级：民兵
技术积分： 159
用户组：普通用户
注册时间： 2013-07-13 12:37

个人简介

aaaaaaaaa

文章分类

全部博文（71）

v8（4）
杂项（1）
firefox（1）
Qt（21）
Linux（1）
json（2）
ubuntu（0）
PyQt（1）
python（40）
未分配的博文（0）

文章存档

2013年（71）

我的朋友

相关博文

python利用beautiful爬取豆瓣网top250

分类： Python/Ruby

2013-07-24 12:43:31

原文地址：python利用beautiful爬取豆瓣网top250 作者：chinaboywg

#coding:utf-8

#import pyquery
import urllib2
import re
from bs4 import BeautifulSoup
"""
分析结构

                            盗梦空间
                                    / Inception
                                / 潜行凶间(港) / 全面启动(台)

                            导演: 克里斯托弗·诺兰 Christopher Nolan   主演: 莱昂纳多·迪卡普里奥 Le...

                            2010 / 美国英国 / 动作科幻悬疑冒险

                            9.2
                            451323人评价

诺兰给了我们一场无法盗取的梦。

"""
def crawl(url):
   page = urllib2.urlopen(url)
   contents = page.read()
   soup = BeautifulSoup(contents)
   print(u'               豆瓣电影TOP250:\n 序号 \t影片名\t 链接 ')
   for tag in soup.find_all('div', class_='item'):
      m_order=tag.em.get_text()
      #print m_order
      m_name=tag.span.get_text()
      #print m_name
      #m_rating_score=tag.find_all('div',class_="star").find(text=re.compile("span"))
      #m_rating_score=soup.find(text=re.compile("^0-9"))
      #print m_rating_score
      m_url=str(tag.find('a')).split('"')[1]
      #print m_url
      print ("%s %s %s" %(m_order, m_name,m_url))
if __name__ == '__main__':
    crawl('')

输出结果：
               豆瓣电影TOP250:
序号影片名   链接
1 肖申克的救赎
2 这个杀手不太冷
3 阿甘正传
4 霸王别姬
5 盗梦空间
6 海上钢琴师
7 美丽人生
8 三傻大闹宝莱坞
9 辛德勒的名单
10 放牛班的春天
11 龙猫
12 搏击俱乐部
13 泰坦尼克号
14 教父
15 天堂电影院
16 忠犬八公的故事
17 千与千寻
18 罗马假日
19 乱世佳人
20 大话西游之大圣娶亲
21 天使爱美丽
22 当幸福来敲门
23 楚门的世界
24 怦然心动
25 两杆大烟枪

阅读(453) | 评论(0) | 转发(0) |

上一篇：一位大牛整理的Python 资源

下一篇：Python去除String中的空格/换行/回车等

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6