分类: Python/Ruby
2013-07-24 12:43:31
#coding:utf-8
#import pyquery
import urllib2
import re
from bs4 import BeautifulSoup
"""
分析结构
"""
def crawl(url):
page = urllib2.urlopen(url)
contents = page.read()
soup = BeautifulSoup(contents)
print(u' 豆瓣电影TOP250:\n 序号 \t影片名\t 链接 ')
for tag in soup.find_all('div', class_='item'):
m_order=tag.em.get_text()
#print m_order
m_name=tag.span.get_text()
#print m_name
#m_rating_score=tag.find_all('div',class_="star").find(text=re.compile("span"))
#m_rating_score=soup.find(text=re.compile("^0-9"))
#print m_rating_score
m_url=str(tag.find('a')).split('"')[1]
#print m_url
print ("%s %s %s" %(m_order, m_name,m_url))
if __name__ == '__main__':
crawl('')
输出结果:
豆瓣电影TOP250:
序号 影片名 链接
1 肖申克的救赎
2 这个杀手不太冷
3 阿甘正传
4 霸王别姬
5 盗梦空间
6 海上钢琴师
7 美丽人生
8 三傻大闹宝莱坞
9 辛德勒的名单
10 放牛班的春天
11 龙猫
12 搏击俱乐部
13 泰坦尼克号
14 教父
15 天堂电影院
16 忠犬八公的故事
17 千与千寻
18 罗马假日
19 乱世佳人
20 大话西游之大圣娶亲
21 天使爱美丽
22 当幸福来敲门
23 楚门的世界
24 怦然心动
25 两杆大烟枪