Chinaunix首页 | 论坛 | 博客
  • 博客访问: 205391
  • 博文数量: 48
  • 博客积分: 1935
  • 博客等级: 上尉
  • 技术积分: 491
  • 用 户 组: 普通用户
  • 注册时间: 2010-07-29 00:59
文章分类

全部博文(48)

文章存档

2011年(1)

2010年(47)

我的朋友

分类: Python/Ruby

2010-09-21 00:53:52

python网页爬虫之列车时刻表的抓取(2)-铁路网页面的解析
2010-05-30 17:35

时刻表第一页:有两部分是有用的.

第一部分,车次列表:


    # 解析指定的连接   
    d = pq(url=url)
    # 取得车次列表
    lis = d('body center div.ListContent div.ListContentLeft ul li')
    lis.make_links_absolute() # 从描述为相对路径的超链接生成绝对路径
    trains = lis.map(lambda i,e:pq(e)('a').attr('href'))

这样车次列表的超链接都存在了trains里了.

第二部分,取下一页链接:


    nextPageTable = d('body center div.ListContent div.ListContentLeft div.ListContentLeftContent').eq(2)('a')
    nextPageTable.make_links_absolute() # 把页面中链接的相对路径改为绝对路径

    lis=nextPageTable.map(lambda i,e:getNextPageLink(e))

解析得到下一页的连接:

def getNextPageLink(e):
    d = pq(e)
    if d.text() == u"下一页":
        return d.attr('href')

阅读(2435) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~