python网页爬虫之列车时刻表的抓取(2)-铁路网页面的解析-alertx-ChinaUnix博客

open source

首页　| 　博文目录　| 　关于我

alertx

博客访问： 208223
博文数量： 48
博客积分： 1935
博客等级：上尉
技术积分： 491
用户组：普通用户
注册时间： 2010-07-29 00:59

文章分类

全部博文（48）

script（24）
未分配的博文（24）

文章存档

2011年（1）

2010年（47）

我的朋友

相关博文

python网页爬虫之列车时刻表的抓取(2)-铁路网页面的解析

分类： Python/Ruby

2010-09-21 00:53:52

python网页爬虫之列车时刻表的抓取(2)-铁路网页面的解析

2010-05-30 17:35

时刻表第一页:有两部分是有用的.

第一部分,车次列表:

    # 解析指定的连接
    d = pq(url=url)
    # 取得车次列表
    lis = d('body center div.ListContent div.ListContentLeft ul li')
    lis.make_links_absolute() # 从描述为相对路径的超链接生成绝对路径
    trains = lis.map(lambda i,e:pq(e)('a').attr('href'))

这样车次列表的超链接都存在了trains里了.

第二部分,取下一页链接:

nextPageTable = d('body center div.ListContent div.ListContentLeft div.ListContentLeftContent').eq(2)('a')
nextPageTable.make_links_absolute() # 把页面中链接的相对路径改为绝对路径

lis=nextPageTable.map(lambda i,e:getNextPageLink(e))

解析得到下一页的连接:

def getNextPageLink(e):
    d = pq(e)
    if d.text() == u"下一页":
        return d.attr('href')

阅读(2478) | 评论(0) | 转发(0) |

上一篇：python网页爬虫之列车时刻表的抓取(3)-车次数据的解析

下一篇：python网页爬虫之列车时刻表的抓取(1)-pyquery

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6