分类: Python/Ruby
2010-09-21 00:53:52
时刻表第一页:有两部分是有用的.
第一部分,车次列表:
# 解析指定的连接
d = pq(url=url)
# 取得车次列表
lis = d('body center div.ListContent div.ListContentLeft ul li')
lis.make_links_absolute() # 从描述为相对路径的超链接生成绝对路径
trains = lis.map(lambda i,e:pq(e)('a').attr('href'))
这样车次列表的超链接都存在了trains里了.
第二部分,取下一页链接:
nextPageTable = d('body center div.ListContent div.ListContentLeft div.ListContentLeftContent').eq(2)('a')
nextPageTable.make_links_absolute() # 把页面中链接的相对路径改为绝对路径
lis=nextPageTable.map(lambda i,e:getNextPageLink(e))
解析得到下一页的连接:
def getNextPageLink(e):
d = pq(e)
if d.text() == u"下一页":
return d.attr('href')