import lxml.etree
def parse():
parser = lxml.etree.XMLParser(recover=True)
tree = lxml.etree.fromstring(content, parser)
items = tree.xpath('//div[@id="leftNavContainer"]//ul[@data-typeid="n"]//span[@class="refinementLink"]')
for item in items:
url = item.xpath('parent::*/@href')[0]
最后一行表达式含义: item 的父节点所有元素中,取出href属性的内容。
parent::[@href] 则只能取出父节点中含有href属性的元素。
阅读(849) | 评论(0) | 转发(0) |