关于数据抓取之xpath提取text为空问题的原因和解决方案-五岳之巅-ChinaUnix博客

离不开大数据的社会计算lk.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

五岳之巅

博客访问： 4075145
博文数量： 272
博客积分： 7846
博客等级：少将
技术积分： 6476
用户组：普通用户
注册时间： 2009-08-25 16:27

文章分类

全部博文（272）

图数据库（5）
机器学习（4）
数据抓取（13）
书评（4）
Hadoop（2）
推荐系统（4）
论文撰写（2）
游戏设计（1）
专业英语（0）
WordPress（0）
云计算（6）
Ruby On Rails（0）
一卡通（10）
计算机公共基础（2）
测试（7）
jQuery（4）
SEO（1）
CSS（9）
joomla（1）
Python（11）
extjs（2）
诗（8）
感想分享（46）
大学Linux优先计（8）
Linux入门读物_必（17）

开拓智域（0）

魔法大锅炉（0）

大教堂与市集（12）

黑客道简史（4）
Linux虚拟化技术（4）
2009红旗杯全国大（5）
论文（3）
10天搞定PERL语言（2）
php项目（36）
《Linux服务器管（37）
未分配的博文（18）

我的朋友

相关博文

关于数据抓取之xpath提取text为空问题的原因和解决方案

分类： Python/Ruby

2016-12-15 09:31:07

今天在抓取淘宝网网页的时候，使用了：

#店名
shopname = driver.find_element_by_xpath(".//*[@id='page']/div[2]/div/div[2]/ul/li[1]/a/span").text.strip()
#掌柜名
dealername = driver.find_element_by_xpath("./html/head/title").text.strip()
dealername = dealername[dealername.find('-')+1:dealername.rfind('-')]

对于xpath，当然好用，毕竟Firefox和Chrome可以自动生成，所以爬虫开发的速度会更快。然而，得到的结果很惊讶，全部为空。我突然之间陷入了迷惑，不可能是因为版本的问题吧，毕竟selenium已经这么成熟了。下午试了很多次，都是无功而返，我非常沮丧。
晚上继续，首先要找到问题出在什么地方。使用page_source查看，发现网页代码一应俱全。难道是非得把鼠标移动到特定位置，弹出菜单激活Js？于是使用：

driver.get('')
time.sleep(3)
menu = driver.find_element_by_xpath("//*[@id='header-content']/div[2]/p/span[1]/span[1]/a")
ActionChains(driver).move_to_element(menu).perform()
time.sleep(2)

弹出了隐含层，又如何呢，还是不行啊。~~~接着再尝试，试试其他

print(driver.find_element_by_id("J_TEnterShop").text)

使用ID就可以了。然后，我就非常仔细地观察了ID这块的HTML结构特点，发现确实和之前要抓的结构不一样。接着我又试了一下这个Id的xpath，顺利提取。看来不是text方法的问题，也不是xpath的问题。而是结构的问题，对于xpath能提取什么样的结构我之前是没有弄清楚，现在举例说明一下：

<span class="shop-name">
店铺：
<a href="//shop124836129.taobao.com?spm=a1z10.1-c.0.0.XEwkxh" target="_blank" class="J_TGoldlog" data-goldlog-id="/tbwmdd.1.044" data-spm-anchor-id="a1z10.1-c.0.0">锦文图书批发<i id="J_TEnterShop">进入店铺</i></a>
</span>

我只想提取店铺名称，但店铺名称在结构中，目标是XX，使用xpath提取的XX路径使用text提取的结果是空。但YY的xpath提取则是“进入店铺”，使用整个a链接的xpath是“锦文图书批发进入店铺”。所以xpath看来要使用标签封闭结构才行。
那么问题来了，怎么提取“锦文图书批发”呢？
有两种方法，一是换一个具有“锦文图书批发”的地方提取，二是使用XXYY - YY的方式。

阅读(30786) | 评论(0) | 转发(0) |

上一篇：Python3下OpenCV的安装

下一篇：Phpmyadmin大文件之导入导出

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6