用Perl抓取ip138获取手机归属地的几个问题-x9x9-ChinaUnix博客

DullDoll 槑槑mycu.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

x9x9

博客访问： 270024
博文数量： 30
博客积分： 4398
博客等级：中校
技术积分： 305
用户组：普通用户
注册时间： 2009-10-06 21:21

文章分类

全部博文（30）

网络协议（1）
转帖（3）
Linux（7）
翻译（0）
Perl&LWP中文翻译（7）
影评（0）
读书（2）
辞赋（1）
杂谈（5）
Perl（4）
未分配的博文（0）

文章存档

2013年（10）

2012年（1）

2011年（17）

2010年（2）

我的朋友

相关博文

用Perl抓取ip138获取手机归属地的几个问题

分类： Python/Ruby

2011-08-03 11:12:30

ip138对每次查询手机归属地的结果的页面代码做了随机生成的处理，也就是每次html的标签属性可能不一样，这样就对用正则抓取造成困难。同时会随机添加这样的和注释一样的代码，也会对其它按照Xpath或dom方式的抓取造成干扰。所以决定用HTML::TreeBuilder这个模块来对抓取结果做分析，因为该模块可以用strict_comment()设置为“1”来指定忽略注释。

还有一个就是手机所在地区，如“河北张家口”里面前半部“河北”两个字显示正常，后半部分“张家口”乱码的问题，这可能和它中间是用这样的代码来表示空格在解码时出错有关，所以先给要处理的结果部分进行了替换（ s/ \;/ /g; ）。

具体代码见：

注：ip138对于抓取还是有限制的，一般查询20个就限制再查询了。

阅读(2913) | 评论(0) | 转发(0) |

上一篇：人生中的几个三

下一篇：镇岗塔·晚蝉

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6