抓取google搜索结果的方法-m4774411wang-ChinaUnix博客

python &amp; django教程

首页　| 　博文目录　| 　关于我

m4774411wang

博客访问： 353544
博文数量： 148
博客积分： 2745
博客等级：少校
技术积分： 1704
用户组：普通用户
注册时间： 2010-03-30 14:59

文章分类

全部博文（148）

python（95）
未分配的博文（53）

文章存档

2013年（97）

2012年（7）

2011年（3）

2010年（41）

我的朋友

相关博文

抓取google搜索结果的方法

分类： Python/Ruby

2013-01-31 22:59:48

这段时间由于要做一个系统，时间比较忙，博客更新的就不及时，有点抱歉，还是说今天的话题把：因为要，开始用的是python传统的获取数据的方法比如：[] ， [] 来获取数据，后来采集了没多久，google就自动封掉了，期间尝试过换IP，模拟浏览器的方法用了一段时间还是不行，看来google防止抓取的功能太强了，正愁没思路的时候，偶然间在网上看到一个方法就是用google提供的api来或者结果，这样省时又省力，于是乎就研究起来了，最后10几行代码就搞定了，之前我写了上百行代码，看来有了python google api来做python 抓取google搜索结果还是挺爽的。

废话少说上代码：

import urllib2,urllib
import simplejson

seachstr = '汽车'

for x in range(5):
    print "page:%s"%(x+1)
    page = x * 4

    url = (''
                  '?v=1.0&q=%s&rsz=8&start=%s') % (urllib.quote(seachstr),page)
    try:
        request = urllib2.Request(
        url, None, {'Referer': ''})
        response = urllib2.urlopen(request)

    # Process the JSON string.
        results = simplejson.load(response)
        infoaaa = results['responseData']['results']
    except Exception,e:
        print e
    else:
        for minfo in infoaaa:
            print minfo['url']

这样就可以根据搜索关键词把搜索结果列表的网址给提取出来，这个 api url可以接受很多参数，如果想去了解的话，可以看看具体的python google api 文档。

阅读(1346) | 评论(0) | 转发(0) |

上一篇：python mysql 转义

下一篇：python 语言特点

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6