利用python检查搜索引擎的准确率-oychw-ChinaUnix博客

雪峰磁针石测试 linux pythontesting.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

oychw

博客访问： 19990102
博文数量： 679
博客积分： 10495
博客等级：上将
技术积分： 9308
用户组：普通用户
注册时间： 2006-07-18 10:51

文章分类

全部博文（679）

@python（115）

python 标准库（1）

测试（2）

其他（17）

python核心编程（0）

python 模块（0）

python本质参考（3）

python 并发（0）

实例（24）

pexpect（5）

《使用python进行（5）

Robot Framework （43）

python 从入门到（13）
测试新闻（5）
软件水平考试（15）

教程（12）

软件评测师（2）
@network（5）

抓包工具（0）

计算机网络第四（3）
@socity（36）

地理（1）

cctv7（1）

国学（2）

散文（2）

财经（3）

健康（11）

life（2）

卡耐基人际关系学（11）

history（1）
Windows（10）

终端服务（2）

深入解析Windows（6）
@mysql（29）

mysql cluster（5）

Mysql 教程（19）
@LINUX（148）

ubuntu（2）

?哥的 Linux 私房（0）

Unix 和 Linux 自（3）

linux 内核（6）

学习bash shell （3）

shell实例（1）

sed（1）

编辑命令（0）

linux 安全（0）

文件系统（1）

硬盘相关（4）

running linux（7）

Linux 程序设计入（36）

Linux基础教程（1（8）

linux 基础（0）

linux 业界（2）

性能监控（1）

Linux 命令（11）

Linux 文件系统（7）

Linux 简介（9）

linux 使用（4）

@LINUX SERVICE（4）

高效awk编程第3版（3）

实例讲解unix she（1）

LINUX与UNIX SHEL（15）

shell（10）
test（77）

功能测试（2）

质量模型（0）

软件测试的艺术（5）

测试文档（12）

测试基础理论（11）

软件测试基础教程（0）

Jmeter（2）

测试工具（1）

Web 安全测试 Coo（3）

测试面试（1）

性能测试（9）

软件测试第2版（13）
automation（26）

sikuli（3）

selenium（0）

手册（0）

Testcomplete（2）

学习perl（1）

TCL 教程英文版（7）

实战Tcl和TK程序（5）

expect 实例（1）
computer（28）

c（8）

21天学通Java 6（4）

java（1）

Cisco IOS Cookbo（0）

network（10）
it（4）
joke（4）
linux_unix（28）

linux security （2）

硬件相关（2）

Secure Shell 2nd（1）

linux unix性能工（2）
society（84）

一夜风流（2）

@health（1）

法律（3）

sex（1）

励志（1）

english（1）

plan & summary（8）

job（2）

security（10）

economic（17）

health（9）
未分配的博文（65）

文章存档

2012年（5）

2011年（38）

2010年（86）

2009年（145）

2008年（170）

2007年（165）

2006年（89）

我的朋友

File information

2009-11-10

磁针石：xurongzhong#gmail.com

博客：oychw.cublog.cn

        腾讯搜搜的主页为：，比如输入“武冈”，则会返回包含如下信息的网页：

a href="" id="res0" onclick="reportUrl(this,'1','1');st_get(this,'w.r',1);"

这表示为搜索结果的第一条记录（res0，记录从0开始计数）。这样就方便使用正则表达式来抓取。

把要搜索的关键字和网址存入c:\word.txt，样式如下：

武冈

武冈

输出结果存放于c:\out.csv。

代码如下：

import urllib2

import re

f = open("c:\out.csv",'w')

for line in open("c:\word.txt"):

    word,address= line.split()

    print "\n--------" + word,address,

    url = "" + word

    response = urllib2.urlopen(url)

    html = response.read()

    if address in html:

        text = address+'.*?res([0-9]*)'

        m = re.search(text, html, re.IGNORECASE)

        result = m.group(1)

        print "-----------ok",

    else:

        result = "Not found!"

        print "-----------!!!!!!!!----- fail",

    f.write(word+","+address+","+result+"\n")

f.close()

        如果数据量比较大的话，需要采用多线程或者进程。不过实际执行中，腾讯对单个IP不允许过多的搜索量，还需要研究IP伪造。

        相关文件：

文件:	新建文件夹.rar
大小:	4KB
下载:	下载

阅读(16242) | 评论(0) | 转发(0) |

上一篇： Python中使用中文

下一篇：ubuntu 9.10 启动菜单

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6