Chinaunix首页 | 论坛 | 博客
  • 博客访问: 29955726
  • 博文数量: 2065
  • 博客积分: 10377
  • 博客等级: 上将
  • 技术积分: 21525
  • 用 户 组: 普通用户
  • 注册时间: 2008-11-04 17:50
文章分类

全部博文(2065)

文章存档

2012年(2)

2011年(19)

2010年(1160)

2009年(969)

2008年(153)

分类:

2010-03-15 22:32:40

准备资料整理一

[整理时间:2010-3-3]

为了防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试或是防止不断提交某网络信息而采用的一种网络通行方式。随机生成字符信息 放入图片中,防止计算机直接识别。比如招商银行的网上个人银行,腾讯的QQ社区等等.

验证码分为如下几类:数字型、字符型、符号型、综合型。

一般验证码属于数字型的,不过有的图片中生成了不少彩色和黑白的噪音点(指验证图片上的斑点)。那么我们应该怎么去识别呢?传统的验证码识别方式很简单, 由于数字的位置是固定的,所以我们只需要提取每一幅数字的图片(没有噪音点的)然后把每一个特殊数字独有的象素位置记录下来,然后在网络上提取需要破解的 特征码,祛除噪音点,对其位置和记录位置进行比对,那就是么就能确定相应的数字了。

总结一下传统的就是:

  1.先分析验证码,前景颜色是否不定

  2.然后把验证码的宽度/验证码文字个数,比如一验 证码下载后宽度为60,4个数字,那么就60/4=15,然后保存每个字,如果只有数字保存0-9数字到位图文件,如果英文那更麻烦点,0-9,A-Z 都要保存到位图,位图的前景色都不变,保持一种颜色,背景随便你改不改

  3.如果前景要变则将文字统一为同种颜色,每个数字0-9的点阵 都有个公共点,取该公共点颜色然后把前景全部统一成一种颜色,比如白色{255,255,255},位图的结构是BGR,而不是RGB

   4.然后进行比较,如果验证码的一点为白色,2步保存的位图同一点也是白色,那么频率增加1

  5.最后频率最高的就是验证码了!

接下来要做的就是做个post程序了,这个太简单了,代码你就自己写吧!不过也要做到如下细节:做成多线程程序进行发贴,不然程序会失去响应的?最好是可 以导入大量的代理IP的,然后就是发贴的内容最后加上几个随机字符,这样可以防止重复贴的过滤!最重要的,只是做测试,发贴量不要太多、不要乱发广告贴!

 

 

 

 

 

 

 

 

 

 

 

前些时候我制作了《百度贴吧群发》,可以自动换IP、并且自动更换关键字、标题、内容、图片,
过了几天以后百度贴吧增加了验证码,所以这个程序也用不了了。

今天好奇研究了一下百度的验证码,做了一个新的程序,做这个程序的目的完全是研究技术。
我不会去贴吧发广告,也请大家不要去发广告。


授人以鱼不如授人以渔,下面我简单介绍一下破解验证码的过程。

一、序
大家知道,破解验证码、图文识别都是技术开发的难题,人眼能轻易分别的字符,计算机却需要大量的计算,而且结果很难做到准确。就算是用C++来做,也是很 费劲很难得到好的效果。不过在这里我们使用模拟精灵,可以很简单的完成图文识别,模拟精灵虽然大小不足1M、而且是绿色软件完全独立运行,却内置了大部份 常用的类库,如模拟编程、WEB编程、windows编程、图像编程都可以轻松实现

二、下载验证码样本

打开c:\test文件夹,选查看缩略图,然后重复运行下面的LAScript脚本(每次更换验证码的网址),下载百度贴吧的所有验证码并存为 样本,例如图片一,就改名为1.jpg

img = image.new();
--
下载图像,没有后缀名要显示指定*.bmp格式
img:getURL("/Article/UploadFiles/200508/20050831203413603.jpg")
image.corp(img, 9 ,0 , 41 , 20 )
img:save("c:\\test\\test.jpg") --
保存到硬盘

--折分图片,指定一行四列
img2,img3,img4,img5 = img:split(1,4);

img2:save("c:\\test\\0001.jpg")
img3:save("c:\\test\\0002.jpg")
img4:save("c:\\test\\0003.jpg")
img5:save("c:\\test\\0004.jpg")

image.del(img);

 

三、生成验证码样本数据库

运行下面的脚本,把所有的验证码样本保存到ApeML数据岛

codeKey ={};
--
添加所有数字键
for i =0,9,1 do
codeKey[""..i] = 0; --
这里我们用字符串连接的方法把数字转换为字符串
end;

--k参数为键,v参数表示值 一个典型的table迭代器回调函数
loadCodeKey = function(k,v)
local img = image.new();
img:load("C:\\test\\"..k..".jpg")
codeKey[k]= string.encode( img:getBytes("*.jpg") , ""); --
因为转换到字符串还是二进制,所以用base64进行编码
image.del(img);
end;

--遍历表codekey的所有元素,调用loadcodekey加载图片文件
table.foreach (codeKey, loadCodeKey);

--把所有图片保存到数据岛,
ape:saveTable(codeKey,"
验证码样本")

四、识别验证码

运行下面的脚本测试一下


--
从数据区块读取base64编码的图片数据
codekey = ape:loadTable("
验证码样本");
imgBinKey = {}; --
这是一个图像数组,用来储存还原后的验证码样本的图片数据
--
必须进行一个转换,因为codekey里面只是base64编码的普通字符串,而imgBinKey 将是真正的图片对象(二进制数据)

--还原到图片对象
toImage = function(k,v)
local img9 = image.new();
img9:setBytes( string.decode( v ,"") ,"*.jpg");
imgBinKey[k] = img9;
end;
table.foreach(codekey,toImage);

--下载验证码图片
imgD = image.new();
if (imgD:getURL("/Article/UploadFiles/200508/20050831203415539.jpg") ~= true) then
win.messageBox("
下载图像失败","")
image.del(imgD)
do return false end;
end;

image.corp(imgD, 9 ,0 , 41 , 20 );
--
使用split函数分割图片
img2,img3,img4,img5 = imgD:split(1,4);

function test(imgX)
limit = 1;
chr = "";
win.messagePrint("
正在检测图片,请稍候....")
testimg = function(k,v)

local n = imgX:testX(imgBinKey[k]);
if(nlimit = n;
chr = k.."";
end;
end;
table.foreach(imgBinKey,testimg);
return chr;
end;


win.messageBox("
验证码".. test(img2)..test(img3)..test(img4)..test(img5),"")
五、小结
效果很不错,百分百的准确,唯一的遗憾是识别验证码的过程不是很快,在我电脑上估计要30秒左右,不过图像处理是需要一定的时间,基本上不防碍发信息的的 效率。

 

 

阅读(881) | 评论(1) | 转发(0) |
0

上一篇:python里面的id函数

下一篇:JCaptcha使用指南

给主人留下些什么吧!~~

hkebao2010-04-20 10:30:14

研究一下如何下载有防盗链的图片