Chinaunix首页 | 论坛 | 博客
  • 博客访问: 328504
  • 博文数量: 41
  • 博客积分: 2540
  • 博客等级: 少校
  • 技术积分: 570
  • 用 户 组: 普通用户
  • 注册时间: 2008-12-18 11:29
文章分类

全部博文(41)

文章存档

2011年(4)

2010年(32)

2009年(3)

2008年(2)

我的朋友

分类: 系统运维

2009-06-21 00:30:56

    当我们看到自己心仪网站的图片,要怎么办哪? 一张一张的下载!! 太麻烦了 要崩溃的... 写了个小程序,来帮你完成想要的图片... 开始说思路:
 

    1. 首先我们需要的是包含图片地址的html文件。如何得到哪? 在IE里 右击—查看源文件。 你会得到一个全是html标签的txt文件。这个就是我们需要的...

一个网站都是由许多的html(或是htm,或是shtml)文件构成的。他们也是按目录存储的。下图:

这个是天极图片—男色频道 的目录结构。

如何得到整个网站的html文件哪,使用wget,这个程序是跨平台的。

    2. 使用wget下载整个网站。 wget的具体格式请参考 wget --help。 我一般使用的是:

wget -r -np -t 3

-r 递归下载

-np 只下载本目录及子目录下的内容

-t 重试次数(网络条件不好或是网站有许多错误连接)

    3. 经过一段时间的下载会得到上面图片中的目录结构,这时要分析那个目录是包含图片地址的目录。(要知道并不是每个目录对我们都是有用的)。你可以打开一个连接,看看地址栏的内容就知道了。我们打开。看到是在 man/girl 目录下。

cmd进入man/girl目录,把该目录下各文件夹的内容拷贝到一个文件中。执行

for /r %i in (*) do type %i >> ..\all.txt

    4. 使用上传的压缩包里的parse.exe 文件。 最好把这个文件拷贝到 c:/windows/system32(windows xp) 或是 /usr/bin(linux)下,这样可以作为系统命令使用了,方便。执行

parse all.txt 得到url.txt。

    5. url.txt是一个包含了该网站所有图片地址的文件。我们现在要做的是安心的下载了。可以使用wget 也可以使用迅雷。 推荐使用wget

wget -i url.txt -t 3  

 

说明: 每个网站都有每个网站的特点,所以导致了一些复杂的情况。我们不可能做一个通吃的程序去解决,这个不像http协议有统一的标准。你会发现有的网站不符合上面的情况,但是问题仅出在第4步。你可以使用另一程序 parse_key.exe 。问题就解决了

关于详细的用法请下载 分析网址.rar, 该压缩包包含了parse parse_key merge三个程序的源文件。分别编译就可以

 

下载 天极图片—男色频道 步骤列出

# - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

# cmd

# cd D:\web

# wget -r -np -t 3

# cd D:\web\pic.dc.yesky.com\pic\man\girl

# for /r %i in (*) do type %i >> ..\all.txt    (合并文件内容)

# cd ..

# parse_key all.txt /imagelist               (图片地址起始头)

# merge output.txt         (合并网址)

# wget -i url.txt -t 3

# - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

文件: 分析网址.rar
大小: 17KB
下载: 下载

文件: wget for windows.rar
大小: 385KB
下载: 下载

阅读(7378) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~