下载整个网站的图片-_mystic-ChinaUnix博客

Dirt Jumping & Urban

首页　| 　博文目录　| 　关于我

_mystic

博客访问： 332763
博文数量： 41
博客积分： 2540
博客等级：少校
技术积分： 570
用户组：普通用户
注册时间： 2008-12-18 11:29

文章分类

全部博文（41）

WIFI（1）
Git（10）
Linux网络（1）
Linux（2）
Bluetooth & Blue（2）
Linux驱动（4）

（0）
Android（15）
程序人生（1）
工作杂记（4）
未分配的博文（1）

文章存档

2011年（4）

2010年（32）

2009年（3）

2008年（2）

我的朋友

相关博文

下载整个网站的图片

分类：系统运维

2009-06-21 00:30:56

当我们看到自己心仪网站的图片，要怎么办哪？一张一张的下载！！太麻烦了要崩溃的... 写了个小程序，来帮你完成想要的图片... 开始说思路：

1. 首先我们需要的是包含图片地址的html文件。如何得到哪？在IE里右击—查看源文件。你会得到一个全是html标签的txt文件。这个就是我们需要的...

一个网站都是由许多的html(或是htm，或是shtml)文件构成的。他们也是按目录存储的。下图:

这个是天极图片—男色频道 的目录结构。

如何得到整个网站的html文件哪，使用wget，这个程序是跨平台的。

2. 使用wget下载整个网站。 wget的具体格式请参考 wget --help。我一般使用的是：

wget -r -np -t 3

-r 递归下载

-t 重试次数(网络条件不好或是网站有许多错误连接)

3. 经过一段时间的下载会得到上面图片中的目录结构，这时要分析那个目录是包含图片地址的目录。(要知道并不是每个目录对我们都是有用的)。你可以打开一个连接，看看地址栏的内容就知道了。我们打开。看到是在 man/girl 目录下。

cmd进入man/girl目录，把该目录下各文件夹的内容拷贝到一个文件中。执行

for /r %i in (*) do type %i >> ..\all.txt

4. 使用上传的压缩包里的parse.exe 文件。最好把这个文件拷贝到 c:/windows/system32(windows xp) 或是 /usr/bin(linux)下，这样可以作为系统命令使用了，方便。执行

parse all.txt 得到url.txt。

5. url.txt是一个包含了该网站所有图片地址的文件。我们现在要做的是安心的下载了。可以使用wget 也可以使用迅雷。推荐使用wget

wget -i url.txt -t 3

说明：每个网站都有每个网站的特点，所以导致了一些复杂的情况。我们不可能做一个通吃的程序去解决，这个不像http协议有统一的标准。你会发现有的网站不符合上面的情况，但是问题仅出在第4步。你可以使用另一程序 parse_key.exe 。问题就解决了

关于详细的用法请下载分析网址.rar, 该压缩包包含了parse parse_key merge三个程序的源文件。分别编译就可以

下载天极图片—男色频道步骤列出

# - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

# cmd

# cd D:\web

# wget -r -np -t 3

# cd D:\web\pic.dc.yesky.com\pic\man\girl

# for /r %i in (*) do type %i >> ..\all.txt (合并文件内容)

# cd ..

# parse_key all.txt /imagelist (图片地址起始头)

# merge output.txt (合并网址)

# wget -i url.txt -t 3

# - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

文件:	分析网址.rar
大小:	17KB
下载:	下载

文件:	wget for windows.rar
大小:	385KB
下载:	下载

阅读(7443) | 评论(0) | 转发(0) |

上一篇：开发板的自动进入shell

下一篇：Linux网络编程 — 设置connect函数连接超时

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6