分类: 系统运维
2009-06-21 00:30:56
1. 首先我们需要的是包含图片地址的html文件。如何得到哪? 在IE里 右击—查看源文件。 你会得到一个全是html标签的txt文件。这个就是我们需要的...
一个网站都是由许多的html(或是htm,或是shtml)文件构成的。他们也是按目录存储的。下图:
这个是天极图片—男色频道 的目录结构。
如何得到整个网站的html文件哪,使用wget,这个程序是跨平台的。
2. 使用wget下载整个网站。 wget的具体格式请参考 wget --help。 我一般使用的是:
wget -r -np -t 3
-r 递归下载
-np 只下载本目录及子目录下的内容
-t 重试次数(网络条件不好或是网站有许多错误连接)
3. 经过一段时间的下载会得到上面图片中的目录结构,这时要分析那个目录是包含图片地址的目录。(要知道并不是每个目录对我们都是有用的)。你可以打开一个连接,看看地址栏的内容就知道了。我们打开。看到是在 man/girl 目录下。
cmd进入man/girl目录,把该目录下各文件夹的内容拷贝到一个文件中。执行
for /r %i in (*) do type %i >> ..\all.txt
4. 使用上传的压缩包里的parse.exe 文件。 最好把这个文件拷贝到 c:/windows/system32(windows xp) 或是 /usr/bin(linux)下,这样可以作为系统命令使用了,方便。执行
parse all.txt 得到url.txt。
5. url.txt是一个包含了该网站所有图片地址的文件。我们现在要做的是安心的下载了。可以使用wget 也可以使用迅雷。 推荐使用wget
wget -i url.txt -t 3
说明: 每个网站都有每个网站的特点,所以导致了一些复杂的情况。我们不可能做一个通吃的程序去解决,这个不像http协议有统一的标准。你会发现有的网站不符合上面的情况,但是问题仅出在第4步。你可以使用另一程序 parse_key.exe 。问题就解决了
关于详细的用法请下载 分析网址.rar, 该压缩包包含了parse parse_key merge三个程序的源文件。分别编译就可以
下载 天极图片—男色频道 步骤列出
# - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
# cmd
# cd D:\web
# wget -r -np -t 3
# cd D:\web\pic.dc.yesky.com\pic\man\girl
# for /r %i in (*) do type %i >> ..\all.txt (合并文件内容)
# cd ..
# parse_key all.txt /imagelist (图片地址起始头)
# merge output.txt (合并网址)
# wget -i url.txt -t 3
# - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
|
|