[zz] wget-zzggbb-ChinaUnix博客

zhanggbzzggbb.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

zzggbb

博客访问： 490894
博文数量： 115
博客积分： 3777
博客等级：中校
技术积分： 1070
用户组：普通用户
注册时间： 2009-11-07 09:20

文章分类

全部博文（115）

pwscf（5）
Tools（46）
VASP（12）
Nonlinear（1）
Linux（45）
未分配的博文（6）

文章存档

2015年（1）

2013年（3）

2012年（26）

2011年（30）

2010年（34）

2009年（21）

我的朋友

相关博文

[zz] wget

分类： LINUX

2010-06-25 10:01:03

是一個用來做為網頁非互動式下載的程式. 支援 HTTP, HTTPS , FTP 協定
官方網站:

位置:/usr/ports/ftp/wget/
安裝:
cd /usr/ports/ftp/wget/
make install ; make clean
設定檔:

基本參數:
-V -- 顯示版本資訊.
-h -- 顯示使用資訊(help information),列出所有參數
-b -- 背景執行.
-o  logfile  -- 紀錄輸出至logfile
-a  logfile  -- 紀錄附加至logfile (非覆蓋)
-d -- 除錯模式
-q -- 安靜模式
-v -- 複雜模式
-nv  -- 非複雜模式(還是會有些許資訊輸出)
-i file -- 從file檔案讀取 URL資訊.
-F -- 強制將檔案是為html格式讀取
--bind-address=ADDRESS  -- 附加上IP位址資訊.
-t -- 失敗重試次數.
-O -- 輸出位置
-nc  -- 不下載重複檔案.
-c -- 續傳檔案
-s --  列出server端的回應
--spider  -- 將wget仿造成為spider(搜尋引擎) , 不產生檔案
-T timeoust seconds  -- 設定連線逾時時間(預設為900秒)
此細項仍有
[url=javascript:;]dns[/url]
network 讀取等timeout設定.
--limit-rate=amount  -- 限定下載速率為amount值.(預設為bytes , 可以為k 或是 m)
-w -- 等待多少時間後進行資料檢索
--waitretry=seconds -- 下載失敗的重試間隔秒數.
--random-wait  -- 隨機等待秒數(針對重新檢索)
--no-proxy  -- 不使用代理伺服器
.......................................................
......... 其餘還有好多好多的參數...簡單來說有點類似

網站下載工具一般.
(不想寫下去了.. 光速逃走..)
..............................................................
最常見的使用方式:
1. 下載某檔案
wget
2. 砍站(類似teleport pro)
wget -r
3. 砍站無視robots.txt檔案 , 我想這才是您想知道的吧..
在告訴您之前,請想想robots.txt的用途, 以及為何管理者設了這個東西.
以及您無視robots.txt後對網站及管理造成的負擔/困擾...
我先說我的處理方式:
心情好時,無視此行為,反正網站就是要給你看的..
心情差時,拒絕該區段ip連線,例如: 163.19.163.99 砍站, 我就拒絕 163.19.163.0/24 .
甚者...拒絕該ip所屬isp或是所屬國家所有區段.
wget -erobots=off
實測: 當沒有加上 -erobots=off 只會抓取網頁的首頁及robots.txt ,若加上,則會進行砍站動作.
4. 若對方網站拒絕Wget...
wget -m -U "Mozilla/5.0 (compatible; Konqueror/3.2; Linux)"
則可以偽裝為其他瀏覽器...

阅读(681) | 评论(0) | 转发(0) |

上一篇：[zz] YASnippet 入门

下一篇：[zz] 试用Maple 11的Physics Package

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6