Chinaunix首页 | 论坛 | 博客
  • 博客访问: 478066
  • 博文数量: 115
  • 博客积分: 3777
  • 博客等级: 中校
  • 技术积分: 1070
  • 用 户 组: 普通用户
  • 注册时间: 2009-11-07 09:20
文章分类

全部博文(115)

文章存档

2015年(1)

2013年(3)

2012年(26)

2011年(30)

2010年(34)

2009年(21)

我的朋友

分类: LINUX

2010-06-25 10:01:03

是一個用來做為網頁非互動式下載的程式. 支援 HTTP, HTTPS , FTP 協定
官方網站:

位置:/usr/ports/ftp/wget/
安裝:
cd /usr/ports/ftp/wget/
make install ; make clean
設定檔:

基本參數:
-V    -- 顯示版本資訊.
-h    -- 顯示使用資訊(help information),列出所有參數
-b    -- 背景執行.
-o  logfile  -- 紀錄輸出至logfile
-a  logfile  -- 紀錄附加至logfile (非覆蓋)
-d    -- 除錯模式
-q    -- 安靜模式
-v    -- 複雜模式
-nv  -- 非複雜模式(還是會有些許資訊輸出)
-i file    -- 從file檔案讀取 URL資訊.
-F    -- 強制將檔案是為html格式讀取
--bind-address=ADDRESS  -- 附加上IP位址資訊.
-t    -- 失敗重試次數.
-O    -- 輸出位置
-nc  -- 不下載重複檔案.
-c    -- 續傳檔案
-s    --  列出server端的回應
--spider  -- 將wget仿造成為spider(搜尋引擎) , 不產生檔案
-T timeoust seconds  -- 設定連線逾時時間(預設為900秒)
此細項仍有
[url=javascript:;]dns[/url]
network 讀取 等timeout設定.
--limit-rate=amount  -- 限定下載速率為amount值.(預設為bytes , 可以為k 或是 m)
-w   -- 等待多少時間後進行資料檢索
--waitretry=seconds    -- 下載失敗的重試間隔秒數.
--random-wait  -- 隨機等待秒數(針對重新檢索)
--no-proxy  -- 不使用代理伺服器
.......................................................
......... 其餘還有好多好多的參數...簡單來說有點類似

網站下載工具一般.
(不想寫下去了.. 光速逃走..)
..............................................................
最常見的使用方式:
1. 下載某檔案
wget
2. 砍站(類似teleport pro)
wget -r
3. 砍站無視robots.txt檔案 , 我想這才是您想知道的吧..
   在告訴您之前,請想想robots.txt的用途, 以及為何管理者設了這個東西.
   以及您無視robots.txt後 對網站及管理造成的負擔/困擾...
   我先說我的處理方式:
   心情好時,無視此行為,反正網站就是要給你看的..
   心情差時,拒絕該區段ip連線,例如: 163.19.163.99 砍站, 我就拒絕 163.19.163.0/24 .
   甚者...拒絕該ip所屬isp或是所屬國家所有區段.
wget -erobots=off
實測: 當沒有加上 -erobots=off 只會抓取網頁的首頁及robots.txt ,若加上,則會進行砍站動作.
4. 若對方網站拒絕Wget...
wget -m -U "Mozilla/5.0 (compatible; Konqueror/3.2; Linux)"
則可以偽裝為其他瀏覽器...
阅读(640) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~