是一個用來做為網頁非互動式下載的程式. 支援 HTTP, HTTPS , FTP 協定
官方網站:
位置:/usr/ports/ftp/wget/
安裝:
cd /usr/ports/ftp/wget/
make install ; make clean
設定檔:
基本參數:
-V -- 顯示版本資訊.
-h -- 顯示使用資訊(help information),列出所有參數
-b -- 背景執行.
-o logfile -- 紀錄輸出至logfile
-a logfile -- 紀錄附加至logfile (非覆蓋)
-d -- 除錯模式
-q -- 安靜模式
-v -- 複雜模式
-nv -- 非複雜模式(還是會有些許資訊輸出)
-i file -- 從file檔案讀取 URL資訊.
-F -- 強制將檔案是為html格式讀取
--bind-address=ADDRESS -- 附加上IP位址資訊.
-t -- 失敗重試次數.
-O -- 輸出位置
-nc -- 不下載重複檔案.
-c -- 續傳檔案
-s -- 列出server端的回應
--spider -- 將wget仿造成為spider(搜尋引擎) , 不產生檔案
-T timeoust seconds -- 設定連線逾時時間(預設為900秒)
此細項仍有
[url=javascript:;]dns[/url]
network 讀取 等timeout設定.
--limit-rate=amount -- 限定下載速率為amount值.(預設為bytes , 可以為k 或是 m)
-w -- 等待多少時間後進行資料檢索
--waitretry=seconds -- 下載失敗的重試間隔秒數.
--random-wait -- 隨機等待秒數(針對重新檢索)
--no-proxy -- 不使用代理伺服器
.......................................................
......... 其餘還有好多好多的參數...簡單來說有點類似
網站下載工具一般.
(不想寫下去了.. 光速逃走..)
..............................................................
最常見的使用方式:
1. 下載某檔案
wget
2. 砍站(類似teleport pro)
wget -r
3. 砍站無視robots.txt檔案 , 我想這才是您想知道的吧..
在告訴您之前,請想想robots.txt的用途, 以及為何管理者設了這個東西.
以及您無視robots.txt後 對網站及管理造成的負擔/困擾...
我先說我的處理方式:
心情好時,無視此行為,反正網站就是要給你看的..
心情差時,拒絕該區段ip連線,例如: 163.19.163.99 砍站, 我就拒絕 163.19.163.0/24 .
甚者...拒絕該ip所屬isp或是所屬國家所有區段.
wget -erobots=off
實測: 當沒有加上 -erobots=off 只會抓取網頁的首頁及robots.txt ,若加上,則會進行砍站動作.
4. 若對方網站拒絕Wget...
wget -m -U "Mozilla/5.0 (compatible; Konqueror/3.2; Linux)"
則可以偽裝為其他瀏覽器...
阅读(645) | 评论(0) | 转发(0) |