Chinaunix首页 | 论坛 | 博客
  • 博客访问: 43072
  • 博文数量: 9
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 107
  • 用 户 组: 普通用户
  • 注册时间: 2017-08-07 18:38
个人简介

米扑,小而美,简爱 mimvp.com

文章分类

全部博文(9)

文章存档

2019年(1)

2018年(3)

2017年(5)

我的朋友

分类: LINUX

2017-08-11 10:04:59

Linux Shell 提供两个非常实用的命令来爬取网页,它们分别是 curl 和 wget

 

curl 和 wget 使用代理

curl 支持 http、https、socks4、socks5

wget 支持 http、https

代理示例:

#!/bin/bash
#
# curl 支持 http、https、socks4、socks5
# wget 支持 http、https
#
# 米扑代理示例:
# 
#
# 米扑代理购买:
# 
#
# mimvp.com
# 2015-11-09


# http代理格式 		http_proxy=
# https代理格式 		https_proxy=

{'http': ''}
curl -m 30 --retry 3 -x  /exist.php        			# http_proxy
wget -T 30 --tries 3 -e "http_proxy=" /exist.php  		# http_proxy

{'https': ''}
curl -m 30 --retry 3 --proxy-insecure -x  -k         			# https_proxy
wget -T 30 --tries 3 --no-check-certificate -e "https_proxy=" 	# https_proxy

    
# curl  支持socks
{'socks4': '101.255.17.145:1080'}
curl -m 30 --retry 3 --socks4 101.255.17.145:1080 /exist.php
    
{'socks5': '82.164.233.227:45454'}
curl -m 30 --retry 3 --socks5 82.164.233.227:45454 /exist.php


# wget 不支持socks

 

wget 配置文件设置代理

vim ~/.wgetrc

http_proxy=:8080
https_proxy=
use_proxy = on
wait = 30

wget -T 30 --tries 3 

 

Shell 设置临时局部代理

# proxy no auth
export http_proxy=:8080
export https_proxy=

# proxy auth
export http_proxy=
export https_proxy=


# 取消设置
unset http_proxy
unset https_proxy

 

Shell 设置系统全局代理

# 修改 /etc/profile,保存并重启服务器
sudo vim /etc/profile		# 所有人有效
或
sudo vim ~/.bashrc		# 所有人有效
或
vim ~/.bash_profile		# 个人有效
	
	
# proxy no auth
export http_proxy=:8080
export https_proxy=

# proxy auth
export http_proxy=
export https_proxy=

source /etc/profile
或
source ~/.bashrc
或
source ~/.bash_profile


sudo reboot

 

米扑代理示例

米扑代理示例,包含Python、Java、PHP、C#、Go、Perl、Ruby、Shell、NodeJS、PhantomJS、Groovy、Delphi、易语言等十多种编程语言或脚本,通过大量的可运行实例,详细讲解了使用代理IP的正确方法,方便网页爬取、数据采集、自动化测试等领域。

shell-curl-he-wget-shi-yong-dai-li-ip-01

米扑代理示例,测试使用的代理IP,全部来自于米扑代理,其覆盖120多个国家,中国34个省市,支持http、https、socks4、socks5等

米扑代理示例官网

 

 

参考推荐

推荐

  (GitHub)

Linux 抓取网页实例(shell+awk)

LinuxIP代理筛选系统(shell+proxy)

 

阅读(1231) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~