php获取网页并分析内容-qgx2009-ChinaUnix博客

qgx2009qgx2009.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

qgx2009

博客访问： 1293424
博文数量： 389
博客积分： 2874
博客等级：少校
技术积分： 3577
用户组：普通用户
注册时间： 2009-10-24 10:34

文章分类

全部博文（389）

pwa（1）
部署（1）
google oaut（1）
AI（2）
tarantool（2）
区块链（1）
lua（2）
strongswan（0）
openwrt（1）
ceph（6）
xen（1）
docher（1）
python（14）
SDN（2）
HA（4）
淘宝（1）
music（1）
技术和商机（6）
kvm优化（12）
虚拟化（42）
幼儿（2）
设计（1）
sql（2）
安全（18）
脚本语言（27）
linux（53）
android（2）
vm（0）
kernel（19）
养生（36）
cmmi（0）
网络（40）
读书（20）
arm（11）
qt（10）
c/c++（36）
未分配的博文（11）

文章存档

2020年（2）

2018年（39）

2017年（27）

2016年（3）

2015年（55）

2014年（92）

2013年（54）

2012年（53）

2011年（64）

我的朋友

相关博文

php获取网页并分析内容

分类： Web开发

2013-08-30 10:35:19

1.file_get_contents

$url = "";
$contents = file_get_contents($url);
//如果出现中文乱码使用下面代码
//$getcontent = iconv("gb2312", "utf-8",$contents);
echo $contents;
?>

2.curl

$url = "";
$ch = curl_init();
$timeout = 5;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
//在需要用户检测的网页里需要增加下面两行
//curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);
//curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD);
$contents = curl_exec($ch);
curl_close($ch);
echo $contents;
?>

抓取网页内容然后对其解析是很多人都会用到的技术，传统的方法是使用正则表达式来进行内容的匹配，但是学习正则表达式本身就是一个艰巨的任务，而且为了获得所需要的内容还必须不断调整表达式内容，要是碰上那些不安套路做网站的家伙，那更是雪上加霜。

但是，无论一个网页如何的复杂他必定能够被正确解析，所以使用css选择器来获取特定内容是最方便的，要是能象jQuery那样就更方便了，那有没有这样一个方便的php库呢？幸运的是还真有这样一个库，它叫做QueryPath

官方网站：

下面我就对这个库作简单的介绍，如果你会jquery的话会非常快上手的

QueryPath库的核心是一个叫做QueryPath的对象，使用时候可以实例化一个，也可以直接使用qp()这个函数，它就相当于jquery中的$()万能函数，同时qp()方法会返回QueryPath实例对象本身，也就是它也可以使用方法链，一环套一环的写下去，与jquery十分的相似。

转自：
转自：http://wsfei.iteye.com/blog/1130390

阅读(1365) | 评论(0) | 转发(0) |

上一篇：Hacking The Art of Exploitation

下一篇：php snoop 伪装

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6