1.file_get_contents
$url = "";
$contents = file_get_contents($url);
//如果出现中文乱码使用下面代码
//$getcontent = iconv("gb2312", "utf-8",$contents);
echo $contents;
?>
2.curl
$url = "";
$ch = curl_init();
$timeout = 5;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
//在需要用户检测的网页里需要增加下面两行
//curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);
//curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD);
$contents = curl_exec($ch);
curl_close($ch);
echo $contents;
?>
抓取网页内容然后对其解析是很多人都会用到的技术,传统的方法是使用正则表达式来进行内容的匹配,但是学习正则表达式本身就是一个艰巨的任务,而且为了获得所需要的内容还必须不断调整表达式内容,要是碰上那些不安套路做网站的家伙,那更是雪上加霜。
但是,无论一个网页如何的复杂他必定能够被正确解析,所以使用css选择器来获取特定内容是最方便的,要是能象jQuery那样就更方便了,那有没有这样一个方便的php库呢?幸运的是还真有这样一个库,它叫做QueryPath
官方网站:
下面我就对这个库作简单的介绍,如果你会jquery的话会非常快上手的
QueryPath库的核心是一个叫做QueryPath的对象,使用时候可以实例化一个,也可以直接使用qp()这个函数,它就相当于jquery中的$()万能函数,同时qp()方法会返回QueryPath实例对象本身,也就是它也可以使用方法链,一环套一环的写下去,与jquery十分的相似。
转自:
转自:
http://wsfei.iteye.com/blog/1130390
阅读(1328) | 评论(0) | 转发(0) |