php爬虫基础
php抓取网页最简单的函数file_get_contents,但是这满足不了所有需求。所以需要用到curl。
php curl主要用于抓取网页数据,需要开启curl模块。
这是自己封装的一个函数,放在Http.class.php中。
这个函数能抓取大多数页面,甚至需要登录和验证的https页面。
如果自己做的网站不想让别人伪装ip抓取和注入攻击可以查看:
抓取网页函数:
/**
* Summary of curlContent
* @param mixed $url 网页地址
* @param mixed $post 伪造post数据
* @param mixed $referer 伪装ip或域名
* @param mixed $cookie 伪造cookie
* @return mixed 返回抓取的数据或者false
*/
function curlContent($url,$post="",$referer='',$cookie=''){
$usergent=$_SERVER['HTTP_USER_AGENT'];
//$usergent='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'; //浏览器标识(PC端)
//$usergent='Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1'; //浏览器标识(移动端)
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //为true时请求有返回的值
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 10); //连接超时(秒)
curl_setopt($ch, CURLOPT_TIMEOUT, 10); //执行超时(秒)
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); //禁止curl验证对等证书(https请求需要证书,所以https网页不一定能抓取)
curl_setopt( $ch, CURLOPT_FOLLOWLOCATION, 1 ); //如果curl爬取过程中,设置CURLOPT_FOLLOWLOCATION为true,则会跟踪爬取重定向页面;否则,不会跟踪重定向页面。
//curl_setopt($ch, CURLOPT_USERAGENT, $usergent); //浏览器标识,有的网站会检查useragent
//curl_setopt($ch, CURLOPT_ENCODING, "utf-8"); //设置编码
//curl_setopt($ch, CURLOPT_ENCODING, "gzip"); //取消gzip压缩
if($referer){
curl_setopt($ch, CURLOPT_REFERER, $referer);//伪造referer
}
if($post){
curl_setopt($ch, CURLOPT_POST, 1); //设置为POST方式
curl_setopt($ch, CURLOPT_POSTFIELDS, $post);//数据传输
}
if($cookie){
curl_setopt($ch, CURLOPT_COOKIE, $cookie); //设置cookie
}
$output = curl_exec($ch);
curl_close($ch);
if($output===false){
//返回一个保护当前会话最近一次错误的字符串
echo 'curlContent Error: '.curl_error($ch).'<br>';
return false;
}
return $output;
}下面是下载网络文件的函数,也放在Http.class.php中。
对于一些安全程度较高的https协议的网站就比较蛋疼了,一张图都拿不到(shit)。一张证书好歹也要几千大洋,所以知足吧。
下载网络文件函数:
/**
* 采集远程文件(需要开启php_curl扩展)
* @param string $remote 远程文件名
* @param string $local 本地保存文件名
* @return mixed
*/
function curlDownload($remote,$local) {
$cp = curl_init($remote);
$fp = fopen($local,"w");
curl_setopt($cp, CURLOPT_FILE, $fp);
curl_setopt($cp, CURLOPT_HEADER, 0);
curl_setopt($cp, CURLOPT_SSL_VERIFYPEER, false); //禁止curl验证对等证书
$output=curl_exec($cp);
curl_close($cp);
fclose($fp);
if($output===false){
echo 'Error: '.curl_error($cp).'<br>';
return false;
}
return $output;
}四种常见的 POST 提交数据方式对应的content-type取值
application/x-www-form-urlencoded
这应该是最常见的 POST 提交数据的方式了。浏览器的原生 form 表单,如果不设置 enctype 属性,那么最终就会以 application/x-www-form-urlencoded 方式提交数据。请求类似于下面这样(无关的请求头在本文中都省略掉了):
POST http://www.example.com HTTP/1.1
Content-Type: application/x-www-form-urlencoded;charset=utf-8
title=test&sub%5B%5D=1&sub%5B%5D=2&sub%5B%5D=3
首先,Content-Type 被指定为 application/x-www-form-urlencoded;其次,提交的数据按照 key1=val1&key2=val2 的方式进行编码,key 和 val 都进行了 URL 转码。大部分服务端语言都对这种方式有很好的支持。
很多时候,我们用 Ajax 提交数据时,也是使用这种方式。例如 JQuery 和 QWrap 的 Ajax,Content-Type 默认值都是「application/x-www-form-urlencoded;charset=utf-8」。
multipart/form-data
这又是一个常见的 POST 数据提交的方式。我们使用表单上传文件时,必须让 form 的 enctyped 等于这个值。直接来看一个请求示例:
POST http://www.example.com HTTP/1.1
Content-Type:multipart/form-data; boundary=----WebKitFormBoundaryrGKCBY7qhFd3TrwA
------WebKitFormBoundaryrGKCBY7qhFd3TrwA
Content-Disposition: form-data; name="text"
title
------WebKitFormBoundaryrGKCBY7qhFd3TrwA
Content-Disposition: form-data; name="file"; filename="chrome.png"
Content-Type: image/png
PNG ... content of chrome.png ...
------WebKitFormBoundaryrGKCBY7qhFd3TrwA--
这个例子稍微复杂点。首先生成了一个 boundary 用于分割不同的字段,为了避免与正文内容重复,boundary 很长很复杂。然后 Content-Type 里指明了数据是以 mutipart/form-data 来编码,本次请求的 boundary 是什么内容。消息主体里按照字段个数又分为多个结构类似的部分,每部分都是以 --boundary 开始,紧接着内容描述信息,然后是回车,最后是字段具体内容(文本或二进制)。如果传输的是文件,还要包含文件名和文件类型信息。消息主体最后以 --boundary-- 标示结束。关于 mutipart/form-data 的详细定义,请前往 rfc1867 查看。
这种方式一般用来上传文件,各大服务端语言对它也有着良好的支持。
上面提到的这两种 POST 数据的方式,都是浏览器原生支持的,而且现阶段原生 form 表单也只支持这两种方式。但是随着越来越多的 Web 站点,尤其是 WebApp,全部使用 Ajax 进行数据交互之后,我们完全可以定义新的数据提交方式,给开发带来更多便利。
application/json
application/json 这个 Content-Type 作为响应头大家肯定不陌生。实际上,现在越来越多的人把它作为请求头,用来告诉服务端消息主体是序列化后的 JSON 字符串。由于 JSON 规范的流行,除了低版本 IE 之外的各大浏览器都原生支持 JSON.stringify,服务端语言也都有处理 JSON 的函数,使用 JSON 不会遇上什么麻烦。
JSON 格式支持比键值对复杂得多的结构化数据,这一点也很有用。记得我几年前做一个项目时,需要提交的数据层次非常深,我就是把数据 JSON 序列化之后来提交的。不过当时我是把 JSON 字符串作为 val,仍然放在键值对里,以 x-www-form-urlencoded 方式提交。
Google 的 AngularJS 中的 Ajax 功能,默认就是提交 JSON 字符串。例如下面这段代码:
var data = {'title':'test', 'sub' : [1,2,3]};
$http.post(url, data).success(function(result) {
...
});
最终发送的请求是:
POST http://www.example.com HTTP/1.1
Content-Type: application/json;charset=utf-8
{"title":"test","sub":[1,2,3]}
这种方案,可以方便的提交复杂的结构化数据,特别适合 RESTful 的接口。各大抓包工具如 Chrome 自带的开发者工具、Firebug、Fiddler,都会以树形结构展示 JSON 数据,非常友好。但也有些服务端语言还没有支持这种方式,例如 php 就无法通过 $_POST 对象从上面的请求中获得内容。这时候,需要自己动手处理下:在请求头中 Content-Type 为 application/json 时,从 php://input 里获得原始输入流,再 json_decode 成对象。一些 php 框架已经开始这么做了。
当然 AngularJS 也可以配置为使用 x-www-form-urlencoded 方式提交数据。如有需要,可以参考这篇文章。
text/xml
我的博客之前提到过 XML-RPC(XML Remote Procedure Call)。它是一种使用 HTTP 作为传输协议,XML 作为编码方式的远程调用规范。典型的 XML-RPC 请求是这样的:
POST http://www.example.com HTTP/1.1
Content-Type: text/xml
<!--?xml version="1.0"?-->
<methodcall>
<methodname>examples.getStateName</methodname>
<params>
<param>
<value><i4>41</i4></value>
</params>
</methodcall>
XML-RPC 协议简单、功能够用,各种语言的实现都有。它的使用也很广泛,如 WordPress 的 XML-RPC Api,搜索引擎的 ping 服务等等。JavaScript 中,也有现成的库支持以这种方式进行数据交互,能很好的支持已有的 XML-RPC 服务。不过,我个人觉得 XML 结构还是过于臃肿,一般场景用 JSON 会更灵活方便。
php使用curl请求设置CURLOPT_HTTPHEADER为x-www-form-urlencoded时请求数据需要注意的问题
from-data用array格式传送,
content-type为x-www-form-urlencoded时用key=value&key=value的形式传送。