个人博客

原

php爬虫基础

2026-04-19 18:22:52 176

分类：php

php抓取网页最简单的函数file_get_contents，但是这满足不了所有需求。所以需要用到curl。

php curl主要用于抓取网页数据，需要开启curl模块。

这是自己封装的一个函数，放在Http.class.php中。

这个函数能抓取大多数页面，甚至需要登录和验证的https页面。

如果自己做的网站不想让别人伪装ip抓取和注入攻击可以查看：

抓取网页函数：

/**
 * Summary of curlContent
 * @param mixed $url 网页地址
 * @param mixed $post 伪造post数据
 * @param mixed $referer 伪装ip或域名
 * @param mixed $cookie 伪造cookie
 * @return mixed 返回抓取的数据或者false
 */
function curlContent($url,$post="",$referer='',$cookie=''){
    $usergent=$_SERVER['HTTP_USER_AGENT'];
    //$usergent='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'; //浏览器标识（PC端）
    //$usergent='Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1'; //浏览器标识（移动端）
    
    $ch = curl_init();

    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);        //为true时请求有返回的值
    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 10);       //连接超时（秒）
    curl_setopt($ch, CURLOPT_TIMEOUT, 10);              //执行超时（秒）
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);    //禁止curl验证对等证书（https请求需要证书，所以https网页不一定能抓取）
    curl_setopt( $ch, CURLOPT_FOLLOWLOCATION, 1 );      //如果curl爬取过程中，设置CURLOPT_FOLLOWLOCATION为true，则会跟踪爬取重定向页面；否则，不会跟踪重定向页面。
    //curl_setopt($ch, CURLOPT_USERAGENT, $usergent);   //浏览器标识，有的网站会检查useragent
    //curl_setopt($ch, CURLOPT_ENCODING, "utf-8");      //设置编码  
    //curl_setopt($ch, CURLOPT_ENCODING, "gzip");       //取消gzip压缩
    
    if($referer){
        curl_setopt($ch, CURLOPT_REFERER, $referer);//伪造referer
    }
    
    if($post){
        curl_setopt($ch, CURLOPT_POST, 1);          //设置为POST方式
        curl_setopt($ch, CURLOPT_POSTFIELDS, $post);//数据传输
    }

    if($cookie){
        curl_setopt($ch, CURLOPT_COOKIE, $cookie);  //设置cookie
    }
    
    $output = curl_exec($ch);
    curl_close($ch);
    
    if($output===false){
        //返回一个保护当前会话最近一次错误的字符串
        echo 'curlContent Error: '.curl_error($ch).'<br>';
        return false;
    }
    return $output;
}

下面是下载网络文件的函数，也放在Http.class.php中。

对于一些安全程度较高的https协议的网站就比较蛋疼了，一张图都拿不到（shit）。一张证书好歹也要几千大洋，所以知足吧。

下载网络文件函数：

/**
 * 采集远程文件（需要开启php_curl扩展）
 * @param string $remote 远程文件名
 * @param string $local 本地保存文件名
 * @return mixed
 */
function curlDownload($remote,$local) {
    $cp = curl_init($remote);
    $fp = fopen($local,"w");
    curl_setopt($cp, CURLOPT_FILE, $fp);
    curl_setopt($cp, CURLOPT_HEADER, 0);
    curl_setopt($cp, CURLOPT_SSL_VERIFYPEER, false);   //禁止curl验证对等证书
    
    $output=curl_exec($cp);
    curl_close($cp);
    fclose($fp);
    if($output===false){
        echo 'Error: '.curl_error($cp).'<br>';
        return false;
    }
    return $output;
}

四种常见的 POST 提交数据方式对应的content-type取值

application/x-www-form-urlencoded

这应该是最常见的 POST 提交数据的方式了。浏览器的原生 form 表单，如果不设置 enctype 属性，那么最终就会以 application/x-www-form-urlencoded 方式提交数据。请求类似于下面这样（无关的请求头在本文中都省略掉了）：

POST http://www.example.com HTTP/1.1

Content-Type: application/x-www-form-urlencoded;charset=utf-8

title=test&sub%5B%5D=1&sub%5B%5D=2&sub%5B%5D=3

首先，Content-Type 被指定为 application/x-www-form-urlencoded；其次，提交的数据按照 key1=val1&key2=val2 的方式进行编码，key 和 val 都进行了 URL 转码。大部分服务端语言都对这种方式有很好的支持。

很多时候，我们用 Ajax 提交数据时，也是使用这种方式。例如 JQuery 和 QWrap 的 Ajax，Content-Type 默认值都是「application/x-www-form-urlencoded;charset=utf-8」。

multipart/form-data

这又是一个常见的 POST 数据提交的方式。我们使用表单上传文件时，必须让 form 的 enctyped 等于这个值。直接来看一个请求示例：

POST http://www.example.com HTTP/1.1

Content-Type:multipart/form-data; boundary=----WebKitFormBoundaryrGKCBY7qhFd3TrwA

------WebKitFormBoundaryrGKCBY7qhFd3TrwA

Content-Disposition: form-data; name="text"

title

------WebKitFormBoundaryrGKCBY7qhFd3TrwA

Content-Disposition: form-data; name="file"; filename="chrome.png"

Content-Type: image/png

PNG ... content of chrome.png ...

------WebKitFormBoundaryrGKCBY7qhFd3TrwA--

这个例子稍微复杂点。首先生成了一个 boundary 用于分割不同的字段，为了避免与正文内容重复，boundary 很长很复杂。然后 Content-Type 里指明了数据是以 mutipart/form-data 来编码，本次请求的 boundary 是什么内容。消息主体里按照字段个数又分为多个结构类似的部分，每部分都是以 --boundary 开始，紧接着内容描述信息，然后是回车，最后是字段具体内容（文本或二进制）。如果传输的是文件，还要包含文件名和文件类型信息。消息主体最后以 --boundary-- 标示结束。关于 mutipart/form-data 的详细定义，请前往 rfc1867 查看。

这种方式一般用来上传文件，各大服务端语言对它也有着良好的支持。

上面提到的这两种 POST 数据的方式，都是浏览器原生支持的，而且现阶段原生 form 表单也只支持这两种方式。但是随着越来越多的 Web 站点，尤其是 WebApp，全部使用 Ajax 进行数据交互之后，我们完全可以定义新的数据提交方式，给开发带来更多便利。

application/json

application/json 这个 Content-Type 作为响应头大家肯定不陌生。实际上，现在越来越多的人把它作为请求头，用来告诉服务端消息主体是序列化后的 JSON 字符串。由于 JSON 规范的流行，除了低版本 IE 之外的各大浏览器都原生支持 JSON.stringify，服务端语言也都有处理 JSON 的函数，使用 JSON 不会遇上什么麻烦。

JSON 格式支持比键值对复杂得多的结构化数据，这一点也很有用。记得我几年前做一个项目时，需要提交的数据层次非常深，我就是把数据 JSON 序列化之后来提交的。不过当时我是把 JSON 字符串作为 val，仍然放在键值对里，以 x-www-form-urlencoded 方式提交。

Google 的 AngularJS 中的 Ajax 功能，默认就是提交 JSON 字符串。例如下面这段代码：

var data = {'title':'test', 'sub' : [1,2,3]};

$http.post(url, data).success(function(result) {

...

});

最终发送的请求是：

POST http://www.example.com HTTP/1.1

Content-Type: application/json;charset=utf-8

{"title":"test","sub":[1,2,3]}

这种方案，可以方便的提交复杂的结构化数据，特别适合 RESTful 的接口。各大抓包工具如 Chrome 自带的开发者工具、Firebug、Fiddler，都会以树形结构展示 JSON 数据，非常友好。但也有些服务端语言还没有支持这种方式，例如 php 就无法通过 $_POST 对象从上面的请求中获得内容。这时候，需要自己动手处理下：在请求头中 Content-Type 为 application/json 时，从 php://input 里获得原始输入流，再 json_decode 成对象。一些 php 框架已经开始这么做了。

当然 AngularJS 也可以配置为使用 x-www-form-urlencoded 方式提交数据。如有需要，可以参考这篇文章。

text/xml

我的博客之前提到过 XML-RPC（XML Remote Procedure Call）。它是一种使用 HTTP 作为传输协议，XML 作为编码方式的远程调用规范。典型的 XML-RPC 请求是这样的：

POST http://www.example.com HTTP/1.1

Content-Type: text/xml

<methodname>examples.getStateName</methodname>

<param>

</params>

</methodcall>

XML-RPC 协议简单、功能够用，各种语言的实现都有。它的使用也很广泛，如 WordPress 的 XML-RPC Api，搜索引擎的 ping 服务等等。JavaScript 中，也有现成的库支持以这种方式进行数据交互，能很好的支持已有的 XML-RPC 服务。不过，我个人觉得 XML 结构还是过于臃肿，一般场景用 JSON 会更灵活方便。

php使用curl请求设置CURLOPT_HTTPHEADER为x-www-form-urlencoded时请求数据需要注意的问题

from-data用array格式传送，

content-type为x-www-form-urlencoded时用key=value&key=value的形式传送。