php爬虫基础

2026-04-19 18:22:52 176
分类:php

php抓取网页最简单的函数file_get_contents,但是这满足不了所有需求。所以需要用到curl。

php curl主要用于抓取网页数据,需要开启curl模块。

这是自己封装的一个函数,放在Http.class.php中。

这个函数能抓取大多数页面,甚至需要登录和验证的https页面。

如果自己做的网站不想让别人伪装ip抓取和注入攻击可以查看:

抓取网页函数:

/**
 * Summary of curlContent
 * @param mixed $url 网页地址
 * @param mixed $post 伪造post数据
 * @param mixed $referer 伪装ip或域名
 * @param mixed $cookie 伪造cookie
 * @return mixed 返回抓取的数据或者false
 */
function curlContent($url,$post="",$referer='',$cookie=''){
    $usergent=$_SERVER['HTTP_USER_AGENT'];
    //$usergent='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'; //浏览器标识(PC端)
    //$usergent='Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1'; //浏览器标识(移动端)
    
    $ch = curl_init();

    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);        //为true时请求有返回的值
    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 10);       //连接超时(秒)
    curl_setopt($ch, CURLOPT_TIMEOUT, 10);              //执行超时(秒)
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);    //禁止curl验证对等证书(https请求需要证书,所以https网页不一定能抓取)
    curl_setopt( $ch, CURLOPT_FOLLOWLOCATION, 1 );      //如果curl爬取过程中,设置CURLOPT_FOLLOWLOCATION为true,则会跟踪爬取重定向页面;否则,不会跟踪重定向页面。
    //curl_setopt($ch, CURLOPT_USERAGENT, $usergent);   //浏览器标识,有的网站会检查useragent
    //curl_setopt($ch, CURLOPT_ENCODING, "utf-8");      //设置编码  
    //curl_setopt($ch, CURLOPT_ENCODING, "gzip");       //取消gzip压缩
    
    if($referer){
        curl_setopt($ch, CURLOPT_REFERER, $referer);//伪造referer
    }
    
    if($post){
        curl_setopt($ch, CURLOPT_POST, 1);          //设置为POST方式
        curl_setopt($ch, CURLOPT_POSTFIELDS, $post);//数据传输
    }

    if($cookie){
        curl_setopt($ch, CURLOPT_COOKIE, $cookie);  //设置cookie
    }
    
    $output = curl_exec($ch);
    curl_close($ch);
    
    if($output===false){
        //返回一个保护当前会话最近一次错误的字符串
        echo 'curlContent Error: '.curl_error($ch).'<br>';
        return false;
    }
    return $output;
}

下面是下载网络文件的函数,也放在Http.class.php中。

对于一些安全程度较高的https协议的网站就比较蛋疼了,一张图都拿不到(shit)。一张证书好歹也要几千大洋,所以知足吧。

下载网络文件函数:

/**
 * 采集远程文件(需要开启php_curl扩展)
 * @param string $remote 远程文件名
 * @param string $local 本地保存文件名
 * @return mixed
 */
function curlDownload($remote,$local) {
    $cp = curl_init($remote);
    $fp = fopen($local,"w");
    curl_setopt($cp, CURLOPT_FILE, $fp);
    curl_setopt($cp, CURLOPT_HEADER, 0);
    curl_setopt($cp, CURLOPT_SSL_VERIFYPEER, false);   //禁止curl验证对等证书
    
    $output=curl_exec($cp);
    curl_close($cp);
    fclose($fp);
    if($output===false){
        echo 'Error: '.curl_error($cp).'<br>';
        return false;
    }
    return $output;
}

四种常见的 POST 提交数据方式对应的content-type取值

application/x-www-form-urlencoded

这应该是最常见的 POST 提交数据的方式了。浏览器的原生 form 表单,如果不设置 enctype 属性,那么最终就会以 application/x-www-form-urlencoded 方式提交数据。请求类似于下面这样(无关的请求头在本文中都省略掉了): 

POST http://www.example.com HTTP/1.1 

Content-Type: application/x-www-form-urlencoded;charset=utf-8 

title=test&sub%5B%5D=1&sub%5B%5D=2&sub%5B%5D=3 

首先,Content-Type 被指定为 application/x-www-form-urlencoded;其次,提交的数据按照 key1=val1&key2=val2 的方式进行编码,key 和 val 都进行了 URL 转码。大部分服务端语言都对这种方式有很好的支持。

很多时候,我们用 Ajax 提交数据时,也是使用这种方式。例如 JQuery 和 QWrap 的 Ajax,Content-Type 默认值都是「application/x-www-form-urlencoded;charset=utf-8」。 


multipart/form-data

这又是一个常见的 POST 数据提交的方式。我们使用表单上传文件时,必须让 form 的 enctyped 等于这个值。直接来看一个请求示例: 

POST http://www.example.com HTTP/1.1 

Content-Type:multipart/form-data; boundary=----WebKitFormBoundaryrGKCBY7qhFd3TrwA 


------WebKitFormBoundaryrGKCBY7qhFd3TrwA 

Content-Disposition: form-data; name="text" 


title 

------WebKitFormBoundaryrGKCBY7qhFd3TrwA 

Content-Disposition: form-data; name="file"; filename="chrome.png" 

Content-Type: image/png 

PNG ... content of chrome.png ... 

------WebKitFormBoundaryrGKCBY7qhFd3TrwA-- 

这个例子稍微复杂点。首先生成了一个 boundary 用于分割不同的字段,为了避免与正文内容重复,boundary 很长很复杂。然后 Content-Type 里指明了数据是以 mutipart/form-data 来编码,本次请求的 boundary 是什么内容。消息主体里按照字段个数又分为多个结构类似的部分,每部分都是以 --boundary 开始,紧接着内容描述信息,然后是回车,最后是字段具体内容(文本或二进制)。如果传输的是文件,还要包含文件名和文件类型信息。消息主体最后以 --boundary-- 标示结束。关于 mutipart/form-data 的详细定义,请前往 rfc1867 查看。 

这种方式一般用来上传文件,各大服务端语言对它也有着良好的支持。 

上面提到的这两种 POST 数据的方式,都是浏览器原生支持的,而且现阶段原生 form 表单也只支持这两种方式。但是随着越来越多的 Web 站点,尤其是 WebApp,全部使用 Ajax 进行数据交互之后,我们完全可以定义新的数据提交方式,给开发带来更多便利。 

application/json

application/json 这个 Content-Type 作为响应头大家肯定不陌生。实际上,现在越来越多的人把它作为请求头,用来告诉服务端消息主体是序列化后的 JSON 字符串。由于 JSON 规范的流行,除了低版本 IE 之外的各大浏览器都原生支持 JSON.stringify,服务端语言也都有处理 JSON 的函数,使用 JSON 不会遇上什么麻烦。 

JSON 格式支持比键值对复杂得多的结构化数据,这一点也很有用。记得我几年前做一个项目时,需要提交的数据层次非常深,我就是把数据 JSON 序列化之后来提交的。不过当时我是把 JSON 字符串作为 val,仍然放在键值对里,以 x-www-form-urlencoded 方式提交。 

Google 的 AngularJS 中的 Ajax 功能,默认就是提交 JSON 字符串。例如下面这段代码: 

var data = {'title':'test', 'sub' : [1,2,3]}; 

$http.post(url, data).success(function(result) { 

    ... 

}); 

最终发送的请求是: 

POST http://www.example.com HTTP/1.1 

Content-Type: application/json;charset=utf-8 

{"title":"test","sub":[1,2,3]} 

这种方案,可以方便的提交复杂的结构化数据,特别适合 RESTful 的接口。各大抓包工具如 Chrome 自带的开发者工具、Firebug、Fiddler,都会以树形结构展示 JSON 数据,非常友好。但也有些服务端语言还没有支持这种方式,例如 php 就无法通过 $_POST 对象从上面的请求中获得内容。这时候,需要自己动手处理下:在请求头中 Content-Type 为 application/json 时,从 php://input 里获得原始输入流,再 json_decode 成对象。一些 php 框架已经开始这么做了。 

当然 AngularJS 也可以配置为使用 x-www-form-urlencoded 方式提交数据。如有需要,可以参考这篇文章。 

text/xml

我的博客之前提到过 XML-RPC(XML Remote Procedure Call)。它是一种使用 HTTP 作为传输协议,XML 作为编码方式的远程调用规范。典型的 XML-RPC 请求是这样的: 

POST http://www.example.com HTTP/1.1 

Content-Type: text/xml 

<!--?xml version="1.0"?--> 

<methodcall> 

    <methodname>examples.getStateName</methodname> 

    <params> 

        <param> 

            <value><i4>41</i4></value> 

    </params> 

</methodcall> 

XML-RPC 协议简单、功能够用,各种语言的实现都有。它的使用也很广泛,如 WordPress 的 XML-RPC Api,搜索引擎的 ping 服务等等。JavaScript 中,也有现成的库支持以这种方式进行数据交互,能很好的支持已有的 XML-RPC 服务。不过,我个人觉得 XML 结构还是过于臃肿,一般场景用 JSON 会更灵活方便。 

php使用curl请求设置CURLOPT_HTTPHEADER为x-www-form-urlencoded时请求数据需要注意的问题

from-data用array格式传送,

content-type为x-www-form-urlencoded时用key=value&key=value的形式传送。