首页 > 代码库 > 使用curl模拟ip和来源进行网站采集的实现方法
使用curl模拟ip和来源进行网站采集的实现方法
对于限制了ip和来源的网站,使用正常的采集方式是不行的。本文将介绍一种方法,使用php的curl类实现模拟ip和来源,实现采集限制ip和来源的网站。
1.设置页面限制ip和来源访问
server.php
<?php $client_ip = getip(); $referer = getreferer(); $allow_ip = ‘192.168.1.100‘; $allow_referer = ‘http://www.uxuew.cn‘; if($client_ip==$allow_ip && strpos($referer, $allow_referer)===0){ echo ‘allow access‘; }else{ echo ‘deny access‘; } // 获取访问者ip function getip(){ if(!empty($_SERVER[‘HTTP_CLIENT_IP‘])){ $cip = $_SERVER[‘HTTP_CLIENT_IP‘]; }elseif(!empty($_SERVER[‘HTTP_X_FORWARDED_FOR‘])){ $cip = $_SERVER[‘HTTP_X_FORWARDED_FOR‘]; }elseif(!empty($_SERVER[‘REMOTE_ADDR‘])){ $cip = $_SERVER[‘REMOTE_ADDR‘]; }else{ $cip = ‘‘; } return $cip; } // 获取访问者来源 function getreferer(){ if(isset($_SERVER[‘HTTP_REFERER‘])){ return $_SERVER[‘HTTP_REFERER‘]; } return ‘‘; } ?>
2.使用curl正常访问
<?php function doCurl($url, $data=array(), $header=array(), $timeout=30){ $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_HTTPHEADER, $header); curl_setopt($ch, CURLOPT_POST, true); curl_setopt($ch, CURLOPT_POSTFIELDS, http_build_query($data)); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch, CURLOPT_TIMEOUT, $timeout); $response = curl_exec($ch); if($error=curl_error($ch)){ die($error); } curl_close($ch); return $response; } // 调用 $url = ‘http://www.uxuew.cn/server.php‘; $response = doCurl($url); echo $response; ?>
3.使用curl模拟ip和来源进行访问
模拟来源
curl_setopt($ch, CURLOPT_REFERER, ‘来源‘);
模拟ip
curl_setopt($ch, CURLOPT_HTTPHEADER, array(‘CLIENT-IP: 模拟ip‘,‘X-FORWARDED-FOR: 模拟ip‘));
完整代码如下:
<?php function doCurl($url, $data=array(), $header=array(), $referer=‘‘, $timeout=30){ $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_HTTPHEADER, $header); curl_setopt($ch, CURLOPT_POST, true); curl_setopt($ch, CURLOPT_POSTFIELDS, http_build_query($data)); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch, CURLOPT_TIMEOUT, $timeout); // 模拟来源 curl_setopt($ch, CURLOPT_REFERER, $referer); $response = curl_exec($ch); if($error=curl_error($ch)){ die($error); } curl_close($ch); return $response; } // 调用 $url = ‘http://www.example.com/server.php‘; $data = array(); // 设置IP $header = array( ‘CLIENT-IP: 192.168.1.100‘, ‘X-FORWARDED-FOR: 192.168.1.100‘ ); // 设置来源 $referer = ‘http://www.uxuew.cn/‘; $response = doCurl($url, $data, $header, $referer, 5); echo $response; ?>
使用curl模拟ip和来源进行网站采集的实现方法
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。