首页 > 代码库 > 远程抓取,小偷程序。curl与file_get_contents()的比较
远程抓取,小偷程序。curl与file_get_contents()的比较
一般来说大家写小偷程序都喜欢用file_get_contents(),确实,简单无脑又暴力。但是后面发现其实,除了只是编码简便外,其他特性远远不及curl。学习才发现,curl支持很多协议,有FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE以及LDAP,也就是说,它能做到很多file_get_content做不到的事情。curl在php可以实现远程获取和采集内容;实现PHP网页版的FTP上传下载;实现模拟登陆;实现接口对接(API),数据传输;实现模拟Cookie;下载文件断点续传等等,功能十分强大。
此次我们就了解下curl最基本的使用方法,即只是简单抓取内容。
开启curl:
因为PHP默认是不支持curl功能的,因此如果要用curl的话,首先需要在php.ini中开启该功能,即去掉 ;extension= php_curl.dll 前面的分号,然后保存后重启apache/iis就好了。
$my_curl = curl_init(); //初始化一个curl对象
curl_setopt($my_curl, CURLOPT_URL, "http://www.baidu.com"); //设置你需要抓取的URL
curl_setopt($my_curl,CURLOPT_RETURNTRANSFER,1); //设置是将结果保存到字符串中还是输出到屏幕上,1表示将结果保存到字符串
$str = curl_exec($curl); //执行请求
echo $str; //输出抓取的结果
curl_close($curl); //关闭url请求
怎么比较性能,所谓性能,一般来说,大家很看重时间
<?php
//curl获取方式
list($micro,$second)=explode(‘ ‘,microtime());
$start = $micro+$second;
$url=‘http://www.baidu.com‘;
$ch = curl_init();
$timeout = 5;
curl_setopt ($ch, CURLOPT_URL, $url);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
$file_contents = curl_exec($ch);
curl_close($ch);
//file_get_contents获取方式
list($micro,$second)=explode(‘ ‘,microtime());
$end = $micro+$second;
echo $end-$start;
//echo $file_contents;
echo "<hr>";
list($micro,$second)=explode(‘ ‘,microtime());
$start = $micro+$second;
$url=‘http://www.baidu.com‘;
$str=file_get_contents($url);
list($micro,$second)=explode(‘ ‘,microtime());
$end = $micro+$second;
echo $end-$start;
?>
0.19285988807678
0.28492617607117
0.1804530620575
0.27260899543762
0.18059706687927
0.28043794631958
随机刷新三次,对比。file_get_contents皆比curl方式消耗更多时间,当然,看者也可以去测试其他网站,取平均值来衡量两者函数性能,更加之客观。
总结:如果不是高并发的访问。其实用file_get_contents也未尝不可。但是一旦访问高了。这很可能也会成为服务器性能的瓶颈之一。合理选择,才是最好的开发方式
远程抓取,小偷程序。curl与file_get_contents()的比较