当前位置:首页 > PHP > 采集 防止采集的网站的内容(如网易)

采集 防止采集的网站的内容(如网易)

有些网站设置了防止采集,使用php的file_get_contents函数采集时出现禁止访问(如网易的),这时只要发送一个user-agent  http头就可以了。代码如下:

<?php
/**
 *  谷歌Android:
 * user-agent="Mozilla/5.0 (Linux; U; Android 2.2; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1"
 *
 * 苹果iPhone 4:
 * user-agent="Mozilla/5.0 (iPhone; CPU iPhone OS 5_0_1 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Mobile/9A405"
 *
 *  苹果iPad 2:
 *  user-agent="Mozilla/5.0 (iPad; CPU OS 5_0_1 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Mobile/9A405"
 *
 * 诺基亚N97:
 * user-agent="Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18124"
 */
// Create a stream
$opts = array(
  'http'=>array(
    'method'=>"GET",
    'header'=>"Accept-Encoding: deflate\r\n" .
             "User-Agent: Mozilla/5.0 (Linux; U; Android 2.2; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1"
  )
);

$context = stream_context_create($opts);
//$url = 'http://www.dianping.com/shop/5926197';
$url = 'http://3g.qq.com';
$file = file_get_contents($url, false, $context);

echo $file;

 

 

  • «
  • »
  • 作者:
    除非注明,本文原创:OpenFree,专注于IT互联网,欢迎转载!转载请以链接形式注明本文地址,谢谢。
    原文链接:http://www.it163.org/post/118fd1_769109

    发表评论

    电子邮件地址不会被公开。 必填项已用*标注


    您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>