如何设置php禁止抓取网站

2024-12-07 技术教程

如何设置php禁止抓取网站？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

php禁止抓取的实现方法：首先通过“$_SERVER['HTTP_USER_AGENT'];”方法获取UA信息；然后将恶意“USER_AGENT”存入数组；最后禁止空“USER_AGENT”等主流采集程序即可。

我们都知道网络上的爬虫非常多，有对网站收录有益的，比如百度蜘蛛（Baiduspider），也有不但不遵守robots规则对服务器造成压力，还不能为网站带来流量的无用爬虫，比如宜搜蜘蛛（YisouSpider）（最新补充：宜搜蜘蛛已被UC神马搜索收购！所以本文已去掉宜搜蜘蛛的禁封！==>相关文章)。最近张戈发现nginx日志中出现了好多宜搜等垃圾的抓取记录，于是整理收集了网络上各种禁止垃圾蜘蛛爬站的方法，在给自己网做设置的同时，也给各位站长提供参考。

一、Apache①、通过修改 .htaccess文件二、Nginx代码

进入到nginx安装目录下的conf目录，将如下代码保存为 agent_deny.conf
cd /usr/local/nginx/conf
vim agent_deny.conf

#禁止Scrapy等工具的抓取if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {return 403;}#禁止指定UA及UA为空的访问if ($http_user_agent ~* "FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) {return 403;}#禁止非GET|HEAD|POST方式的抓取if ($request_method !~ ^(GET|HEAD|POST)$) {return 403;}

然后，在网站相关配置中的 location / { 之后插入如下代码：
include agent_deny.conf;
如张戈博客的配置：
[marsge@Mars_Server ~]$ cat /usr/local/nginx/conf/zhangge.conf

location / {try_files $uri $uri/ /index.php?$args;#这个位置新增1行：include agent_deny.conf;rewrite ^/sitemap_360_sp.txt$ /sitemap_360_sp.php last;rewrite ^/sitemap_baidu_sp.xml$ /sitemap_baidu_sp.php last;rewrite ^/sitemap_m.xml$ /sitemap_m.php last;保存后，执行如下命令，平滑重启nginx即可：/usr/local/nginx/sbin/nginx -s reload三、PHP代码

将如下方法放到贴到网站入口文件index.php中的第一个 <?php 之后即可：
//获取UA信息

$ua = $_SERVER['HTTP_USER_AGENT'];//将恶意USER_AGENT存入数组$now_ua = array('FeedDemon ','BOT/0.1 (BOT for JCE)','CrawlDaddy ','Java','Feedly','UniversalFeedParser','ApacheBench','Swiftbot','ZmEu','Indy Library','oBot','jaunty','YandexBot','AhrefsBot','MJ12bot','WinHttp','EasouSpider','HttpClient','Microsoft URL Control','YYSpider','jaunty','Python-urllib','lightDeckReports Bot');

//禁止空USER_AGENT，dedecms等主流采集程序都是空USER_AGENT，部分sql注入工具也是空USER_AGENT

if(!$ua) {header("Content-type: text/html; charset=utf-8");die('请勿采集本站，因为采集的站长木有小JJ！');}else{foreach($now_ua as $value )//判断是否是数组中存在的UAif(eregi($value,$ua)) {header("Content-type: text/html; charset=utf-8");die('请勿采集本站，因为采集的站长木有小JJ！');}}四、测试效果

如果是vps，那非常简单，使用curl -A 模拟抓取即可，比如：
模拟宜搜蜘蛛抓取：
curl -I -A 'YisouSpider' zhang.ge
模拟UA为空的抓取：
curl -I -A '' zhang.ge
模拟百度蜘蛛的抓取：
curl -I -A 'Baiduspider' zhang.ge

修改网站目录下的.htaccess，添加如下代码即可（2种代码任选）：三次抓取结果截图如下：

可以看出，宜搜蜘蛛和UA为空的返回是403禁止访问标识，而百度蜘蛛则成功返回200，说明生效！

补充：第二天，查看nginx日志的效果截图：

①、UA信息为空的垃圾采集被拦截：

②、被禁止的UA被拦截：

因此，对于垃圾蜘蛛的收集，我们可以通过分析网站的访问日志，找出一些没见过的的蜘蛛（spider）名称，经过查询无误之后，可以将其加入到前文代码的禁止列表当中，起到禁止抓取的作用。

五、附录：UA收集

下面是网络上常见的垃圾UA列表，仅供参考，同时也欢迎你来补充。

FeedDemon 内容采集BOT/0.1 (BOT for JCE) sql注入CrawlDaddy sql注入Java 内容采集Jullo 内容采集Feedly 内容采集UniversalFeedParser 内容采集ApacheBench cc攻击器Swiftbot 无用爬虫YandexBot 无用爬虫AhrefsBot 无用爬虫YisouSpider 无用爬虫（已被UC神马搜索收购，此蜘蛛可以放开！）MJ12bot 无用爬虫ZmEu phpmyadmin 漏洞扫描WinHttp 采集cc攻击EasouSpider 无用爬虫HttpClient tcp攻击Microsoft URL Control 扫描YYSpider 无用爬虫jaunty wordpress爆破扫描器oBot 无用爬虫Python-urllib 内容采集Indy Library 扫描FlightDeckReports Bot 无用爬虫Linguee Bot 无用爬虫

关于如何设置php禁止抓取网站问题的解答就分享到这里了，希望以上内容可以对大家有一定的帮助，如果你还有很多疑惑没有解开，可以关注亿速云行业资讯频道了解更多相关知识。