不小心把 Feedly 屏蔽掉

2 Comments

昨天 @老灵 QQ 说 Feedly 抓取不到老头博客了,先是一愣,后来想想,可能是前阵子折腾,把一些「垃圾」蜘蛛屏蔽掉,把 Feedly 误伤。

找到之前添加的代码,果然,Feedly、FeedDemon 都被干掉了,囧。目前在用代码,丢到 WordPress 主题 functions.php 文件即可。(php7.3 实测可用,低版本没有测试)

if(!is_admin()) {
add_action('init', 'deny_mirrored_request', 0);
}
function deny_mirrored_request()
{
//获取UA信息
$ua = isset($_SERVER['HTTP_USER_AGENT']) ? $_SERVER['HTTP_USER_AGENT'] : '';

//将恶意USER_AGENT存入数组
$now_ua = array('BOT/0.1 (BOT for JCE)','CrawlDaddy','Java','UniversalFeedParser','ApacheBench','Swiftbot','ZmEu','Indy Library','oBot','jaunty','YandexBot','AhrefsBot','MJ12bot','WinHttp','EasouSpider','HttpClient','Microsoft URL Control','jaunty','Python-urllib','lightDeckReports Bot');

//禁止空USER_AGENT,dedecms等主流采集程序都是空USER_AGENT,部分sql注入工具也是空USER_AGENT
if( ( empty( $ua ) ) || preg_match('/PHP/i', $ua)) {
header("Content-type: text/html; charset=utf-8");
wp_die('请勿采集本站,因为采集的站长木有小JJ!');
} else {
foreach($now_ua as $value ) {
//判断是否是数组中存在的UA
if( preg_match( '~'.$value.'~i', $ua) ) {
header("Content-type: text/html; charset=utf-8");
wp_die('请勿采集本站,因为采集的站长木有小JJ!');
}
}
}
}

使用 curl 模拟,比如:curl -I -A '' https://cyhour.com 模拟空 UA 访问

[root@host ~]# curl -I -A '' https://cyhour.com
HTTP/1.1 500 Internal Server Error
Server: nginx
Date: Tue, 30 Jul 2019 01:50:57 GMT
Content-Type: text/html; charset=utf-8
Connection: keep-alive
Expires: Wed, 11 Jan 1984 05:00:00 GMT
Cache-Control: no-cache, must-revalidate, max-age=0

[root@host ~]# curl -I -A 'php' https://cyhour.com
HTTP/1.1 500 Internal Server Error
Server: nginx
Date: Tue, 30 Jul 2019 01:51:07 GMT
Content-Type: text/html; charset=utf-8
Connection: keep-alive
Expires: Wed, 11 Jan 1984 05:00:00 GMT
Cache-Control: no-cache, must-revalidate, max-age=0

[root@host ~]# curl -I -A 'Googlebot' https://cyhour.com
HTTP/1.1 200 OK
Server: nginx
Date: Tue, 30 Jul 2019 01:55:26 GMT
Content-Type: text/html; charset=UTF-8
Connection: keep-alive
Vary: Accept-Encoding
Link: <https://cyhour.com/wp-json/>; rel="https://api.w.org/"
Strict-Transport-Security: max-age=15768000

参考资料:张戈博客 - https://zhang.ge/5101.htmlhttps://zhang.ge/4458.html

除非注明,垃圾站文章均为网络收集,本文地址 https://cyhour.com/1099/,转载时烦请以链接形式注明原始出处。
声明:我们不销售主机,任何VPS主机均有跑路风险且需定期备份,防止数据丢失。信息以实际为准,评测仅供参考不代表权威!
🍄:Netflix 奈飞 YouTube 合租

使用 WordPress 内置 XML Sitemaps 替换 Google XML Sitemaps

内容是王道,但是有时候酒香也怕巷子深,向搜索引擎提交 sitemap 是快速提高网站收录的最好方法之一。老头一直使用 Google XML Sitemaps 插件自动生成 sitemap.xml 站点地图。 WordPress 5.5 版本起 内置 sitemap 功能 WordPress 5.5 版本之后,核心代码已经内置 XML Sitemaps 功能,只要访问:…

WordPress 5.0+ 禁用 Gutenberg & WordPress 5.8+ 禁用 Widget 块编辑器

2018.12.06,WordPress 5.0 发布,代号 Bebo。最大的亮(黑)点就是正式引入新的基于块(block-based)的编辑器 —— Gutenberg 编辑器,以及新的默认主题 —— Twenty Nineteen。 WordPress 5.0+ 禁用 Gutenberg 编辑器 第一时间升级,打开文章编辑,一股说不出的杯具感在心头……变化太大,心累…
浏览: 114 标签:  ,  ,  , 

Adobe Flash Player 去helper(Win10 完美恢复)

Adobe 在2020年12月31日后将不再支持 Adobe Flash Player,从2021年1月12日开始,阻止 Flash 内容在 Flash Player 中运行。截图 虽然不喜欢 Adobe Flash Player,但是有些网站目前仍然离不开 Adobe Flash Player,过渡解决方法是:安装中国特供版 Adobe Flash Player 或者安装网友修改 Adobe Flash…

升级新版 Google AdSense 代码提升广告效果

2021年7月19日,Google AdSense 最近发布了新版 AdSense 代码。通过新版 AdSense 代码,AdSense 可以更早触发优化功能,从而提升网站上广告效果。新广告代码适用于自动广告和广告单元。 如何获取 Google AdSense 新版代码? 无需采取任何措施。在下次登录 AdSense 后,您将拥有对新广告代码的访…
浏览: 62 标签:  ,  ,  , 

Comments:2

  1. 很多网站都是屏蔽的,说是防止被采集

    2019.07.31 14:29 # 回复
    1楼

发表留言

Vultr 送$100,搬瓦工年付最低$49,优惠码 BWH3HYATVBJW,更多推荐VPS信息