不小心把 Feedly 屏蔽掉

2 Comments

昨天 @老灵 QQ 说 Feedly 抓取不到老杨博客了,先是一愣,后来想想,可能是前阵子折腾,把一些「垃圾」蜘蛛屏蔽掉,把 Feedly 误伤。

找到之前添加的代码,果然,Feedly、FeedDemon 都被干掉了,囧。目前在用代码,丢到 WordPress 主题 functions.php 文件即可。(php7.3 实测可用,低版本没有测试)

if(!is_admin()) {
add_action('init', 'deny_mirrored_request', 0);
}
function deny_mirrored_request()
{
//获取UA信息
$ua = isset($_SERVER['HTTP_USER_AGENT']) ? $_SERVER['HTTP_USER_AGENT'] : '';

//将恶意USER_AGENT存入数组
$now_ua = array('BOT/0.1 (BOT for JCE)','CrawlDaddy','Java','UniversalFeedParser','ApacheBench','Swiftbot','ZmEu','Indy Library','oBot','jaunty','YandexBot','AhrefsBot','MJ12bot','WinHttp','EasouSpider','HttpClient','Microsoft URL Control','jaunty','Python-urllib','lightDeckReports Bot');

//禁止空USER_AGENT,dedecms等主流采集程序都是空USER_AGENT,部分sql注入工具也是空USER_AGENT
if( ( empty( $ua ) ) || preg_match('/PHP/i', $ua)) {
header("Content-type: text/html; charset=utf-8");
wp_die('请勿采集本站,因为采集的站长木有小JJ!');
} else {
foreach($now_ua as $value ) {
//判断是否是数组中存在的UA
if( preg_match( '~'.$value.'~i', $ua) ) {
header("Content-type: text/html; charset=utf-8");
wp_die('请勿采集本站,因为采集的站长木有小JJ!');
}
}
}
}

使用 curl 模拟,比如:curl -I -A '' https://cyhour.com 模拟空 UA 访问

[root@host ~]# curl -I -A '' https://cyhour.com
HTTP/1.1 500 Internal Server Error
Server: nginx
Date: Tue, 30 Jul 2019 01:50:57 GMT
Content-Type: text/html; charset=utf-8
Connection: keep-alive
Expires: Wed, 11 Jan 1984 05:00:00 GMT
Cache-Control: no-cache, must-revalidate, max-age=0

[root@host ~]# curl -I -A 'php' https://cyhour.com
HTTP/1.1 500 Internal Server Error
Server: nginx
Date: Tue, 30 Jul 2019 01:51:07 GMT
Content-Type: text/html; charset=utf-8
Connection: keep-alive
Expires: Wed, 11 Jan 1984 05:00:00 GMT
Cache-Control: no-cache, must-revalidate, max-age=0

[root@host ~]# curl -I -A 'Googlebot' https://cyhour.com
HTTP/1.1 200 OK
Server: nginx
Date: Tue, 30 Jul 2019 01:55:26 GMT
Content-Type: text/html; charset=UTF-8
Connection: keep-alive
Vary: Accept-Encoding
Link: <https://cyhour.com/wp-json/>; rel="https://api.w.org/"
Strict-Transport-Security: max-age=15768000

参考资料:张戈博客 - https://zhang.ge/5101.htmlhttps://zhang.ge/4458.html

除非注明,沙唐桔文章均为原创,本文地址 https://cyhour.com/1099/,转载时必须以链接形式注明原始出处。
声明:我们不销售主机,选主机需合法使用。任何主机需定期备份,防止数据丢失。信息以实际为准,评测仅供参考不代表权威!

群晖使用 rsync 本地文件夹间增量复制文件备份

Google 相册自动备份到 OneDrive,蜗牛星际安装了群晖,Cloud Sync 把 OneDrive 备份同步到本地。蜗牛星际群晖 NAS 用了4块监控录像机拆下来的垃圾盘,目前检测状态良好,不过不知道什么时候会挂,加上也没有做 raid,复制多一份稳点。 群晖官方貌似没有套件可以直接实现本地文件夹间增量复制文件…
浏览: 117 标签:  ,  ,  ,  ,  , 

TM-AC1900 3199 版本固件刷回 AC68U 支持 AiMesh

2016 年双十一淘宝买的水货华硕 RT-AC68U还在服役,折腾过双拨、刷过梅林……前阵子直接从梅林刷回原版。也是因为这个,大意了,中午登陆路由器看到有更新,于是点更新…… TM-AC1900 改的 AC68U 千万不要后台直接升级固件~ TM-AC1900 改的 AC68U 后台在线升级固件,直接悲剧了,三分钟、三分钟、三…
浏览: 126 标签:  ,  ,  , 

优酷路由宝 YK-L1 刷 Breed 和老毛子 Padavan 作无线打印服务器

前些天¥28收了一个极壹S(HC5661A),加USB刷Breed+老毛子作无线打印服务器用,挺好的。逛转转,看到一个优酷路由宝挺便宜的,¥30包邮到手,卖家说没有拆机,这么说自带的 8G TF 卡还在,还挺划算的,就买回来了。 两年前,就买过两个路由宝,那时候可以利用空闲宽带挖金币,基本上回本。后来又…
浏览: 160 标签:  ,  ,  ,  , 

Gridea,一个静态博客写作客户端(GUI 版 Hugo)

前几天折腾 Hugo,上手不难,建了个几乎零成本垃圾站,真香!Hugo 本地环境搭建比 Jekyll 简单,而 Gridea 比 Hugo 更简单,甚至,从功能上来说,Gridea 就是 Hugo GUI 版。 Gridea 简介 Gridea,一个静态博客写作客户端,小白也可以 GitHub Pages 搭建静态博客。开源、易用、强大。记录生…
浏览: 126 标签:  ,  ,  ,  ,  ,  ,  , 
浏览: 157 标签:  ,  ,  , 

Comments:2

  1. 很多网站都是屏蔽的,说是防止被采集

    2019.07.31 14:29 # 回复
    1楼

发表留言

Vultr 送$100,搬瓦工年付最低$49,优惠码 BWH3HYATVBJW,更多推荐VPS信息