PHP 判断是否爬虫蜘蛛

我们可以通过 HTTP_USER_AGENT 来判断是否是蜘蛛,搜索引擎的蜘蛛都有自己特有标识,代码改自网络,记录一下。

代码一:is_crawler

来自:https://gist.github.com/zhangguiqiang/2859126

//判断是否爬虫蜘蛛 https://gist.github.com/zhangguiqiang/2859126
if ( !function_exists( 'isCrawler' ) ) {
function isCrawler() {
if (ini_get('browscap')) {
$browser = get_browser(NULL, true);
if ($browser['crawler']) {
return true;
}
} else if (isset($_SERVER['HTTP_USER_AGENT'])) {
$agent = $_SERVER['HTTP_USER_AGENT'];
$crawlers = array(
"/spider/",
"/bot/",
"/crawl/",
"/Googlebot/",
"/Google/",
"/baidu/",
"/blogsearch/",
"/ia_archive/",
"/Slurp/",
"/Yandex/",
"/Yeti/",
"/msnbot/",
"/Mediapartners-Google/",
"/Scooter/",
"/Yahoo-MMCrawler/",
"/FAST-WebCrawler/",
"/Yahoo-MMCrawler/",
"/Yahoo! Slurp/",
"/FAST-WebCrawler/",
"/FAST Enterprise Crawler/",
"/grub-client-/",
"/MSIECrawler/",
"/NPBot/",
"/NameProtect/i",
"/ZyBorg/i",
"/worio bot heritrix/i",
"/Ask Jeeves/",
"/libwww-perl/i",
"/Gigabot/i",
"/bot@bot.bot/i",
"/SeznamBot/i"
);
foreach ($crawlers as $c) {
if (preg_match($c, $agent)) {
return true;
}
}
}
return false;
}
}

代码二:提取自 WP-PostViews 插件

提取自 WP-PostViews 插件,与上面代码大同小异。无意中发现这个插件有类似代码,提取过来备忘。

if ( !function_exists( 'isCrawler' ) ) {
//提取自 WP-PostViews 插件 https://wordpress.org/plugins/wp-postviews
function isCrawler() {
$bots = array(
'Google Bot' => 'google'
, 'MSN' => 'msnbot'
, 'Alex' => 'ia_archiver'
, 'Lycos' => 'lycos'
, 'Ask Jeeves' => 'jeeves'
, 'Altavista' => 'scooter'
, 'AllTheWeb' => 'fast-webcrawler'
, 'Inktomi' => 'slurp@inktomi'
, 'Turnitin.com' => 'turnitinbot'
, 'Technorati' => 'technorati'
, 'Yahoo' => 'yahoo'
, 'Findexa' => 'findexa'
, 'NextLinks' => 'findlinks'
, 'Gais' => 'gaisbo'
, 'WiseNut' => 'zyborg'
, 'WhoisSource' => 'surveybot'
, 'Bloglines' => 'bloglines'
, 'BlogSearch' => 'blogsearch'
, 'PubSub' => 'pubsub'
, 'Syndic8' => 'syndic8'
, 'RadioUserland' => 'userland'
, 'Gigabot' => 'gigabot'
, 'Become.com' => 'become.com'
, 'Baidu' => 'baiduspider'
, 'so.com' => '360spider'
, 'Sogou' => 'spider'
, 'soso.com' => 'sosospider'
, 'Yandex' => 'yandex'
);
$useragent = isset( $_SERVER['HTTP_USER_AGENT'] ) ? $_SERVER['HTTP_USER_AGENT'] : '';
foreach ( $bots as $name => $lookfor ) {
if ( ! empty( $useragent ) && ( false !== stripos( $useragent, $lookfor ) ) ) {
return true;
}
}
return false;
}
}

除非注明,垃圾站文章均为网络收集,本文地址 https://cyhour.com/875/,转载时烦请以链接形式注明原始出处。
声明:我们不销售主机,任何VPS主机均有跑路风险且需定期备份,防止数据丢失。信息以实际为准,评测仅供参考不代表权威!
🍄:Netflix 奈飞 YouTube 合租

海盗湾 ThePiratebay 全站备份 38G BT 种子

转载收藏,膜拜 pcbeta 大神dreamxstudio。38.2G 是 BT 种子大小,大约有 2863126 个 BT 种子,基本上相当于有整个海盗湾。 海盗湾 ThePiratebay 全站备份 38G BT 种子简介 抓站网络爬虫 PY 源代码:tpbcatcher@microthread v4.2 海盗湾 ThePiratebay 全站备份 38G BT 种子收藏下载 …
浏览: 44 标签:  ,  ,  , 

飞歌 GS2 AI 智能车机使用/折腾记录

对这个车机要求不高,也就导航,倒车辅助,听听歌。最不爽的是:车没有方向盘控制键(最重要需求是方便调节车机音量大小,一键静音……),而 飞歌 GS2 也没有实体旋钮/按键可以快速调节音量。那为什么还要选择 飞歌 GS2 呢?因为其它牌子也没有找到带实体按键/旋钮的适用车机,同样条件感觉飞歌这个更…

每日必应壁纸 Bing Wallpaper – 微软官方每天自动下载必应图片自动更换桌面工具

一直在用 XP 经典壁纸,最近重装系统,想换换口味,找到了「Bing Wallpaper」,感觉还不错,每天自动换一张微软「Bing」必应最新高清精美背景图片,大多数是风景摄影作品,质量都非常高。 「Bing Wallpaper」是微软官方最近推出的免费「必应桌面壁纸」客户端……每日自动更换必应最新壁纸。 官网…
浏览: 76 标签:  ,  , 

Comments:0

发表留言

Vultr 送$100,搬瓦工年付最低$49,优惠码 BWH3HYATVBJW,更多推荐VPS信息