今天一个客户反映服务器长期高负载,有时候还会宕机导致数据库停止运行。
成功使用京策盾高防CDN解决PanguBot蜘蛛导致服务器高负载和宕机的问题
查看网站日志的时候,发现了一个爬行频率超高的蜘蛛爬虫PanguBot ,按照爬虫官网介绍,该爬虫是华为某个AI模型的训练使用,与华为的盘古大模型不同,PanguBot是以启明星辰自主研发的盘古人工智能平台(人工智能安全建模和赋能平台)作为安全运营的AI底座,基于安全运营专用语料库训练的自然语言模型,能够准确理解关于安全运营中相关任务的各种问题,并运用专业的安全运营术语为用户解答。
但是作为站长,原创内容被AI爬取去训练还是心里不快的。
这样的蜘蛛爬虫对于大部分站长来说,也没有什么作用,而且还占用机器的带宽,所以还是应该对这个蜘蛛进行禁止。
这样的蜘蛛爬虫对于国人来说,也没有什么作用,而且还占用机器的带宽,所以还是应该对这个蜘蛛进行禁止。
首先在京策盾高防CDN控制台打开网站列表
在我的网站里,找到被爬取的网站
在网站的安全配置里,点击自定义规则

在自定义规则里匹配项选择浏览器UA,操作符选择包含,匹配值填写PanguBot,如下图

规则添加成功之后,即可在拦截记录里查看到有大量垃圾蜘蛛被阻断和拦截

京策盾高防CDN或者京策盾高防IP产品
京策盾高防CDN:https://www.jcdun.com/guoneigaofangcdn
京策盾高防IP:https://www.jcdun.com/guoneigaofangip








