Web应用防火墙(Web Application Firewall,简称WAF)针对Bot管理模块升级,提供防爬场景化配置功能。您可以基于实际业务场景对防爬规则进行自定义,从而更有针对性地对业务进行爬虫风险防护。

背景信息

当今互联网爬虫种类繁多,专业的爬虫会不断变换爬取手段,绕过网站管理员的防爬策略。因此,很难达成依靠固定的规则来实现一劳永逸的完美防护的目标。并且,爬虫风险管理与业务自身特性强相关,需要专业的安全团队进行对抗才能取得较好的效果。

如果您对防爬效果有较高的要求,或者缺乏专业的安全团队来配置相应的安全策略,您可以使用WAF提供的防爬场景化功能,有效防护恶意爬虫风险。

WAF基于阿里云对全网威胁情报实时计算得到的恶意爬虫IP情报库、动态更新的各大公有云或IDC机房IP库等情报信息,根据配置的场景化规则,帮助您直接放行合法爬虫请求,并对来自威胁情报库的恶意请求进行防护处置。

恶意爬虫的特征和危害

正常爬虫请求的user-agent字段中通常包含xxspider标识,并且爬取的请求量不大,爬取的URL和时间段都比较分散。如果对合法的爬虫IP执行反向nslookuptracert,一般都可以看到爬虫的来源地址。例如,对百度的爬虫IP执行反向nslookup,可查询到其来源地址信息。查看源站信息

恶意爬虫则可能会在某个时间段大量请求某个域名的特定地址或接口,这种情况很可能是伪装成爬虫的CC攻击,或是经第三方伪装后针对性爬取敏感信息的请求。当恶意爬虫请求量大到一定程度后,会造成服务器的CPU飙升,带来网站无法访问等业务中断问题。

适用版本

  • 如果是包年包月实例:已开通高级版、企业版、旗舰版的Bot管理增值服务。
  • 如果是按量计费实例:已在账单与套餐中心,开启Bot管理模块下场景化配置功能。
    说明 使用按量计费WAF实例的防爬场景化配置功能时,阿里云将根据您已设置的场景个数来计费。相关内容,请参见计费说明

使用限制

每个域名最多可添加50个场景化配置规则。

相关视频

观看以下视频,快速了解如何使用防爬场景化配置方案,实现精细化爬虫防护,满足个性化的业务防护需求。

相关文档

配置浏览器访问网页的防爬场景化规则

配置App防爬场景化规则

防爬场景化配置示例