爬虫情报规则依据阿里云爬虫情报库,帮助您直接放行合法爬虫请求并对来自威胁情报库的请求设防。

背景信息

阿里云爬虫情报库基于阿里云全网流量计算得出并可实时更新,涵盖以下访问请求来源的特征信息:
  • 合法爬虫:主流搜索引擎的爬虫IP信息,可动态更新,目前包含Google、百度、搜狗、360、Bing、Yandex。

    启用合法爬虫规则后,来自相关搜索引擎的合法爬虫IP将被直接放行;此时您还可以使用黑白名单或精准访问控制规则进一步拦截来自于这些白名单IP的请求。

  • 威胁情报:基于阿里云全网威胁情报实时计算得出的恶意爬虫IP情报库,以及动态更新的各大公有云/IDC IP库(很多爬虫程序会选择部署在云服务器上,而正常用户则很少通过公有云/IDC的源IP来访问您的业务)。

    您可以设置威胁情报规则,针对不同的类型的黑名单IP选择不同的处置动作(如直接拦截、进行JavaScript校验、弹出滑块验证或观察);也可以为某些关键接口配置针对特定类型黑名单IP的防护,以避免其他业务逻辑受到影响。

操作步骤

  1. 登录爬虫风险管理控制台
  2. 在左侧导航栏,选择防护配置 > 爬虫情报
  3. 在域名下拉框中选择要配置的域名。

  4. 分别在合法爬虫威胁情报页签下完成相关配置。
    • 放行合法爬虫
      1. 合法爬虫页签下,打开生效状态开关。
        说明 若您不再需要使用此功能,请在此页面关闭生效状态开关。


      2. 在规则列表中,根据情报名称选择要放行的合法爬虫,打开对应的启用状态开关。默认规则支持放行来自以下搜索引擎的爬虫请求:Google、Bing、百度、搜狗、360、Yandex。
        说明 您也可以只打开规则106(合法搜索引擎白名单),放行所有支持的搜索引擎白名单。
    • 添加威胁情报规则
      1. 威胁情报页签下,打开生效状态开关。
        说明 若您不再需要使用此功能,请在此页面关闭生效状态开关。


      2. 在规则列表中,根据情报名称选择要设防的黑名单IP情报库,打开对应的启用状态开关。支持的情报库包括:
        情报库 描述
        扫描器恶意指纹库 常见扫描器的特征库。
        恶意扫描IP情报库 基于阿里云全网实时检测到的恶意扫描行为攻击源IP进行分析,得到的动态IP情报库。
        撞库IP情报库 基于阿里云全网实时检测到的撞库、暴力破解行为攻击源IP进行分析,得到的动态IP情报库。
        伪造蜘蛛情报库 识别爬虫程序伪造合法搜索引擎的user-agent(如BaiduSpider)来逃避检测的行为。
        注意 开启该名单之前,请确保已经放行合法爬虫白名单,否则可能导致误拦截。
        恶意爬虫情报库 基于阿里云全网实时检测到的爬虫行为攻击源IP进行分析,得出的动态IP情报库。

        该名单库有低级、中级、高级三个等级。级别越高,对应的情报库内IP数量越多,相应的误判概率更大。

        建议您对高级情报库规则设置二次校验(使用滑块验证、JS校验等处置动作);对不适用于二次校验的场景(如API等)配置低级别的情报库规则。

        IDC情报库 相关公有云或IDC机房的IP库,包括:阿里云、腾讯云、美团云、世纪互联、其他。这些IP段往往被爬虫用于部署爬虫程序或用作代理,而不会被正常用户使用。

        开启默认规则后,当目标情报库内的来源IP向域名下任意路径发起访问请求时,一律触发观察操作(即放行请求同时进行记录)。

        如果您希望进一步调整默认规则(如指定要防护的关键路径或者修改处置动作),请参照后续步骤自定义威胁情报规则。

      3. (可选)选择要调整的默认规则,单击编辑
      4. (可选)在编辑情报对话框,完成以下配置:

        配置 描述
        防护路径 填写要防护的具体URL(如"/abc"、"/login/abc","/"表示所有路径),并选择与该防护路径的匹配方式
        • 全部匹配:被访问地址与防护路径完全匹配时,记作命中。
        • 前缀匹配:被访问地址与防护路径的前缀相同时,记作命中。
        • 正则匹配:被访问地址满足防护路径的正则表达时,记作命中。
        说明 单击新增防护路径可以添加最多10个路径。
        处置动作 指定命中规则后的操作:
        • 观察:放行请求并进行记录。
        • 阻断:直接阻断访问请求。
        • JavaScript校验:通过JavaScript校验请求数据,验证通过后放行请求。
        • 滑块:在客户端跳出滑块验证页面,客户端完成验证后放行请求。
          说明 滑块验证仅支持同步请求,如有异步请求(如AJAX)防护需求请联系阿里云安全团队。如果不确定您防护的接口能否正常使用滑块验证,建议您先在精准访问控制中配置针对测试IP和URL的规则来验证和调试。
        自定义威胁情报规则示例
        • 规则说明:防护当前域名下"/login.do"开头的URL,当请求源IP来自撞库IP情报库时,则弹出滑块验证。
          规则配置:

        • 规则说明:防护当前域名下"/houselist"开头的URL,当请求源IP来自恶意爬虫情报库(高级)时,则进行JavaScript校验。
          规则配置:

      5. (可选)单击确定完成编辑。