Robots.txt主要针对爬虫技术,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限。本文旨在介绍添加Robots.txt的途径。

背景信息

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点的根目录下是否存在Robots.txt,如果存在,搜索蜘蛛就会按照该文件中的内容来确定访问的范围,如果该文件不存在,搜索蜘蛛能访问网站上所有没有被口令保护的页面。如果用户需要让爬虫访问所有页面,请勿配置此文件。

操作步骤

  1. 进入Robots.txt页面:在网站后台左侧的导航栏中单击网站管理 > Robots.txt
  2. 添加Robots.txt文件:通过选择上传文件即可完成添加Robot.txt操作。Robots.txt的写法请参见通过robots屏蔽搜索引擎抓取网站内容