Robots 协议_robots协议禁止网络爬虫访问

Robots 协议（也称为 robots.txt 协议）是网站用于告知搜索引擎爬虫哪些页面可以抓取、哪些页面禁止抓取的一个文本协议，它是搜索引擎与网站之间的一种约定，并非强制规范，但主流搜索引擎通常会遵守。

核心作用

o 规范爬虫行为：通过 robots.txt 文件，网站管理员可以限制爬虫对敏感内容（如后台管理页面、私密数据页）或不必要内容（如重复页面）的抓取，节省服务器资源。

o 引导爬虫高效抓取：帮助爬虫优先抓取重要页面，提升网站在搜索引擎中的收录质量。

基本格式

robots.txt 文件需放在网站根目录下（如
https://example.com/robots.txt），基本语法包括：

o User-agent: 指定针对的爬虫（如 * 代表所有爬虫，Baiduspider 代表百度爬虫）。

o Disallow: 指定禁止抓取的路径（如 Disallow: /admin/ 表示禁止抓取 admin 目录下的内容）。

o Allow: 用于在 Disallow 的范围内例外允许抓取某部分内容（优先级高于 Disallow）。

例如，一个简单的 robots.txt 内容可能是：

User-agent: *

Disallow: /private/

Allow: /private/public-page.html

表示所有爬虫禁止抓取 /private/ 目录，但可以抓取该目录下的 public-page.html 页面。

注意事项

o 不具备强制性：恶意爬虫可能无视 robots.txt，因此它不能替代网站的安全防护措施。

o 对搜索引擎的影响：合理设置可避免无用页面被收录，但若设置错误可能导致重要页面无法被抓取，影响网站排名。