要定义特定的爬网程序,请将 name 属性的 robots 值替换为要引用 电话号码列表 的爬网程序的名称。特定的爬虫也称为用户代理(爬虫使用自己的用户代理来请求页面)。Google 的标准网络爬虫称为 Googlebot 用户代理。要阻止 Googlebot 抓取您的网页,请按如下方式更新标记:<meta name="googlebot" content="noindex">此标签现在明确告诉 Google 不要在其搜索结果中显示此页面。请记住,名称和内容属性都区分大小写。搜索引擎可能有不同的爬虫用于不同的属性或目的。
有关详细信息,请参阅Google 抓取工具的完整列表。例如,要在 Google 网络搜索结果中显示页面,但不在 Google 新闻中显示页面,您可以使用以下元标记:您应该知道,某些搜索引擎网络爬虫可能会以不同的方式解释 noindex 指令。因此,您的页面可能仍会出现在其他搜索引擎结果中。MoR 需要扫描您的页面才能查看您的元标记。如果您的 Noindex 标记页面仍然出现在结果中,则可能是因为自您添加标记以来蜘蛛尚未抓取您的网站。您可以使用 Google Search Console 请求 Google 重新抓取您的页面。
另一个原因也可能是您的 robots.txt 文件阻止了 Google 网络爬虫程序访问此网址,因此机器人无法看到该标记。要取消阻止 Google 访问您的网页,您需要编辑 robots.txt 文件并删除 Disallow 指令。使用 X-Robots-Tag HTTP 标头X-Robots 标签可用作给定 URL 的HTTP 标头响应元素。任何可以在机器人元标记中使用的指令也可以指定为 X-robot 标记。