Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 121|回复: 0

Cloudflare 现在将提供阻止伪造搜索机器人的选项列表

[复制链接]

1

主题

1

帖子

5

积分

新手上路

Rank: 1

积分
5
发表于 2023-12-24 19:40:23 | 显示全部楼层 |阅读模式
将相关请求设置为“Block”,Cloudflare 将检查来自搜索机器人用户代理的所有请求是否合法,以便保持你的日志文件干净。 3. 从日志文件中提取数据 终于,我们现在可以访问日志文件,并且知道日志文件准确地反映了真正的 Googlebot 请求。 我建议首先在 Google 表格/Excel 中分析日志文件,因为你可能习惯于使用电子表格,并且可以很简单地与其他来源(例如网站抓取)交叉分析日志文件。 没有一种正确的方法可以做到这一点,可以使用以下内容: grep Splunk logz.io ELK stack 你也可以在 Data Studio 的报表中执行此操作,我发现 Data Studio 有助于随着时间的推移监控数据,而 Google Sheets/Excel 更适合一次性的技术审核时分析。 打开 BigQuery 并前往你的项目/数据集。 选择“Query”下拉选单并在新选项卡中打开它。 接下来你需要编写一些 SQL 来提取要分析的数据,为了使过程这更容易,首先需要复制查询 FROM 部分的内容。 然后你在查询时可以添加我在下面为你写的: SELECT DATE(timestamp)  小提示. 如果要分析其他机器人,只需在 WHERE 语句中添加另一个 OR req_headers.user_agent LIKE %bot_name%,还可以通过更新 WHERE DATE(timestamp) >= 202203-03 该行来轻松更改开始日期。 选择顶部的“Run”,然后保存结果。 接下来将数据保存到 Google Drive 中的 CSV(因为文件较大,这是最好的选择)。 然后在 BigQuery 运行并保存文件后,使用 Google 表格打开文件。


4. 添加到 Google 表格 我们现在从一些分析开始,建议使用我的 Google 表格模板,但我会 WhatsApp 号码数据 解释我在做什么,如果你愿意,可以自己构建报告。 这是我的模板。 该模板包含两个数据页签,用于复制和粘贴数据,然后我使用 Google 表格查询功能将其用于所有其他页签。 小提示. 如果想查看我是如何完成设置后运行的报告,请选择每个表格中的第一个单元格。 首先,将 BigQuery 导出的数据复制并粘贴到“Data Log files”页签中。 请注意,表格末尾添加了多一列(深灰色)以便分析更容易一些(例如机器人名称和第一个 URL 目录)。 5.添加Ahrefs数据 如果你有网站诊断工具,我建议你在 Google 表格中添加更多数据,主要是应该添加这些: 自然流量(Organic traffic) 状态码(Status codes) 爬取深度(Crawl depth) 索引性(Indexability) 内部链接数量(Number of internal links) 要从 Ahrefs 的网站诊断(Site Audit)中获取此数据,请前往页面分析(Page Explorer)并选择“Manage Columns”。 然后建议添加如下所示的栏位: 然后导出所有数据。 并复制并粘贴到“Data Ahrefs”表中。 6. 检查状态码 我们首先要分析的是状态码,该数据将回答了搜索机器人是否在状态码非 200 的 URL 上浪费了抓取预算。 请注意这并不一定能够直接指向问题。 有时 Google 可以抓取多年的旧 301 重新定向,但是如果在内部链接到许多非 200 的状态码,它可能代表有问题。 “Status Codes Overview”页签有一个 QUERY 功能,可以汇总日志文件数据并在图表中显示。



还有一个下拉选单可以按机器人类型进行过滤,看看哪些机器人最常触发非 200 状态码。 当然,仅此报告并不能帮助我们解决问题,因此我添加了另一个页签“URLs Overview”。 可以使用它来过滤返回非 200 状态码的 UR,由于我还包含了来自 Ahrefs 网站诊断(Site Audit)的数据,因此可以在“Inlinks”列中查看是否在内部链接到任何非 200 状态码的 URL。 如果看到很多指向该 URL 的内部链接,则可以使用内链建议报告(Internal link opportunities)来发现这些不正确的内部链接,只需将 URL 复制并粘贴到搜索栏中并选择“Target page”即可。 7. 检测浪费的抓取预算 要突出显示日志文件上那些不是抓取非 200 状态代码而导致浪费的抓取预算,最佳方式是找经常抓取的不可索引 URL(例如是规范化的或未编入索引的 URL)。 由于我们从日志文件和 Ahrefs 的网站诊断中添加了数据,因此发现这些 URL 很简单。 前往“Crawl budget wastage”页签,会发现许多抓取的 HTML 文件返回 200 但不可索引。 现在有了这些数据,你将需要调查机器人抓取 URL 的原因,以下是常见的原因: 在内部链接到。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|DiscuzX

GMT+8, 2026-1-14 07:41 , Processed in 0.040469 second(s), 19 queries .

Powered by Discuz! DISCUZ_VERSION

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表