将相关请求设置为“Block”,Cloudflare 将检查来自搜索机器人用户代理的所有请求是否合法,以便保持你的日志文件干净。 3. 从日志文件中提取数据 终于,我们现在可以访问日志文件,并且知道日志文件准确地反映了真正的 Googlebot 请求。 我建议首先在 Google 表格/Excel 中分析日志文件,因为你可能习惯于使用电子表格,并且可以很简单地与其他来源(例如网站抓取)交叉分析日志文件。 没有一种正确的方法可以做到这一点,可以使用以下内容: grep Splunk logz.io ELK stack 你也可以在 Data Studio 的报表中执行此操作,我发现 Data Studio 有助于随着时间的推移监控数据,而 Google Sheets/Excel 更适合一次性的技术审核时分析。 打开 BigQuery 并前往你的项目/数据集。 选择“Query”下拉选单并在新选项卡中打开它。 接下来你需要编写一些 SQL 来提取要分析的数据,为了使过程这更容易,首先需要复制查询 FROM 部分的内容。 然后你在查询时可以添加我在下面为你写的: SELECT DATE(timestamp) 小提示. 如果要分析其他机器人,只需在 WHERE 语句中添加另一个 OR req_headers.user_agent LIKE %bot_name%,还可以通过更新 WHERE DATE(timestamp) >= 202203-03 该行来轻松更改开始日期。 选择顶部的“Run”,然后保存结果。 接下来将数据保存到 Google Drive 中的 CSV(因为文件较大,这是最好的选择)。 然后在 BigQuery 运行并保存文件后,使用 Google 表格打开文件。