网络爬虫的基本结构
爬虫程序会重新访问 Google 已经列出的页面,查看它们是否发生了变化,并抓取新的页面。
在此过程中,机器人会根据抓取请求确定何时抓取什么内容的优先级,确保网站能够处理服务器请求。
然后,它会处理并传输已成功抓取的页面到 Google,以便在搜索结果中编制索引。
大多数情况下,Google 能够有效地抓取较小的网站。
在处理包含数百万个 URL 的大型网站时,Google 必须确定何时抓取什么内容以及投入多少资源。
如何检查抓取活动
Google Search Console 在“抓取统计信息”报告 斯洛文尼亚移动数据库 中提供了有关您的抓取活动的全面信息,包括抓取错误和抓取率。
抓取统计报告可帮助您检查 Google 是否可以访问和索引您的内容。它还可以在您的网站可见性下降之前识别并修复任何问题。
要访问抓取统计报告,请登录 Search Console 并点击“设置”。
左侧的搜索控制台菜单中“设置”按钮突出显示。
从 Search Console“设置”页面打开“抓取统计信息”报告
摘要页面为您提供了大量信息。主要内容包括:
随时间变化的图表
随时间变化的图表突出显示了过去 90 天的抓取数据。
抓取统计报告中的实时图表