SEMrushBot是SEMrush发送的搜索机器人软件,用于发现和收集新的或更新的网络数据。爬行过程从网页URL列表开始,当SEMrushBot访问这些URL时,它会保存页面中的超链接以供进一步爬行。此列表也称为“爬行边界”,根据一组SEMrush策略反复访问,以有效地映射网站以进行内容、页面和死链接的更新。
点击链接:领取七天免费试用服务
一、SEMrush蜘蛛作用
1、作为Backlink专用工具维护公共反向链接搜索引擎索引分析(链接网络图);
2、Site Audit(网站诊断)工具用于分析页面SEO、技术和可用性问题;
3、反向链接审核工具帮助发现和清理具有潜在危险的反向链接的个人资料;
4、链接建设工具可帮助用户找到潜在客户,联系他们并监控新获得的反向链接;
5、SEO Writing Assistant工具检查URL是否可访问;
6、On Page SEO Checker和SEO Content模板工具报告;
7、“主题研究”工具报告;
8、SplitSignal工具在网站上创建SEO A/B测试;
9、ContentShake AI工具报告;
10、抄袭检查器工具用于验证被检查的内容是否出现在网站上。
二、如何阻止SEMrush蜘蛛抓取网站
要阻止SEMrushBot抓取网站,请将以下规则添加到robots.txt文件中:
1、要阻止SEMrushBot抓取网站以获取链接Webgraph:
- 用户代理:SEMrushBot
- 不允许:/
2、SEMrushBot for Backlink Analytics还支持以下非标准扩展robots.txt:
- Crawl-delay指令。爬虫可以间隔长达10 秒请求,较高的值将被削减到10秒之内制。 如果没有指定爬网延迟,SEMrushBot将根据当前服务器负载调整对网站的请求频率。
- 通配符(*)的使用。
注:
1、如果有子域,则需要在每个子域上放置一个robots.txt文件,否则SEMrushBot将不会爬取用户域中的任何其他文件,并将认为它可以抓取子域上的所有内容。
2、robots.txt文件必须始终返回HTTP 200状态代码。如果返回4xx状态码,SEMrushBot将假定不存在robots.txt,也没有爬行限制。返回robots.txt文件的5xx状态码将阻止SEMrushBot抓取整个网站,SEMrushBot可以处理具有3xx状态码的robots.txt文件。
SEMrushBot可能需要一个小时或100个请求才能发现对robots.txt所做的更改。
- 要阻止SEMrushBot因不同的SEO和技术问题抓取网站:用户代理:SiteAuditBot不允许:/
- 要阻止SEMrushBot为反向链接审核工具抓取网站:用户代理:SEMrushBot BA不允许:/
- 要阻止SEMrushBot为页面SEO检查器工具和类似工具抓取网站:用户代理:SEMrushBot SI不允许:/
- 要阻止SEMrushBot检查网站上SWA工具的URL,请执行以下操作:用户代理:SEMrushBot SWA不允许:/
- 要阻止SplitSignal Bot为SplitSignal工具抓取网站,请执行以下操作:用户代理:SplitSignal Bot不允许:/
- 要阻止SEMrushBot OCOB为ContentShake AI工具抓取网站:用户代理:SEMrushBot OCOB不允许:/
- 要阻止SEMrushBot FT为剽窃检查器和类似工具抓取网站:用户代理:SEMrushBot FT不允许:/
要防止Web浏览器服务器日志中出现“file not found”错误消息,请创建一个空的“robots.txt” 文件,不要尝试通过IP阻止SEMrushBot,因为SEMrushBot不使用任何连续的IP阻止。