Pinterest 爬虫程序

为帮助人们发现并做他们喜爱的事情,我们在 Pinterest 上创建由数十亿 Pin 图组成的数据库。为了保护我们的用户并提供最高品质的内容,我们使用网络爬虫程序来帮助我们识别 Pin 图后面页面上的数据。

这些页面包含丰富的信号,使我们能够作出推断给出更好的建议,打击垃圾邮件,并显示有用的信息。为充分利用这些信号,我们经常获取、存储和处理与 Pin 图关联的页面内容。

Pinterest 如何访问您的网站

当真正的 Pinterest 爬虫访问您的网站时,它将发送一个有效的 Pinterest 用户代理并通过 Pinterest 操作的网络进行连接。

Pinterest 爬虫程序遵循机器人排除标准 (robots.txt),配置为限制针对你网站的并发请求速率。不要在你的网站配置代码中固定网络的 IP 地址,因为爬虫程序使用的地址可能会在未经通知的情况下发生更改。

Pinterest 的用户代理为:

Pinterest/0.2 (+https://www.pinterest.com/bot.html)
Mozilla/5.0(compatible; Pinterestbot/1.0;+https://www.pinterest.com/bot.html)Mozilla/5.0(Linux; Android 6.0.1;Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Pinterestbot/1.0;+https://www.pinterest.com/bot.html)

Pinterest 的 IP 是动态的,经常更改,但始终在 54.236.1.XXX 范围内。

验证 Pinterest 爬虫程序

  1. 使用主机命令对日志中的 IP 地址执行反向 DNS 查找
  2. 验证响应中的域名是否以 pinterest.com 结尾
  3. 使用主机命令对步骤 1 中检索到的响应执行正向 DNS 查找
  4. 验证它与步骤 1 中的 IP 地址是否相同

如果某个客户端可以发送有效的 Pinterest 用户代理,且持续向你发送流量,但此客户端无法通过上述 DNS 测试,请联系我们

限制或限定 Pinterest 访问你的站点

如需修改 Pinterest 爬虫程序的行为,你需要更新站点的 robots.txt 文件。确保将 robots.txt 文件放置于主域名上,因为我们不支持子域名上的 robots.txt 文件。

较大的爬取延迟值会影响你的内容在 Pinterest 上的发布和推荐。因此,爬取延迟值最大限定为 1,大于 1 的任何值都将被视为 1。如果你已知晓上述信息,但仍需设置更大的爬取延迟值,请联系我们

仍需要帮助?
联系我们