Pinterest 爬虫程序

为帮助人们发现并做他们喜爱的事情,我们在 Pinterest 上创建由数十亿 pin 图组成的数据库。为了保护我们的用户并提供最高品质的内容,我们使用网络爬虫程序来帮助我们识别 pin 图后面页面上的数据。

这些页面包含丰富的信号,使我们能够作出推断给出更好的建议,打击垃圾邮件,并显示有用的信息。为充分利用这些信号,我们经常获取、存储和处理与 Pin 图关联的页面内容。

Pinterest 如何访问您的网站

当真正的 Pinterest 爬虫访问您的网站时,它将发送一个有效的 Pinterest 用户代理并通过 Pinterest 操作的网络进行连接。除了遵循机器人排除标准之外,Pinterest 爬虫程序还配置为自动对向您网站发出的并发请求进行速率限制。

我们建议网站管理员避免在其网站配置中硬编码网络的 IP 地址,因为爬虫程序使用的地址可能会在未经通知的情况下发生更改。

Pinterest 的用户代理为:

Pinterest/0.2 (+https://www.pinterest.com/bot.html)
Mozilla/5.0(compatible; Pinterestbot/1.0;+https://www.pinterest.com/bot.html)
Mozilla/5.0(Linux; Android 6.0.1;Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96Mobile Safari/537.36 (compatible; Pinterestbot/1.0;+https://www.pinterest.com/bot.html)

Pinterest 的 IP 是动态的,因此也在不断变化中,但始终在 54.236.1.XXX 范围内。

验证 Pinterest 爬虫程序

  1. 使用主机命令对日志中的 IP 地址执行反向 DNS 查找
  2. 验证响应中的域名是否以 pinterest.com 结尾
  3. 使用主机命令对步骤 1 中检索到的响应执行正向 DNS 查找
  4. 验证它与步骤 1 中的 IP 地址是否相同

如果您从发送有效的 Pinterest 用户代理的客户端收到一致的流量,但它没有通过上述 DNS 测试,则请打开支持票证。

限制 Pinterest 访问您的站点

要修改 Pinterest 爬虫程序的行为,您需要更新站点的robots.txt文件。Pinterest 爬虫遵循以下指令:

  • 禁止
  • 允许
  • 爬行延迟
     
仍需要帮助?
联系我们