为帮助人们发现并做他们喜爱的事情,我们在 Pinterest 上创建由数十亿 Pin 图组成的数据库。为了保护 Pinterest 用户并提供最高品质的内容,我们使用网络爬虫程序来帮助我们识别 Pin 图后方页面上的数据。
这些页面包含丰富的信号,使我们能够作出推断给出更好的建议,打击垃圾邮件,并显示有用的信息。为充分利用这些信号,我们经常获取、存储和处理与 Pin 图关联的页面内容。
Pinterest 爬虫程序访问你的网站主要有三个原因:
当真正的 Pinterest 爬虫程序访问你的网站时,它将发送一个有效的 Pinterest 用户代理并通过我们运营的网络进行连接。
Pinterest 爬虫程序遵循机器人排除标准 (robots.txt),配置为限制针对你网站的并发请求速率。请勿在你的网站配置代码中固定这些 IP 地址,因为爬虫程序使用的地址可能会在未经通知的情况下发生更改。
我们的用户代理是:
Pinterest/0.2 (+https://www.pinterest.com/bot.html)
Mozilla/5.0(compatible; Pinterestbot/1.0;+https://www.pinterest.com/bot.html)Mozilla/5.0(Linux; Android 6.0.1;Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Pinterestbot/1.0;+https://www.pinterest.com/bot.html)
我们的 IP 是动态的,经常变化,但始终在 54.236.1.001 到 54.236.1.255 范围内。
Pinterest 爬虫程序主要使用美国 IP 地址进行爬取。我们也可能使用美国之外的 IP 地址进行爬取以支持本地化的数据。
美国 IP 地址的范围始终为:54.236.1.XXX。
非美国 IP 地址没有固定范围。如果你担心有人伪装成 Pinterest 爬虫程序访问你的网站,请按照下一部分中的步骤验证其真实性,而非依赖于 IP 范围检查。
如果某个客户端可以发送有效的 Pinterest 用户代理,且持续向你发送流量,但此客户端无法通过上述 DNS 测试,请
如需修改 Pinterest 爬虫程序的行为,你需要更新站点的 robots.txt 文件。确保将 robots.txt 文件放置于主域名上,因为我们不支持子域名上的 robots.txt 文件。
较大的爬取延迟值会影响你的内容在 Pinterest 上的分发和推荐。因此,爬取延迟值最大限定为 1,大于 1 的任何值都将被视为 1。如果你需设置更大的爬取延迟值,
user-agent: Pinterestbot
Crawl-delay: 0.2
user-agent: Pinterestbot
disallow: /
user-agent: Pinterestbot
disallow: /directory1/
user-agent: Pinterestbot
disallow: /directory1/
allow: /directory1/subdirectory1/
user-agent: Pinterestbot
disallow: /directory1/
allow: /directory1/subdirectory1/
crawl-delay: 0.2