文章内容
  • Pinterest 爬虫程序为何访问你的网站
  • Pinterest 爬虫程序如何访问你的网站
  • 验证 Pinterest 爬虫程序
  • 限制或限定 Pinterest 访问你的站点
  • 为帮助人们发现并做他们喜爱的事情,我们在 Pinterest 上创建由数十亿 Pin 图组成的数据库。为了保护 Pinterest 用户并提供最高品质的内容,我们使用网络爬虫程序来帮助我们识别 Pin 图后方页面上的数据。

    这些页面包含丰富的信号,使我们能够作出推断给出更好的建议,打击垃圾邮件,并显示有用的信息。为充分利用这些信号,我们经常获取、存储和处理与 Pin 图关联的页面内容。​

    Pinterest 爬虫程序为何访问你的网站

    Pinterest 爬虫程序访问你的网站主要有三个原因:

  • 从你的目录下载每个产品的图片文件
  • 收集各种元数据,例如产品价格、描述和可用性
  • 确保用户安全访问
  • Pinterest 爬虫程序如何访问你的网站

    当真正的 Pinterest 爬虫程序访问你的网站时,它将发送一个有效的 Pinterest 用户代理并通过我们运营的网络进行连接。

    Pinterest 爬虫程序遵循机器人排除标准 (robots.txt),配置为限制针对你网站的并发请求速率。请勿在你的网站配置代码中固定这些 IP 地址,因为爬虫程序使用的地址可能会在未经通知的情况下发生更改。

    我们的用户代理是:

    Pinterest/0.2 (+https://www.pinterest.com/bot.html)
    Mozilla/5.0(compatible; Pinterestbot/1.0;+https://www.pinterest.com/bot.html)Mozilla/5.0(Linux; Android 6.0.1;Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Pinterestbot/1.0;+https://www.pinterest.com/bot.html)

    我们的 IP 是动态的,经常变化,但始终在 54.236.1.001 到 54.236.1.255 范围内。

    地理分布式爬取

    Pinterest 爬虫程序主要使用美国 IP 地址进行爬取。我们也可能使用美国之外的 IP 地址进行爬取以支持本地化的数据。

    美国 IP 地址的范围始终为:54.236.1.XXX。

    非美国 IP 地址没有固定范围。如果你担心有人伪装成 Pinterest 爬虫程序访问你的网站,请按照下一部分中的步骤验证其真实性,而非依赖于 IP 范围检查。

    验证 Pinterest 爬虫程序
  • 使用主机命令对日志中的 IP 地址执行反向 DNS 查找
  • 验证响应中的域名是否以 pinterest.com或 pinterestcrawler.com 结尾
  • 使用主机命令对步骤 1 中检索到的响应执行正向 DNS 查找
  • 验证它与步骤 1 中的 IP 地址是否相同
  • 如果某个客户端可以发送有效的 Pinterest 用户代理,且持续向你发送流量,但此客户端无法通过上述 DNS 测试,请联系我们

    限制或限定 Pinterest 访问你的站点

    如需修改 Pinterest 爬虫程序的行为,你需要更新站点的 robots.txt 文件。确保将 robots.txt 文件放置于主域名上,因为我们不支持子域名上的 robots.txt 文件。

    较大的爬取延迟值会影响你的内容在 Pinterest 上的分发和推荐。因此,爬取延迟值最大限定为 1,大于 1 的任何值都将被视为 1。如果你需设置更大的爬取延迟值,请联系我们

    user-agent: Pinterestbot
    Crawl-delay: 0.2
    user-agent: Pinterestbot
    disallow: /
    user-agent: Pinterestbot
    disallow: /directory1/
    user-agent: Pinterestbot
    disallow: /directory1/
    allow: /directory1/subdirectory1/
    user-agent: Pinterestbot
    disallow: /directory1/
    allow: /directory1/subdirectory1/
    crawl-delay: 0.2
    End of Other articles Links
    仍需要帮助? 联系我们
    User feedback
    本文对您有帮助吗?

    collection_fields

    我们可以如何优化本文?