Informationen zum Pinterest-Crawler

Warum setzt Pinterest Webcrawler ein
Um unsere Nutzer bei dem zu unterstützten, was sie lieben, legen wir bei Pinterest eine Datenbank mit Millionen von Pins an. Zum Schutz unserer Nutzer und aus Gründen der Qualitätssicherung nutzen wir Webcrawler, um Daten zu diesen Pins zu ermitteln.
Die durchsuchten Seiten enthalten wertvolle Hinweise, die es uns ermöglichen, unsere Empfehlungen zu verbessern, Spam zu bekämpfen und nützliche Informationen zusammenzutragen. Dadurch sind wir in der Lage, Nutzern und Partnern eine informative, relevante und sichere Benutzererfahrung zu bieten. Das regelmäßige Abrufen, Speichern und Verarbeiten von Seiteninhalten im Zusammenhang mit Pins dient dazu, diese Hinweise optimal zu nutzen.

So greift Pinterest auf deine Webseite zu

Beim Besuch einer Webseite sendet der Pinterest-Crawler einen gültigen Pinterest-User-Agent aus. Die Verbindung wird über ein von Pinterest betriebenes Netzwerk hergestellt. Der Pinterest-Webcrawler entspricht nicht nur den Vorgaben des Robots Exclusion Standard, sondern ist darüber hinaus so konfiguriert, dass bei Eingang gleichzeitiger Anforderungen auf der Webseite automatisch ein Übertragungsratenlimit greift, das die Datenauslastung reduziert.

User-Agent:


So kann der Pinterest-Crawler identifiziert werden
Ein echter Pinterest-Crawler greift immer von einem von Pinterest betriebenen Netzwerk auf die entsprechende Website zu. Wir raten Webmastern dazu, diese IP-Adressen nicht als vordefinierte Codes in ihre Website-Konfiguration aufzunehmen, da sich die Adressen, die der Crawler nutzt, ohne Vorankündigung ändern können.

Anleitung zur Verifizierung des Pinterest-Crawlers
So kannst du sicherstellen, dass es sich um einen Pinterest-Crawler handelt:
1. Führe mithilfe des Host-Befehls einen Reverse-DNS-Lookup für die IP-Adresse in deinen Protokollen durch.
2. Prüfe, ob der Domain-Name auf pinterest.com endet.
3. Führe, wieder mithilfe des Host-Befehls, einen Foward-DNS-Lookup für die Antwort aus Schritt 1 durch.
4. Prüfe ob das Ergebnis mit der IP-Adresse aus Schritt 1 übereinstimmt.

Beispiel:

> host 54.236.1.11

11.1.236.54.in-addr.arpa domain name pointer crawl-54-236-1-11.pinterest.com.

> host crawl-54-236-1-11.pinterest.com

crawl-54-236-1-11.pinterest.com hat die Adresse 54.236.1.11

Wenn du ein konsistentes Datenaufkommen von einem Client empfängst, der einen gültigen Pinterest-User-Agent aussendet, jedoch nicht den obigen DNS-Test besteht, erstelle bitte ein Support-Ticket.

So beschränkst du den Zugriff von Pinterest auf deine Webseite
Um das Verhalten des Pinterest-Crawlers zu modifizieren, musst du Änderungen an der Datei robots.txt der Webseite vornehmen. Der Crawler gehorcht folgenden Anweisungen:

  • Nicht zulassen
  • Zulassen
  • Crawl-delay

Reduzieren der Crawl-Rate
Mit dem Befehl „Crawl-delay“ kannst du festlegen, dass zwischen den Besuchen der Webseite ein bestimmter Abstand (in Sekunden) eingehalten werden muss.

Delay subsequent visits to 10 seconds apart
User-agent: Pinterest
Crawl-delay: 10

Eine Datei sperren
User-agent: Pinterest
Disallow: /file.html

Ein Verzeichnis sperren
User-agent: Pinterest
Disallow: /example/

Zugriff komplett sperren
User-agent: Pinterest
Disallow: /