Informationen zum Pinterest-Crawler

Warum setzt Pinterest Webcrawler ein
Um unsere Nutzer bei dem zu unterstützten, was sie lieben, legen wir bei Pinterest eine Datenbank mit Millionen von Pins an. Zum Schutz unserer Nutzer und aus Gründen der Qualitätssicherung nutzen wir Webcrawler, um Daten zu diesen Pins zu ermitteln.
Die durchsuchten Seiten enthalten wertvolle Hinweise, die es uns ermöglichen, unsere Empfehlungen zu verbessern, Spam zu bekämpfen und nützliche Informationen zusammenzutragen. Dadurch sind wir in der Lage, Nutzern und Partnern eine informative, relevante und sichere Benutzererfahrung zu bieten. Das regelmäßige Abrufen, Speichern und Verarbeiten von Seiteninhalten im Zusammenhang mit Pins dient dazu, diese Hinweise optimal zu nutzen.

So greift Pinterest auf Ihre Webseite zu

Beim Besuch einer Webseite sendet der Pinterest-Crawler einen gültigen Pinterest-User-Agent aus. Die Verbindung wird über ein von Pinterest betriebenes Netzwerk hergestellt. Der Pinterest-Webcrawler entspricht nicht nur den Vorgaben des Robots Exclusion Standard, sondern ist darüber hinaus so konfiguriert, dass bei Eingang gleichzeitiger Anforderungen auf der Webseite automatisch ein Übertragungsratenlimit greift, das die Datenauslastung reduziert.

User-Agent:


So kann der Pinterest-Crawler identifiziert werden
Ein echter Pinterest-Crawler greift immer von einem von Pinterest betriebenen Netzwerk auf die entsprechende Website zu. Wir raten Webmastern dazu, diese IP-Adressen nicht als vordefinierte Codes in ihre Website-Konfiguration aufzunehmen, da sich die Adressen, die der Crawler nutzt, ohne Vorankündigung ändern können.

Anleitung zur Verifizierung des Pinterest-Crawlers
So können Sie sicherstellen, dass es sich um einen Pinterest-Crawler handelt:
1. Führen Sie mithilfe des Host-Befehls einen Reverse-DNS-Lookup für die IP-Adresse in Ihren Protokollen durch.
2. Prüfen Sie, ob der Domain-Name auf pinterest.com endet.
3. Führen Sie, wieder mithilfe des Host-Befehls, einen Foward-DNS-Lookup für die Antwort aus Schritt 1 durch.
4. Prüfen Sie ob das Ergebnis mit der IP-Adresse aus Schritt 1 übereinstimmt.

Beispiel:

> host 54.236.1.11

11.1.236.54.in-addr.arpa domain name pointer crawl-54-236-1-11.pinterest.com.

> host crawl-54-236-1-11.pinterest.com

crawl-54-236-1-11.pinterest.com hat die Adresse 54.236.1.11

Wenn Sie ein konsistentes Datenaufkommen von einem Client empfangen, der einen gültigen Pinterest-User-Agent aussendet, jedoch nicht den obigen DNS-Test besteht, erstellen Sie bitte ein Support-Ticket.

So beschränken Sie den Zugriff von Pinterest auf Ihre Webseite
Um das Verhalten des Pinterest-Crawlers zu modifizieren, müssen Sie Änderungen an der Datei robots.txt der Webseite vornehmen. Der Crawler gehorcht folgenden Anweisungen:

  • Nicht zulassen
  • Zulassen
  • Crawl-delay

Reduzieren der Crawl-Rate
Mit dem Befehl „Crawl-delay“ können Sie festlegen, dass zwischen den Besuchen der Website ein bestimmter Abstand (in Sekunden) eingehalten werden muss.

Delay subsequent visits to 10 seconds apart
User-agent: Pinterest
Crawl-delay: 10

Eine Datei sperren
User-agent: Pinterest
Disallow: /file.html

Ein Verzeichnis sperren
User-agent: Pinterest
Disallow: /example/

Zugriff komplett sperren
User-agent: Pinterest
Disallow: /