Informazioni sul crawler di Pinterest

Perché eseguiamo scansioni tramite crawlerPer permettere alle persone di scoprire e fare ciò che amano, stiamo realizzando un database di miliardi di Pin su Pinterest. Per proteggere i nostri utenti e garantire contenuti di massima qualità, utilizziamo i web crawler per identificare più agevolmente i dati dei Pin.
Queste pagine contengono informazioni dettagliate che ci permettono di trovare i suggerimenti migliori, combattere lo spam e mostrare informazioni utili. Ciò contribuisce a creare un'esperienza soddisfacente, pertinente e sicura per gli utenti e i partner. Per sfruttare al meglio queste indicazioni, recuperiamo, archiviamo ed elaboriamo regolarmente i contenuti delle pagine associate ai Pin.

In che modo Pinterest accede al tuo sito

Quando il crawler di Pinterest visita il tuo sito web, invia un user-agent Pinterest valido e si collega da una rete gestita da Pinterest. Oltre a rispettare il protocollo di esclusione robot, il crawler di Pinterest è configurato per limitare automaticamente la velocità delle richieste simultanee inoltrate al tuo sito web, al fine di ridurre il carico supplementare.

User agent:


Come verificare che si tratta del crawler di Pinterest
Un vero crawler di Pinterest si collega da una rete gestita da Pinterest. Consigliamo ai webmaster di evitare l'hard-coding di questi indirizzi IP nella configurazione del loro sito, in quanto gli indirizzi usati dal crawler possono cambiare in futuro senza preavviso.

Per controllare se si tratta del crawler di Pinterest, puoi procedere nel seguente modo:
Per verificare il crawler di Pinterest:
1. Utilizzando il comando host, esegui una ricerca DNS inversa all'indirizzo IP dai tuoi log.
2. Verifica che il nome del dominio nella risposta finisca con pinterest.com.
3. Ancora una volta, utilizzando il comando host, esegui una ricerca DNS diretta nella risposta recuperata dal passaggio 1.
4. Verifica che sia lo stesso indirizzo IP del passaggio 1.

Esempio:

> host 54.236.1.11

11.1.236.54.in-addr.arpa domain name pointer crawl-54-236-1-11.pinterest.com.

> host crawl-54-236-1-11.pinterest.com

crawl-54-236-1-11.pinterest.com has address 54.236.1.11

Se ricevi un volume significativo di traffico da un client che invia uno user-agent di Pinterest valido, ma che non supera il test DNS precedente, apri un ticket di assistenza.

Come limitare l'accesso di Pinterest al tuo sito
Per modificare il comportamento del crawler di Pinterest, devi aggiornare il file robots.txt del tuo sito. Il crawler di Pinterest rispetta le seguenti istruzioni:

  • Disallow
  • Allow
  • Crawl-delay

Riduzione della frequenza di ricerca per indicizzazione
Per aumentare il numero di secondi di attesa tra visite successive al sito, puoi utilizzare l'istruzione Crawl-Delay.

Delay subsequent visits to 10 seconds apart
User-agent: Pinterest
Crawl-delay: 10

Bloccare un file
User-agent: Pinterest
Disallow: /file.html

Bloccare una directory
User-agent: Pinterest
Disallow: /example/

Bloccare tutti gli accessi
User-agent: Pinterest
Disallow: /