Para matulungan ang mga tao na matuklasan at gawin ang kanilang gusto, gagawa kami ng isang database ng bilyon-bilyong mga Pin sa Pinterest. Para maprotektahan ang mga tao sa Pinterest at maibigay ang content na may pinakamagandang kalidad, gumagamit kami ng mga web crawler para tulungan kaming matukoy ang data sa mga page na nasa likod ng mga Pin.
Ang mga page na ito ay naglalaman ng mga rich signal na nagpapahintulot sa aming magmungkahi ng mas magagandang rekomendasyon, labanan ang spam at magpakita ng kapaki-pakinabang na impormasyon. Para ganap na samantalahin ang mga signal na ito, regular naming kinukuha, ini-store at pinoproseso ang nilalaman ng page na nauugnay sa mga Pin.
Ina-access ng Pinterest crawler ang iyong site para sa tatlong pangunahing dahilan:
Kapag binisita ng tunay na Pinterest crawler ang iyong website, magpapadala ito ng valid na Pinterest user agent at kokonekta mula sa isang network na pinapatakbo namin.
Sinusunod ng Pinterest crawler ang Robots Exclusion Standard (robots.txt) at naka-configure para i-rate ang limitasyon ng magkakasabay na mga kahilingan na ginawa sa iyong site. Huwag i-hard code ang mga IP address na ito sa iyong site configuration, dahil puwedeng magbago ang mga address na ginagamit ng crawler nang walang abiso.
Ang aming user agent ay:
Pinterest/0.2 (+https://www.pinterest.com/bot.html)
Mozilla/5.0 (compatible; Pinterestbot/1.0; +https://www.pinterest.com/bot.html)
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, tulad ng Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Pinterestbot/1.0; +https://www.pinterest.com/bot.html)
Ang aming IP ay dynamic at madalas itong nagbabago, pero palagi itong nasa range ng 54.236.1.001 hanggang 54.236.1.255.
Pangunahing nagsasagawa ng pag-crawl ang Pinterest crawler sa mga IP address sa US. Posible rin kaming mag-crawl ng mga IP address na wala sa US para suportahan ang naka-localize na data.
Ang mga IP address sa US ay palaging nasa range ng 54.236.1.XXX.
Para sa mga IP address na wala sa US, walang nakapirming range. Kung nag-aalala kang ina-access ng mga tao ang iyong site habang nagkukunwaring Pinterest crawler, i-verify ang authenticity nito sa pamamagitan ng pagsunod sa mga hakbang na nasa susunod na seksyon, sa halip na umasa sa isang pag-check ng IP range.
Kung makakatanggap ka ng hindi nagbabagong dami ng traffic mula sa isang client na nagpapadala ng valid na Pinterest user agent pero hindi ito papasa sa DNS test, mangyaring
Para baguhin ang pag-uugali ng Pinterest crawler, kakailanganin mong i-update ang robots.txt file ng iyong site. Siguruhin na ilagay ang robots.txt file sa iyong pangunahing domain, dahil hindi namin sinusuportahan ang mga robots.txt file sa mga subdomain.
Inaantala ng malaking pag-crawl ang epekto sa pamamahagi at pagrerekomenda ng iyong content sa Pinterest. Kaya, tinatanggap namin ang mga antala na hanggang 1 at tatratuhin ang anumang mas malaking mga value bilang 1. Kung kailangan mo ng mas malaking crawl delay,
user-agent: Pinterestbot
Crawl-delay: 0.2
user-agent: Pinterestbot
huwang payagan: /
user-agent: Pinterestbot
huwag payagan: /directory1/
user-agent: Pinterestbot
huwag payagan: /directory1/
payagan: /directory1/subdirectory1/
user-agent: Pinterestbot
huwag payagan: /directory1/
paygan: /directory1/subdirectory1/
crawl-delay: 0.2