이 글에서는 다음 내용을 설명합니다.
  • Pinterest의 사용자 사이트 액세스 방법
  • Pinterest가 사이트에 액세스하지 못하도록 제한하기
  • 크롤링을 사용하는 이유
    사람들이 좋아하는 것을 찾고 해볼 수 있도록 Pinterest에서는 수십억 개의 핀 데이터베이스를 구축하고 있습니다. 사용자를 보호하고 가능한 최고 품질의 콘텐츠를 제공하기 위해 웹 크롤러를 사용하여 핀에 포함된 데이터를 확인하고 있습니다.

    이렇게 하여 사용자에게 더 적합한 추천 항목을 선별하고, 스팸을 차단하고, 유용한 정보를 표시할 수 있습니다. Pinterest는 이러한 도구를 최대한 활용하기 위해 주기적으로 핀 관련 페이지 콘텐츠를 가져와 저장하고 처리합니다.​

    Pinterest의 사용자 사이트 액세스 방법

    Pinterest의 크롤러가 사용자 웹사이트에 방문할 경우, 유효한 Pinterest User-Agent를 보내 Pinterest가 운영하는 네트워크로부터 연결합니다.

    Pinterest 크롤러는 로봇 배제 표준(robots.txt)을 준수하며 사이트에 대한 동시 요청 속도를 조절하도록 구성되어 있습니다. 크롤러가 사용하는 주소가 고지 없이 변경될 수 있기 때문에 사이트 구성에서 이러한 IP 주소를 하드 코드하지 않는 것이 좋습니다.

    Pinterest 사용자 ID
    Pinterest/0.2 (+https://www.pinterest.com/bot.html)
    Mozilla/5.0 (호환, Pinterestbot/1.0, + https://www.pinterest.com/bot.html)
    Mozilla/5.0 (Linux, Android 6.0.1, Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, Gecko 등) Chrome/41.0.2272.96 Mobile Safari/537.36 (호환, Pinterestbot/1.0, + https://www.pinterest.com/bot.html)

    Pinterest IP는 동적이고 자주 변경되지만 항상 54.236.1.XXX 범위 내에 있습니다.

    지역 분산 크롤링

    Pinterest 크롤러는 주로 미국 기반 IP 주소를 사용하여 크롤링합니다. 로컬 데이터를 지원하기 위해, 미국 외부의 IP 주소로 크롤링할 수도 있습니다.

    미국 기반 IP 주소의 경우에는 항상 54.236.1.XXX의 범위에 있습니다.

    미국 기반 IP 주소가 아닌 경우에는 고정된 범위가 없습니다. Pinterest 크롤러의 진위를 확인하려면 IP 범위 검사에 의존하는 것보다는 다음 섹션의 단계를 선호하는 방법으로 수행하는 것이 좋습니다. 이것은 스패머가 Pinterestbot인 척하면서 귀하의 사이트에 액세스하는 것이 우려되는 경우에 유용합니다.

    Pinterest의 크롤러 소개
  • 호스트 명령을 사용 하 여 로그에서 IP 주소에 역방향 DNS 조회를 실행
  • 응답 도메인 이름이 pinterest.com 또는 pinterestcrawler.com으로 끝나는지 확인
  • 호스트 명령을 사용 하 여 1 단계에서 검색 응답에 정방향 DNS 조회를 실행
  • 1단계의 IP 주소와 동일한지 확인
  • 유효한 Pinterest User-Agent를 보내는 클라이언트로부터 일정한 양의 트래픽을 받고 있지만 위의 DNS 테스트를 통과하지 못하는 경우 Pinterest에 문의하세요.

    Pinterest가 사이트에 액세스하지 못하도록 제한하기

    Pinterest 크롤러의 활동을 수정하려면 사이트의 robots.txt 파일을 업데이트해야 합니다. Pinterest는 서브 도메인에서 robots.txt 파일을 지원하지 않으므로 robots.txt 파일은 메인 도메인에 두어야 합니다.

    대량의 크롤링 지연은 Pinterest에서의 콘텐츠 배포 및 추천에 영향을 미칩니다. 따라서 최대 1까지의 지연은 인정되며 이보다 큰 값은 모두 1로 처리됩니다. 이를 알고 있으나 1보다 큰 크롤링 지연이 필요한 경우에는 Pinterest에 문의하세요.

    User-Agent: Pinterestbot
    Crawl-delay: 0.2

    대량의 크롤링 지연은 Pinterest에서의 콘텐츠 배포 또는 추천에 부정적인 영향을 미칠 수 있습니다. Pinterest는 최대 1까지의 지연을 인정합니다. 이보다 큰 값은 모두 1로 처리됩니다.

    User-Agent: Pinterestbot
    허용하지 않음: /

     

    User-Agent: Pinterestbot
    허용하지 않음: /directory1/
    User-Agent: Pinterestbot
    허용하지 않음: /directory1/
    허용: /directory1/subdirectory1/
    User-Agent: Pinterestbot
    허용하지 않음: /directory1/
    허용: /directory1/subdirectory1/
    crawl-delay: 0.2
    End of Other articles Links
    아직 도움이 필요하세요? 문의하기
    User feedback
    이 글이 도움이 되셨나요?

    collection_fields

    이 글에 개선할 점이 있나요?