이 글에서는 다음 내용을 설명합니다.
  • Pinterest 크롤러가 회원님의 사이트에 액세스하는 이유
  • Pinterest 크롤러가 회원님의 사이트에 액세스하는 방법
  • Pinterest의 크롤러 소개
  • Pinterest가 사이트에 액세스하지 못하도록 제한하기
  • 사람들이 좋아하는 것을 찾고 해볼 수 있도록 Pinterest에서는 수십억 개의 핀 데이터베이스를 구축하고 있습니다. 저희는 Pinterest의 사용자를 보호하고 가능한 한 최고 품질의 콘텐츠를 제공하기 위해 웹 크롤러를 사용하여 핀에 포함된 데이터를 확인하고 있습니다.

    이렇게 하여 사용자에게 더 적합한 추천 항목을 선별하고, 스팸을 차단하고, 유용한 정보를 표시할 수 있습니다. Pinterest는 이러한 도구를 최대한 활용하기 위해 주기적으로 핀 관련 페이지 콘텐츠를 가져와 저장하고 처리합니다.​

    Pinterest 크롤러가 회원님의 사이트에 액세스하는 이유

    Pinterest 크롤러가 회원님의 사이트에 액세스하는 세 가지 주요 이유:

  • 회원님의 카탈로그에서 각 상품의 이미지 파일을 다운로드하기 위해
  • 상품의 가격, 설명, 재고 상태와 같은 풍부한 메타데이터를 수집하기 위해
  • 사람들이 안전하게 방문할 수 있도록 하기 위해
  • Pinterest 크롤러가 회원님의 사이트에 액세스하는 방법

    Pinterest의 크롤러가 사용자 웹사이트에 방문할 경우, 유효한 Pinterest 사용자 에이전트를 보내 Pinterest가 운영하는 네트워크로부터 연결합니다.

    Pinterest 크롤러는 로봇 배제 표준(robots.txt)을 준수하며 사이트에 대한 동시 요청 속도를 조절하도록 구성되어 있습니다. 크롤러가 사용하는 주소가 고지 없이 변경될 수 있기 때문에 사이트 구성에서 이러한 IP 주소를 하드 코드하지 않는 것이 좋습니다.

    사용자 에이전트는 다음과 같습니다.

    Pinterest/0.2 (+https://www.pinterest.com/bot.html)
    Mozilla/5.0 (호환, Pinterestbot/1.0, + https://www.pinterest.com/bot.html)
    Mozilla/5.0 (Linux, Android 6.0.1, Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, Gecko 등) Chrome/41.0.2272.96 Mobile Safari/537.36 (호환, Pinterestbot/1.0, + https://www.pinterest.com/bot.html)

    Pinterest IP는 동적이고 자주 변경되지만, 항상 54.236.1.001에서 54.236.1.255 범위에 있습니다.

    지역 분산 크롤링

    Pinterest 크롤러는 주로 미국 기반 IP 주소를 사용하여 크롤링합니다. 로컬 데이터를 지원하기 위해, 미국 외부의 IP 주소로 크롤링할 수도 있습니다.

    미국 기반 IP 주소는 항상 54.236.1.XXX의 범위에 있습니다.

    미국 기반 IP 주소가 아닌 경우에는 고정된 범위가 없습니다. 사람들이 Pinterest 크롤러로 가장하면서 사이트에 액세스하는 것이 우려된다면 IP 범위 확인에 의존하기보다는 다음 섹션의 단계에 따라 사이트의 진위를 확인하세요.

    Pinterest의 크롤러 소개
  • 호스트 명령을 사용 하 여 로그에서 IP 주소에 역방향 DNS 조회를 실행
  • 응답 도메인 이름이 pinterest.com 또는 pinterestcrawler.com으로 끝나는지 확인
  • 호스트 명령을 사용하여 1단계에서 검색된 응답에 대해 정방향 DNS 조회 실행
  • 1단계의 IP 주소와 동일한지 확인
  • 유효한 Pinterest 사용자 에이전트를 보내는 클라이언트로부터 일정한 양의 트래픽을 받고 있지만 위의 DNS 테스트를 통과하지 못하는 경우 Pinterest에 문의하세요.

    Pinterest가 사이트에 액세스하지 못하도록 제한하기

    Pinterest 크롤러의 활동을 수정하려면 사이트의 robots.txt 파일을 업데이트해야 합니다. Pinterest는 서브 도메인에서 robots.txt 파일을 지원하지 않으므로 robots.txt 파일은 메인 도메인에 두어야 합니다.

    대량의 크롤링 지연은 Pinterest에서의 콘텐츠 배포 및 추천에 영향을 미칩니다. 따라서 최대 1까지의 지연은 인정되며 이보다 큰 값은 모두 1로 처리됩니다. 더 큰 크롤링 지연이 필요하면 Pinterest에 문의하세요.

    User-Agent: Pinterestbot
    Crawl-delay: 0.2
    User-Agent: Pinterestbot
    허용하지 않음: /
    User-Agent: Pinterestbot
    허용하지 않음: /directory1/
    User-Agent: Pinterestbot
    허용하지 않음: /directory1/
    허용: /directory1/subdirectory1/
    User-Agent: Pinterestbot
    허용하지 않음: /directory1/
    허용: /directory1/subdirectory1/
    crawl-delay: 0.2
    End of Other articles Links
    아직 도움이 필요하세요? 문의하기
    User feedback
    이 글이 도움이 되셨나요?

    collection_fields

    이 글에 개선할 점이 있나요?