Để giúp mọi người khám phá và làm những gì họ yêu thích, chúng tôi đang tạo cơ sở dữ liệu với hàng tỷ Ghim trên Pinterest. Để bảo vệ mọi người trên Pinterest và cung cấp nội dung có chất lượng cao nhất, chúng tôi sử dụng trình thu thập dữ liệu web để giúp xác định dữ liệu trên các trang lưu trữ Ghim. Để giúp mọi người trên Pinterest hành động theo những gì truyền cảm hứng cho họ, chúng tôi cũng thu thập dữ liệu để tạo các Ghim sản phẩm có thể mua được và liên kết trở lại trang web của người bán. Điều này có thể giúp tăng lưu lượng truy cập tự nhiên, doanh số và lượt chuyển đổi đến các trang web này, với nỗ lực tối thiểu cần thiết cho phía người bán.
Những trang lưu trữ Ghim này có các chỉ báo phong phú cho phép chúng tôi đưa ra những đề xuất hay hơn, chống thư rác và hiển thị thông tin hữu ích. Để tận dụng triệt để những chỉ báo này, chúng tôi thường xuyên tìm nạp, lưu trữ và xử lý nội dung trang web liên quan đến Ghim.
Trình thu thập dữ liệu của Pinterest truy cập trang web của bạn vì ba lý do chính:
Khi trình thu thập dữ liệu chính thức của Pinterest truy cập trang web của bạn, nó sẽ gửi tác nhân người dùng Pinterest hợp lệ và kết nối từ mạng do Pinterest vận hành.
Trình thu thập dữ liệu của Pinterest tuân theo Tiêu chuẩn loại trừ robot (robots.txt) và được định cấu hình để xếp hạng các yêu cầu đồng thời giới hạn được gửi đến trang web của bạn. Không mã hóa cứng các địa chỉ IP này trong cấu hình trang web của bạn, vì các địa chỉ mà trình thu thập dữ liệu sử dụng có thể thay đổi mà không cần thông báo.
Tác nhân người dùng của chúng tôi là:
Pinterest/0.2 (+https://www.pinterest.com/bot.html)
Mozilla/5.0 (compatible; Pinterestbot/1.0; +https://www.pinterest.com/bot.html)
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Pinterestbot/1.0; +https://www.pinterest.com/bot.html)
IP của chúng tôi là IP động và thường xuyên thay đổi, nhưng sẽ luôn nằm trong phạm vi 54.236.1.001 đến 54.236.1.255.
Trình thu thập dữ liệu của Pinterest chủ yếu thu thập thông tin bằng các địa chỉ IP tại Hoa Kỳ. Chúng tôi cũng có thể thu thập dữ liệu bằng các địa chỉ IP bên ngoài Hoa Kỳ để hỗ trợ dữ liệu được bản địa hóa.
Các địa chỉ IP tại Hoa Kỳ luôn nằm trong phạm vi 54.236.1.XXX.
Các địa chỉ IP ngoài Hoa Kỳ không có phạm vi cố định. Nếu bạn lo ngại rằng mọi người đang truy cập trang web của bạn trong khi giả mạo là trình thu thập dữ liệu của Pinterest, hãy xác minh tính xác thực của trang web bằng cách làm theo các bước trong phần tiếp theo, thay vì kiểm tra dải IP.
Nếu bạn nhận được lưu lượng truy cập đồng nhất từ ứng dụng khách gửi tác nhân người dùng Pinterest hợp lệ nhưng không vượt qua kiểm tra DNS nêu trên, vui lòng
Để sửa đổi hành vi của trình thu thập dữ liệu Pinterest, bạn sẽ cần cập nhật tệp robot.txt của trang web. Đảm bảo đặt tệp robots.txt trên miền chính của bạn, vì chúng tôi không hỗ trợ tệp robots.txt trên miền phụ.
Thời gian chờ thu thập dữ liệu lớn ảnh hưởng đến việc phân phối và đề xuất nội dung của bạn trên Pinterest. Do đó, chúng tôi chấp nhận thời gian chờ tối đa là 1 và sẽ coi mọi giá trị lớn hơn đều là 1. Nếu bạn cần thời gian chờ thu thập dữ liệu lớn hơn, hãy liên
user-agent: Pinterestbot
Crawl-delay: 0.2
user-agent: Pinterestbot
disallow: /
user-agent: Pinterestbot
disallow: /directory1/
user-agent: Pinterestbot
disallow: /directory1/
allow: /directory1/subdirectory1/
user-agent: Pinterestbot
disallow: /directory1/
allow: /directory1/subdirectory1/
crawl-delay: 0.2