Google: Lưu trữ tài nguyên trên tên máy chủ khác nhau để tiết kiệm ngân sách thu thập dữ liệu

Google khuyên bạn nên lưu trữ tài nguyên trang web trên CDN hoặc tên miền phụ để bảo toàn ngân sách thu thập dữ liệu của trang web chính nhằm lập chỉ mục tốt hơn.

  • Googlebot lưu trữ tài nguyên trong bộ nhớ đệm trong 30 ngày, bất kể cài đặt bộ nhớ đệm HTTP.

  • Sử dụng CDN cho tài nguyên có thể giúp duy trì ngân sách thu thập dữ liệu của trang web bạn.

  • Việc chặn tài nguyên trong robots.txt có thể gây hại cho khả năng hiển thị và xếp hạng trang của Google.

Google Search Central đã ra mắt loạt bài viết mới có tên “Crawling December” để cung cấp thông tin chi tiết về cách Googlebot thu thập dữ liệu và lập chỉ mục các trang web.

Tháng này, Google sẽ xuất bản một bài viết mới mỗi tuần, khám phá nhiều khía cạnh khác nhau của quá trình thu thập thông tin, vốn không thường được thảo luận nhưng có thể tác động đáng kể đến quá trình thu thập thông tin trên trang web.

Bài đăng đầu tiên trong loạt bài này trình bày những kiến ​​thức cơ bản về thu thập dữ liệu và làm sáng tỏ những chi tiết quan trọng nhưng ít được biết đến về cách Googlebot xử lý tài nguyên trang và quản lý ngân sách thu thập dữ liệu.

Cơ bản về Crawl

Các trang web ngày nay phức tạp hơn do JavaScript và CSS nâng cao, khiến chúng khó thu thập dữ liệu hơn so với các trang HTML cũ. Googlebot hoạt động giống như trình duyệt web nhưng theo lịch trình khác.

Khi Googlebot truy cập một trang web, trước tiên nó sẽ tải xuống HTML từ URL chính, có thể liên kết đến JavaScript, CSS, hình ảnh và video. Sau đó, Dịch vụ kết xuất web (WRS) của Google sử dụng Googlebot để tải xuống các tài nguyên này để tạo chế độ xem trang cuối cùng.

Sau đây là các bước theo thứ tự:

  1. Tải xuống HTML ban đầu

  2. Xử lý bởi Dịch vụ kết xuất web

  3. Lấy tài nguyên

  4. Xây dựng trang cuối cùng

Quản lý ngân sách thu thập dữ liệu

Thu thập thêm tài nguyên có thể làm giảm ngân sách thu thập của trang web chính. Để hỗ trợ việc này, Google cho biết "WRS cố gắng lưu trữ đệm mọi tài nguyên (JavaScript và CSS) được sử dụng trong các trang mà nó hiển thị".

Điều quan trọng cần lưu ý là bộ nhớ đệm WRS kéo dài tới 30 ngày và không bị ảnh hưởng bởi các quy tắc bộ nhớ đệm HTTP do nhà phát triển đặt ra.

Chiến lược lưu trữ đệm này giúp tiết kiệm ngân sách thu thập dữ liệu của trang web.

Khuyến nghị

Bài đăng này cung cấp cho chủ sở hữu trang web các mẹo về cách tối ưu hóa ngân sách thu thập thông tin của họ:

  1. Giảm sử dụng tài nguyên : Sử dụng ít tài nguyên hơn để tạo trải nghiệm người dùng tốt. Điều này giúp tiết kiệm ngân sách thu thập thông tin khi hiển thị trang.

  2. Lưu trữ tài nguyên riêng biệt : Đặt tài nguyên trên một tên máy chủ khác, như CDN hoặc tên miền phụ. Điều này có thể giúp chuyển gánh nặng ngân sách thu thập dữ liệu khỏi trang web chính của bạn.

  3. Sử dụng các tham số Cache-Busting một cách khôn ngoan : Hãy cẩn thận với các tham số cache-busting. Việc thay đổi URL tài nguyên có thể khiến Google phải kiểm tra lại chúng, ngay cả khi nội dung vẫn như cũ. Điều này có thể lãng phí ngân sách thu thập dữ liệu của bạn.

Ngoài ra, Google cảnh báo rằng việc chặn thu thập tài nguyên bằng robots.txt có thể gây rủi ro.

Nếu Google không thể truy cập vào tài nguyên cần thiết để hiển thị, Google có thể gặp khó khăn trong việc lấy nội dung trang và xếp hạng nội dung đó đúng cách.

Có liên quan: 9 Mẹo để Tối ưu hóa Ngân sách Thu thập thông tin cho SEO

Công cụ giám sát

Nhóm Search Central cho biết cách tốt nhất để xem Googlebot đang thu thập tài nguyên nào là kiểm tra nhật ký truy cập thô của trang web.

Bạn có thể xác định Googlebot bằng địa chỉ IP bằng cách sử dụng các phạm vi được công bố trong tài liệu dành cho nhà phát triển của Google.

Tại sao điều này quan trọng

Bài đăng này làm rõ ba điểm chính ảnh hưởng đến cách Google tìm và xử lý nội dung trang web của bạn:

  • Quản lý tài nguyên ảnh hưởng trực tiếp đến ngân sách thu thập dữ liệu của bạn, do đó việc lưu trữ tập lệnh và kiểu trên CDN có thể giúp duy trì ngân sách này.

  • Google lưu trữ tài nguyên trong bộ nhớ đệm trong 30 ngày bất kể cài đặt bộ nhớ đệm HTTP của bạn là gì, giúp tiết kiệm ngân sách thu thập dữ liệu của bạn.

  • Việc chặn các tài nguyên quan trọng trong robots.txt có thể phản tác dụng vì ngăn Google hiển thị đúng các trang của bạn.

Hiểu được các cơ chế này giúp các chuyên gia SEO và nhà phát triển đưa ra quyết định tốt hơn về lưu trữ tài nguyên và khả năng truy cập – những lựa chọn ảnh hưởng trực tiếp đến khả năng thu thập và lập chỉ mục của Google đối với các trang web của họ.