Hí ae, cũng đã lâu rồi hôm nay mình mới ngồi lại để tối ưu SEO cho blog mình. Ngoài việc phân bổ từ khóa trong bài viết, thì cũng phải cần nhiều yếu tố khác, điển hình như là robots.txt - Tệp robots.txt giúp cho trình thu thập dữ liệu của các công cụ tìm kiếm biết được là có thể hay không thể yêu cầu thu thập dữ liệu từ những trang hoặc tệp nào trên trang web của bạn. Hôm nay mình sẽ hướng dẫn Cách tối ưu Robots.txt chuẩn SEO cho Blogspot
Robots.txt là gì
Robots.txt là một tệp bao gồm các lệnh điều hướng quá trình thu thập dữ liệu của các công cụ tìm kiếm. Nó giúp cho trình thu thập dữ liệu và lập chỉ mục (index) của các công cụ tìm kiếm biết được là có thể hay không thể yêu cầu thu thập dữ liệu từ những trang hoặc tệp nào trên trang web của bạn.
Như đã viết ở trên thì robots.txt sẽ rất tốt cho SEO khi bạn ngăn chặn được một số liên kết không mong muốn index trên công cụ tìm kiếm.
Lợi ích khi sử dụng robots.txt
Thêm robots.txt là tùy chọn không bắt buộc, thế nhưng nó lại khá cần thiết là vì:
- Chặn index các tài nguyên không cần thiết (ví dụ: video, file PDF,...)
- Chặn index trang không cần thiết.
- Chèn Sitemap
- Tối ưu quá trình crawl: Google luôn có một mức thu thập dữ liệu tối đa cho một website trong một khoảng thời gian nhất định. Vì thế, chúng ta cần index trang cần thiết và loại bỏ các trang cần thiết để tiết kiệm cho quá trình crawl này.
Các lệnh cơ bản của robots.txt
Câu lệnh | Chức năng |
---|---|
User-agent: | [Bắt buộc, ít nhất một lệnh trong mỗi nhóm] Đây là tên của trình thu thập dữ liệu của công cụ tìm kiếm. Ví dụ như Googlebot |
Allow: | Cú pháp cho phép các robot của công cụ tìm kiếm thu thập dữ liệu. |
Disallow: | Cú pháp không cho phép các robot của công cụ tìm kiếm thu thập dữ liệu. |
Crawl-delay: | Thông số này xác định thời gian (tính bằng giây) bots phải đợi trước khi chuyển sang phần tiếp theo (cú pháp này ít được sử dụng) |
Sitemap: | Khai báo vị trí sitemap của website. |
Chỉnh sửa robots.txt cho Blogsopt
Bước 1: Vào trang quản lí blog > Cài đặt.
Bước 2: Kéo xuống dưới và tìm đến Trình thu thập thông tin và lập chỉ mục.
Bật robots.txt tùy chỉnh và nhấp bên dưới để chỉnh sửa.
Cấu hình robots.txt chuẩn cho Blogspot
Dưới đây là một cấu hình robots.txt chuẩn dành cho những bạn đang dùng Blogspot
User-agent: *
Allow: /
User-agent: Googlebot
Allow: /
Allow: /search/label
Disallow: /search
Allow: /search(/)?$
Disallow: *archive.html$
Sitemap: https://www.fayedark.com/atom.xml?redirect=false&start-index=1&max-results=500
Lưu ýThay www.fayedark.com thành tên miền của bạn và nếu blog của bạn có hơn 500 bài viết thì đổi 500 thành số lớn hơn nha
Giải thích sương sương về cấu hình này
Đầu tiên là User-agent: *, Cú pháp này cho phép mọi bot vào thu thập dữ liệu như bot của Google, Bing, ... và xác định các quy tắc được áp dụng bên dưới.
Allow: /, Dòng này nghĩa là cho phép index tất cả các tiền tố url
Mình muốn Google không thu thập vào các trang không cần thiết mà các bot khác vẫn thu thập được, nên mình viết lệnh riêng cho Googlebot bằng cách thêm dòng User-agent: Googlebot
Cho phép Thu thập dữ liệu của trang nhãn: Allow: /search/label/.
Chặn thu thập những trang tìm kiếm có thể không có nội dung (Disallow: /search) nhưng vẫn cho phép thu thập trang bài viết (Allow: /search(/)?$)
Disallow: archive.html$ là chặn thu thập dữ liệu trang web có đuôi archive.html. Mình dùng kí tự ($) để url khớp ở cuối.Cuối cùng là Sitemap: https... đánh dấu địa chỉ sơ đồ trang web của blog.
Lời kết
Vậy là bạn đã có thể tạo và chỉnh sửa file robots.txt để tối ưu SEO cho Blogspot rồi, nếu có thắc mắc gì hãy để lại bình luận dưới bài viết nhé. Hi vọng bài viết sẽ giúp ích cho bạn.