Sunday, November 20, 2016

Mẫu file Robots.txt Chuẩn cho Wordpress

Leave a Comment

Các quy tắc cơ bản của Robots Exclusion Standard


Một tập tin robots.txt có thể được tạo ra trong vài giây. Tất cả những gì bạn phải làm là mở một trình soạn thảo văn bản và lưu một tập tin trống với tên robots.txt. Sau khi thêm một số “quy tắc” vào tập tin, lưu nó lại và upload lên thư mục gốc của tên miền, tức là http://www.yourwebsite.com/robots.txt. Hãy đảm bảo bạn đã upload tập tin robots.txt vào thư mục gốc của tên miền, ngay cả khi WordPress được cài đặt trong một thư mục con.
Công cụ tìm kiếm sẽ kiểm tra tập tin robots.txt ở thư mục gốc của tên miền bất cứ khi nào chúng bắt đầu tiến hành thu thập thông tin từ blog/ website của bạn. Lưu ý: bạn cần phải tạo các file robots.txt riêng biệt cho mỗi tên miền phụ và các giao thức khác như https://www.yourwebsite.com.
Nó không mất quá nhiều thời gian để có được một sự hiểu biết đầy đủ về Robots Exclusion Standard. Chỉ có một vài quy tắc để bạn tìm hiểu. Những quy tắc này thường được gọi là “chỉ thị”.
Hai chỉ thị chính của Standard là:
  • User-agent – Xác định các công cụ tìm kiếm mà quy tắc được áp dụng.
  • Disallow – Ngăn cản các công cụ tìm kiếm không thu thập thông tin và lập chỉ mục một tập tin, trang hoặc thư mục.
Dấu hoa thị (*) có thể được sử dụng như một ký tự đại diện cho tất cả các công cụ tìm kiếm. Ví dụ, bạn có thể thêm dòng sau vào file robots.txt để ngăn chặn các công cụ tìm kiếm thu thập thông tin toàn bộ blog/ website của bạn.
User-agent: *
Disallow: /
Các chỉ thị trên là hữu ích nếu bạn đang phát triển một blog/ website mới và không muốn các công cụ tìm kiếm lập chỉ mục khi nó chưa được hoàn thiện.
Một số blog/ website sử dụng chỉ thị Disallow mà không có dấu gạch chéo (/) để biểu thị một trang web có thể được thu thập dữ liệu. Điều này cho phép các công cụ tìm kiếm có đầy đủ quyền truy cập vào toàn bộ blog/ website của bạn.
User-agent: *
Disallow:
Để ngăn chặn việc thu thập dữ liệu với các thư mục hoặc đường dẫn cụ thể, bạn chỉ cần thêm đường dẫn hoặc tên thư mục vào sau chữ “Disallow” . Trong ví dụ dưới đây, tôi đã quy định các công cụ tìm kiếm không được phép thu thập thông tin về thư mục /images/ và toàn bộ các tập tin chứa trong nó.
User-agent: *
Disallow: /images/
Điều này là do robots.txt sử dụng đường dẫn tương đối, không sử dụng đường dẫn tuyệt đối. Các dấu gạch chéo (/) thay thế cho thư mục gốc của tên miền và do đó áp dụng quy tắc cho toàn bộ blog/ website của bạn. Đường dẫn là trường hợp nhạy cảm, vì vậy hãy chắc chắn sử dụng đúng trường hợp khi xác định các tập tin, các trang và thư mục.

Mẫu file robots.txt chuẩn cho blog WordPress

Đây là một trong những mẫu tập tin (file) robots.txt tối ưu nhất, được nhiều blogger WordPress nổi tiếng tin dùng. Bạn cũng có thể sử dụng nó cho blog/ website WordPress của mình.
User-agent: *
Disallow: /wp-admin/
Disallow: /search?q=*
Disallow: *?replytocom
Disallow: */attachment/*
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: http://lichgothanhcong.com/sitemap.xml
view rawrobots.txt hosted with ❤ by GitHub
Lưu ý: Thay https://lichgothanhcong.com/sitmap.xml thay bằng đường link đến sitemap của bạn.
Đơn giản vậy thôi. Chúc các bạn thành công!

0 comments:

Post a Comment