Friday, November 14, 2014

Hướng dẫn sự dụng robot.txt

Leave a Comment

Tư vấn cách sử dụng robot.txt khi làm SEO

Khi các bots của các search engine tìm đến website nào đó để thu thập thông tin, nó sẽ tìm một file đặc biệt trước tiên, đó là file robots.txt. File robot.txt cho bots biết rằng có thể index những nội dung nào trên website, những phần nào có tính riêng tư không được lấy thông tin hoặc chứa thông tin không cần thiết index.


Robots.txt
Chúng ta hãy cùng tìm hiểu cách cách cấu trúc file robot.txt hợp lý nhất để điều khiển được bots một cách hợp lý, tránh lãng phí tài nguyên cũng như lộ các thông tin riêng tư.
1. Robots.txt là gì?
  • robot.txt là một file chứa các đoạn mã theo một cấu trúc xác định. Các mã này sẽ giới hạn khu vực truy cập của các search engine (vd: google, hoặc yahoo). Các search engine sẽ không cho bots tìm kiếm cho các khu vực bị giới hạn bởi robot.txt.
  • Ví dụ: bạn không muốn các trang login, trang nội bộ, trang diễn đàn xuất hiện trên kết quả tìm kiếm của Google, hãy thiết lập nó ở đây.
2. Robots.txt Hoạt động như thế nào?
  • robots.txt hoạt động bằng cách xác định một user-agent và một lệnh cho user-agent này.
  • Các tham số có trong file robots.txt
    • User-agent: khai báo tên search engine mà bạn muốn điều khiển, ví dụ: Googlebot, Yahoo! Slurp
    • Disallow: là khu vực mà bạn muốn khoanh vùng không cho phép search engine truy cập.
    • Crawl-Delay: thông số này xác định thời gian (tính bằng giây) bots phải đợi trước khi chuyển sang phần tiếp theo. Điều này sẽ có ích để ngăn chặn các search engine load server tùy tiện.
    • Dấu # được sử dụng trước các dòng cần comment.
3. Một vài ví dụ cho robots.txt
  • Cho phép tất cả các search engine có thể lấy thông tin toàn bộ site:
User-agent: *
Disallow:/
  • Chặn tất cả các search engine truy cập cgi-bin
User-agent: *
Disallow: /cgi-bin/
  • Không cho phép Yahoo! Slurp truy cập thư mục admin
User-agent: yahoo! Slurp
Disallow: /admin/
  • Không cho phép tất cả các search engine truy cập vào bất kì khu vực nào trên website:(xem lại)
User-agent: *
Disallow: /
4. File robots.txt mẫu sử dụng cho forum vbulletin:
User-agent: *
#Crawl-Delay: 10
Disallow: /cgi-bin/
Disallow: /forum/ajax.php
Disallow: /forum/cron.php
Disallow: /forum/attachment.php
Disallow: /forum/editpost.php
Disallow: /forum/external.php
Disallow: /forum/faq.php
Disallow: /forum/global.php
Disallow: /forum/image.php
Disallow: /forum/joinrequest.php
Disallow: /forum/login.php
Disallow: /forum/misc.php
Disallow: /forum/moderator.php
Disallow: /forum/newattatchment.php
Disallow: /forum/newreply.php
Disallow: /forum/newthread.php
Disallow: /forum/online.php
Disallow: /forum/payment_gateway.php
Disallow: /forum/payments.php
Disallow: /forum/pdfthread.php
Disallow: /forum/poll.php
Disallow: /forum/postings.php
Disallow: /forum/printthread.php
Disallow: /forum/private.php
Disallow: /forum/profile.php
Disallow: /forum/register.php
Disallow: /forum/report.php
Disallow: /forum/reputation.php
Disallow: /forum/search.php
Disallow: /forum/sendmessage.php
Disallow: /forum/subcription.php
Disallow: /forum/subcriptions.php
Disallow: /forum/threadrate.php
Disallow: /forum/usercp.php
Disallow: /forum/usernote.php
Disallow: /forum/admincp/
Disallow: /forum/images/
Disallow: /forum/modcp/
Disallow: /forum/articlebot/
Disallow: /forum/clientscript/
Disallow: /forum/customavatars/
Disallow: /forum/customprofilepics/
Disallow: /forum/files/
Disallow: /forum/cpstyles/
Disallow: /forum/images/
Disallow: /forum/includes/
Disallow:/forum/subscriptions/
Disallow:/forum/attachments/
Disallow:/forum/frm_attach/
5. Một số lưu ý khi sử dụng robot.txt
+ Không sử dụng các chú thích trong file robots.txt, nó có thể làm cho các spider của search engine bị lầm lẫn. Ví dụ:
“Disallow: support # Don’t index the support directory” might be misinterepreted as “Disallow: support#Don’t index the support directory”.
+ Không được để khoảng trắng ở đầu dòng lệnh, ví dụ:
User-agent: *
Disallow: /cgi-bin/
+Không thay đổi trật tự của các dòng lệnh. Ví dụ:
Disallow: /support
User-agent: *
+ Không sử dụng quá một thư mục trong dòng lệnh Disallow. Ví dụ:
User-agent: *
Disallow: /support /cgi-bin/ /images/
các search engine không hiểu định dạng trên. bạn nên viết thế này:
User-agent: *
Disallow: /support
Disallow: /cgi-bin/
Disallow: /images/
+Phải chắc chắn các mệnh đề, từ sử dụng trong lệnh là đúng. Ví dụ, thư mục của bạn là “cgi-bin” (viết thường, không viết hoa), nhưng khí vào lệnh, bạn lại viết là “Cgi-Bin” thì các spider sẽ “bó tay”.
Bạn có thể tham khảo tập tin robots.txt tại các web site nổi tiếng trên thế giới là Ebay và Nytimes:

2.Cách tạo sitemap.xml:

+ phân biệt sitemap.xml và sitemap.htm

HTML sitemap
- Cấu trúc: HTML sitemap thường dùng để liệt kê tất cả các liên kết URL trong từng phần hay từng trang khác nhau của Blog hay website.
- Thứ tự: Các đường dẫn này thường được liệt kê sắp xếp theo thứ tự thư mục cây và chung cung cấp miêu tả cho từng liên kết, thường nhờ vào Anchor Text.
- Đối tượng: HTML sitemap của blog hay Website sẽ giúp người dùng di chuyển và tìm được thông tin dễ dàng. Bởi thế HTML sitemap được tạo ban đầu cho người dùng. Mặc dù HTML sitemap được tạo cho khách viếng thăm Website, nhưng những bọ tìm kiếm như Googlebot sẽ có cơ hội tìm ra tất cả các mục, trang, bài viết trên Website dễ dàng hơn khi tất cả các liên kết được liệt kê trong HTML sitemap.
- Ví dụ HTML sitemap: Hãy xem qua sitemap HTML của SEO blog, bạn sẽ hình dung ra thế nào là một sitemap HTML.


XML sitemap

- Cấu trúc: XML sitemap hiển thị danh sách các URL của blog hay website của bạn bằng một chuẩn đặc biệt XML. Hãy xem ví dụ sitemap XML sau với một đường dẫn URL duy nhất: 
- Thứ tự: Các đường dẫn này thường được liệt kê sắp xếp theo thứ tự ưu tiên theo từng tiêu chí của từng Webmaster mà đó có thể là mức độ quan trọng của thông tin, lượng truy cập, các thành phần quan trọng, …
- Đối tượng: XML sitemap cho phép Webmaster thông báo tới máy tìm kiếm về các đường dẫn URLs trên blog hay Website nhằm tạo thuận lợi cho quá trình đánh chỉ số. XML sitemap được tạo cho máy tìm kiếm chứ không phải người dùng thường. Việc đăng ký sitemap XML cho các bộ máy tìm kiếm như Google, Yahoo hay MSN Live.

+ Tạo sitemap.xml online :

http://www.xml-sitemaps.com/  click lnik rồi gõ url vào đợi tý ra file dodww file về upload lên host rồi vào GG webmasters/tool để submit.

0 comments:

Post a Comment