Robots Exclusion Protocol (REP)
Một trong những quan tâm hàng đầu của các quản trị website (webmaster) là mức độ phổ biến và khả thị (visibility) trong website của họ. Đây là một trong những vấn đề chính trong thủ thuật SEO, thủ thuật tối ưu hóa website cho công cụ t́m kiếm (search engine optimization) nhằm giúp cho bọ t́m kiếm dễ dàng đánh chỉ số nội dung trang web.
Tuy nhiên, trong vài trường hợp th́ webmaster lại không muốn đăng tải một số thông tin nhất định lên máy t́m kiếm. Trong trường hợp này họ sẽ sử dụng tệp tin loại trừ
robots.txt (Robots Exclusion Protocol - REP) để hướng dẫn bọ t́m kiếm tiếp cận tài nguyên trên toàn website hay các phần quan trọng. Trong trường hợp từng trang đơn lẻ th́ các webmaster sẽ sử dụng thẻ
META Tags.
Quay trở lại với chuẩn REP vừa nói ở trên, Robots Exclusion Protocol xuất hiện trong những năm 90 và sớm trở thành một trong những chuẩn giúp webmaster chỉ định các thành phần của trang web mà họ muốn đăng tải lên máy t́m kiếm và các thành phần họ muốn giữ kín. Ngày nay,
Robots Exclusion Protocol đă trở lên hết sức phổ biến và được sử dụng rộng rài nhờ tính đơn giản và hiệu quả trong việc liên lạc với các máy t́m kiếm. Điểm mạnh của nó c̣n nằm ở khả năng tùy biến cao thích ứng với World Wide Web. Chuẩn này được ứng dụng cho hầu hết các
máy t́m kiếm và các
bọ t́m kiếm và tất cả các website lớn nhỏ, không kể qui mô.
Trong tài liệu này, chúng ta sẽ cũng phân tích cách thức ứng dụng Robots Exclusion Protocol (REP). vietSEO sẽ giới thiệu các qui ước chung sử dụng bởi cả 3 ông lớn
Google, Yahoo và Microsoft mới được
công bố gần đây.
Qui ước chung của Google, Yahoo và Microsoft
Danh sách các tính năng chủ yếu sau của Robots Exclusion Protocol được ứng dụng bởi cả Google, Microsoft và Yahoo. Với mỗi tính năng, bạn sẽ hiểu được ư nghĩa và cách sử dụng.
Mỗi qui ước được ứng dụng cho tât cả các bọ t́m kiếm hay các bọ t́m kiếm đặt biệt được chỉ định bởi User-Agent (Xem thêm các bài viết liên quan về Robots.txt trên vietSEO).
Qui ước robots.txt
Qui ước robots.txt cho Google, Yahoo và Microsoft Robots.txt Directives Qui ước Ư nghĩa Ứng dụng SEO Disallow ‘No Crawl’ page : Yêu cầu bọ t́m kiếm không được đánh chỉ số tài nguyên. Tuy nhiên tệp tin robots.txt vẫn cần được đánh chỉ số để t́m được các chỉ định, các trang web bị cấm sẽ không được quyét. “Không quét” các tài nguyên trên một trang. Qui ước này ngầm cấm các bọ t́m kiếm tiếp cận các đường dẫn đến một số tài nguyên đặc biệt trên một trang Web. Allow Yêu cầu các bọ t́m kiếm đánh chỉ số một số trang nhất định trên website của bạn. Bạn có thể sử dụng kết hợp với Disallow. Đặc biệt hữu ích khi sử dụng cùng Disallow, khi mà một phần lớn các tài nguyên bị cấm trừ một phần nhỏ trong đó. $ - Wildcard Yêu cầu bọ t́m kiếm xác định mọi thứ từ cuối đường dẫn URL - một phần quan trọng các thư mục mà không phải chỉ định từng trang một. ‘No Crawl’ files : Không đánh chỉ số các files với qui luật nhất định. Ví dụ các tệp tin với thành phần đuôi mở rộng nhất định, như PDF chẳng hạn. * - Wildcard Yêu cầu bọ t́m kiếm xác định tập hợp kư tự. ‘No Crawl’ URLs : Kiểm tra đường dẫn URL với qui luật nhất định. Ví dụ cấm các đường dẫn với URLs chứ các session id hoặc các tham biến phụ. Sitemap Yêu cầu bọ t́m kiếm t́m tệp tin
sitemap của website. Trỏ tới vị trí đặt sitemap XML hay các
luồng tin RSS.
Qui ước HTML META
Như bài viết trước về thẻ
META tags, phần này chúng ta sẽ bổ sung thêm các qui ước chung cho cả 3 đại gia t́m kiếm Google, Yahoo và Microsoft :
Qui ước META tags cho Google, Yahoo và Microsoft HTML META Directives Qui ước Ư nghĩa Ứng dụng SEO NOINDEX META Tag Bọ t́m kiếm không đánh chỉ số trang liên quan. Không cho phép đánh chỉ số trang chỉ định. Ngoài ra, nó c̣n rút trang đó khỏi danh mục nếu được được đánh chỉ số. NOFOLLOW META Tag Bọ t́m kiếm không được theo đường dẫn URL nằm trong nội dung trang chỉ định. Giúp chống lại nạn spam các trang cho phép viết bài ḥng tăng liên kết. Thẻ nofollow bào cho bọ t́m kiếm biết bạn bỏ qua các liên kết trỏ đến các trang bên ngoài trong nội dung trang chứ thẻ META tags nofollow. NOSNIPPET META Tag Yêu cầu bọ t́m kiếm không hiển thị
snippets trong kết quả t́m kiếm đối với trang này. Loại bỏ phần mô tả snippet ra khỏi trang kết quả t́m kiếm. NOARCHIVE META Tag Cấm không cho bọ t́m kiếm được hiển thị bản sao trang web trong bộ nhớ “cache” đối với trang sử dụng thẻ này. Không cho phép người dùng xem phiên bản copy chứ trong bộ nhớ của máy t́m kiếm. NOODP META Tag Yêu cầu máy t́m kiếm không được sử dụng
tiêu đề (title) và snippets từ các danh bạ Web - Open Directory Project cho trang được chỉ định. không sử dụng ODP - Open Directory Project, tiêu đề và phần mô tả snippets trong kết quả t́m kiếm cho trang này. Các qui ước trên được áp dụng cho các loại tài nguyên khác nhau trên Website. Chúng có thể được đặt trong một trang HTMK hay với HTTP header cho các trang không có nội dung là HTML, ví dụ các tệp tin PDF, Video, ect. (
X-Robots-Tag).
Một số qui ước REP khác
Các qui ước trên đều được sử dụng cho Microsofts, Google và Yahoo. Tuy nhiên chúng không được áp dụng cho tất cả các máy t́m kiếm khác. Ngoài ra, c̣n có một số qui ước được Google sử dụng nhưng lại không được các máy t́m khác hỗ trợ :
UNAVAILABLE_AFTER Meta TagThông báo cho bọ t́m kiếm thời hạn của trang. Ví dụ ngày mà trang đó không c̣n có hiệu lực và sẽ không xuất hiện trong kết quả t́m kiếm.
NOIMAGEINDEX Meta TagYêu cầu bọ t́m kiếm không quét các files ảnh trong trang được chỉ định và hiển thị trong kết quả t́m kiếm.
NOTRANSLATE Meta TagYêu cầu bọ t́m kiếm không được dịch nối dung của trang sang một ngôn ngữ khác trong kết quả t́m kiếm.
Robots và Search Engine Optimization
Ngoài những ứng dụng đă nhắc ở phần trên th́ lợi ích của robots trong quảng bá web rất là lớn. Đặc biệt phải kể đến ứng dụng của REP trong việc tối ưu hóa Website cho công cụ t́m kiếm (Search Engine Optimization).
Lấy ví dụ một Blog, th́ việc thông tin có thể được truy cập và hiển thị qua nhiều đường dẫn khác nhau làm phát sinh nhiều
nội dung trùng lặp (Duplicate Content) (qua category, tags, archive, RSS). Bạn có thể loại trừ các nội dung trong phần tags, archive hay RSS bằng cách ứng dụng Robots. Nếu sử dụng robots.txt, bạn có thể sử dụng lệnh sau trong blog WordPress của bạn.
User-agent: *
Disallow: */trackback*
Disallow: /wp-*
Disallow: */feed*
Disallow: /20*
Disallow: /page/
Allow: / Ngoài ra bạn có thể dùng thẻ META tag. Vấn đề ứng dụng REP cho Blog, Forum ḿnh sẽ quay trở lại sau trong một chủ đề liên quan.
Ngoải ra, bạn có thể sử dụng ḍng lệch sitemap để giúp bọ t́m kiếm tiếp cận với
cấu trúc, nội dung mới của trang Web bằng việc thêm đường dẫn Sitemap XML và Feed RSS trong file robots.txt. Ví dụ :
Sitemap:
http://aevn.fr/indexsitemap_invm.xml.gz
Sitemap:
AEVN - Sinh Vien du hoc
Sitemap:
Sinh vien Viet Nam - Hoc tap - Giai tri