View Single Post
  #1 (permalink)  
Old 14-08-2008
get2you's Avatar
get2you get2you is offline
Advanced Member
 
Join Date: Jul 2008
Posts: 147
Thanks: 8
Thanked 5 Times in 5 Posts
Default Googlebot và Robots.txt : Allow, Disallow

Robots.txt disallows Web Robot, User-agentBài viết giới thiệu về Robots Exclusion Protocol với tệp tin robots.txt và cú pháp, cách sử dụng đúng và danh sách các User Agent Names.Robots, HTML Meta và Google, Yahoo, MicrosoftGiới thiệu về Robots Exclusion Protocol (REP), qui ước chung của Google, Yahoo và Microsoft : Qui ước robots.txt và qui ước HTML META Tags.Googlebot và Robots.txt : Allow, DisallowCách ứng dụng Robots Exclusion Protocol (REP) bằng việc sử dụng tệp tin robots.txt đối với máy t́m kiếm Google. Cách biên dịch đặc biệt tệp tin robots.txt của spider GoogleBot.Robots META Tag - Metadata ElementsỨng dụng Robots Exclusion Protocol (REP) thông qua sử dụng thẻ Metadata Robots cho các trang đơn lẻ. Các User Agent của Google

Google có vài user-agent chính. Bạn có thể ngăn chúng bằng cách thêm tên của bọ t́m kiếm tương ứng và trong ḍng User-agent tương ứng trong bảng ghi robots.txt. Nếu bạn chặn Googlebot th́ có nghĩa là bạn chặn tất cả các bọ t́m kiếm với từ khóa “Googlebot”.
GooglebotĐánh chỉ số từ các chỉ mục cũ và mới của Google.Googlebot-MobileĐánh chỉ số cho các thiết bị cầm tay hoặc di động.Googlebot-ImageĐánh chỉ số các tệp tin ảnh.Mediapartners-GoogleXuất hiện trong các trang dăng quảng cáo của Google Adsense.Adsbot-GoogleĐánh chỉ số các trang được nhà quảng cáo sử dụng giới thiệu sản phẩm hay dịch vụ thông qua Google Adwords. Nó cho phép đánh giá chất lượng của trang dùng dịch vụ Adwords. Chặn Googlebot

Để chặn toàn bộ Googlebot th́ bạn thêm cú pháp sau vào file robots loại trừ :
User-agent: Googlebot
Disallow: / Cho phép Googlebot

Trong trường hợp bạn muốn chặn tất cả các bọ t́m kiếm khác trừ một robot, Googlebot chẳng hạn, th́ bạn có thể sử dụng cú pháp sau. Tuy nhiên nếu bạn không muốn trang liên quan biến mất khỏi kết quả t́m kiếm của các máy t́m kiếm như Yahoo, MSN Live hay Ask th́ bạn không nên làm như thế.
User-agent: *
Disallow: /

User-agent: Googlebot
Disallow: Cho phép mở rộng

Google hỗ trợ cú pháp mở rộng “Allow” trong tệp tin robots.txt. Có nhiều máy t́m kiếm không hỗ trợ phần mở rộng này, v́ thế bạn nên tham khảo kỹ. Ḍng lệnh “Allow” hoạt động cũng giống như “Disallow” chỉ khác là nó liệt kê các thư mục hay trang bạn cho phép đánh chỉ số.
Bạn có thể sử dụng đồng thời “Allow” và “Disallow” cùng nhau. Chẳng hạn để cấm tất cả các trang trong một thư mục “seoblog” chẳng hạn, trừ tệp tin “quang-ba-web.html”, bạn hăy làm như sau :
User-agent: Googlebot
Disallow: /seoblog/
Allow: /seoblog/quang-ba-web.html C̣n trong trường hợp bạn muốn chặn Googlebot và sau đó lại vẫn muốn cho các bot khác của Google (Googlebot-Mobile) chẳng hạn, bạn có thể sử dụng lệnh Allow như sau :
User-agent: Googlebot
Disallow: /

User-agent: Googlebot-Mobile
Allow: / Sử dụng mẫu tổ hợp

Đặc biệt hữu ích trong trường hợp bạn không muốn phải liệt kê tất cả các trang mà bạn muốn chặn. Đây là phần đuôi mở rộng mà GoogleBot hỗ trợ. Chú ư là các máy t́m kiếm khác chưa chắc đă hỗ trợ tính năng này.
Mẫu tổ hợp chuỗi các kư tự sử dụng dấu sao (*)

Bạn có thể sử dụng dấu sao (*) để liệt kê tổ hợp chuỗi các lkys tự. Ví dụ bạn có thể chặn một loạt các thư mục con bắt đầu bằng chữ wp (ví dụ wp-admin, wp-content cho blog WordPress) như sau :
User-agent: Googlebot
Disallow: /wp*/
Để chặn tất cả đường dẫn URL mà chứa kư tự (?) chứa tham biến (trong ngôn ngữ PHP), bạn hăy làm như sau :
User-agent: *
Disallow: /*?
Kiểm tra phần kết của chuỗi kư tự URL bằng $

Bạn cũng có thể sử dụng dấu dollard ($) để liệt kê các URL có phần kết tương ứng. Ví dụ để chặn tất cả các đường dẫn URL kết thúc với pdf (phiên bản pdf trên website để tránh trùng nội dung chẳng hạn) :
User-agent: Googlebot
Disallow: /*.pdf$
Bạn cũng có thể sử dụng tổ hợp kết này với lệnh Allow. Ví dụ nếu như có dấu hỏi ? tương ứng với một session ID, bạn có thể loại trừ chúng để tránh cho GoogleBot phải đánh chỉ số một nội dung trùng lặp. Thế nhưng các URLs kết thúc bởi dấu hỏi ? lại là một phiên bản trang mà bạn muốn thêm vào. Trong trường hợp này, hăy đặt tệp tin robots.txt của bạn như sau :
User-agent: *
Allow: /*?$
Disallow: /*?
Ḍng lệnh Disallow:/ *? sẽ chặn tất cả các URL có chứa kư tự ? (Cụ thể là nó sẽ chặn tất cả các URL bắt đầu bằng tên miền, tiếp theo các kư tự, tiếp theo là dấu hỏi ?, tiếp theo bởi bất kể kư tự nào khác)
Ḍng lệnh Allow: /*?$ sẽ cho phép bất kể đường dẫn nào kết thúc bởi dấu hỏi ? (Cụ thể là với bất kể URL nào bắt đầu bằng tên miên, theo bởi chuỗi kư tự, theo tiêp bởi dấu hỏi ?, không có kư tự nào nằm sau dấu hỏi này).
Hoài Nam - Quảng bá Web.
Bài viết cùng chủ đề liên quan

  1. Robots.txt disallows Web Robot, User-agent
    Như các bạn đă biết, để đánh chỉ số một trang Web th́ các máy t́m kiếm thường gửi các bọ t́m kiếm tới viếng thăm trang Web cần được...
  2. Robots, HTML Meta và Google, Yahoo, Microsoft
    Robots Exclusion Protocol (REP) Một trong những quan tâm hàng đầu của các quản trị website (webmaster) là mức độ phổ biến và khả thị (visibility) trong website của...
  3. Web crawler - web spider - web robot - googlebot - slurp
    Web crawler, web spider hay web robot là một chương tŕnh tự động t́m kiếm trên Internet. Nó được thiết kết để thu thập tài nguyên Internet (trang Web, h́nh...
  4. Robots META Tag - Metadata Elements
    Thường th́ tệp tin robots.txt đặt tại thư mục gốc của tên miền là công cụ lư tưởng để giao tiếp với các máy t́m kiếm (Robots với Google, Yahoo...
__________________
chào mừng đến với site của tớ
motorbiking vietnam
Reply With Quote