|
|
|||||||
![]() |
|
|
LinkBack | Thread Tools | Display Modes |
|
||||
|
Robots Exclusion Protocol (REP)
Một trong những quan tâm hàng đầu của các quản trị website (webmaster) là mức độ phổ biến và khả thị (visibility) trong website của họ. Đây là một trong những vấn đề chính trong thủ thuật SEO, thủ thuật tối ưu hóa website cho công cụ t́m kiếm (search engine optimization) nhằm giúp cho bọ t́m kiếm dễ dàng đánh chỉ số nội dung trang web. Tuy nhiên, trong vài trường hợp th́ webmaster lại không muốn đăng tải một số thông tin nhất định lên máy t́m kiếm. Trong trường hợp này họ sẽ sử dụng tệp tin loại trừ [Thành viên phải đăng kư mới xem được link này. ] (Robots Exclusion Protocol - REP) để hướng dẫn bọ t́m kiếm tiếp cận tài nguyên trên toàn website hay các phần quan trọng. Trong trường hợp từng trang đơn lẻ th́ các webmaster sẽ sử dụng thẻ [Thành viên phải đăng kư mới xem được link này. ]. Quay trở lại với chuẩn REP vừa nói ở trên, Robots Exclusion Protocol xuất hiện trong những năm 90 và sớm trở thành một trong những chuẩn giúp webmaster chỉ định các thành phần của trang web mà họ muốn đăng tải lên máy t́m kiếm và các thành phần họ muốn giữ kín. Ngày nay, [Thành viên phải đăng kư mới xem được link này. ] đă trở lên hết sức phổ biến và được sử dụng rộng rài nhờ tính đơn giản và hiệu quả trong việc liên lạc với các máy t́m kiếm. Điểm mạnh của nó c̣n nằm ở khả năng tùy biến cao thích ứng với World Wide Web. Chuẩn này được ứng dụng cho hầu hết các [Thành viên phải đăng kư mới xem được link này. ] và các [Thành viên phải đăng kư mới xem được link này. ] và tất cả các website lớn nhỏ, không kể qui mô. Trong tài liệu này, chúng ta sẽ cũng phân tích cách thức ứng dụng Robots Exclusion Protocol (REP). vietSEO sẽ giới thiệu các qui ước chung sử dụng bởi cả 3 ông lớn Google, Yahoo và Microsoft mới được [Thành viên phải đăng kư mới xem được link này. ] gần đây. Qui ước chung của Google, Yahoo và Microsoft Danh sách các tính năng chủ yếu sau của Robots Exclusion Protocol được ứng dụng bởi cả Google, Microsoft và Yahoo. Với mỗi tính năng, bạn sẽ hiểu được ư nghĩa và cách sử dụng. Mỗi qui ước được ứng dụng cho tât cả các bọ t́m kiếm hay các bọ t́m kiếm đặt biệt được chỉ định bởi User-Agent (Xem thêm các bài viết liên quan về Robots.txt trên vietSEO). Qui ước robots.txt Qui ước robots.txt cho Google, Yahoo và Microsoft Robots.txt Directives Qui ước Ư nghĩa Ứng dụng SEO Disallow ‘No Crawl’ page : Yêu cầu bọ t́m kiếm không được đánh chỉ số tài nguyên. Tuy nhiên tệp tin robots.txt vẫn cần được đánh chỉ số để t́m được các chỉ định, các trang web bị cấm sẽ không được quyét. “Không quét” các tài nguyên trên một trang. Qui ước này ngầm cấm các bọ t́m kiếm tiếp cận các đường dẫn đến một số tài nguyên đặc biệt trên một trang Web. Allow Yêu cầu các bọ t́m kiếm đánh chỉ số một số trang nhất định trên website của bạn. Bạn có thể sử dụng kết hợp với Disallow. Đặc biệt hữu ích khi sử dụng cùng Disallow, khi mà một phần lớn các tài nguyên bị cấm trừ một phần nhỏ trong đó. $ - Wildcard Yêu cầu bọ t́m kiếm xác định mọi thứ từ cuối đường dẫn URL - một phần quan trọng các thư mục mà không phải chỉ định từng trang một. ‘No Crawl’ files : Không đánh chỉ số các files với qui luật nhất định. Ví dụ các tệp tin với thành phần đuôi mở rộng nhất định, như PDF chẳng hạn. * - Wildcard Yêu cầu bọ t́m kiếm xác định tập hợp kư tự. ‘No Crawl’ URLs : Kiểm tra đường dẫn URL với qui luật nhất định. Ví dụ cấm các đường dẫn với URLs chứ các session id hoặc các tham biến phụ. Sitemap Yêu cầu bọ t́m kiếm t́m tệp tin [Thành viên phải đăng kư mới xem được link này. ] của website. Trỏ tới vị trí đặt sitemap XML hay các [Thành viên phải đăng kư mới xem được link này. ]. Qui ước HTML META Như bài viết trước về thẻ [Thành viên phải đăng kư mới xem được link này. ], phần này chúng ta sẽ bổ sung thêm các qui ước chung cho cả 3 đại gia t́m kiếm Google, Yahoo và Microsoft : Qui ước META tags cho Google, Yahoo và Microsoft HTML META Directives Qui ước Ư nghĩa Ứng dụng SEO NOINDEX META Tag Bọ t́m kiếm không đánh chỉ số trang liên quan. Không cho phép đánh chỉ số trang chỉ định. Ngoài ra, nó c̣n rút trang đó khỏi danh mục nếu được được đánh chỉ số. NOFOLLOW META Tag Bọ t́m kiếm không được theo đường dẫn URL nằm trong nội dung trang chỉ định. Giúp chống lại nạn spam các trang cho phép viết bài ḥng tăng liên kết. Thẻ nofollow bào cho bọ t́m kiếm biết bạn bỏ qua các liên kết trỏ đến các trang bên ngoài trong nội dung trang chứ thẻ META tags nofollow. NOSNIPPET META Tag Yêu cầu bọ t́m kiếm không hiển thị [Thành viên phải đăng kư mới xem được link này. ] trong kết quả t́m kiếm đối với trang này. Loại bỏ phần mô tả snippet ra khỏi trang kết quả t́m kiếm. NOARCHIVE META Tag Cấm không cho bọ t́m kiếm được hiển thị bản sao trang web trong bộ nhớ “cache” đối với trang sử dụng thẻ này. Không cho phép người dùng xem phiên bản copy chứ trong bộ nhớ của máy t́m kiếm. NOODP META Tag Yêu cầu máy t́m kiếm không được sử dụng [Thành viên phải đăng kư mới xem được link này. ] (title) và snippets từ các danh bạ Web - Open Directory Project cho trang được chỉ định. không sử dụng ODP - Open Directory Project, tiêu đề và phần mô tả snippets trong kết quả t́m kiếm cho trang này. Các qui ước trên được áp dụng cho các loại tài nguyên khác nhau trên Website. Chúng có thể được đặt trong một trang HTMK hay với HTTP header cho các trang không có nội dung là HTML, ví dụ các tệp tin PDF, Video, ect. ([Thành viên phải đăng kư mới xem được link này. ]. Một số qui ước REP khác Các qui ước trên đều được sử dụng cho Microsofts, Google và Yahoo. Tuy nhiên chúng không được áp dụng cho tất cả các máy t́m kiếm khác. Ngoài ra, c̣n có một số qui ước được Google sử dụng nhưng lại không được các máy t́m khác hỗ trợ : UNAVAILABLE_AFTER Meta TagThông báo cho bọ t́m kiếm thời hạn của trang. Ví dụ ngày mà trang đó không c̣n có hiệu lực và sẽ không xuất hiện trong kết quả t́m kiếm.NOIMAGEINDEX Meta TagYêu cầu bọ t́m kiếm không quét các files ảnh trong trang được chỉ định và hiển thị trong kết quả t́m kiếm.NOTRANSLATE Meta TagYêu cầu bọ t́m kiếm không được dịch nối dung của trang sang một ngôn ngữ khác trong kết quả t́m kiếm. Robots và Search Engine Optimization Ngoài những ứng dụng đă nhắc ở phần trên th́ lợi ích của robots trong quảng bá web rất là lớn. Đặc biệt phải kể đến ứng dụng của REP trong việc tối ưu hóa Website cho công cụ t́m kiếm (Search Engine Optimization). Lấy ví dụ một Blog, th́ việc thông tin có thể được truy cập và hiển thị qua nhiều đường dẫn khác nhau làm phát sinh nhiều [Thành viên phải đăng kư mới xem được link này. ] (qua category, tags, archive, RSS). Bạn có thể loại trừ các nội dung trong phần tags, archive hay RSS bằng cách ứng dụng Robots. Nếu sử dụng robots.txt, bạn có thể sử dụng lệnh sau trong blog WordPress của bạn. User-agent: * Disallow: */trackback* Disallow: /wp-* Disallow: */feed* Disallow: /20* Disallow: /page/ Allow: / Ngoài ra bạn có thể dùng thẻ META tag. Vấn đề ứng dụng REP cho Blog, Forum ḿnh sẽ quay trở lại sau trong một chủ đề liên quan. Ngoải ra, bạn có thể sử dụng ḍng lệch sitemap để giúp bọ t́m kiếm tiếp cận với [Thành viên phải đăng kư mới xem được link này. ], nội dung mới của trang Web bằng việc thêm đường dẫn Sitemap XML và Feed RSS trong file robots.txt. Ví dụ : Sitemap: [Thành viên phải đăng kư mới xem được link này. ] Sitemap: [Thành viên phải đăng kư mới xem được link này. ] Sitemap: [Thành viên phải đăng kư mới xem được link này. ] |
|
||||
![]() Hội nghị PubCon Trong hội nghị PubCon (một diễn đàn lớn cho những chuyên gia về SEO) , [Thành viên phải đăng kư mới xem được link này. ] - sếp, nhân viên nổi tiếng của Google, chi nhánh chống thư rác, spam đă đồng ư trả lời phỏng vấn [Thành viên phải đăng kư mới xem được link này. ] - một chuyên gia quảng cáo trực tuyến theo blog cá nhân của tác giả. Xung quanh cuộc phỏng vấn này, có rất nhiều thông tin thú vị và có ích cho giới SEO, nên tớ xin phép tóm lược lại vài điểm chính sau : Matt Cutts trả lời về Duplicate Content
Điều làm tớ ngạc nhiên nhất trong đoạn phỏng vấn trên đó là khi Matt Cutts nói rằng kết quả phụ thược vào thứ hạng PageRank. Ḿnh đă không nghĩ rằng PageRank lại đóng vai tṛ quan trọng đến khi thế; V́ có rất nhiều trang có vị trí trong trang kết quả cao hơn dù PageRank thấp hơn các trang khác cho cùng một từ khóa t́m kiếm. Nhưng kiểu ǵ th́ ḿnh cũng rút ra kết luận (sẽ viết một bài về nội dung kép thủ thuật WordPress chi tiết hơn ): phải đặt khóa MORE cao hơn nữa trong các bài viết, nhất là khi kích hoạt các chức năng luông tin RSS Feed Bài viết tổng hợp của Hoài Nam - vietSEO [tags]blog, Duplicate Content, Google, Matt Cutts,PubCon, SEO, Stephan, trùng lặp nội dung, Spencer,wordpress,vietnam, webmaster,hoai nam[/tags] Bài viết cùng chủ đề liên quan
|
|
||||
|
Như các bạn đă biết, để đánh chỉ số một trang Web th́ các [Thành viên phải đăng kư mới xem được link này. ] thường gửi các [Thành viên phải đăng kư mới xem được link này. ] tới viếng thăm trang Web cần được chỉ số hóa. Ngoài việc sử dụng thẻ [Thành viên phải đăng kư mới xem được link này. ], th́ bạn có thể ứng dụng một file text đặc biệt đặt tại thư mục gốc của tên miền để điều chỉnh ứng xử của bọ t́m kiếm (trường hợp ứng dụng cho Google xem [Thành viên phải đăng kư mới xem được link này. ]). Bài viết này vietSEO và các bạn sẽ cùng phân tích ứng dụng của file robots.txt này.
Giới thiệu Robots.txt Như đă viết ở trên, khi đánh chỉ số một trang Web th́ các bọ t́m kiếm sẽ kiểm tra nội dung một tệp tin đặc biệt đặt tại thư mục gốc tên là robots.txt. Tệp tin này chứa hoàn toàn nội dung văn bản text (không phải HTML). Robots.txt được hiểu với nghĩa là “Robots Exclusion Protocol”; nó cho phép người quản trị Web (Webmaster) định ra các thành phần với quyền hạn riêng biệt cho từng bọ t́m kiếm. Nói cách khác thông qua tệp tin này, Webmaster sẽ giao tiếp với bọ t́m kiếm để điều khiển tác vụ của các bọ t́m kiếm nói trên. Cú pháp trong Robots.txt Cú pháp dùng trong tệp tin này thường dùng để cấm robots (bọ t́m kiếm) quét các trang mà đường dẫn URL được chỉ ra. Mỗi đoạn văn bản thường gồm có tên của bọ t́m kiếm (user agent hay robot) và đường dẫn mà nó không được quét. Và thường là bạn không thể chỉ định ra thư mục nhất định hay là các loại tệp tin mà bọ t́m kiếm có thể đánh chỉ số. Nên nhớ rằng, ngầm định, các robots có thể truy cập bất kể thư mục nào theo [Thành viên phải đăng kư mới xem được link này. ] không được cấm trong tệp tin robots.txt. Tất cả mọi tài nguyên không bị cấm th́ đều có thể được truy cập. Bạn có thể hiển thị file robots.txt chỉ đơn giản bằng tŕnh duyệt ( [Thành viên phải đăng kư mới xem được link này. ] ). Bạn sẽ thấy một tệp tin định dạng text, rất dễ hiểu. Xin nói thêm rằng Google gần đây có hỗ trợ cú pháp Sitemap trong robots.txt cho phép chỉ định sơ đồ Web ([Thành viên phải đăng kư mới xem được link này. ]) trong robots.txt Ví dụ phần cú pháp Sitemap được chỉ định trong fie robots.txt trên vietSEO như sau : [source:html] #BEGIN XML-SITEMAP-PLUGIN Sitemap: [Thành viên phải đăng kư mới xem được link này. ] #END XML-SITEMAP-PLUGIN [/source] Ứng dụng robots.txt Đây là toàn bộ tài liệu liên quan tới [Thành viên phải đăng kư mới xem được link này. ], mà theo lư thuyết th́ tất cả các robots đề phải tuân theo các chỉ định trong file robots.txt. Sử dụng file robots.txt Cú pháp Ghi chú cho Webmaster User-agent: * Disallow: Dấu (*) có nghĩa là áp dụng cho mọi robots. Nhưng v́ không có tài nguyên nào bị cấm nên thành ra tất cả mọi thư mục đề được cho phép. User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /private/ Tất cả mọi robots đều có quyền truy cập tất cả các thư mục trừ ba thư mục được trích dẫn phía sau. User-agent: SpamBot Disallow: / Trường hợp này robot SpamBot bị cấm truy cập tất cả thư mục. Dấu gạch chéo “/” có nghĩa là tất cả các thư mục.User-Agent có thể là kư tự đơn và các robots không phần biệt chữ hoa và chữ thường. User-agent: SpamBot Disallow: / User-agent: * Disallow: /private/ Để bắt đầu chỉ định mới th́ bạn hăy đặt một ḍng trắng. SpamBot bị cấm truy cập tất cả tài nguyên. Trong khi các robots khác được được truy cập tất cả trừ thư mục “private”. User-agent: SpamBot Disallow: /tmp/ Disallow: /private/ Disallow: /tailieu/canhan.html User-agent: * Disallow: /tmp/ Disallow: /private/ Không cho phép SpamBot ḍ các thư mục được liệt kê phía sau : thư mục “tmp”, “private” và tệp tin “canhan.html” trong thư mục “tailieu”. Các bọ t́m kiếm các được ḍ mọi thứ trừ hai thư mục “tmp” và “private”. Sử dụng sai - Phản ví dụ Các cách dùng sai syntax và file robots.txt User-agent: * Disallow / KHÔNG ! Đây là cách dùng sai v́ thiếu dấu hai chấm “:” sau disallow. User-agent: * Disallow: * KHÔNG ! Nếu muốn cấm toàn bộ mọi thứ th́ hăy sử dụng kư tự gạch ngang “/” (chỉ định thư mục gốc) User-agent: sidewiner Disallow: /tmp/ KHÔNG ! Robots sẽ bỏ qua các tên sai của User Agent. Hăy xem file logs trên server hoặc xem thêm danh sách [Thành viên phải đăng kư mới xem được link này. ][Thành viên phải đăng kư mới xem được link này. ] User-agent: * Disallow: /tmp/ User-agent: SpamBot Disallow: /tailieu/canhan.html Disallow: /tmp/ KHÔNG ! Robots đọc theo thứ tự từ trên xuống dưới và nó sẽ dùng lại khi t́m thấy phần văn bản liên quan tới nó. Bởi vậy “SpamBot” sẽ dừng ngay tại bảng ghi đầu tiên với dấu sao “*” mà không cần đến bảng ghi tiếp theo dành riêng cho nó. Ngoài ra, bạn có thể ưng dụng file robots.txt trong việc ngăn ngừa phần nào các robots có hại, mang tính chất spam, email extractor hay nhằm giảm [Thành viên phải đăng kư mới xem được link này. ], loại bỏ đường dẫn URL đă bị đánh chỉ số. Chúng ta sẽ trở lại vấn đề này trong các bài viết với từng chủ đề liên quan. Danh sách User Agent Names Các User Agent của Google Google thường sử dụng vài User Agent cho từng dịch vụ riêng của ḿnh. Bạn có thể chỉ định từng ḍng User Agent riêng rẽ. Trong trường hợp bạn chặn (disallow) Googlebot thị bạn sẽ chặn tất cả các User Agent bắt đầu bằng “Goooglebot”
Đây là một số danh sách các User-Agent mà bạn có thể tham khảo như đă viết ở trên : |
![]() |
| Thread Tools | |
| Display Modes | |
|
|