Go Back   Linux CentOS, Control Panel, Hot girl, TOP 10 GOOGLE, Server - System - Manager, Operation System, Thiet ke website, Hack war3, hack map, dota hacking > Dành cho webmaster > Quảng bá thương hiệu

Hack map cua war3 version 1.24e - co the chuyen tien
Hack gunz.2it.in mới update ngày 2/3/2010 (test by Admin)
Hướng dẫn Hack gold member tại quán net để mang về nhà
hack map dota cho war3 ver 1.24a, hackmap 1.24b, hack map 1.24c, hack dota 1.24d, hack map war3 1.24e, co the chuyen tien
crack windows 7 all version (using activators)

Reply
 
LinkBack Thread Tools Display Modes
  #1 (permalink)  
Old 14-08-2008
get2you's Avatar
Moderator
 
Join Date: Jul 2008
Posts: 153
Thanks: 0
Thanked 0 Times in 0 Posts
Default Googlebot và Robots.txt : Allow, Disallow

[Thành viên phải đăng kư mới xem được link này. ]Bài viết giới thiệu về Robots Exclusion Protocol với tệp tin robots.txt và cú pháp, cách sử dụng đúng và danh sách các User Agent Names.[Thành viên phải đăng kư mới xem được link này. ]Giới thiệu về Robots Exclusion Protocol (REP), qui ước chung của Google, Yahoo và Microsoft : Qui ước robots.txt và qui ước HTML META Tags.[Thành viên phải đăng kư mới xem được link này. ]Cách ứng dụng Robots Exclusion Protocol (REP) bằng việc sử dụng tệp tin robots.txt đối với máy t́m kiếm Google. Cách biên dịch đặc biệt tệp tin robots.txt của spider GoogleBot.[Thành viên phải đăng kư mới xem được link này. ]Ứng dụng Robots Exclusion Protocol (REP) thông qua sử dụng thẻ Metadata Robots cho các trang đơn lẻ. Các User Agent của Google

Google có vài user-agent chính. Bạn có thể ngăn chúng bằng cách thêm tên của bọ t́m kiếm tương ứng và trong ḍng User-agent tương ứng trong bảng ghi robots.txt. Nếu bạn chặn Googlebot th́ có nghĩa là bạn chặn tất cả các bọ t́m kiếm với từ khóa “Googlebot”.
GooglebotĐánh chỉ số từ các chỉ mục cũ và mới của Google.Googlebot-MobileĐánh chỉ số cho các thiết bị cầm tay hoặc di động.Googlebot-ImageĐánh chỉ số các tệp tin ảnh.Mediapartners-GoogleXuất hiện trong các trang dăng quảng cáo của [Thành viên phải đăng kư mới xem được link này. ].Adsbot-GoogleĐánh chỉ số các trang được nhà quảng cáo sử dụng giới thiệu sản phẩm hay dịch vụ thông qua Google Adwords. Nó cho phép đánh giá chất lượng của trang dùng dịch vụ Adwords. Chặn Googlebot

Để chặn toàn bộ Googlebot th́ bạn thêm cú pháp sau vào file robots loại trừ :
User-agent: Googlebot
Disallow: / Cho phép Googlebot

Trong trường hợp bạn muốn chặn tất cả các bọ t́m kiếm khác trừ một robot, Googlebot chẳng hạn, th́ bạn có thể sử dụng cú pháp sau. Tuy nhiên nếu bạn không muốn trang liên quan biến mất khỏi kết quả t́m kiếm của các máy t́m kiếm như Yahoo, MSN Live hay Ask th́ bạn không nên làm như thế.
User-agent: *
Disallow: /

User-agent: Googlebot
Disallow: Cho phép mở rộng

Google hỗ trợ cú pháp mở rộng “Allow” trong tệp tin [Thành viên phải đăng kư mới xem được link này. ]. Có nhiều máy t́m kiếm không hỗ trợ phần mở rộng này, v́ thế bạn nên tham khảo kỹ. Ḍng lệnh “Allow” hoạt động cũng giống như “Disallow” chỉ khác là nó liệt kê các thư mục hay trang bạn cho phép đánh chỉ số.
Bạn có thể sử dụng đồng thời “Allow” và “Disallow” cùng nhau. Chẳng hạn để cấm tất cả các trang trong một thư mục “seoblog” chẳng hạn, trừ tệp tin “quang-ba-web.html”, bạn hăy làm như sau :
User-agent: Googlebot
Disallow: /seoblog/
Allow: /seoblog/quang-ba-web.html C̣n trong trường hợp bạn muốn [Thành viên phải đăng kư mới xem được link này. ] và sau đó lại vẫn muốn cho các bot khác của Google (Googlebot-Mobile) chẳng hạn, bạn có thể sử dụng lệnh Allow như sau :
User-agent: Googlebot
Disallow: /

User-agent: Googlebot-Mobile
Allow: / Sử dụng mẫu tổ hợp

Đặc biệt hữu ích trong trường hợp bạn không muốn phải liệt kê tất cả các trang mà bạn muốn chặn. Đây là phần đuôi mở rộng mà GoogleBot hỗ trợ. Chú ư là các máy t́m kiếm khác chưa chắc đă hỗ trợ tính năng này.
Mẫu tổ hợp chuỗi các kư tự sử dụng dấu sao (*)

Bạn có thể sử dụng dấu sao (*) để liệt kê tổ hợp chuỗi các lkys tự. Ví dụ bạn có thể chặn một loạt các thư mục con bắt đầu bằng chữ wp (ví dụ wp-admin, wp-content cho blog WordPress) như sau :
User-agent: Googlebot
Disallow: /wp*/
Để chặn tất cả đường dẫn URL mà chứa kư tự (?) chứa tham biến (trong ngôn ngữ PHP), bạn hăy làm như sau :
User-agent: *
Disallow: /*?
Kiểm tra phần kết của chuỗi kư tự URL bằng $

Bạn cũng có thể sử dụng dấu dollard ($) để liệt kê các URL có phần kết tương ứng. Ví dụ để chặn tất cả các đường dẫn URL kết thúc với pdf (phiên bản pdf trên website để tránh trùng nội dung chẳng hạn) :
User-agent: Googlebot
Disallow: /*.pdf$
Bạn cũng có thể sử dụng tổ hợp kết này với lệnh Allow. Ví dụ nếu như có dấu hỏi ? tương ứng với một session ID, bạn có thể loại trừ chúng để tránh cho GoogleBot phải đánh chỉ số một [Thành viên phải đăng kư mới xem được link này. ]. Thế nhưng các URLs kết thúc bởi dấu hỏi ? lại là một phiên bản trang mà bạn muốn thêm vào. Trong trường hợp này, hăy đặt tệp tin robots.txt của bạn như sau :
User-agent: *
Allow: /*?$
Disallow: /*?
Ḍng lệnh Disallow:/ *? sẽ chặn tất cả các URL có chứa kư tự ? (Cụ thể là nó sẽ chặn tất cả các URL bắt đầu bằng tên miền, tiếp theo các kư tự, tiếp theo là dấu hỏi ?, tiếp theo bởi bất kể kư tự nào khác)
Ḍng lệnh Allow: /*?$ sẽ cho phép bất kể đường dẫn nào kết thúc bởi dấu hỏi ? (Cụ thể là với bất kể URL nào bắt đầu bằng tên miên, theo bởi chuỗi kư tự, theo tiêp bởi dấu hỏi ?, không có kư tự nào nằm sau dấu hỏi này).
Hoài Nam - Quảng bá Web.
Bài viết cùng chủ đề liên quan

  1. [Thành viên phải đăng kư mới xem được link này. ]
    Như các bạn đă biết, để đánh chỉ số một trang Web th́ các máy t́m kiếm thường gửi các bọ t́m kiếm tới viếng thăm trang Web cần được...
  2. [Thành viên phải đăng kư mới xem được link này. ]
    Robots Exclusion Protocol (REP) Một trong những quan tâm hàng đầu của các quản trị website (webmaster) là mức độ phổ biến và khả thị (visibility) trong website của...
  3. [Thành viên phải đăng kư mới xem được link này. ]
    Web crawler, web spider hay web robot là một chương tŕnh tự động t́m kiếm trên Internet. Nó được thiết kết để thu thập tài nguyên Internet (trang Web, h́nh...
  4. [Thành viên phải đăng kư mới xem được link này. ]
    Thường th́ tệp tin robots.txt đặt tại thư mục gốc của tên miền là công cụ lư tưởng để giao tiếp với các máy t́m kiếm (Robots với Google, Yahoo...
__________________
chào mừng đến với site của tớ
motorbiking vietnam
Reply With Quote
  #2 (permalink)  
Old 14-08-2008
get2you's Avatar
Moderator
 
Join Date: Jul 2008
Posts: 153
Thanks: 0
Thanked 0 Times in 0 Posts
Default Robots, HTML Meta và Google, Yahoo, Microsoft

Robots Exclusion Protocol (REP)

Một trong những quan tâm hàng đầu của các quản trị website (webmaster) là mức độ phổ biến và khả thị (visibility) trong website của họ. Đây là một trong những vấn đề chính trong thủ thuật SEO, thủ thuật tối ưu hóa website cho công cụ t́m kiếm (search engine optimization) nhằm giúp cho bọ t́m kiếm dễ dàng đánh chỉ số nội dung trang web.

Tuy nhiên, trong vài trường hợp th́ webmaster lại không muốn đăng tải một số thông tin nhất định lên máy t́m kiếm. Trong trường hợp này họ sẽ sử dụng tệp tin loại trừ [Thành viên phải đăng kư mới xem được link này. ] (Robots Exclusion Protocol - REP) để hướng dẫn bọ t́m kiếm tiếp cận tài nguyên trên toàn website hay các phần quan trọng. Trong trường hợp từng trang đơn lẻ th́ các webmaster sẽ sử dụng thẻ [Thành viên phải đăng kư mới xem được link này. ].
Quay trở lại với chuẩn REP vừa nói ở trên, Robots Exclusion Protocol xuất hiện trong những năm 90 và sớm trở thành một trong những chuẩn giúp webmaster chỉ định các thành phần của trang web mà họ muốn đăng tải lên máy t́m kiếm và các thành phần họ muốn giữ kín. Ngày nay, [Thành viên phải đăng kư mới xem được link này. ] đă trở lên hết sức phổ biến và được sử dụng rộng rài nhờ tính đơn giản và hiệu quả trong việc liên lạc với các máy t́m kiếm. Điểm mạnh của nó c̣n nằm ở khả năng tùy biến cao thích ứng với World Wide Web. Chuẩn này được ứng dụng cho hầu hết các [Thành viên phải đăng kư mới xem được link này. ] và các [Thành viên phải đăng kư mới xem được link này. ] và tất cả các website lớn nhỏ, không kể qui mô.
Trong tài liệu này, chúng ta sẽ cũng phân tích cách thức ứng dụng Robots Exclusion Protocol (REP). vietSEO sẽ giới thiệu các qui ước chung sử dụng bởi cả 3 ông lớn Google, Yahoo và Microsoft mới được [Thành viên phải đăng kư mới xem được link này. ] gần đây.
Qui ước chung của Google, Yahoo và Microsoft

Danh sách các tính năng chủ yếu sau của Robots Exclusion Protocol được ứng dụng bởi cả Google, Microsoft và Yahoo. Với mỗi tính năng, bạn sẽ hiểu được ư nghĩa và cách sử dụng.
Mỗi qui ước được ứng dụng cho tât cả các bọ t́m kiếm hay các bọ t́m kiếm đặt biệt được chỉ định bởi User-Agent (Xem thêm các bài viết liên quan về Robots.txt trên vietSEO).
Qui ước robots.txt

Qui ước robots.txt cho Google, Yahoo và Microsoft Robots.txt Directives Qui ước Ư nghĩa Ứng dụng SEO Disallow ‘No Crawl’ page : Yêu cầu bọ t́m kiếm không được đánh chỉ số tài nguyên. Tuy nhiên tệp tin robots.txt vẫn cần được đánh chỉ số để t́m được các chỉ định, các trang web bị cấm sẽ không được quyét. “Không quét” các tài nguyên trên một trang. Qui ước này ngầm cấm các bọ t́m kiếm tiếp cận các đường dẫn đến một số tài nguyên đặc biệt trên một trang Web. Allow Yêu cầu các bọ t́m kiếm đánh chỉ số một số trang nhất định trên website của bạn. Bạn có thể sử dụng kết hợp với Disallow. Đặc biệt hữu ích khi sử dụng cùng Disallow, khi mà một phần lớn các tài nguyên bị cấm trừ một phần nhỏ trong đó. $ - Wildcard Yêu cầu bọ t́m kiếm xác định mọi thứ từ cuối đường dẫn URL - một phần quan trọng các thư mục mà không phải chỉ định từng trang một. ‘No Crawl’ files : Không đánh chỉ số các files với qui luật nhất định. Ví dụ các tệp tin với thành phần đuôi mở rộng nhất định, như PDF chẳng hạn. * - Wildcard Yêu cầu bọ t́m kiếm xác định tập hợp kư tự. ‘No Crawl’ URLs : Kiểm tra đường dẫn URL với qui luật nhất định. Ví dụ cấm các đường dẫn với URLs chứ các session id hoặc các tham biến phụ. Sitemap Yêu cầu bọ t́m kiếm t́m tệp tin [Thành viên phải đăng kư mới xem được link này. ] của website. Trỏ tới vị trí đặt sitemap XML hay các [Thành viên phải đăng kư mới xem được link này. ]. Qui ước HTML META

Như bài viết trước về thẻ [Thành viên phải đăng kư mới xem được link này. ], phần này chúng ta sẽ bổ sung thêm các qui ước chung cho cả 3 đại gia t́m kiếm Google, Yahoo và Microsoft :
Qui ước META tags cho Google, Yahoo và Microsoft HTML META Directives Qui ước Ư nghĩa Ứng dụng SEO NOINDEX META Tag Bọ t́m kiếm không đánh chỉ số trang liên quan. Không cho phép đánh chỉ số trang chỉ định. Ngoài ra, nó c̣n rút trang đó khỏi danh mục nếu được được đánh chỉ số. NOFOLLOW META Tag Bọ t́m kiếm không được theo đường dẫn URL nằm trong nội dung trang chỉ định. Giúp chống lại nạn spam các trang cho phép viết bài ḥng tăng liên kết. Thẻ nofollow bào cho bọ t́m kiếm biết bạn bỏ qua các liên kết trỏ đến các trang bên ngoài trong nội dung trang chứ thẻ META tags nofollow. NOSNIPPET META Tag Yêu cầu bọ t́m kiếm không hiển thị [Thành viên phải đăng kư mới xem được link này. ] trong kết quả t́m kiếm đối với trang này. Loại bỏ phần mô tả snippet ra khỏi trang kết quả t́m kiếm. NOARCHIVE META Tag Cấm không cho bọ t́m kiếm được hiển thị bản sao trang web trong bộ nhớ “cache” đối với trang sử dụng thẻ này. Không cho phép người dùng xem phiên bản copy chứ trong bộ nhớ của máy t́m kiếm. NOODP META Tag Yêu cầu máy t́m kiếm không được sử dụng [Thành viên phải đăng kư mới xem được link này. ] (title) và snippets từ các danh bạ Web - Open Directory Project cho trang được chỉ định. không sử dụng ODP - Open Directory Project, tiêu đề và phần mô tả snippets trong kết quả t́m kiếm cho trang này. Các qui ước trên được áp dụng cho các loại tài nguyên khác nhau trên Website. Chúng có thể được đặt trong một trang HTMK hay với HTTP header cho các trang không có nội dung là HTML, ví dụ các tệp tin PDF, Video, ect. ([Thành viên phải đăng kư mới xem được link này. ].
Một số qui ước REP khác

Các qui ước trên đều được sử dụng cho Microsofts, Google và Yahoo. Tuy nhiên chúng không được áp dụng cho tất cả các máy t́m kiếm khác. Ngoài ra, c̣n có một số qui ước được Google sử dụng nhưng lại không được các máy t́m khác hỗ trợ :
UNAVAILABLE_AFTER Meta TagThông báo cho bọ t́m kiếm thời hạn của trang. Ví dụ ngày mà trang đó không c̣n có hiệu lực và sẽ không xuất hiện trong kết quả t́m kiếm.NOIMAGEINDEX Meta TagYêu cầu bọ t́m kiếm không quét các files ảnh trong trang được chỉ định và hiển thị trong kết quả t́m kiếm.NOTRANSLATE Meta TagYêu cầu bọ t́m kiếm không được dịch nối dung của trang sang một ngôn ngữ khác trong kết quả t́m kiếm. Robots và Search Engine Optimization

Ngoài những ứng dụng đă nhắc ở phần trên th́ lợi ích của robots trong quảng bá web rất là lớn. Đặc biệt phải kể đến ứng dụng của REP trong việc tối ưu hóa Website cho công cụ t́m kiếm (Search Engine Optimization).
Lấy ví dụ một Blog, th́ việc thông tin có thể được truy cập và hiển thị qua nhiều đường dẫn khác nhau làm phát sinh nhiều [Thành viên phải đăng kư mới xem được link này. ] (qua category, tags, archive, RSS). Bạn có thể loại trừ các nội dung trong phần tags, archive hay RSS bằng cách ứng dụng Robots. Nếu sử dụng robots.txt, bạn có thể sử dụng lệnh sau trong blog WordPress của bạn.
User-agent: *
Disallow: */trackback*
Disallow: /wp-*
Disallow: */feed*
Disallow: /20*
Disallow: /page/
Allow: / Ngoài ra bạn có thể dùng thẻ META tag. Vấn đề ứng dụng REP cho Blog, Forum ḿnh sẽ quay trở lại sau trong một chủ đề liên quan.
Ngoải ra, bạn có thể sử dụng ḍng lệch sitemap để giúp bọ t́m kiếm tiếp cận với [Thành viên phải đăng kư mới xem được link này. ], nội dung mới của trang Web bằng việc thêm đường dẫn Sitemap XML và Feed RSS trong file robots.txt. Ví dụ :
Sitemap: [Thành viên phải đăng kư mới xem được link này. ]
Sitemap: [Thành viên phải đăng kư mới xem được link này. ]
Sitemap: [Thành viên phải đăng kư mới xem được link này. ]
__________________
chào mừng đến với site của tớ
motorbiking vietnam
Reply With Quote
  #3 (permalink)  
Old 14-08-2008
get2you's Avatar
Moderator
 
Join Date: Jul 2008
Posts: 153
Thanks: 0
Thanked 0 Times in 0 Posts
Default Phỏng vấn Matt Cutts về trùng lặp nội dung - Duplicate Content


Hội nghị PubCon

Trong hội nghị PubCon (một diễn đàn lớn cho những chuyên gia về SEO) , [Thành viên phải đăng kư mới xem được link này. ] - sếp, nhân viên nổi tiếng của Google, chi nhánh chống thư rác, spam đă đồng ư trả lời phỏng vấn [Thành viên phải đăng kư mới xem được link này. ] - một chuyên gia quảng cáo trực tuyến theo blog cá nhân của tác giả.
Xung quanh cuộc phỏng vấn này, có rất nhiều thông tin thú vị và có ích cho giới SEO, nên tớ xin phép tóm lược lại vài điểm chính sau :

Matt Cutts trả lời về Duplicate Content

  • Stephan Spencer : Xin chào, tôi có vài câu hỏi mong muốn được anh trả lời Matt. Trước tiên khi một bài viết hay một thông tin của tác giả nào đó được phát đi (lường tin RSS) hoặc đăng tải bằng cách khác. Liệu có tốt hơn không khi bản cóp py trỏ tới địa chỉ của bài viết gốc trên trang của chính tác giả hay cũng như nhau khi chỉ trỏ liên kết tới trang chủ của tác giả thôi ?
  • Matt Cutts :
    • Tôi khuyên các bạn nên trỏ liên kết tới địa chỉ của bài viết gốc trên chính trang của tác giả. Lư do là : Thừ h́nh dung xem nếu anh viết một bài hay, rồi lại quyết định đăng lại ở chỗ khác. Tất nhiên ít có khả năng là bài viết này nhân được nhiều link trỏ đến và có thêm PageRank. Và như vậy khi bọ t́m kiếm Google hoặc hệ thống Google định vị và đánh chỉ số những trang này, sẽ thấy hai bản cóp py của cùng một bài viết. Trong phần lớn các trường hợp, việc trỏ link như trên sẽ giúp người ta biết được đâu là bài viết nguyên bản (được đăng tải đầu tiên); bài viết mà có PageRank cao hơn.
    • Bời vậy, khi một bài viết được đăng tải lại đâu đó nên có liên kết trỏ tới bản gốc, dù rất khó có thể đảm bào rằng liên kết nguyên bản có thứ hạng PageRank cao hơn khi so sánh với tất cả các chế bản khác. Việc này cũng tạo thuận lợi cho chúng tôi xác định nội dung kép (Duplicate Content) để kết luân rằng “Bạn biết không ? Đây là bản gốc đấy; Bản tốt đó, hăy xem bản đó đi !”.
Nhận xét cá nhân

Điều làm tớ ngạc nhiên nhất trong đoạn phỏng vấn trên đó là khi Matt Cutts nói rằng kết quả phụ thược vào thứ hạng PageRank. Ḿnh đă không nghĩ rằng PageRank lại đóng vai tṛ quan trọng đến khi thế; V́ có rất nhiều trang có vị trí trong trang kết quả cao hơn dù PageRank thấp hơn các trang khác cho cùng một từ khóa t́m kiếm.
Nhưng kiểu ǵ th́ ḿnh cũng rút ra kết luận (sẽ viết một bài về nội dung kép thủ thuật WordPress chi tiết hơn ): phải đặt khóa MORE cao hơn nữa trong các bài viết, nhất là khi kích hoạt các chức năng luông tin RSS Feed
Bài viết tổng hợp của Hoài Nam - vietSEO
[tags]blog, Duplicate Content, Google, Matt Cutts,PubCon, SEO, Stephan, trùng lặp nội dung, Spencer,wordpress,vietnam, webmaster,hoai nam[/tags]
Bài viết cùng chủ đề liên quan

  1. [Thành viên phải đăng kư mới xem được link này. ]
    Sau cuộc phỏng vấn Matt Cutts về trùng lặp nội dung kéo dài khoảng nửa tiếng đồng hồ, rất nhiều ư kiến đă được nêu ra cùng nhiều tranh luận,...
  2. [Thành viên phải đăng kư mới xem được link này. ]
    Nhiều webmaster nghĩ rằng nội dung cuối cùng cũng chẳng có giá trị ǵ trong chỉ mục bổ sung (supplemental index) nhưng giảm số lượng trang trong chỉ mục...
  3. [Thành viên phải đăng kư mới xem được link này. ]
    Trên một số diễn đàn ((Digital Forum : Google PageRank Update : july 2008?)) và Website của nhân viên Google ((Blog Matt Cutts : New Toolbar PageRanks coming)) thông báo...
  4. [Thành viên phải đăng kư mới xem được link này. ]
    Google không thích các nội dung kép. Lư do là Google muốn trong trang kết quả t́m kiếm, mười kết quả đầu tiên sẽ là mười trang khác nhau với...
__________________
chào mừng đến với site của tớ
motorbiking vietnam
Reply With Quote
  #4 (permalink)  
Old 14-08-2008
get2you's Avatar
Moderator
 
Join Date: Jul 2008
Posts: 153
Thanks: 0
Thanked 0 Times in 0 Posts
Default Robots.txt disallows Web Robot, User-agent

Như các bạn đă biết, để đánh chỉ số một trang Web th́ các [Thành viên phải đăng kư mới xem được link này. ] thường gửi các [Thành viên phải đăng kư mới xem được link này. ] tới viếng thăm trang Web cần được chỉ số hóa. Ngoài việc sử dụng thẻ [Thành viên phải đăng kư mới xem được link này. ], th́ bạn có thể ứng dụng một file text đặc biệt đặt tại thư mục gốc của tên miền để điều chỉnh ứng xử của bọ t́m kiếm (trường hợp ứng dụng cho Google xem [Thành viên phải đăng kư mới xem được link này. ]). Bài viết này vietSEO và các bạn sẽ cùng phân tích ứng dụng của file robots.txt này.

Giới thiệu Robots.txt

Như đă viết ở trên, khi đánh chỉ số một trang Web th́ các bọ t́m kiếm sẽ kiểm tra nội dung một tệp tin đặc biệt đặt tại thư mục gốc tên là robots.txt. Tệp tin này chứa hoàn toàn nội dung văn bản text (không phải HTML). Robots.txt được hiểu với nghĩa là “Robots Exclusion Protocol”; nó cho phép người quản trị Web (Webmaster) định ra các thành phần với quyền hạn riêng biệt cho từng bọ t́m kiếm. Nói cách khác thông qua tệp tin này, Webmaster sẽ giao tiếp với bọ t́m kiếm để điều khiển tác vụ của các bọ t́m kiếm nói trên.
Cú pháp trong Robots.txt

Cú pháp dùng trong tệp tin này thường dùng để cấm robots (bọ t́m kiếm) quét các trang mà đường dẫn URL được chỉ ra. Mỗi đoạn văn bản thường gồm có tên của bọ t́m kiếm (user agent hay robot) và đường dẫn mà nó không được quét. Và thường là bạn không thể chỉ định ra thư mục nhất định hay là các loại tệp tin mà bọ t́m kiếm có thể đánh chỉ số. Nên nhớ rằng, ngầm định, các robots có thể truy cập bất kể thư mục nào theo [Thành viên phải đăng kư mới xem được link này. ] không được cấm trong tệp tin robots.txt. Tất cả mọi tài nguyên không bị cấm th́ đều có thể được truy cập.
Bạn có thể hiển thị file robots.txt chỉ đơn giản bằng tŕnh duyệt ( [Thành viên phải đăng kư mới xem được link này. ] ). Bạn sẽ thấy một tệp tin định dạng text, rất dễ hiểu.
Xin nói thêm rằng Google gần đây có hỗ trợ cú pháp Sitemap trong robots.txt cho phép chỉ định sơ đồ Web ([Thành viên phải đăng kư mới xem được link này. ]) trong robots.txt
Ví dụ phần cú pháp Sitemap được chỉ định trong fie robots.txt trên vietSEO như sau :
[source:html]
#BEGIN XML-SITEMAP-PLUGIN
Sitemap: [Thành viên phải đăng kư mới xem được link này. ]
#END XML-SITEMAP-PLUGIN
[/source]
Ứng dụng robots.txt

Đây là toàn bộ tài liệu liên quan tới [Thành viên phải đăng kư mới xem được link này. ], mà theo lư thuyết th́ tất cả các robots đề phải tuân theo các chỉ định trong file robots.txt.
Sử dụng file robots.txt Cú pháp Ghi chú cho Webmaster User-agent: *
Disallow: Dấu (*) có nghĩa là áp dụng cho mọi robots. Nhưng v́ không có tài nguyên nào bị cấm nên thành ra tất cả mọi thư mục đề được cho phép. User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/ Tất cả mọi robots đều có quyền truy cập tất cả các thư mục trừ ba thư mục được trích dẫn phía sau. User-agent: SpamBot
Disallow: / Trường hợp này robot SpamBot bị cấm truy cập tất cả thư mục. Dấu gạch chéo “/” có nghĩa là tất cả các thư mục.User-Agent có thể là kư tự đơn và các robots không phần biệt chữ hoa và chữ thường. User-agent: SpamBot
Disallow: /

User-agent: *
Disallow: /private/
Để bắt đầu chỉ định mới th́ bạn hăy đặt một ḍng trắng. SpamBot bị cấm truy cập tất cả tài nguyên. Trong khi các robots khác được được truy cập tất cả trừ thư mục “private”. User-agent: SpamBot
Disallow: /tmp/
Disallow: /private/
Disallow: /tailieu/canhan.html

User-agent: *
Disallow: /tmp/
Disallow: /private/
Không cho phép SpamBot ḍ các thư mục được liệt kê phía sau : thư mục “tmp”, “private” và tệp tin “canhan.html” trong thư mục “tailieu”.
Các bọ t́m kiếm các được ḍ mọi thứ trừ hai thư mục “tmp” và “private”. Sử dụng sai - Phản ví dụ Các cách dùng sai syntax và file robots.txt
User-agent: *
Disallow /
KHÔNG ! Đây là cách dùng sai v́ thiếu dấu hai chấm “:” sau disallow. User-agent: *
Disallow: *
KHÔNG ! Nếu muốn cấm toàn bộ mọi thứ th́ hăy sử dụng kư tự gạch ngang “/” (chỉ định thư mục gốc) User-agent: sidewiner
Disallow: /tmp/
KHÔNG ! Robots sẽ bỏ qua các tên sai của User Agent. Hăy xem file logs trên server hoặc xem thêm danh sách [Thành viên phải đăng kư mới xem được link này. ][Thành viên phải đăng kư mới xem được link này. ] User-agent: *
Disallow: /tmp/

User-agent: SpamBot
Disallow: /tailieu/canhan.html
Disallow: /tmp/
KHÔNG ! Robots đọc theo thứ tự từ trên xuống dưới và nó sẽ dùng lại khi t́m thấy phần văn bản liên quan tới nó. Bởi vậy “SpamBot” sẽ dừng ngay tại bảng ghi đầu tiên với dấu sao “*” mà không cần đến bảng ghi tiếp theo dành riêng cho nó. Ngoài ra, bạn có thể ưng dụng file robots.txt trong việc ngăn ngừa phần nào các robots có hại, mang tính chất spam, email extractor hay nhằm giảm [Thành viên phải đăng kư mới xem được link này. ], loại bỏ đường dẫn URL đă bị đánh chỉ số. Chúng ta sẽ trở lại vấn đề này trong các bài viết với từng chủ đề liên quan.
Danh sách User Agent Names

Các User Agent của Google

Google thường sử dụng vài User Agent cho từng dịch vụ riêng của ḿnh. Bạn có thể chỉ định từng ḍng User Agent riêng rẽ. Trong trường hợp bạn chặn (disallow) Googlebot thị bạn sẽ chặn tất cả các User Agent bắt đầu bằng “Goooglebot”
  • Googlebot: Đánh chỉ số các trang Web và cập nhật các trang mới trong cơ sở dữ liệ của Google
  • Googlebot-Mobile: Đánh chỉ số các trang cho dịch vụ mobile (các thiết bị di động, cầm tay)
  • Googlebot-Image: Đánh chỉ số các trang cho t́m kiếm file ảnh.
  • Mediapartners-Google: Đánh chỉ số trang để xác định nội dung cho Google [Thành viên phải đăng kư mới xem được link này. ]. Bọ t́m kiếm này chỉ xuất hiện trên các trang sử dụng dịch vụ quảng cáo trực tuêysn Google Adsense.
  • Adsbot-Google: Đánh chỉ số các trang để xác định chất lượng của các trang AdWords. Bọ này chỉ được sử dụng nếu trang của bạn sử dụng dịch vụ quảng cáo Adwords dành cho các nhà quảng cáo sản phẩm dịch vụ của họ..
Các User Agent khác

Đây là một số danh sách các User-Agent mà bạn có thể tham khảo như đă viết ở trên :
  1. [Thành viên phải đăng kư mới xem được link này. ] : Chứa ṭan bộ các robots active;
  2. [Thành viên phải đăng kư mới xem được link này. ] : Danh sách chứa tât cả máy t́m kiếm, bọ t́m kiếm và thông tin về đường dẫn, cập nhập.
__________________
chào mừng đến với site của tớ
motorbiking vietnam
Reply With Quote
Reply

Thread Tools
Display Modes

Posting Rules
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is On
Smilies are On
[IMG] code is On
HTML code is Off
Trackbacks are On
Pingbacks are On
Refbacks are On

Forum Jump


All times are GMT +8. The time now is 08:56 PM.


© Diễn đàn HackingArt (HA) được xây dựng và phát triển bởi các thành viên.
+ Diễn đàn HackingArt là nơi trao đổi của các webmaster chuyên nghiệp.

Search Engine Friendly URLs by vBSEO 3.2.0