File robots.txt là gì? Tác dụng & lưu ý về robots.txt khi làm SEO

5.00 star(s) 1 Vote

tranngocthuy

Administrator
Staff member
VIP LAT
File robots.txt là 1 file (tệp) dạng text được quản trị viên tạo ra nằm tại thư mục gốc của trang web, nhằm thông báo những phần thuộc trang web của bạn không muốn cấp quyền truy cập cho trình thu thập dữ liệu của công cụ tìm kiếm.

Giao thức Robots Exclusion Protocol (REP) là 1 chuẩn chung được thế giới công nhận và những con Bot của các công cụ (trình) thu thập dữ liệu web đều phải tuân thủ.

Trong một vài trường hợp ngoại lệ bạn sử dụng file robots.txt để chặn nhưng vẫn có những loại bot spam hoặc người dùng submit (hoặc có liên kết tới link bạn chặn) tới các công cụ thu thập đó.

Cú pháp của file robots.txt
User-agent: [Đây là tên của robot được áp dụng quy tắc sau]
Disallow: [Đây là đường dẫn URL mà bạn muốn chặn]
Allow: [Đây là đường dẫn URL trong một thư mục con, trong một thư mục gốc bị chặn, mà bạn muốn bỏ chặn]

Bạn có thể copy file, tham khảo file demo thay link sitemap của tôi bằng của bạn.

Một vài trường hợp các lệnh trong file robotx.txt chống lại nhau, các bạn nên đặt mật khẩu cho thư mục đó hoặc dùng thẻ meta <head>…</head>

Để chặn hầu hết các bot thì dùng:

<meta name="robots" content="noindex">
Để chặn chỉ trình thu thập dữ liệu web Google lập chỉ mục trang:

<meta name="googlebot" content="noindex">
Để hiểu hết về cấu trúc và nguyên lý của nó cũng khá phức tạp, khi bạn đã add website của mình vào Search Console thì có thể kiểm tra bằng cách:

Truy cập Search Console –> Thu thập dữ liệu -> Bộ kiểm tra robots.txt

Tác dụng và những lưu ý khi làm SEO
Như chúng ta đã biết ở trên thì file robots.txt nhằm phân quyền cho các bot được quyền truy cập và lập chỉ mục các thư mục, url nào trên website của bạn.

Robots.txt là một yếu tố xếp hạng website theo mình nên cần thiết có và bên cạnh đó thì còn tác dụng:

  1. Nhằm hạn chế quá tải của máy chủ khi bot Google và các loại bot thu thập dữ liệu, hãy xác định chỉ những url, thư mực nào cần thiết thì cấp quyền.
  2. Nếu không muốn 1 url hay thư mục nào lập chỉ mục trên các công cụ tìm kiếm tốt nhất là đặt password hoặc dùng thẻ meta noindex.
  3. Nhằm hạn chế 1 số công cụ SEO check backlink, công cụ phân tích website tự động tránh đối thủ dòm ngó nên chặn bot của chúng (tham khảo file demo).
 
Last edited:

olalavui

Simple - Effective
Con bots nào k chặn nổi = robots.txt thì redirect thẳng e nó về landing page chuyên trị chờ đón bots :D bổ sung thế cho đủ a :D
 
Uầy, cái file demo có nhiều mục thật. Của em có hơn 10 dòng à :D Em phải ngâm cứu cái file trên tranngocthuy.com của bác để bắt chước thôi.
 
Em đã bảo rồi, File Robots.txt nên để nội dung là:
User-agent: *
Disallow: /
SEO bảo đảm không sợ google luôn.
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php của em như vậy thì ảnh hưởng gì không anh?