619 Views

File robots SEO

SEO cơ bản 22/07/2019 Không có phản hồi

Robots.txt là gì? Cách tạo file Robots chuẩn SEO

Robots.txt là một trong những file quan trọng nhất với một web chuẩn SEO. Việt thiết lập file này ảnh hưởng trực tiếp tới quá trình SEO. Cùng tìm hiểu về Robots và cách thiết lập quy chuẩn

Tóm tắt nội dung

Robots.txt là gì

Robots.txt là file văn bản lưu trữ text đơn giản có định dạng đuôi .txt, chứa thông tin câu lệnh: cho phép hoặc cấm các bọ tìm kiếm index trang web. Robots.txt được upload trực tiếp lên Files của tên miền gốc.

Mỗi một Tên miền chỉ có 1 file Robots.txt duy nhất, có dạng: tenmien.vn/robots.txt và tên file này là cố định, tên nó phải là: robots.txt chứ không thể là: robot.txt hay robotxyz.txt – hãy nhớ điều này.

Trước hết, hãy xem file Robots của web kinh điển: google.com/robots.txt – đúng, cái bạn đang thấy là file Robots của Google đấy! Còn đây là của chúng tôi, đơn giản hơn nhiều: seomax.net/robots.txt bạn có rút ra được điều gì không? Nếu hiểu rồi thì tốt, không hãy xem phần sau nhé.

File Robots.txt gồm các dòng text đơn giản như sau:

User-agent: *
Disallow: /url-khong-index/
Disallow: /nhieu-url-khong-index/*
Allow: /url-index/
Allow: /nhom-url-index/*

Sitemap: https://tenmien.vn/sitemap.xml

User-agent: *

Disallow: /url-khong-index/

Disallow: /nhieu-url-khong-index/*

Allow: /url-index/

Allow: /nhom-url-index/*

Sitemap: https://tenmien.vn/sitemap.xml

Trong đó ta chỉ cần quan tâm câu 4 lệnh:

User-agent: Cho phép các bọ tìm kiếm index nội dung trang web.
Disallow: KHÔNG cho phép đánh chỉ mục URL, nhóm URL này
Allow: Cho phép Google đánh chỉ mục, Crawl nội dung URL này (tác dụng với Googlebot)
Sitemap: Sơ đồ trang web chính thức (tác dụng với bot của Google, Ask, Bing và Yahoo)
Dấu * sau User-agent: Lệnh chung áp dụng cho tất cả các bot (Google, Cốc Cốc, Bing,…)
Dấu * sau Allow/Disallow: nhóm url khác nhau sau dấu gạch chéo /nhu-nhau/khac-nhau

Xem thêm: Robots.txt quy chuẩn của Google

Robots trong SEO

Robots.txt là file quan trọng nhất với một website để xét tiêu chuẩn đủ điều kiện SEO hay không. Chưa cần biết web bạn có nội dung gì, tối ưu chuẩn SEO đến đâu mà Robots sai thì đời kiếp này đừng mong Google yêu.

Đã là SEOer điều bắt buộc phải biết: Tạo file robots, đọc tệp robots và sửa file robots chuẩn SEO.

Vai trò file Robots.txt

Điều hướng bot tìm kiếm đánh chỉ mục một trang web
Hướng dẫn SES thông tin được chia sẻ của trang web
Ngăn chặn một URL xuất hiện trên trang tìm kiếm (Google, Bing,…)
Xóa bỏ toàn bộ kết quả SEO của một website đã top
Chỉ dẫn bọ tìm kiếm đến Sitemap chính thống web đang dùng

Robots có điểm hay ở chỗ: lệnh đúng thì thực hiện, lệnh sai thì nó bỏ qua và mặc định lệnh sai đó tức là vẫn index. Bạn gõ sai lệnh không quan trọng, nhưng lệnh đúng mà URL sai thì xong luôn đấy!

Robots.txt & Meta robots

Cần phân biệt được Tệp Robots.txt và Thẻ Meta Robots tag vì đây là vấn đề sống còn trong SEO. Hiểu và áp dụng đúng thì SEO tốt, áp dụng sai nên viết đơn nghỉ việc và chuẩn bị tiền đền bù c.ty 🙂

#1. File Robots

File Robots.txt có ảnh hưởng tới toàn bộ website, lệnh thực thi trong file này có tác dụng với toàn bộ trang web.

User-agent: *
Allow: /
Disallow: /

User-agent: *

Allow: /

Disallow: /

#2. Meta Robots

Thẻ Meta Robots tag chỉ có ảnh hưởng tới 1 URL duy nhất trong web. VD bạn không muốn Google index nội dung đã cũ, hoặc trang 404 Error thì dùng thẻ meta tag này.

<meta name="robots" content="noindex,follow"/>

1	<meta name="robots" content="noindex,follow"/>

Các tay SEO gà mờ không nên sờ đến và chỉnh sửa 2 loại lệnh này, báo coder kiểm tra nếu có nghi ngờ nhé. Xin nhắc lại, dùng sai 1 trong 2 loại Robots trên bạn đều tự tay xóa xổ mình khỏi Google – đừng dại.

Dùng Robots như thế nào

Các web chuẩn SEO bắt buộc có file này, hãy tạo robots.txt rồi upload trực tiếp Files mã nguồn tên miền gốc. Tức là nó nằm trực tiếp trong Folder gốc của web, trong Hosting. VD như dùng Cpanel quản trị files, bạn sẽ thấy robots như thế này:

Upload Robots.txt — Upload file Robots.txt trong Cpanel

Nếu không rành, hãy nhờ người code web upload lên thay bạn, đừng làm sai bất kỳ bước nào với file này. Dùng file Robots nên cẩn trọng, sử dụng nó trong các trường hợp như sau:

Muốn chặn không cho các bot index nội dung thừa, web bí mật
Chặn nội dung không cần thiết index như trang quản trị /wp-admin/
Chặn các thông số thừa trong URL mà web tự tạo, VD: Disallow: /?orderby=*
Đưa ra sơ đồ trang web định dạng XML chuẩn cho bot crawl

Nó nguy hiểm vậy liệu Website cần file Robots này không? xin thưa là CÓ! Rất cần.

Cách tạo Robots.txt

Tạo tệp robot.txt rất đơn giản, bạn chỉ cần thao tác theo các bước sau

Bước 1: Mở ứng dụng Notepad trong Windows, hoặc tạo tệp .txt online ở ĐÂY -> lưu về máy
Bước 2: Điền thông tin, câu lệnh cho file robots.txt. Xem: hướng dẫn Robots chuẩn của Google
Bước 3: Upload tệp robots.txt vào thư mục gốc của Tên miền – trong hosting.

Quy tắc chung: Đây là file robots đơn giản nhất, tùy vào mỗi web để bạn thiết lập. Các câu lệnh như đã nói ở phần File Robots là gì. Tạo file có nội dung như sau rồi lưu lại định dạng .txt

User-agent: *
Disallow: /url-admin/

Sitemap: https://tenmien.vn/sitemap.xml

User-agent: *

Disallow: /url-admin/

Sitemap: https://tenmien.vn/sitemap.xml

Lưu ý: Một số bạn hay để thêm lệnh Allow: / trong file robots – Điều này là KHÔNG cần thiết. Cứ không có Disallow: thì tức là đã tự động Allow: rồi.

Allow và Disallow cùng nhau

Các bọ tìm kiếm hiểu và cho phép bạn chặn index URL mẹ nhưng vẫn có thể index URL con. Trường hợp này thường dùng cho việc chặn Danh mục bí mật nào đó, nhưng lại muốn bot crawl một vài link.

Xem ví dụ tệp robots sau:

User-agent: *
Disallow: /phim-18/
Allow: /phim-18/tram-anh.html

User-agent: *

Disallow: /phim-18/

Allow: /phim-18/tram-anh.html

Có nghĩa là: không index toàn bộ mục /phim-18/nhưng lại cho phép index 1 url /phim-18/tram-anh.html

Kiểm tra file Robots.txt

Cách kiểm tra tệp robots đã hoạt động hay chưa rất đơn giản, chỉ cần vào đường dẫn cố định xem có nội dung chưa là được: https://tenmien.vn/robots.txt

Lưu ý: Thay tenmien.vn bằng Domain của bạn nhé. VD của mình là https://seomax.net/robots.txt

Kiểm tra thủ công thì như trên, còn với một SEOer cần phải check kỹ trong Search Console xem hoạt động của lệnh robots này như thế nào, có chặn nhầm URL nào không? Hướng dẫn kiểm tra robots của Google

Kiểm tra robots trong Search Console – Kết quả OK

Sau khi hoàn thiện một website, muốn Google sớm index nội dung bạn cần tạo file Robots.txt. Sau khi upload lên host thì kiểm tra thật kỹ: Đầu tiên là bằng mắt thường, sau đó là vào Search Console để test kỹ – mất thời gian cũng được nhưng đừng sai lầm file này!

Robots.txt cho WordPress

WordPress có rất nhiều cách tạo robots.txt mà không cần can thiệp trực tiếp vào hosting. Có thể dùng Yoast SEO hoặc cài Plugin Virtual Robots.txt chỉ với 1 click là xong.

Mẫu file robots.txt cho WP cơ bản có Yoast SEO

User-agent: *
Disallow: /wp-admin/
Disallow: /*?*p=
Disallow: /*?*ver=
Allow: /wp-admin/admin-ajax.php

Sitemap: https://tenmien/sitemap_index.xml

User-agent: *

Disallow: /wp-admin/

Disallow: /*?*p=

Disallow: /*?*ver=

Allow: /wp-admin/admin-ajax.php

Sitemap: https://tenmien/sitemap_index.xml

Mẫu file robots.txt cho WP có Woocommerce

User-agent: *
Disallow: /wp-admin/
Disallow: /cart/
Disallow: /my-account/
Disallow: /wishlist/
Disallow: /order-tracking/
Disallow: /checkout/
Disallow: /*?*filter_ten-bo-loc=
Disallow: /*?*min_price=
Disallow: /*?*max_price=
Disallow: /*?*orderby=
Allow: /wp-admin/admin-ajax.php

Sitemap: https://tenmien.vn/sitemap_index.xml

User-agent: *

Disallow: /wp-admin/

Disallow: /cart/

Disallow: /my-account/

Disallow: /wishlist/

Disallow: /order-tracking/

Disallow: /checkout/

Disallow: /*?*filter_ten-bo-loc=

Disallow: /*?*min_price=

Disallow: /*?*max_price=

Disallow: /*?*orderby=

Allow: /wp-admin/admin-ajax.php

Sitemap: https://tenmien.vn/sitemap_index.xml

Phần /*?*filter_ten-bo-loc= là Thuộc tính sản phẩm của Woo (Products Attributes filter) – nên chặn index phần này. Tùy mỗi web mà ứng dụng linh hoạt, nhớ đừng chặn nhầm URL cần SEO đấy!

Lưu ý: Tạo SP có thuộc tính trong Woo phát sinh URL có thêm /?filter_, Ví dụ: /?filter_chon-mau-sac= mà Google vẫn index link. Nếu có thẻ Canonical rồi không sao, nếu không có thì đúng là thảm họa SEO. Tốt nhất, nên dùng Robots.txt chặn link phát sinh của phần lọc thuộc tính này lại.

Mẫu tệp robots.txt với Mythemeshop + Woo

Mythemeshop cung cấp các loại theme WP chuẩn SEO nhất hiện nay, nhưng họ dính 1 lỗi nhỏ trong phần giỏ hàng: Tự tạo URL riêng cho mỗi lần đặt hàng?? Không hiểu vì sao luôn?? Vậy nên nếu sử dụng Mythemeshop + Woo cần thêm dòng sau vào file Robot (còn lại các lệnh như phần WP + Woo trên)

Disallow: /*?*add-to-cart=

1	Disallow: /?add-to-cart=

mythemeshop — Mythemeshop với Woo cần lưu ý file Robots.txt nhé

Lưu ý quan trọng

Bất kỳ quy tắc nào trong robots.txt là chỉ thị. Điều này có nghĩa: Công cụ tìm kiếm phải tuân theo và thực hiện đúng các lệnh bạn đã đưa vào. Chỉ nên dùng 3 lệnh: User-agent: * Disallow: và Allow:

Việc thực thi tệp robots.txt và Meta robots tag có thể diễn ra đồng thời, nhưng bot SES chỉ thực hiện lệnh trong Meta robots khi mà KHÔNG có trong robots.txt. Nếu có đồng thời lệnh như nhau thì các bot chỉ thực thi lệnh từ robots.txt (bỏ qua thẻ tag meta name=”robots”)

Câu hỏi thường gặp

Nếu web không có file robots? Thì bọ tìm kiếm sẽ đánh chỉ mục, thu thập dữ liệu toàn bộ 100% nội dung trang web (không có robots tức là Allow: toàn bộ)

Nếu robots bị sai câu lệnh, câu lệnh không có nghĩa? Thì cũng như trên, bọ tìm kiếm vẫn sẽ hiểu câu lệnh SAI tức là Allow:

Nếu robots có dòng Disallow: / thì có sao không? Cần xóa ngay dòng này, đây có nghĩa là: Chặn toàn bộ, không index trang web. Nếu đang Top mà bị thêm dòng này, web bay hết khỏi Google luôn!

Kết luận

Robots.txt là một trong những kiến thức SEO cơ bản mà bạn cần nắm rõ, thực thi đúng. Vì đây là cốt lõi của trang web với mỗi bọ tìm kiếm. Ứng dụng file này thật linh hoạt để chặn những gì không cần thiết trên web. Nhắc đi nhắc lại rằng file này vô cùng quan trọng, nếu vô tình làm sai thì sửa lại ngay còn kịp.

Cần hỗ trợ gì comment bên dưới nhé.

— SEO Max

5/5 - (21 bình chọn)

Like Love Haha Wow Sad Angry

1041

SEO MAX

Về cơ bản thì đời khá vui và không có gì đặc biệt. Thủa hàn vi thì đọc sách làm thơ, khi chấp bút thì thích ngao du thiên hạ, ngắm nhân gian. Đam mê rất nhiều thứ, gì cũng thích làm.

Trả lời Hủy

This post is trending.

Khái niệm seo

SEO là gì? Làm gì khi mới bắt đầu nghề SEO

Bạn có một website? làm thế nào để người dùng tìm thấy và truy cập web bạn từ Google? Làm sao để tăng view, tăng doanh số bán hàng? Câu trả lời là: Bạn cần SEO.

Google

SEO cơ bản: 5 bước SEO lên top Google siêu nhanh

SEO cơ bản là cơ sở kiến thức cho người mới vào nghề SEO, các bước SEO từ đơn giản nhất để thực hiện cho web bạn tiếp cận Google theo đường thẳng, dễ lêp top sau này. 5 bước SEO lên top Google nhanh

This post is trending.

Viết tiêu đề Title và mô tả Description chuẩn SEO

Tiêu đề và mô tả là những thẻ sống còn trong SEO, từ khi nghề này ra đời đến mãi sau này đã và vẫn sẽ như vậy. Vậy viết các thẻ tiêu đề, mô tả ngắn như thế nào chuẩn SEO nhất với web bán hàng?

This post is popular.

Black hat SEO là gì? SEO mũ đen như thế nào

Black hat SEO được nhiều người nhắc tới, đồn đại những thông tin khiến nó trở thành một trong những phương pháp SEO nhanh thần thánh. Cùng tìm hiểu xem nó là gì nào?

This post is trending.

Google

Các hình phạt của Google với web SEO quá đà

Các hình phạt của Google thì nhiều vô kể, hiện nay Google update các thuật toán liên tục chứ không chỉ 2 lần/năm như trước. Làm sao để hiểu và tránh mắc phải những hình phạt này?

Canonical

Canonical là gì? Cách dùng cho giao diện mobile

rel=”canonical” là một trong những thẻ hỗ trợ SEO quan trọng nhất cho website. Sử dụng canonical đúng giúp SEO tốt, còn sử dụng sai thì hậu quả khôn lường, rất khó khắc phục.

Nội dung hay

SEO cơ bản 06/12/2018

Viết tiêu đề Title và mô tả Description chuẩn SEO

13 Bình luận

Công cụ SEO, SEO cơ bản, Web 13/05/2019

Youtube SEO: Cách đưa video lên top 1 tìm kiếm

YouTube SEO nhanh nhất và cách đưa video lên top 1 tìm kiếm là mong muốn của nhiều Youtuber. SEO YouTube Video với thủ thuật tăng Sub, Like, View, Comment tương tác thật.

1 phản hồi

SEO, SEO cơ bản 10/12/2018

SEO là gì? Làm gì khi mới bắt đầu nghề SEO

8 Bình luận

SEO cơ bản 24/07/2019

Sitemap xml là gì? Tạo sitemap chuẩn SEO cho web

XML Sitemap là một trong những tệp tin quan trọng nhất đối với một web chuẩn SEO. Sơ đồ trang web không giúp tăng thứ hạng SEO nhưng giúp bot crawl tốt hơn. Vậy nó là gì?

3 Bình luận

SEO cơ bản 14/04/2018

Internal link là gì? External link là gì? tác dụng SEO

Xây dựng liên kết chuẩn SEO không hề đơn giản như chúng ta nghĩ, tất cả đều có quy tắc và mục đích chung cuối cùng là: Cung cấp cho […]

10 Bình luận

SEO cơ bản 21/03/2019

SEO cơ bản: 5 bước SEO lên top Google siêu nhanh

4 Bình luận

Robots.txt là gì? Cách tạo file Robots chuẩn SEO

Robots.txt là gì

Robots trong SEO

Vai trò file Robots.txt

Robots.txt & Meta robots

#1. File Robots

#2. Meta Robots

Dùng Robots như thế nào

Cách tạo Robots.txt

Allow và Disallow cùng nhau

Kiểm tra file Robots.txt

Robots.txt cho WordPress

Mẫu file robots.txt cho WP cơ bản có Yoast SEO

Mẫu file robots.txt cho WP có Woocommerce

Mẫu tệp robots.txt với Mythemeshop + Woo

Lưu ý quan trọng

Câu hỏi thường gặp

Kết luận

NHẬN TIN BÀI MỚI

Thành công! Xin cảm ơn.

Trả lời Hủy

NHẬN TIN MỚI

NHẬN TIN BÀI MỚI

Thành công! Xin cảm ơn.