Chưa được phân loại

File Robots.txt là gì? 3 Cách đơn giản giúp tạo Robots.txt cho WordPress

Bạn đã bao giờ tự đặt câu hỏi làm sao mà một Robot của Google có thể phân tích dữ liệu của một Website để Index (chỉ mục) không? Đôi lúc bạn muốn Google Bot nhanh chóng Index trang Web của bạn hoặc không Index (chỉ mục) một trang cụ thể nào đó. Vậy làm thế nào bây giờ?  VIDCOMEDIA có thể trả lời ngay cho bạn – Cách tạo File robots.txt là gì cho WordPress ngay.

File Robots.txt là gì?

File robots.txt là tên của một tập tin văn bản đơn giản có dạng .txt. Tệp này là một phần của (REP) chứa một nhóm các tiêu chuẩn về Web cũng như quy định cách Robot Web (hoặc Robot của các công cụ tìm kiếm) thu thập dữ liệu trên các trang Web, truy cập, Index nội dung và cung cấp những nội dung đó đến với người dùng.

file-robots-txt-la-gi
File Robots.txt là gì?

REP cũng tổng hợp các lệnh như Meta Robots, Page-Subdirectory, Site-Wide Instructions. Nó hướng dẫn các công cụ của Google xử lí các liên kết. (ví dụ: Follow hay Nofollow link).

Trên thực tế, việc tạo robots.txt wordpress sẽ giúp cho các nhà quản trị Web linh hoạt và chủ động hơn trong việc quản lý và cho phép con Bot của công cụ Google Index sao chép một số phần nào đó trong trang của mình.

Cú pháp của File Robots.txt là gì?

Có thể bạn quan tâm: SEO là gì? 6 Hình thức SEO phổ biến nhất 2021 là gi

Những cú pháp được ví như những ngôn ngữ riêng của các tập tin robots.txt. Có tất cả năm thuật ngữ mà bạn sẽ bắt gặp trong một file robots.txt chúng bao gồm:

  • User-agent: Phần này là hay còn gọi là tên của các trình thu thập hay truy cập dữ liệu web. (ví dụ: Googlebot, Bingbot,…)
  • Disallow: Sẽ được sử dụng để thông báo cho user-agent không được phép thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL sẽ chỉ được sử dụng duy nhất một dòng disallow.
  • Allow (chỉ áp dụng cho tìm kiếm Googlebot): Với lệnh thự hiện trên sẽ thông báo cho Googlebot rằng nó sẽ được quyền truy cập vào một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con đó không được người dùng cho phép.
  • Crawl-delay: Thông báo cho các web crawler biết rằng nó sẽ phải chờ đợi bao nhiêu giây trước khi bắt đầu tải và thu thập nội dung của trang. Tuy nhiên, một lưu ý nhỏ rằng bọ tìm kiếm Googlebot không thừa nhận lệnh này. Bạn hoàn toàn có thể cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
  • Sitemap: Được sử dụng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với các URL này. Lưu ý lệnh này sẽ chỉ được hỗ trợ bởi các công cụ như Google, Ask, Bing và Yahoo.

Pattern-Matching

Trên thực tế các file robot.txt wordpress khá là khó để có thể ngăn chặn hoặc cho phép các con Bots vì chúng được cho phép sử dụng tính năng Pattern-Matching để bao quát toàn bộ cá tùy chọn của URL

Tất cả các công cụ của Google và Bing đều cho phép sử dụng 2 biểu thức chính để xác định các trang hoặc các thư mục con mà SEO muốn loại trừ. Hai kí tự này là dấu hoa thị (*) và ký hiệu đô la ($).

  • *Dấu hoa thị là kí tự đại diện cho một chuỗi các kỹ tự nào đó – có nghĩa là nó được áp dụng cho mọi loại Bots của các công cụ Google.
  • $ là kí tự khớp với phần cuối của URL.

Có thể bạn quan tâm: Hướng Dẫn Cách Viết Content Marketing Chuẩn SEO 2021

Cách tạo Robots.txt cho WordPress

Nếu sau khi bạn kiểm tra, bạn nhận ra Website của mình không có bất kỳ tệp robots.txt hay đơn giản là bạn chỉ đang muốn thay đổi tệp robots.txt của mình. Hãy tham khảo 3 cách đơn giản giúp tạo robots.txt cho WordPress dưới đây:

1. Sử dụng Yoast SEO

Bạn có thể chỉnh sửa hoặc tạo File robots.txt là gì cho WordPress trên chính WordPress Dashboard với vài thao tác đơn giản sau đây. Bước đầu tiên bạn đăng nhập vào Website của bạn. Sau khi đã đăng nhập vào, bạn sẽ thấy giao diện của trang Dashboard.

Nhìn phía bên trái màn hình, click vào SEO »Tools »File editor.

file-robots-txt-la-gi
Sử dụng Yoast SEO
Sử dụng Yoast SEO

Tính năng File editor sẽ không thể xuất hiện trên WordPress của bạn nếu nó vẫn chưa được kích hoạt. Do vậy bạn hãy kích hoạt nó thông qua FTP (File Transfer Protocol – Giao thức truyền tập tin). Lúc này bạn sẽ nhìn thấy mục .htaccess file và một nút Create robots.txt file – đây là nơi sẽ giúp bạn tạo File robots.txt đấy.

Có thể bạn quan tâm: Làm sao để SEO Fanpage lên top Facebook

2. Qua bộ Plugin All in One SEO

Hoặc bạn có thể sử dụng bộ Plugin All in One SEO để tạo các file robots.txt WordPress nhanh chóng. Đây cũng là một Plugin rất tiện ích cho WordPress – Đơn giản và vô cùng dễ sử dụng.

Để có thể tạo được các file robots.txt WordPress, bạn hãy chuyển đến giao diện chính của Plugin All in One SEO Pack. Chọn All in One SEO » Features Manager » Nhấp Active cho mục robots.txt

file-robots-txt-la-gi
Qua bộ Plugin All in One SEO

Lúc này, trên giao diện sẽ xuất hiện nhiều tính năng thú vị:

file-robots-txt-la-gi
Qua bộ Plugin All in One SEO

Và khi đó, bạn chọn mục robots.txt sẽ xuất hiện như một tab mới trong thư mục lớn All in One SEO. Bạn có thể tạo lập cũng như điều chỉnh các file robots.txt WordPress tại đây. Tuy nhiên, bộ plugin này có một chút khác biệt so với bộ Yoast SEO tôi nói tới ở trên.

All in One SEO sẽ làm mờ đi những thông tin của File robots.txt thay vì bạn giúp bạn chỉnh sửa File như công cụ Yoast SEO. Điều này có thể khiến sẽ bạn hơi bị động một chút khi chỉnh sửa File robots.txt WordPress. Tuy nhiên, khi nhìn vào mặt tích cực mà nói, yếu tố trên sẽ giúp bạn hạn chế được tối đa thiệt hại cho website của mình. Đặc biệt có một số Malware bots sẽ gây hại cho Website mà bạn không ngờ tới.

3. Tạo rồi Upload File Robots.txt WordPress qua FTP

Nếu bạn không muốn dụng Plugin để tạo ra các File robot.txt WordPress thì tôi sẽ vẫn còn một cách để giúp bạn đó là: Bạn tự tạo File robots.txt WordPress thủ công cho riêng WordPress của mình.

Bạn sẽ chỉ mất có vài phút có thể tạo File robots.txt WordPress này bằng tay. Sau đó Upload file này qua FTP không cần sử dụng Plugin. Quá trình này rất đơn giản không tốn bạn quá nhiều thời gian đâu.

Cảm ơn bạn đã đọc hết bài viết trên của VIDCOMEDIA mọi ý kiến và thắc mắc vui lòng để lại dưới phần Comment.

Author

nguyendaihai

Leave a comment

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *