Cách chặn trang web lập chỉ mục trong robots.txt: hướng dẫn và đề xuất

Mục lục:

Cách chặn trang web lập chỉ mục trong robots.txt: hướng dẫn và đề xuất
Cách chặn trang web lập chỉ mục trong robots.txt: hướng dẫn và đề xuất
Anonim

Công việc của một trình tối ưu hóa SEO có quy mô rất lớn. Người mới bắt đầu nên viết ra thuật toán tối ưu hóa để không bỏ lỡ bất kỳ bước nào. Nếu không, chương trình khuyến mãi sẽ khó được gọi là thành công, vì trang web sẽ liên tục gặp lỗi và lỗi sẽ phải sửa trong thời gian dài.

Một trong những bước tối ưu hóa đang làm việc với tệp robots.txt. Mọi tài nguyên nên có tài liệu này, vì nếu không có tài liệu này, việc tối ưu hóa sẽ khó khăn hơn. Nó thực hiện nhiều chức năng mà bạn sẽ phải hiểu.

Trợ lý Robot

Tệp robots.txt là một tài liệu văn bản thuần túy có thể được xem trong Notepad tiêu chuẩn của hệ thống. Khi tạo nó, bạn phải đặt mã hóa thành UTF-8 để nó có thể được đọc chính xác. Tệp hoạt động với các giao thức http, https và FTP.

Tài liệu này là một trợ lý cho rô bốt tìm kiếm. Trong trường hợp bạn không biết, mọi hệ thống đều sử dụng "trình thu thập dữ liệu" thu thập dữ liệu nhanh chóng trên World Wide Web để trả về các trang web có liên quan cho các truy vấn.người dùng. Các rô bốt này phải có quyền truy cập vào dữ liệu tài nguyên, robots.txt hoạt động cho việc này.

Để nhện tìm đường, bạn cần gửi tài liệu robots.txt đến thư mục gốc. Để kiểm tra xem trang web có tệp này hay không, hãy nhập “https://site.com.ua/robots.txt” vào thanh địa chỉ của trình duyệt. Thay vì "site.com.ua", bạn cần nhập tài nguyên bạn cần.

Làm việc với robots.txt
Làm việc với robots.txt

Chức năng tài liệu

Tệp robots.txt cung cấp cho trình thu thập thông tin một số loại thông tin. Nó có thể cấp quyền truy cập một phần để "con nhện" quét các phần tử cụ thể của tài nguyên. Toàn quyền truy cập cho phép bạn kiểm tra tất cả các trang có sẵn. Lệnh cấm hoàn toàn ngăn không cho rô bốt bắt đầu kiểm tra và chúng rời khỏi trang web.

Sau khi truy cập tài nguyên, "người nhện" nhận được phản hồi thích hợp cho yêu cầu. Có thể có một vài trong số chúng, tất cả phụ thuộc vào thông tin trong robots.txt. Ví dụ: nếu quá trình quét thành công, rô bốt sẽ nhận được mã 2xx.

Có lẽ trang web đã được chuyển hướng từ trang này sang trang khác. Trong trường hợp này, robot nhận mã 3xx. Nếu mã này xảy ra nhiều lần, thì con nhện sẽ theo dõi nó cho đến khi nó nhận được một phản hồi khác. Mặc dù, theo quy định, anh ta chỉ sử dụng 5 lần thử. Nếu không, lỗi 404 phổ biến sẽ xuất hiện.

Nếu câu trả lời là 4xx, thì rô bốt được phép thu thập thông tin toàn bộ nội dung của trang web. Nhưng trong trường hợp mã 5xx, việc kiểm tra có thể dừng hoàn toàn, vì điều này thường chỉ ra lỗi máy chủ tạm thời.

Tìm kiếm rô bốt
Tìm kiếm rô bốt

Để làm gìcần robots.txt?

Như bạn có thể đã đoán, tệp này là hướng dẫn của rô-bốt đến thư mục gốc của trang web. Giờ đây, nó được sử dụng để hạn chế một phần quyền truy cập vào nội dung không phù hợp:

  • trang có thông tin cá nhân của người dùng;
  • trang nhân bản;
  • kết quả tìm kiếm;
  • biểu mẫu gửi dữ liệu, v.v.

Nếu không có tệp robots.txt trong thư mục gốc của trang web, rô bốt sẽ thu thập thông tin hoàn toàn tất cả nội dung. Theo đó, dữ liệu không mong muốn có thể xuất hiện trong kết quả tìm kiếm, đồng nghĩa với việc cả bạn và trang web đều phải gánh chịu. Nếu có các hướng dẫn đặc biệt trong tài liệu robots.txt, thì "con nhện" sẽ làm theo chúng và đưa ra thông tin mà chủ sở hữu tài nguyên mong muốn.

Làm việc với tệp

Để sử dụng robots.txt để chặn lập chỉ mục trang web, bạn cần tìm cách tạo tệp này. Để thực hiện việc này, hãy làm theo hướng dẫn:

  1. Tạo tài liệu trong Notepad hoặc Notepad ++.
  2. Đặt phần mở rộng tệp là ".txt".
  3. Nhập dữ liệu và lệnh cần thiết.
  4. Lưu tài liệu và tải nó lên thư mục gốc.

Như bạn thấy, ở một trong các giai đoạn, cần phải đặt lệnh cho rô bốt. Chúng gồm hai loại: cho phép (Allow) và cấm (Disallow). Ngoài ra, một số trình tối ưu hóa có thể chỉ định tốc độ thu thập thông tin, máy chủ lưu trữ và liên kết đến sơ đồ trang của tài nguyên.

Cách đóng một trang web khỏi lập chỉ mục
Cách đóng một trang web khỏi lập chỉ mục

Để bắt đầu làm việc với robots.txt và chặn hoàn toàn việc lập chỉ mục trang web, bạn cũng phải hiểu các ký hiệu được sử dụng. Ví dụ, trong một tài liệusử dụng "/", cho biết rằng toàn bộ trang web đã được chọn. Nếu "" được sử dụng, thì một chuỗi ký tự là bắt buộc. Bằng cách này, có thể chỉ định một thư mục cụ thể có thể được quét hoặc không.

Tính năng của bot

"Trình thu thập dữ liệu" cho các công cụ tìm kiếm thì khác, vì vậy nếu bạn làm việc cho nhiều công cụ tìm kiếm cùng một lúc, thì bạn sẽ phải tính đến thời điểm này. Tên của chúng khác nhau, có nghĩa là nếu bạn muốn liên hệ với một rô bốt cụ thể, bạn sẽ phải chỉ định tên của nó: “Tác nhân Người dùng: Yandex” (không có dấu ngoặc kép).

Nếu bạn muốn đặt chỉ thị cho tất cả các công cụ tìm kiếm, thì bạn cần sử dụng lệnh: "Tác nhân Người dùng: " (không có dấu ngoặc kép). Để chặn trang web lập chỉ mục bằng cách sử dụng robots.txt đúng cách, bạn cần biết thông tin chi tiết cụ thể của các công cụ tìm kiếm phổ biến.

Thực tế là các công cụ tìm kiếm phổ biến nhất Yandex và Google đều có một số bot. Mỗi người trong số họ có nhiệm vụ riêng của mình. Ví dụ: Yandex Bot và Googlebot là những "con nhện" chính thu thập dữ liệu trang web. Biết tất cả các bot, việc tinh chỉnh lập chỉ mục tài nguyên của bạn sẽ dễ dàng hơn.

Cách hoạt động của tệp robots.txt
Cách hoạt động của tệp robots.txt

Ví dụ

Vì vậy, với sự trợ giúp của robots.txt, bạn có thể đóng trang web khỏi lập chỉ mục bằng các lệnh đơn giản, điều chính là hiểu cụ thể những gì bạn cần. Ví dụ: nếu bạn muốn Googlebot không tiếp cận tài nguyên của mình, bạn cần cung cấp cho nó lệnh thích hợp. Nó sẽ giống như sau: "Tác nhân người dùng: Googlebot Disallow: /" (không có dấu ngoặc kép).

Bây giờ chúng ta cần hiểu lệnh này có gì và nó hoạt động như thế nào. Vì vậy, "Tác nhân người dùng"được sử dụng để sử dụng cuộc gọi trực tiếp đến một trong các bot. Tiếp theo, chúng tôi chỉ ra cái nào, trong trường hợp của chúng tôi, đó là Google. Lệnh "Không cho phép" phải bắt đầu trên một dòng mới và cấm rô bốt vào trang web. Biểu tượng gạch chéo trong trường hợp này cho biết rằng tất cả các trang của tài nguyên được chọn để thực hiện lệnh.

Robots.txt dùng để làm gì?
Robots.txt dùng để làm gì?

Trong robots.txt, bạn có thể vô hiệu hóa lập chỉ mục cho tất cả các công cụ tìm kiếm bằng một lệnh đơn giản: "User-agent:Disallow: /" (không có dấu ngoặc kép). Ký tự dấu hoa thị trong trường hợp này biểu thị tất cả rô bốt tìm kiếm. Thông thường, một lệnh như vậy là cần thiết để tạm dừng lập chỉ mục của trang web và bắt đầu công việc cơ bản trên đó, nếu không, điều này có thể ảnh hưởng đến việc tối ưu hóa.

Nếu tài nguyên lớn và có nhiều trang, tài nguyên đó thường chứa thông tin độc quyền không được phép tiết lộ hoặc có thể ảnh hưởng tiêu cực đến việc quảng cáo. Trong trường hợp này, bạn cần hiểu cách đóng trang khỏi lập chỉ mục trong robots.txt.

Bạn có thể ẩn một thư mục hoặc một tệp. Trong trường hợp đầu tiên, bạn cần bắt đầu lại bằng cách liên hệ với một bot cụ thể hoặc mọi người, vì vậy chúng tôi sử dụng lệnh “Tác nhân người dùng” và bên dưới chúng tôi chỉ định lệnh “Không cho phép” cho một thư mục cụ thể. Nó sẽ giống như sau: "Disallow: / folder /" (không có dấu ngoặc kép). Bằng cách này, bạn ẩn toàn bộ thư mục. Nếu nó chứa một số tệp quan trọng mà bạn muốn hiển thị, thì bạn cần viết lệnh bên dưới: “Allow: /folder/file.php” (không có dấu ngoặc kép).

Kiểm tra tệp

Nếu sử dụng robots.txt để đóng trang web từBạn đã thành công trong việc lập chỉ mục, nhưng bạn không biết liệu tất cả các lệnh của mình có hoạt động chính xác hay không, bạn có thể kiểm tra tính đúng đắn của công việc.

Đầu tiên, bạn cần kiểm tra lại vị trí của tài liệu. Hãy nhớ rằng nó phải nằm riêng trong thư mục gốc. Nếu nó nằm trong thư mục gốc, thì nó sẽ không hoạt động. Tiếp theo, mở trình duyệt và nhập địa chỉ sau vào đó: “https:// yourite. com / robots.txt (không có dấu ngoặc kép). Nếu bạn gặp lỗi trong trình duyệt web của mình, thì tệp đó không phải là đúng.

Cách đóng một thư mục khỏi lập chỉ mục
Cách đóng một thư mục khỏi lập chỉ mục

Chỉ thị có thể được kiểm tra trong các công cụ đặc biệt được hầu hết các quản trị viên web sử dụng. Chúng tôi đang nói về các sản phẩm của Google và Yandex. Ví dụ: trong Google Search Console có một thanh công cụ mà bạn cần mở "Thu thập thông tin", rồi chạy "Công cụ kiểm tra tệp Robots.txt". Bạn cần sao chép tất cả dữ liệu từ tài liệu vào cửa sổ và bắt đầu quét. Việc kiểm tra chính xác cũng có thể được thực hiện trong Yandex. Webmaster.

Đề xuất: