Cách chặn trang web lập chỉ mục trong robots.txt: hướng dẫn và đề xuất

2025 Tác giả: Trinity Chesterton | [email protected]. Sửa đổi lần cuối: 2025-01-23 10:14

Công việc của một trình tối ưu hóa SEO có quy mô rất lớn. Người mới bắt đầu nên viết ra thuật toán tối ưu hóa để không bỏ lỡ bất kỳ bước nào. Nếu không, chương trình khuyến mãi sẽ khó được gọi là thành công, vì trang web sẽ liên tục gặp lỗi và lỗi sẽ phải sửa trong thời gian dài.

Một trong những bước tối ưu hóa đang làm việc với tệp robots.txt. Mọi tài nguyên nên có tài liệu này, vì nếu không có tài liệu này, việc tối ưu hóa sẽ khó khăn hơn. Nó thực hiện nhiều chức năng mà bạn sẽ phải hiểu.

Trợ lý Robot

Tệp robots.txt là một tài liệu văn bản thuần túy có thể được xem trong Notepad tiêu chuẩn của hệ thống. Khi tạo nó, bạn phải đặt mã hóa thành UTF-8 để nó có thể được đọc chính xác. Tệp hoạt động với các giao thức http, https và FTP.

Tài liệu này là một trợ lý cho rô bốt tìm kiếm. Trong trường hợp bạn không biết, mọi hệ thống đều sử dụng "trình thu thập dữ liệu" thu thập dữ liệu nhanh chóng trên World Wide Web để trả về các trang web có liên quan cho các truy vấn.người dùng. Các rô bốt này phải có quyền truy cập vào dữ liệu tài nguyên, robots.txt hoạt động cho việc này.

Để nhện tìm đường, bạn cần gửi tài liệu robots.txt đến thư mục gốc. Để kiểm tra xem trang web có tệp này hay không, hãy nhập “https://site.com.ua/robots.txt” vào thanh địa chỉ của trình duyệt. Thay vì "site.com.ua", bạn cần nhập tài nguyên bạn cần.

Chức năng tài liệu

Tệp robots.txt cung cấp cho trình thu thập thông tin một số loại thông tin. Nó có thể cấp quyền truy cập một phần để "con nhện" quét các phần tử cụ thể của tài nguyên. Toàn quyền truy cập cho phép bạn kiểm tra tất cả các trang có sẵn. Lệnh cấm hoàn toàn ngăn không cho rô bốt bắt đầu kiểm tra và chúng rời khỏi trang web.

Sau khi truy cập tài nguyên, "người nhện" nhận được phản hồi thích hợp cho yêu cầu. Có thể có một vài trong số chúng, tất cả phụ thuộc vào thông tin trong robots.txt. Ví dụ: nếu quá trình quét thành công, rô bốt sẽ nhận được mã 2xx.

Có lẽ trang web đã được chuyển hướng từ trang này sang trang khác. Trong trường hợp này, robot nhận mã 3xx. Nếu mã này xảy ra nhiều lần, thì con nhện sẽ theo dõi nó cho đến khi nó nhận được một phản hồi khác. Mặc dù, theo quy định, anh ta chỉ sử dụng 5 lần thử. Nếu không, lỗi 404 phổ biến sẽ xuất hiện.

Nếu câu trả lời là 4xx, thì rô bốt được phép thu thập thông tin toàn bộ nội dung của trang web. Nhưng trong trường hợp mã 5xx, việc kiểm tra có thể dừng hoàn toàn, vì điều này thường chỉ ra lỗi máy chủ tạm thời.

Để làm gìcần robots.txt?

Như bạn có thể đã đoán, tệp này là hướng dẫn của rô-bốt đến thư mục gốc của trang web. Giờ đây, nó được sử dụng để hạn chế một phần quyền truy cập vào nội dung không phù hợp:

trang có thông tin cá nhân của người dùng;
trang nhân bản;
kết quả tìm kiếm;
biểu mẫu gửi dữ liệu, v.v.

Nếu không có tệp robots.txt trong thư mục gốc của trang web, rô bốt sẽ thu thập thông tin hoàn toàn tất cả nội dung. Theo đó, dữ liệu không mong muốn có thể xuất hiện trong kết quả tìm kiếm, đồng nghĩa với việc cả bạn và trang web đều phải gánh chịu. Nếu có các hướng dẫn đặc biệt trong tài liệu robots.txt, thì "con nhện" sẽ làm theo chúng và đưa ra thông tin mà chủ sở hữu tài nguyên mong muốn.

Làm việc với tệp

Để sử dụng robots.txt để chặn lập chỉ mục trang web, bạn cần tìm cách tạo tệp này. Để thực hiện việc này, hãy làm theo hướng dẫn:

Tạo tài liệu trong Notepad hoặc Notepad ++.
Đặt phần mở rộng tệp là ".txt".
Nhập dữ liệu và lệnh cần thiết.
Lưu tài liệu và tải nó lên thư mục gốc.

Như bạn thấy, ở một trong các giai đoạn, cần phải đặt lệnh cho rô bốt. Chúng gồm hai loại: cho phép (Allow) và cấm (Disallow). Ngoài ra, một số trình tối ưu hóa có thể chỉ định tốc độ thu thập thông tin, máy chủ lưu trữ và liên kết đến sơ đồ trang của tài nguyên.

Cách đóng một trang web khỏi lập chỉ mục

Để bắt đầu làm việc với robots.txt và chặn hoàn toàn việc lập chỉ mục trang web, bạn cũng phải hiểu các ký hiệu được sử dụng. Ví dụ, trong một tài liệusử dụng "/", cho biết rằng toàn bộ trang web đã được chọn. Nếu "" được sử dụng, thì một chuỗi ký tự là bắt buộc. Bằng cách này, có thể chỉ định một thư mục cụ thể có thể được quét hoặc không.

Tính năng của bot

"Trình thu thập dữ liệu" cho các công cụ tìm kiếm thì khác, vì vậy nếu bạn làm việc cho nhiều công cụ tìm kiếm cùng một lúc, thì bạn sẽ phải tính đến thời điểm này. Tên của chúng khác nhau, có nghĩa là nếu bạn muốn liên hệ với một rô bốt cụ thể, bạn sẽ phải chỉ định tên của nó: “Tác nhân Người dùng: Yandex” (không có dấu ngoặc kép).

Nếu bạn muốn đặt chỉ thị cho tất cả các công cụ tìm kiếm, thì bạn cần sử dụng lệnh: "Tác nhân Người dùng: " (không có dấu ngoặc kép). Để chặn trang web lập chỉ mục bằng cách sử dụng robots.txt đúng cách, bạn cần biết thông tin chi tiết cụ thể của các công cụ tìm kiếm phổ biến.

Thực tế là các công cụ tìm kiếm phổ biến nhất Yandex và Google đều có một số bot. Mỗi người trong số họ có nhiệm vụ riêng của mình. Ví dụ: Yandex Bot và Googlebot là những "con nhện" chính thu thập dữ liệu trang web. Biết tất cả các bot, việc tinh chỉnh lập chỉ mục tài nguyên của bạn sẽ dễ dàng hơn.

Ví dụ

Vì vậy, với sự trợ giúp của robots.txt, bạn có thể đóng trang web khỏi lập chỉ mục bằng các lệnh đơn giản, điều chính là hiểu cụ thể những gì bạn cần. Ví dụ: nếu bạn muốn Googlebot không tiếp cận tài nguyên của mình, bạn cần cung cấp cho nó lệnh thích hợp. Nó sẽ giống như sau: "Tác nhân người dùng: Googlebot Disallow: /" (không có dấu ngoặc kép).

Bây giờ chúng ta cần hiểu lệnh này có gì và nó hoạt động như thế nào. Vì vậy, "Tác nhân người dùng"được sử dụng để sử dụng cuộc gọi trực tiếp đến một trong các bot. Tiếp theo, chúng tôi chỉ ra cái nào, trong trường hợp của chúng tôi, đó là Google. Lệnh "Không cho phép" phải bắt đầu trên một dòng mới và cấm rô bốt vào trang web. Biểu tượng gạch chéo trong trường hợp này cho biết rằng tất cả các trang của tài nguyên được chọn để thực hiện lệnh.

Trong robots.txt, bạn có thể vô hiệu hóa lập chỉ mục cho tất cả các công cụ tìm kiếm bằng một lệnh đơn giản: "User-agent:Disallow: /" (không có dấu ngoặc kép). Ký tự dấu hoa thị trong trường hợp này biểu thị tất cả rô bốt tìm kiếm. Thông thường, một lệnh như vậy là cần thiết để tạm dừng lập chỉ mục của trang web và bắt đầu công việc cơ bản trên đó, nếu không, điều này có thể ảnh hưởng đến việc tối ưu hóa.

Nếu tài nguyên lớn và có nhiều trang, tài nguyên đó thường chứa thông tin độc quyền không được phép tiết lộ hoặc có thể ảnh hưởng tiêu cực đến việc quảng cáo. Trong trường hợp này, bạn cần hiểu cách đóng trang khỏi lập chỉ mục trong robots.txt.

Bạn có thể ẩn một thư mục hoặc một tệp. Trong trường hợp đầu tiên, bạn cần bắt đầu lại bằng cách liên hệ với một bot cụ thể hoặc mọi người, vì vậy chúng tôi sử dụng lệnh “Tác nhân người dùng” và bên dưới chúng tôi chỉ định lệnh “Không cho phép” cho một thư mục cụ thể. Nó sẽ giống như sau: "Disallow: / folder /" (không có dấu ngoặc kép). Bằng cách này, bạn ẩn toàn bộ thư mục. Nếu nó chứa một số tệp quan trọng mà bạn muốn hiển thị, thì bạn cần viết lệnh bên dưới: “Allow: /folder/file.php” (không có dấu ngoặc kép).

Kiểm tra tệp

Nếu sử dụng robots.txt để đóng trang web từBạn đã thành công trong việc lập chỉ mục, nhưng bạn không biết liệu tất cả các lệnh của mình có hoạt động chính xác hay không, bạn có thể kiểm tra tính đúng đắn của công việc.

Đầu tiên, bạn cần kiểm tra lại vị trí của tài liệu. Hãy nhớ rằng nó phải nằm riêng trong thư mục gốc. Nếu nó nằm trong thư mục gốc, thì nó sẽ không hoạt động. Tiếp theo, mở trình duyệt và nhập địa chỉ sau vào đó: “https:// yourite. com / robots.txt (không có dấu ngoặc kép). Nếu bạn gặp lỗi trong trình duyệt web của mình, thì tệp đó không phải là đúng.

Chỉ thị có thể được kiểm tra trong các công cụ đặc biệt được hầu hết các quản trị viên web sử dụng. Chúng tôi đang nói về các sản phẩm của Google và Yandex. Ví dụ: trong Google Search Console có một thanh công cụ mà bạn cần mở "Thu thập thông tin", rồi chạy "Công cụ kiểm tra tệp Robots.txt". Bạn cần sao chép tất cả dữ liệu từ tài liệu vào cửa sổ và bắt đầu quét. Việc kiểm tra chính xác cũng có thể được thực hiện trong Yandex. Webmaster.

Đề xuất:

Ý tưởng để tạo một trang web: một nền tảng cho một trang web, mục đích, bí mật và các sắc thái của việc tạo một trang web

Internet đã trở thành một phần không thể thiếu trong cuộc sống của con người. Nếu không có nó, không thể hình dung được giáo dục, truyền thông và cuối cùng nhưng không kém phần quan trọng, thu nhập. Nhiều người đã nghĩ đến việc sử dụng World Wide Web cho các mục đích thương mại. Phát triển trang web là một ý tưởng kinh doanh có quyền tồn tại. Nhưng làm thế nào để một người có một ý tưởng khá mơ hồ về điểm mấu chốt lại có thể bắt đầu? Rất đơn giản. Để làm được điều này, anh ấy chỉ cần tìm hiểu về những ý tưởng đáng giá để tạo một trang web

Lập chỉ mục trang web trong công cụ tìm kiếm. Cách trang web được lập chỉ mục trong "Yandex" và "Google"

Bạn có muốn trang web của mình xuất hiện trong các truy vấn kết quả của công cụ tìm kiếm không? Sau đó, nó phải được xử lý bởi các công cụ tìm kiếm Rambler, Yandex, Google, Yahoo, v.v. Bạn phải thông báo cho các công cụ tìm kiếm (trình thu thập dữ liệu, hệ thống) về sự tồn tại của trang web của bạn và sau đó họ sẽ thu thập dữ liệu toàn bộ hoặc một phần

Lập chỉ mục trang. Lập chỉ mục trang web nhanh chóng bởi các công cụ tìm kiếm "Google" và "Yandex"

Một bài báo về lập chỉ mục trang là gì; cách lập chỉ mục của các công cụ tìm kiếm được thực hiện, cũng như cách tăng tốc độ lập chỉ mục của trang web của riêng bạn và cách cấm nó

Lập chỉ mục một trang web trong "Yandex": làm thế nào để làm cho một trang web trở nên "ngon lành" đối với công cụ tìm kiếm?

Làm thế nào để thu hút sự chú ý của robot Yandex, phải chờ bao lâu và sử dụng công cụ gì? Điều gì đang ngăn cản dự án của bạn bắt đầu thành công? Tìm hiểu tất cả về lập chỉ mục trong 10 phút. Như một phần thưởng - một danh sách kiểm tra chung cho những người cần tăng tốc độ lập chỉ mục lên 2-3 lần

Làm thế nào để chặn một số liên lạc trên WhatsApp? Hướng dẫn chi tiết để chặn và bỏ chặn một số liên lạc

Một trong những xu hướng thực sự có thể được coi là ứng dụng WhatsApp. Chính cài đặt này cho phép bạn gọi điện miễn phí đến mọi nơi trên thế giới trên điện thoại có cài đặt ứng dụng tương tự. Ngày nay, ứng dụng này được cài đặt mọi lúc mọi nơi, mọi ngóc ngách trên hành tinh. Nhưng điều đặc biệt ở ứng dụng này là gì? Nó có tùy chọn để chặn một số liên lạc trên WhatsApp không? Làm thế nào để làm nó?

Cách chặn trang web lập chỉ mục trong robots.txt: hướng dẫn và đề xuất

Mục lục:

Trợ lý Robot

Chức năng tài liệu

Để làm gìcần robots.txt?

Làm việc với tệp

Tính năng của bot

Ví dụ

Kiểm tra tệp

Đề xuất:

Ý tưởng để tạo một trang web: một nền tảng cho một trang web, mục đích, bí mật và các sắc thái của việc tạo một trang web

Lập chỉ mục trang web trong công cụ tìm kiếm. Cách trang web được lập chỉ mục trong "Yandex" và "Google"

Lập chỉ mục trang. Lập chỉ mục trang web nhanh chóng bởi các công cụ tìm kiếm "Google" và "Yandex"

Lập chỉ mục một trang web trong "Yandex": làm thế nào để làm cho một trang web trở nên "ngon lành" đối với công cụ tìm kiếm?

Làm thế nào để chặn một số liên lạc trên WhatsApp? Hướng dẫn chi tiết để chặn và bỏ chặn một số liên lạc

Cách xác định đối tượng mục tiêu của công ty: phương pháp, tính năng và khuyến nghị

Vadim Shiryaev là một trong TOP-10 nhà tư vấn marketing tốt nhất

Thực hiện phân tích GAP của công ty

Tiếp thị chéo: mô tả, tính năng, hình thức và đặc điểm

Vật liệu POS - đó là gì? Các loại vật liệu POS. Sản xuất và sản xuất vật liệu POS

Bưu kiện ở Nga mất bao lâu - thời gian và theo dõi. Theo dõi bưu kiện ở Nga

"Vatsapp" - nó là gì, nó thực hiện những chức năng gì, ứng dụng của nó

Cách tắt đăng ký 5051 trên "Megaphone". Làm thế nào để vô hiệu hóa bất kỳ đăng ký nào. Cách tiết kiệm tiền trên Megafon

Làm thế nào để đăng ký trong Skype? Đăng ký Skype miễn phí và nhanh chóng

Làm thế nào để chuyển tiền từ Beeline sang Megafon? Có một cách đã được chứng minh

Điện thoại "Dekt": đánh giá các mô hình và đánh giá về chúng

Chọn tai nghe in-ear nào? Tổng quan thị trường và đánh giá các mô hình tốt nhất

Đồng hồ ba môn phối hợp tốt nhất: đánh giá, thông số kỹ thuật và đánh giá

Cách đặt lại máy tính bảng về cài đặt gốc: tổng quan về nhà sản xuất, quy trình, các lỗi thường gặp, đánh giá

Các loại tai nghe cho điện thoại và máy tính