Làm thế nào để thiết lập Robots.txt một cách chính xác?

Mục lục:

Làm thế nào để thiết lập Robots.txt một cách chính xác?
Làm thế nào để thiết lập Robots.txt một cách chính xác?
Anonim

Txt Robots chính xác cho trang web html tạo ra các mô hình hành động cho các bot của công cụ tìm kiếm, cho họ biết những gì họ có thể kiểm tra. Tệp này thường được gọi là Giao thức loại trừ rô bốt. Điều đầu tiên mà bot tìm kiếm trước khi thu thập dữ liệu một trang web là robots.txt. Nó có thể trỏ đến hoặc thông báo cho Sơ đồ trang web không kiểm tra một số tên miền phụ nhất định. Khi bạn muốn công cụ tìm kiếm tìm kiếm những gì được tìm thấy thường xuyên nhất, thì robots.txt không bắt buộc. Điều rất quan trọng trong quá trình này là tệp được định dạng chính xác và không lập chỉ mục trang người dùng với dữ liệu cá nhân của người dùng.

Nguyên tắc quét của robot

Nguyên lý quét của rô bốt
Nguyên lý quét của rô bốt

Khi công cụ tìm kiếm gặp một tệp và thấy một URL bị cấm, nó sẽ không thu thập dữ liệu, nhưng nó có thể lập chỉ mục tệp đó. Điều này là do ngay cả khi rô bốt không được phép xem nội dung, chúng vẫn có thể nhớ các liên kết ngược trỏ đến URL bị cấm. Do quyền truy cập vào liên kết bị chặn, URL sẽ xuất hiện trong các công cụ tìm kiếm, nhưng không có các đoạn. Nếu mộtđối với chiến lược tiếp thị sắp tới, cần có txt Robots chính xác cho bitrix (Bitrix), chúng cung cấp xác minh trang web theo yêu cầu của người dùng bằng máy quét.

Mặt khác, nếu tệp không được định dạng đúng, điều này có thể dẫn đến việc trang web không hiển thị trong kết quả tìm kiếm và không được tìm thấy. Công cụ tìm kiếm không thể bỏ qua tệp này. Một lập trình viên có thể xem robots.txt của bất kỳ trang web nào bằng cách truy cập miền của nó và theo dõi nó với robots.txt, chẳng hạn như www.domain.com/robots.txt. Sử dụng một công cụ như phần tối ưu hóa SEO của Unamo, nơi bạn có thể nhập bất kỳ miền nào và dịch vụ sẽ hiển thị thông tin về sự tồn tại của tệp.

Hạn chế quét:

  1. Người dùng có nội dung nhạy cảm hoặc lỗi thời.
  2. Hình ảnh trên trang web sẽ không được đưa vào kết quả tìm kiếm hình ảnh.
  3. Trang web chưa sẵn sàng cho bản demo để rô bốt lập chỉ mục.

Hãy nhớ rằng thông tin mà người dùng muốn nhận từ công cụ tìm kiếm có sẵn cho bất kỳ ai nhập URL. Không sử dụng tệp văn bản này để ẩn dữ liệu nhạy cảm. Nếu miền có lỗi 404 (không tìm thấy) hoặc 410 (đã vượt qua), công cụ tìm kiếm sẽ kiểm tra trang web bất chấp sự hiện diện của robots.txt, trong trường hợp đó, công cụ tìm kiếm sẽ coi là thiếu tệp. Các lỗi khác như 500 (Lỗi máy chủ nội bộ), 403 (Bị cấm), hết thời gian chờ hoặc "không khả dụng" đối với hướng dẫn robots.txt, tuy nhiên, việc bỏ qua có thể bị trì hoãn cho đến khi tệp có sẵn.

Tạo tệp tìm kiếm

Tạo tệp tìm kiếm
Tạo tệp tìm kiếm

NhiềuCác chương trình CMS như WordPress đã có tệp robots.txt. Trước khi định cấu hình đúng cách cho Robots txt WordPress, người dùng cần tự làm quen với các khả năng của nó để tìm ra cách truy cập vào nó. Nếu lập trình viên tự tạo tệp, tệp đó phải đáp ứng các điều kiện sau:

  1. Phải viết thường.
  2. Sử dụng mã hóa UTF-8.
  3. Lưu trong trình soạn thảo văn bản dưới dạng tệp (.txt).

Khi người dùng không biết vị trí đặt nó, họ liên hệ với nhà cung cấp phần mềm máy chủ web để tìm cách truy cập vào thư mục gốc của miền hoặc truy cập bảng điều khiển của Google và tải xuống. Với chức năng này, Google cũng có thể kiểm tra xem bot có hoạt động bình thường hay không và danh sách các trang web đã bị chặn bằng cách sử dụng tệp.

Định dạng chính của txt Robots chính xác cho bitrix (Bitrix):

  1. Chú giải robots.txt.
  2. , thêm các nhận xét chỉ được sử dụng làm ghi chú.
  3. Những nhận xét này sẽ bị máy quét bỏ qua cùng với bất kỳ lỗi chính tả nào của người dùng.
  4. Tác nhân người dùng - cho biết công cụ tìm kiếm nào liệt kê các hướng dẫn cho tệp.
  5. Thêm dấu hoa thị () cho máy quét biết rằng hướng dẫn dành cho tất cả mọi người.

Chỉ ra một bot cụ thể, ví dụ: Googlebot, Baiduspider, Applebot. Disallow cho trình thu thập thông tin biết những phần nào của trang web không nên được thu thập thông tin. Nó trông giống như sau: User-agent:. Dấu hoa thị có nghĩa là "tất cả các bot". Tuy nhiên, bạn có thể chỉ định các trang cho cụ thểchương trình. Để làm điều này, bạn cần biết tên của bot mà các đề xuất được đặt.

Txt rô bốt chính xác cho Yandex có thể trông giống như sau:

Txt rô bốt chính xác cho Yandex
Txt rô bốt chính xác cho Yandex

Nếu bot không nên thu thập dữ liệu trang web, bạn có thể chỉ định nó và để tìm tên của tác nhân người dùng, bạn nên tự làm quen với các khả năng trực tuyến của useragentstring.com.

Tối ưu hóa trang

Tối ưu hóa trang
Tối ưu hóa trang

Hai dòng sau được coi là một tệp robots.txt hoàn chỉnh và một tệp rô bốt duy nhất có thể chứa nhiều dòng tác nhân người dùng và chỉ thị vô hiệu hóa hoặc cho phép thu thập thông tin. Định dạng chính của txt Robots chính xác:

  1. Tác nhân người dùng: [tên người dùng đại lý].
  2. Disallow: [Chuỗi URL không được thu thập thông tin].

Trong tệp, mỗi khối lệnh được hiển thị rời rạc, cách nhau bằng một dòng. Trong tệp bên cạnh thư mục người dùng tác nhân, mỗi quy tắc được áp dụng cho một tập hợp các dòng được phân tách theo phần cụ thể. Nếu tệp có quy tắc nhiều tác nhân, rô bốt sẽ chỉ xem xét nhóm hướng dẫn cụ thể nhất.

Cú pháp kỹ thuật

Cú pháp kỹ thuật
Cú pháp kỹ thuật

Nó có thể được coi là "ngôn ngữ" của tệp robots.txt. Có năm thuật ngữ có thể tồn tại ở định dạng này, những thuật ngữ chính bao gồm:

  1. Tác nhân người dùng - Trình thu thập thông tin web với hướng dẫn thu thập thông tin, thường là công cụ tìm kiếm.
  2. Disallow là một lệnh được sử dụng để yêu cầu tác nhân người dùng bỏ qua(thiếu sót) của một URL cụ thể. Chỉ có một điều kiện bị cấm cho mỗi điều kiện.
  3. Cho phép. Đối với Googlebot có quyền truy cập, ngay cả trang người dùng cũng bị từ chối.
  4. Độ trễ thu thập thông tin - chỉ định bao nhiêu giây trình thu thập thông tin sẽ cần trước khi thu thập thông tin. Khi bot không xác nhận, tốc độ được đặt trong bảng điều khiển của Google.
  5. Sơ đồ trang web - Được sử dụng để định vị bất kỳ bản đồ XML nào được liên kết với một URL.

Khớp mẫu

Khi thực sự chặn URL hoặc cho phép txt rô-bốt hợp lệ, các hoạt động có thể khá phức tạp vì chúng cho phép bạn sử dụng đối sánh mẫu để bao gồm một số thông số URL có thể có. Cả Google và Bing đều sử dụng hai ký tự xác định các trang hoặc thư mục con mà SEO muốn loại trừ. Hai ký tự là dấu hoa thị () và dấu đô la ($), trong đó:là ký tự đại diện đại diện cho bất kỳ chuỗi ký tự nào. $ - khớp với phần cuối của URL.

Google cung cấp một danh sách lớn các cú pháp mẫu có thể giải thích cho người dùng cách thiết lập đúng tệp txt Robots. Một số trường hợp sử dụng phổ biến bao gồm:

  1. Ngăn nội dung trùng lặp xuất hiện trong kết quả tìm kiếm.
  2. Giữ tất cả các phần của trang web ở chế độ riêng tư.
  3. Lưu các trang nội bộ của kết quả tìm kiếm dựa trên câu lệnh mở.
  4. Cho biết vị trí.
  5. Ngăn các công cụ tìm kiếm lập chỉ mục nhất địnhtệp.
  6. Chỉ định độ trễ thu thập thông tin để dừng tải lại khi quét nhiều vùng nội dung cùng một lúc.

Kiểm tra sự hiện diện của tệp rô-bốt

Nếu không có khu vực nào trên trang web cần được thu thập thông tin, thì tệp robots.txt hoàn toàn không cần thiết. Nếu người dùng không chắc rằng tệp này tồn tại, họ cần nhập tên miền gốc và nhập nó vào cuối URL, giống như sau: moz.com/robots.txt. Một số bot tìm kiếm bỏ qua các tệp này. Tuy nhiên, theo quy luật, những trình thu thập thông tin này không thuộc về các công cụ tìm kiếm có uy tín. Chúng là loại người gửi thư rác, trình tổng hợp thư và các loại bot tự động khác được tìm thấy rất nhiều trên Internet.

Điều rất quan trọng cần nhớ là sử dụng tiêu chuẩn loại trừ robot không phải là một biện pháp bảo mật hiệu quả. Trên thực tế, một số bot có thể bắt đầu với các trang mà người dùng đặt chúng ở chế độ quét. Có một số phần đi vào tệp ngoại lệ tiêu chuẩn. Trước khi cho rô bốt biết trang nào nó không nên hoạt động, bạn cần chỉ định rô bốt nào sẽ nói chuyện. Trong hầu hết các trường hợp, người dùng sẽ sử dụng một khai báo đơn giản có nghĩa là "tất cả các bot".

Tối ưu hóa SEO

Tối ưu hóa SEO
Tối ưu hóa SEO

Trước khi tối ưu hóa, người dùng phải đảm bảo rằng anh ta không chặn bất kỳ nội dung hoặc phần nào của trang web cần được bỏ qua. Các liên kết đến các trang bị chặn bởi Robots txt chính xác sẽ không được tôn trọng. Điều này có nghĩa là:

  1. Nếu chúng không được liên kết với các trang khác có sẵn cho các công cụ tìm kiếm. trang,không bị robots.txt hoặc meta rô bốt chặn và các tài nguyên liên quan sẽ không được thu thập thông tin và do đó không thể lập chỉ mục.
  2. Không có liên kết nào có thể được chuyển từ một trang bị chặn đến đích liên kết. Nếu có một trang như vậy, tốt hơn nên sử dụng cơ chế chặn khác với robots.txt.

Vì các trang khác có thể liên kết trực tiếp đến trang chứa thông tin cá nhân và bạn muốn chặn trang này khỏi kết quả tìm kiếm, hãy sử dụng một phương pháp khác, chẳng hạn như bảo vệ bằng mật khẩu hoặc siêu dữ liệu ngăn lập chỉ mục. Một số công cụ tìm kiếm có nhiều tác nhân người dùng. Ví dụ: Google sử dụng Googlebot cho các tìm kiếm không phải trả tiền và Googlebot-Image cho các tìm kiếm hình ảnh.

Hầu hết các tác nhân người dùng từ cùng một công cụ tìm kiếm tuân theo các quy tắc giống nhau, vì vậy không cần chỉ định chỉ thị cho từng trình thu thập thông tin, nhưng làm như vậy có thể tinh chỉnh việc thu thập thông tin nội dung trang web. Công cụ tìm kiếm lưu trữ nội dung của tệp và thường cập nhật nội dung được lưu trong bộ nhớ cache ít nhất một lần mỗi ngày. Nếu người dùng thay đổi tệp và muốn cập nhật tệp nhanh hơn bình thường, họ có thể gửi URL robots.txt tới Google.

Công cụ tìm kiếm

Kiểm tra sự tồn tại của tệp rô bốt
Kiểm tra sự tồn tại của tệp rô bốt

Để hiểu cách thức hoạt động chính xác của txt Robots, bạn cần biết về khả năng của các công cụ tìm kiếm. Tóm lại, khả năng của họ nằm ở chỗ họ gửi "máy quét", là những chương trìnhduyệt Internet để tìm thông tin. Sau đó, họ lưu trữ một số thông tin này để sau này chuyển cho người dùng.

Đối với nhiều người, Google đã là Internet. Trên thực tế, họ đúng, vì đây có lẽ là phát minh quan trọng nhất của ông. Và mặc dù các công cụ tìm kiếm đã thay đổi rất nhiều kể từ khi thành lập, các nguyên tắc cơ bản vẫn vậy. Trình thu thập thông tin, còn được gọi là "bot" hoặc "nhện", tìm các trang từ hàng tỷ trang web. Công cụ tìm kiếm cung cấp cho họ hướng dẫn về nơi cần đến, trong khi các trang web riêng lẻ cũng có thể giao tiếp với bot và cho họ biết họ nên xem những trang cụ thể nào.

Nói chung, chủ sở hữu trang web không muốn hiển thị trong công cụ tìm kiếm: trang quản trị, cổng phụ trợ, danh mục và thẻ, và các trang thông tin khác. Tệp robots.txt cũng có thể được sử dụng để ngăn các công cụ tìm kiếm kiểm tra các trang. Tóm lại, robots.txt cho trình thu thập thông tin web biết phải làm gì.

Cấm Trang

Đây là phần chính của tệp loại trừ rô bốt. Với một khai báo đơn giản, người dùng yêu cầu một bot hoặc một nhóm bot không thu thập dữ liệu các trang nhất định. Cú pháp rất đơn giản, ví dụ: để từ chối quyền truy cập vào mọi thứ trong thư mục "quản trị viên" của trang web, hãy viết: Disallow: / admin. Dòng này sẽ ngăn không cho các bot thu thập thông tin về trang web của bạn.com/admin, trang web của bạn.com/admin/login, trang web của bạn.com/admin/files/secret.html và bất kỳ thứ gì khác trong thư mục quản trị viên.

Để không cho phép một trang, chỉ cần chỉ định trang đó trong dòng không cho phép: Disallow: /public/exception.html. Bây giờ là trang "ngoại lệ"sẽ không di chuyển, nhưng mọi thứ khác trong thư mục "chung" sẽ.

Để bao gồm nhiều trang, chỉ cần liệt kê chúng:

Thư mục và trang
Thư mục và trang

Bốn dòng này của txt Robots chính xác cho bản giao hưởng sẽ áp dụng cho bất kỳ tác nhân người dùng nào được liệt kê ở đầu phầnrobots.txt cho

Cấm các trang
Cấm các trang

Sơ đồ trang web:

Các lệnh khác:live - không cho phép trình thu thập thông tin web lập chỉ mục các nguồn / hoặc nhà cung cấp /.

Tác nhân người dùng:Không cho phép: /cpresources/.

Từ chối: / nhà cung cấp / Không cho phép: /.env.

Thiết lập tiêu chuẩn

Người dùng có thể chỉ định các trang cụ thể cho các bot khác nhau bằng cách kết hợp hai yếu tố trước đó, đây là giao diện của nó. Dưới đây là một ví dụ về txt Robots chính xác cho tất cả các công cụ tìm kiếm.

Thiết lập các tiêu chuẩn
Thiết lập các tiêu chuẩn

Phần "quản trị" và "riêng tư" sẽ ẩn đối với Google và Bing, nhưng Google sẽ vẫn nhìn thấy thư mục "bí mật", trong khi Bing thì không. Bạn có thể chỉ định các quy tắc chung cho tất cả các bot bằng cách sử dụng tác nhân người dùng dấu hoa thị, sau đó đưa ra hướng dẫn cụ thể cho các bot trong các phần sau. Với kiến thức ở trên, người dùng có thể viết một ví dụ về txt Robots chính xác cho tất cả các công cụ tìm kiếm. Chỉ cần kích hoạt trình soạn thảo văn bản yêu thích của bạn và nói với bot rằng chúng không được chào đón trong một số phần nhất định của trang web.

Mẹo để cải thiện hiệu suất máy chủ

SublimeText làmột trình soạn thảo văn bản đa năng và là tiêu chuẩn vàng cho nhiều lập trình viên. Hơn nữa, các mẹo lập trình của anh ấy dựa trên việc viết mã hiệu quả. người dùng đánh giá cao sự hiện diện của các phím tắt trong chương trình. Nếu người dùng muốn xem ví dụ về tệp robots.txt, họ nên truy cập vào bất kỳ trang web nào và thêm "/robots.txt" vào cuối. Đây là một phần của tệp robots.txt GiantBicycles.

Chương trình cung cấp việc tạo các trang mà người dùng không muốn hiển thị trong các công cụ tìm kiếm. Và cũng có một vài điều độc quyền mà ít người biết về. Ví dụ: trong khi tệp robots.txt thông báo cho bot biết nơi không được đi, tệp sơ đồ trang web làm ngược lại và giúp chúng tìm thấy những gì chúng đang tìm kiếm và trong khi các công cụ tìm kiếm có thể đã biết vị trí của sơ đồ trang web, nó không nhận được theo cách.

Có hai loại tệp: trang HTML hoặc tệp XML. Trang HTML là trang hiển thị cho khách truy cập tất cả các trang có sẵn trên một trang web. Trong tệp robots.txt của riêng nó, nó trông giống như sau: Sơ đồ trang web: //www.makeuseof.com/sitemap_index.xml. Nếu trang web không được lập chỉ mục bởi các công cụ tìm kiếm, mặc dù nó đã được thu thập thông tin nhiều lần bởi rô bốt web, bạn cần đảm bảo rằng tệp hiện có và các quyền của nó được đặt chính xác.

Theo mặc định, điều này sẽ xảy ra với tất cả các cài đặt SeoToaster, nhưng nếu cần, bạn có thể đặt lại nó như sau: Tệp robots.txt - 644. Tùy thuộc vào máy chủ PHP, nếu điều này không hoạt động đối với người dùng, nó bạn nên thử những cách sau: Tệp robots.txt - 666.

Đặt độ trễ quét

Chỉ thị về độ trễ bỏ qua thông báo nhất địnhcông cụ tìm kiếm tần suất họ có thể lập chỉ mục một trang trên trang web. Nó được tính bằng giây, mặc dù một số công cụ tìm kiếm diễn giải nó hơi khác một chút. Một số người thấy độ trễ thu thập thông tin là 5 khi họ được yêu cầu đợi năm giây sau mỗi lần quét để bắt đầu lần quét tiếp theo.

Những người khác giải thích đây là hướng dẫn chỉ quét một trang sau mỗi năm giây. Robot không thể quét nhanh hơn để tiết kiệm băng thông máy chủ. Nếu máy chủ cần phù hợp với lưu lượng, nó có thể đặt độ trễ bỏ qua. Nhìn chung, trong hầu hết các trường hợp, người dùng không cần phải lo lắng về điều này. Đây là cách đặt độ trễ thu thập thông tin là 8 giây - Độ trễ thu thập thông tin: 8.

Nhưng không phải tất cả các công cụ tìm kiếm sẽ tuân theo chỉ thị này, vì vậy khi không cho phép các trang, bạn có thể đặt các độ trễ thu thập thông tin khác nhau cho các công cụ tìm kiếm nhất định. Sau khi tất cả các hướng dẫn trong tệp được thiết lập, bạn có thể tải tệp lên trang web, trước tiên hãy đảm bảo rằng đó là tệp văn bản đơn giản và có tên là robots.txt và bạn có thể tìm thấy tệp tại yourite.com/robots.txt.

Bot WordPress tốt nhất

Bot WordPress tốt nhất
Bot WordPress tốt nhất

Có một số tệp và thư mục trên trang WordPress cần được khóa mọi lúc. Các thư mục mà người dùng không nên cho phép là thư mục cgi-bin và các thư mục WP tiêu chuẩn. Một số máy chủ không cho phép truy cập vào thư mục cgi-bin, nhưng người dùng phải đưa nó vào lệnh disallow trước khi định cấu hình đúng cách Robots txt WordPress

Thư mục WordPress chuẩn,mà nên chặn là wp-admin, wp-content, wp-include. Các thư mục này không chứa dữ liệu ban đầu hữu ích cho các công cụ tìm kiếm, nhưng có một ngoại lệ, tức là có một thư mục con có tên là các video tải lên trong thư mục wp-content. Thư mục con này phải được cho phép trong tệp robot.txt vì nó bao gồm mọi thứ được tải bằng tính năng tải lên phương tiện WP. WordPress sử dụng các thẻ hoặc danh mục để cấu trúc nội dung.

Nếu các danh mục được sử dụng, thì để tạo txt Robots chính xác cho Wordpress, như được chỉ định bởi nhà sản xuất chương trình, cần phải chặn các kho lưu trữ thẻ khỏi tìm kiếm. Đầu tiên, họ kiểm tra cơ sở dữ liệu bằng cách vào bảng "Quản trị ">" Cài đặt ">" Permalink ".

Theo mặc định, cơ sở là thẻ, nếu trường trống: Disallow: / tag /. Nếu một danh mục được sử dụng, thì bạn phải tắt danh mục đó trong tệp robot.txt: Disallow: / category /. Theo mặc định, cơ sở là thẻ, nếu trường trống: Disallow: / tag /. Nếu một danh mục được sử dụng, thì bạn phải tắt danh mục đó trong tệp robot.txt: Disallow: / category /.

Các tệp được sử dụng chủ yếu để hiển thị nội dung, chúng sẽ bị chặn bởi tệp txt Robots phù hợp cho Wordpress:

Txt rô bốt cho wordpress
Txt rô bốt cho wordpress

Thiết lập cơ bản Joomla

Sau khi người dùng đã cài đặt Joomla, bạn cần xem cài đặt txt Joomla Robots chính xác trong cấu hình chung, nằm trong bảng điều khiển. Một số cài đặt ở đây rất quan trọng đối với SEO. Trước tiên, hãy tìm tên của trang web và đảm bảo rằngtên viết tắt của trang web được sử dụng. Sau đó, họ tìm thấy một nhóm cài đặt ở bên phải của cùng một màn hình, được gọi là cài đặt SEO. Cái chắc chắn sẽ phải thay đổi là cái thứ hai: sử dụng URL viết lại.

Điều này nghe có vẻ phức tạp, nhưng về cơ bản nó giúp Joomla tạo ra các URL sạch hơn. Đáng chú ý nhất nếu bạn xóa dòng index.php khỏi các URL. Nếu bạn thay đổi nó sau này, các URL sẽ thay đổi và Google sẽ không thích điều đó. Tuy nhiên, khi thay đổi cài đặt này, bạn phải thực hiện đồng thời một số bước để tạo txt rô bốt chính xác cho Joomla:

  1. Tìm tệp htaccess.txt trong thư mục gốc Joomla.
  2. Đánh dấu là.htaccess (không có phần mở rộng).
  3. Bao gồm tên trang web trong tiêu đề trang.
  4. Tìm cài đặt siêu dữ liệu ở cuối màn hình cấu hình chung.

Robot trên đám mây MODX

Robot trong đám mây MODX
Robot trong đám mây MODX

Trước đây, MODX Cloud đã cung cấp cho người dùng khả năng kiểm soát hành vi cho phép phân phát tệp robots.txt dựa trên một nút chuyển trong trang tổng quan. Mặc dù điều này hữu ích, nhưng có thể vô tình cho phép lập chỉ mục trên các trang web dàn / nhà phát triển bằng cách chuyển đổi một tùy chọn trong Trang tổng quan. Tương tự, thật dễ dàng để tắt lập chỉ mục trên trang web sản xuất.

Hôm nay dịch vụ này giả định sự hiện diện của tệp robots.txt trong hệ thống tệp với ngoại lệ sau: bất kỳ miền nào kết thúc bằng modxcloud.com sẽ đóng vai trò là lệnh Disallow: / cho tất cả các tác nhân người dùng, bất kể sự hiện diện hoặc không có tệp. Các trang web sản xuất nhận được lưu lượng truy cập thực sự của khách truy cập sẽ cần sử dụng miền riêng của họ nếu người dùng muốn lập chỉ mục trang web của họ.

Một số tổ chức sử dụng Robots txt chính xác cho modx để chạy nhiều trang web từ một cài đặt duy nhất bằng Contexts. Một trường hợp mà điều này có thể được áp dụng sẽ là một trang web tiếp thị công khai kết hợp với các trang vi mô trang đích và có thể là một mạng nội bộ không công khai.

Theo truyền thống, điều này khó thực hiện đối với cài đặt nhiều người dùng vì họ chia sẻ cùng một mạng gốc. Với MODX Cloud, điều này thật dễ dàng. Chỉ cần tải một tệp bổ sung lên trang web có tên là robots-intranet.example.com.txt với nội dung sau và nó sẽ chặn lập chỉ mục với các rô bốt đang hoạt động tốt và tất cả các tên máy chủ khác trở lại tệp tiêu chuẩn trừ khi có các nút tên cụ thể khác.

Robots.txt là một tệp quan trọng giúp người dùng liên kết đến trang web trên Google, các công cụ tìm kiếm chính và các trang web khác. Nằm ở thư mục gốc của máy chủ web, tệp hướng dẫn rô bốt web thu thập thông tin một trang web, đặt thư mục nào nó nên hoặc không nên lập chỉ mục, sử dụng một bộ hướng dẫn được gọi là Giao thức loại trừ Bot. Ví dụ về txt Robots chính xác cho tất cả các công cụ tìm kiếm obots.txt đặc biệt dễ thực hiện với SeoToaster. Một menu đặc biệt đã được tạo cho nó trong bảng điều khiển, vì vậy bot sẽ không bao giờ phải làm việc quá sức để có được quyền truy cập.

Đề xuất: