Lập chỉ mục trang web là gì? Nó xảy ra như thế nào? Bạn có thể tìm thấy câu trả lời cho những câu hỏi này và các câu hỏi khác trong bài viết. Lập chỉ mục web (lập chỉ mục trong công cụ tìm kiếm) là quá trình thêm thông tin về một trang web vào cơ sở dữ liệu bởi rô bốt công cụ tìm kiếm, sau đó được sử dụng để tìm kiếm thông tin về các dự án web đã trải qua quy trình như vậy.
Dữ liệu về tài nguyên web thường bao gồm từ khóa, bài báo, liên kết, tài liệu. Âm thanh, hình ảnh, v.v. cũng có thể được lập chỉ mục. Được biết, thuật toán phát hiện từ khóa phụ thuộc vào công cụ tìm kiếm.
Có một số hạn chế về loại thông tin được lập chỉ mục (tệp flash, javascript).
Quản lý khởi tạo
Lập chỉ mục một trang web là một quá trình phức tạp. Để quản lý nó (ví dụ: để cấm đính kèm một trang cụ thể), bạn cần sử dụng tệp robots.txt và các hướng dẫn như Cho phép, Không cho phép, Độ trễ thu thập thông tin, Tác nhân người dùng và các hướng dẫn khác.
Ngoài ra, các thẻ và đạo cụ được sử dụng để lập chỉ mục, ẩn nội dung của tài nguyên khỏi các rô bốt của Google và Yandex (Yahoo sử dụng thẻ).
Trong công cụ tìm kiếm Goglle, các trang web mới được lập chỉ mục từ vài ngày đến một tuần và ở Yandex - từ một đến bốn tuần.
Bạn có muốn trang web của mình xuất hiện trong các truy vấn kết quả của công cụ tìm kiếm không? Sau đó, nó phải được xử lý bởi Rambler, Yandex, Google, Yahoo, v.v. Bạn phải thông báo cho các công cụ tìm kiếm (trình thu thập dữ liệu, hệ thống) về sự tồn tại của trang web của bạn và sau đó họ sẽ thu thập dữ liệu toàn bộ hoặc một phần.
Nhiều trang web đã không được lập chỉ mục trong nhiều năm. Thông tin trên chúng không ai nhìn thấy ngoại trừ chủ sở hữu của chúng.
Phương pháp chế biến
Việc lập chỉ mục một trang web có thể được thực hiện theo một số cách:
- Tùy chọn đầu tiên là thêm thủ công. Bạn cần nhập dữ liệu trang web của mình thông qua các biểu mẫu đặc biệt do công cụ tìm kiếm cung cấp.
- Trong trường hợp thứ hai, rô bốt công cụ tìm kiếm tự tìm trang web của bạn bằng các liên kết và lập chỉ mục nó. Anh ấy có thể tìm thấy trang web của bạn bằng các liên kết từ các tài nguyên khác dẫn đến dự án của bạn. Phương pháp này là hiệu quả nhất. Nếu một công cụ tìm kiếm tìm thấy một trang web theo cách này, nó sẽ coi đó là một trang web quan trọng.
Thời gian
Lập chỉ mục trang web không quá nhanh. Các điều khoản khác nhau, từ 1-2 tuần. Liên kết từ các nguồn có thẩm quyền (với PR xuất sắc và Titz) tăng tốc đáng kể vị trí của trang web trong cơ sở dữ liệu của công cụ tìm kiếm. Ngày nay, Google được coi là chậm nhất, mặc dù cho đến năm 2012 nó mới có thể thực hiện công việc này trong một tuần. ĐếnThật không may, mọi thứ thay đổi rất nhanh chóng. Được biết, Mail.ru đã làm việc với các trang web trong lĩnh vực này trong khoảng sáu tháng.
Không phải chuyên gia nào cũng có thể lập chỉ mục một trang web trong công cụ tìm kiếm. Thời gian thêm các trang mới vào cơ sở dữ liệu của một trang web đã được các công cụ tìm kiếm xử lý bị ảnh hưởng bởi tần suất cập nhật nội dung của nó. Nếu thông tin mới liên tục xuất hiện trên một tài nguyên, hệ thống sẽ coi đó là tài nguyên được cập nhật thường xuyên và hữu ích cho mọi người. Trong trường hợp này, công việc của cô ấy được đẩy nhanh.
Bạn có thể theo dõi tiến trình lập chỉ mục của một trang web trên các phần đặc biệt dành cho quản trị viên web hoặc trên các công cụ tìm kiếm.
Thay đổi
Vì vậy, chúng tôi đã tìm ra cách lập chỉ mục trang web. Cần lưu ý rằng cơ sở dữ liệu của công cụ tìm kiếm được cập nhật thường xuyên. Do đó, số lượng trang trong dự án của bạn được thêm vào chúng có thể thay đổi (cả giảm và tăng) vì những lý do sau:
- trừng phạt của công cụ tìm kiếm đối với trang web;
- sự hiện diện của lỗi trên trang web;
- thay đổi thuật toán của công cụ tìm kiếm;
- lưu trữ ghê tởm (không thể truy cập được máy chủ nơi đặt dự án), v.v.
Yandex câu trả lời cho các câu hỏi phổ biến
"Yandex" là công cụ tìm kiếm được nhiều người sử dụng. Nó đứng thứ năm trong số các hệ thống tìm kiếm trên thế giới về số lượng yêu cầu nghiên cứu được xử lý. Nếu bạn đã thêm một trang web vào đó, có thể mất quá nhiều thời gian để thêm vào cơ sở dữ liệu.
Thêm một URL không đảm bảo việc lập chỉ mục của nó. Đây chỉ là một trong những phương pháp mà rô bốt hệ thống được bảovề một nguồn tài nguyên mới. Nếu có ít hoặc không có liên kết đến một trang web từ các trang web khác, việc thêm liên kết này sẽ giúp bạn tìm thấy trang web đó nhanh hơn.
Nếu việc lập chỉ mục không xảy ra, bạn cần kiểm tra xem có bất kỳ lỗi nào trên máy chủ tại thời điểm tạo ứng dụng cho nó từ rô bốt Yandex hay không. Nếu máy chủ báo lỗi, rô bốt sẽ chấm dứt công việc và cố gắng hoàn thành theo thứ tự khứ hồi. Nhân viên của Yandex không thể tăng tốc độ thêm trang vào cơ sở dữ liệu của công cụ tìm kiếm.
Lập chỉ mục một trang web ở Yandex là một nhiệm vụ khá khó khăn. Bạn không biết cách thêm tài nguyên vào công cụ tìm kiếm? Nếu có các liên kết đến nó từ các trang web khác, thì bạn không cần thêm một trang đặc biệt - rô bốt sẽ tự động tìm nó và lập chỉ mục cho nó. Nếu bạn không có các liên kết như vậy, bạn có thể sử dụng biểu mẫu "Thêm URL" để cho công cụ tìm kiếm biết rằng trang web tồn tại.
Hãy nhớ rằng việc thêm một URL không đảm bảo rằng tác phẩm của bạn sẽ được lập chỉ mục (hoặc lập chỉ mục).
Nhiều người tự hỏi mất bao lâu để lập chỉ mục một trang web ở Yandex. Nhân viên của công ty này không đưa ra bảo đảm và không dự đoán các điều khoản. Theo quy luật, kể từ khi rô bốt phát hiện ra trang web, các trang của nó trong tìm kiếm sẽ xuất hiện sau hai ngày, đôi khi trong vài tuần.
Quy trình
"Yandex" là một công cụ tìm kiếm đòi hỏi sự chính xác và chú ý. Lập chỉ mục trang web bao gồm ba phần:
- Robot tìm kiếm thu thập thông tin các trang tài nguyên.
- Nội dung(nội dung) của trang web được ghi lại trong cơ sở dữ liệu (chỉ mục) của hệ thống tìm kiếm.
- Trong 2-4 tuần, sau khi cập nhật cơ sở dữ liệu, bạn có thể xem kết quả. Trang web của bạn sẽ (hoặc không) xuất hiện trong kết quả tìm kiếm.
Kiểm tra lập chỉ mục
Làm thế nào để kiểm tra lập chỉ mục trang web? Có ba cách để làm điều này:
- Nhập tên doanh nghiệp của bạn vào thanh tìm kiếm (ví dụ: "Yandex") và kiểm tra mọi liên kết trên trang đầu tiên và trang thứ hai. Nếu bạn tìm thấy URL của đứa con tinh thần của mình ở đó, nghĩa là robot đã hoàn thành nhiệm vụ của nó.
- Bạn có thể nhập URL trang web của mình vào thanh tìm kiếm. Bạn sẽ có thể xem có bao nhiêu trang tính internet được hiển thị, tức là đã được lập chỉ mục.
- Đăng ký trên các trang của quản trị viên web trong Mail.ru, Google, Yandex. Sau khi vượt qua xác minh trang web, bạn sẽ có thể xem kết quả lập chỉ mục và các dịch vụ công cụ tìm kiếm khác được tạo để cải thiện hiệu suất tài nguyên của bạn.
Tại sao Yandex thất bại?
Lập chỉ mục một trang web trong Google được thực hiện như sau: rô bốt nhập vào cơ sở dữ liệu tất cả các trang của trang web, chất lượng thấp và chất lượng cao mà không cần chọn. Nhưng chỉ những tài liệu hữu ích mới được đưa vào bảng xếp hạng. Và "Yandex" ngay lập tức loại trừ tất cả thùng rác trên web. Nó có thể lập chỉ mục bất kỳ trang nào, nhưng công cụ tìm kiếm cuối cùng sẽ loại bỏ tất cả rác.
Cả hai hệ thống đều có chỉ số tăng dần. Cả hai trang chất lượng thấp đều ảnh hưởng đến xếp hạng của trang web nói chung. Có một triết lý đơn giản trong công việc ở đây. Tài nguyên yêu thích của một cụ thểngười dùng sẽ chiếm các vị trí cao hơn trong đợt phát hành của mình. Nhưng cũng chính cá nhân này sẽ gặp khó khăn trong việc tìm kiếm một trang web mà lần trước anh ta không thích.
Đó là lý do tại sao, trước tiên, cần che các bản sao của tài liệu web khỏi lập chỉ mục, kiểm tra các trang trống và ngăn nội dung chất lượng thấp được lập chỉ mục.
Tăng tốc Yandex
Làm cách nào để tăng tốc độ lập chỉ mục trang web trong Yandex? Làm theo các bước sau:
- Cài đặt trình duyệt Yandex trên máy tính của bạn và sử dụng trình duyệt này để duyệt các trang của trang web.
- Xác nhận quyền quản lý tài nguyên trong Yandex. Webmaster.
- Đăng liên kết đến bài viết trên Twitter. Được biết, Yandex đã hợp tác với công ty này từ năm 2012.
- Thêm tìm kiếm từ Yandex cho trang web. Trong phần "Lập chỉ mục", bạn có thể nhập các URL của riêng mình.
- Nhập mã "Yandex. Metrica" mà không đánh dấu "Cấm gửi các trang để lập chỉ mục".
- Tạo Sơ đồ trang web chỉ tồn tại cho rô bốt và không hiển thị cho khán giả. Việc xác minh sẽ bắt đầu với anh ta. Địa chỉ Sơ đồ trang web được nhập vào robots.txt hoặc ở dạng thích hợp trong "Quản trị viên web" - "Cài đặt Lập chỉ mục" - "Tệp Sơ đồ trang web".
Hành động trung gian
Cần phải làm gì cho đến khi trang web được Yandex lập chỉ mục? Công cụ tìm kiếm trong nước nên coi trang web là nguồn chính. Đó là lý do tại sao ngay cả trước khi xuất bản bài báo, bắt buộc phải thêm nội dung của nó dưới dạng "Văn bản cụ thể". Nếu không thìNhững kẻ đạo văn sẽ sao chép bản ghi vào tài nguyên của họ và sẽ là người đầu tiên trong cơ sở dữ liệu. Do đó, họ sẽ được công nhận là tác giả.
Cơ sở dữ liệu Google
Đối với Google, các đề xuất tương tự mà chúng tôi đã mô tả ở trên đều phù hợp, chỉ có các dịch vụ sẽ khác:
- Google + (thay thế Twitter);
- Google Chrome;
- Công cụ của Google dành cho Lập trình viên - "Quét" - "Trông giống như Googlebot" - tùy chọn "Quét" - tùy chọn "Chỉ mục";
- tìm kiếm trong tài nguyên từ Google;
- Google Analytics (thay vì Yandex. Metrics).
Cấm
Lệnh cấm lập chỉ mục trang web là gì? Bạn có thể phủ nó trên toàn bộ trang và trên một phần riêng biệt của nó (liên kết hoặc đoạn văn bản). Trên thực tế, có cả lệnh cấm lập chỉ mục toàn cầu và lệnh cấm cục bộ. Nó được thực hiện như thế nào?
Hãy xem xét việc cấm thêm một trang web vào cơ sở dữ liệu của công cụ tìm kiếm trong Robots.txt. Sử dụng tệp robots.txt, bạn có thể loại trừ việc lập chỉ mục của một trang hoặc toàn bộ tiêu đề tài nguyên như sau:
- Tác nhân người dùng:
- Disallow: /kolobok.html
- Disallow: / foto /
Điểm đầu tiên nói rằng các hướng dẫn được xác định cho tất cả các PS, điểm thứ hai cho biết rằng việc lập chỉ mục tệp kolobok.html bị cấm và điểm thứ ba không cho phép thêm toàn bộ nội dung của thư mục foto vào cơ sở dữ liệu. Nếu bạn cần loại trừ nhiều trang hoặc thư mục, vui lòng chỉ định tất cả chúng trong Robot.
Để ngăn lập chỉ mục của một trang Internet cụ thể, bạn có thể sử dụng thẻ meta rô bốt. Nó khác với robots.txtthực tế là nó cung cấp hướng dẫn cho tất cả các PS cùng một lúc. Thẻ meta này tuân theo các nguyên tắc chung của định dạng html. Nó phải được đặt trong tiêu đề của trang giữa các thẻ. Ví dụ, một mục cho lệnh cấm có thể được viết như thế này:.
Ajax
Yandex lập chỉ mục các trang Ajax như thế nào? Ngày nay, công nghệ Ajax được nhiều nhà phát triển trang web sử dụng. Tất nhiên, cô ấy có tiềm năng rất lớn. Với nó, bạn có thể tạo các trang web tương tác nhanh và hiệu quả.
Tuy nhiên, rô bốt công cụ tìm kiếm "nhìn thấy" danh sách web khác với người dùng và trình duyệt. Ví dụ, một người nhìn vào một giao diện thoải mái với các trang Internet được tải có thể di chuyển được. Đối với trình thu thập thông tin, nội dung của cùng một trang có thể để trống hoặc được trình bày dưới dạng phần còn lại của nội dung HTML tĩnh mà các tập lệnh không hoạt động.
Bạn có thể sử dụng URL vớiđể tạo các trang Ajax, nhưng công cụ tìm kiếm không sử dụng nó. Thông thường, một phần của URL sau dấuđược phân tách. Điều này phải được tính đến. Do đó, thay vì một URL như https://site.ru/example, anh ấy tạo một ứng dụng cho trang chính của tài nguyên có tại https://site.ru. Điều này có nghĩa là nội dung của trang tính Internet có thể không được đưa vào cơ sở dữ liệu. Do đó, nó sẽ không xuất hiện trong kết quả tìm kiếm.
Để cải thiện việc lập chỉ mục các trang Ajax, Yandex đã hỗ trợ các thay đổi trong rô bốt tìm kiếm và các quy tắc xử lý URL của các trang web đó. Ngày nay, quản trị viên web có thể chỉ ra cho công cụ tìm kiếm Yandex nhu cầu lập chỉ mục bằng cách tạo một lược đồ thích hợp trong cấu trúc tài nguyên. Đối với điều này, bạn cần:
- Thay thế ký hiệutrong URL của các trangtrên!. Giờ đây, rô bốt sẽ hiểu rằng nó có thể áp dụng cho phiên bản HTML của nội dung của trang Internet này.
- Phiên bản HTML của nội dung của một trang như vậy phải được đặt trên một URL có ! được thay thế bằng? _escaped_fragment _=.