Thiết kế web Mạng xã hội
Quảng cáo:

Cải thiện việc crawl và index của trang web

Thảo luận trong 'Tối ưu hoá Onpage'

  1. damtuan01

    damtuan01 Member

    Quảng cáo:
    _______________________________________________________________________

    (Thegioiseo) - Craw và index - đây là hai nhiệm vụ chính của Google bot. Webmaster có thể tạo thuận lợi cho việc index trang webcủa họ bằng cách tạo ra một số thay đổi. Điều này cho phép bot có thể thực hiện công việc một cách kỹ lưỡng và cung cấp cho các trang web cơ hội để xếp hạng tốt hơn. 5 bước dưới đây có thể giúp bạn tối ưu hóa trang web của bạn và trang web của bạn có thể được tìm thấy dễ dàng hơn trên web.

    [​IMG]

    1. Khái niệm cơ bản

    1.1. Robots.txt

    Robots.txt là một tập tin văn bản đơn giản hướng dẫn Google bot index các trang web của bạn. Đây là những khu vực thường xuyên chứa dữ liệu nhạy cảm, chẳng hạn như tài khoản và đăng nhập của khách hàng, nó không cần phải được index.

    Khi tạo ra tập tin robots.txt, điều quan trọng là phải đảm bảo các bot có quyền truy cập vào tất cả các nguồn tài nguyên cần thiết để hiển thị một cách chính xác trang web của bạn. Ví dụ, bạn nên tránh chặn CSS hay JavaScript trong robots.txt.

    Nếu bạn muốn loại bỏ một thư mục cụ thể từ crawl, trong robots.txt bạn sử dụng mã sau đây:
    Mã:
    www.thegioiseo.com/robots.txt
    Tip:

    Sử dụng Google Search Console để kiểm tra robots.txt của bạn. Xin lưu ý điều này đòi hỏi bạn đã đăng ký website vào Search Console.

    [​IMG]

    1.2. XML Sitemap

    Bên cạnh robots.txt, có một tập tin mà đóng một vai trò quan trọng cho việc index đó là XML Sitemap. Đây là một tập tin máy có thể đọc được danh sách tất cả các URL trên trang web của bạn. Những dữ liệu có cấu trúc được tạo ra bằng hình thức văn bản và lưu dưới định dạng XML. Tập tin này cũng cho phép bạn truyền tải thêm các thông tin khác ngoài các URL, chẳng hạn như khi các URL khác nhau được cập nhật cuối cùng.

    Sau khi bạn đã tạo ra tập tin XML, thêm nó vào Google Search Console để thông báo cho Google URL hiện có. Tuy nhiên, XML sitemap chỉ nên bao gồm các URL đến Google và không cung cấp cho bot hướng dẫn như trong tập tin robots.txt. Do đó, Google sẽ bỏ qua các nội dung của tập tin khi index trang web.

    XML sitemap thường được xử lý kém mặc dù thực tế nó rất hữu ích trong việc index các trang web mới. Ví dụ, nếu bạn có nội dung mới trên trang web mà không được liên kết với nhau, sử dụng sitemap để thông báo cho Google về nội dung này.

    [​IMG]

    Có nhiều cách khác nhau để tạo ra một sitemap. Một số CMS thậm chí đi kèm với các công cụ có liên quan để tạo ra sitemap tự động. Bạn cũng có thể sử dụng bất kỳ chương trình miễn phí có sẵn.

    Sau khi sitemap đã sẵn sàng, lưu nó vào thư mục gốc của trang web của bạn:

    Mã:
    www.thegioiseo.com/sitemap.xml
    Nén sitemap hoặc lưu nó tự động để tiết kiệm không gian trên máy chủ.

    Google khuyên nên tách sitemap nếu bạn có hơn 50.000 URL. Trong trường hợp này, bạn cần sử dụng một chỉ số và tạo ra một “sitemap of the sitemap”. Các chỉ số sitemap nên chứa tất cả các liên kết đến các XML sitemap khác nhau. Điều này có thể trông giống như:

    [​IMG]
    Sau đó bạn nên tải tập tin vào Search Console để cho phép Google re-crawl sub-pages.

    Nếu bạn có rất nhiều video và hình ảnh trên trang web của bạn, bạn cũng nên kiểm tra việc index bằng cách tạo ra sitemap riêng biệt cho những hình ảnh và video. Cấu trúc của một XML sitemap cho các tập tin truyền thông là tương tự như sitemap thông thường.

    Tip:

    Trong nhiều trường hợp, bạn muốn trang web của bạn phải được re-crawl càng sớm càng tốt sau khi bạn đã thực hiện một vài thay đổi. Google Search Console sẽ giúp bạn trong những trường hợp như thế này. Chức năng này giới hạn 500 URL mỗi tháng cho một trang web.

    [​IMG]

    2. Sử dụng ngân sách crawl

    Google bot là một chương trình máy tính được thiết kế để follow các liên kết, thu thập URL và sau đó giải thích, phân loại và index nội dung. Để làm được điều này, bot có một ngân sách crawl giới hạn. Số lượng các trang được crawl và index phụ thuộc vào thứ hạng trang của trang web tương ứng.

    Kiến trúc trang web được tối ưu hóa sẽ làm cho bot làm việc dễ dàng hơn nhiều. Đặc biệt, hệ thống phân cấp giúp bot truy cập tất cả các webpage có sẵn.

    Việc crawl có thể bị ảnh hưởng bởi cách sử dụng các liên kết internal của bạn. Với menu điều hướng bạn có thể cung cấp cho bot các gợi ý về cách URL sử dụng các liên kết sâu trong văn bản. Bằng cách này, các liên kết trỏ đến nội dung quan trọng từ trang chủ của bạn sẽ được crawl nhanh hơn. Việc sử dụng các thẻ anchor để mô tả mục tiêu liên kết cung cấp thêm thông tin cho bot và cách để chúng phân loại nội dung.

    Để bot có thể thu thập nội dung của bạn nhanh hơn, bạn có thể sử dụng h-tags. Ở đây, bạn nên đảm bảo cấu trúc trong thẻ được đặt theo thứ tự. Điều này có nghĩa là sử dụng thẻ h1 cho tiêu đề chính và sau đó là h2, h3... cho các subheadings của bạn.

    Nhiều CMS và những nhà thiết kế web sử dụng h-tags để định dạng kích thước tiêu đề trang của họ. Điều này có thể gây nhầm lẫn cho Google bot khi crawl. Bạn nên sử dụng CSS để xác định kích thước font chữ độc lập với nội dung.

    3. Tránh để bot đi đường vòng

    Bất cứ khi nào Google bot gặp một trang lỗi, nó không thể follow bất kỳ các liên kết khác và do đó nó sẽ trở lại và bắt đầu lại từ một trang khác. Các trình duyệt hoặc trình thu thập thường không thể tìm thấy một URL sau khi các nhà vận hành trang web xóa sản phẩm từ cửa hàng trực tuyến của họ hoặc sau khi thay đổi URL. Trong trường hợp này, máy chủ trả về một mã lỗi 404 (không tìm thấy). Tuy nhiên, số lượng lỗi lớn như vậy tiêu tốn một phần ngân sách crawl rất lớn. Các webmaster phải sửa chữa những lỗi đó một cách thường xuyên (xem mục 5).

    Các trang Orphan là những trang không có các liên kết inbound internal nhưng có thể có các liên kết external. Các bot không thể thu thập các trang đó hoặc đột ngột buộc phải dừng lại việc crawl. Nó tương tự như một lỗi 404, bạn nên cố gắng tránh các trang này. Những trang này thường là do sai sót trong thiết kế web hoặc cú pháp cảu các liên kết internal không còn chính xác.

    4. Tránh trùng lặp nội dung

    Theo Google, nội dung trùng lặp là một điều không tốt đối với họ. Nếu SEO hoặc webmaster không làm bất cứ điều gì, công cụ tìm kiếm sẽ đi về phía trước và bỏ qua những nội dung đó. Việc theo dõi và kiểm soát cách Google xử lý các nội dung bằng cách sử dụng 3 biện pháp sau:

    - Chuyển hướng 301: nội dung trùng lặp có thể xảy ra rất nhanh chóng, đặc biệt nếu đó là phiên bản www. Điều tương tự cũng áp dụng cho các kết nối được bảo đảm thông qua https. Để tránh việc trùng lặp nội dung, bạn nên sử dụng chuyển hướng 301 để trỏ đến phiên bản ưa thích của trang web. Điều này đòi hỏi bạn phải sửa đổi tập tin .htaccess của bạn cho phù hợp hoặc bổ sung thêm phiên bản ưa thích trong Google Search Console.

    - Thẻ Canonical: các cửa hàng trực tuyến có nguy cơ trùng lặp nội dung rất cao. Để giải quyết vấn đề này, bạn có thể sử dụng thẻ canonical. Thẻ này sẽ thông báo cho Google bot về các phiên bản URL gốc phải được index. Có những công cụ khác nhau mà bạn có thể sử dụng để kiểm tra thẻ canonical của bạn. Những công cụ này giúp bạn xác định các trang không có thẻ canonical hay những thẻ canonical bị lỗi. Lý tưởng nhất, mỗi trang cần phải có một thẻ canonical.

    - Thẻ rel=alternate: thẻ này rất hữu ích nếu trang web có sẵn các ngôn ngữ khác nhau hoặc nếu bạn có một phiên bản desktop và mobile trên trang web của bạn. Thẻ này sẽ thông báo cho Google bot về một URL được thay thế.

    5. Monitoring: khắc phục nhanh

    Thường xuyên kiểm tra dữ liệu trong Google Search Console luôn là một cách tốt để biết cách Google crawl và index trang web của bạn. Search Console cung cấp rất nhiều lời khuyên giúp bạn tối ưu hóa trang web của bạn.

    [​IMG]

    Dưới “crawl errors”, bạn sẽ sẽ tìm thấy một danh sách chi tiết tất cả các lỗi 404 và cái gọi là “Soft 404 errors". Soft 404 errors không được hiển thị một cách chính xác và máy chủ không trả lại bất kỳ mã lỗi nào.

    [​IMG]

    Bên cạnh “Fetch as Google” và “robots.txt Tester”, công cụ “URL parameters” cũng có thể rất hữu ích. Nó cho phép các webmaster và SEO xác định cách Google bot xử lý các thông số cụ thể của một URL. Ví dụ, xác định tầm quan trọng một thông số cụ thể của URL giúp bạn tối ưu hóa hơn nữa ngân sách crawl của bot.

    Kết luận

    Các tùy chọn được giải thích trong bài viết này sẽ giúp bạn tối ưu hóa trang web của bạn để được crawl và index bởi Google bot. Và điều này sẽ làm cho trang web của bạn dễ dàng được tìm thấy trên Google. Như vậy, các tùy chọn nói trên thiết lập những nguyên tắc cơ bản để trang web thành công, vì vậy không có gì sẽ ngăn cản bạn đến con đường xếp hạng tốt hơn.

    Ghi nguồn www.thegioiseo.com
  2. seotn92

    seotn92 New Member

    em thấy bác đăng trên nhiều diễn đàn tưởng có nội dung gì mới cơ, đi một loạt dd vào đọc thử 1 lần. chấm chấm chấm
  3. LEXUAN

    LEXUAN New Member

    Bạn ý đi phổ cập thông tin cho mọi người mà :D:D:D
  4. LoveTheTop95

    LoveTheTop95 New Member

    nên submit và lập chỉ mục lên google để được index nhanh nhất

Chia sẻ trang này

Địa điểm học nghiệp vụ đấu thầu| Khóa học nghiệp vụ đấu thầu| Chứng chỉ nghiệp vụ đấu thầu| Lớp học đấu thầu