Bạn có biết rằng khi bạn tìm kiếm gì đó trên Google, bạn không thực sự tìm kiếm thông tin trực tiếp từ các website mà bạn thấy? Thay vào đó, bạn chỉ đang dạo chơi bên trong bộ lưu trữ “chỉ mục” – Indexed page, của Google mà thôi.
Google thu thập thông tin trên internet bằng cách thả những “con bot” đi khắp các hang cùng ngõ tận, tìm những trang mới và thêm các trang mà nó phát hiện ra vào thư viện chỉ mục – indexed của Google.
Vấn đề ở chỗ: các con bot tự động của Google không phải lúc nào cũng tìm thấy tất cả các trang nội dung của một trang web, đồng nghĩa với việc các trang không được bot tìm thấy này sẽ mãi mãi nằm ở một góc tối nào đó trên internet.
Vậy nên, một trong những công việc đầu tiên của bạn khi làm SEO là đảm bảo rằng các trang mà bạn muốn xuất hiện trong kết quả tìm kiếm có trong chỉ mục của Google.
Một cách đơn giản để làm điều này là thêm sơ đồ trang web vào trang web của bạn.
Làm điều này là cách thực tế duy nhất để đảm bảo tất cả các trang của bạn được gửi lên Google – thực tế, ngoài các liên kết, sơ đồ trang web là cách hiệu quả thứ hai mà các công cụ tìm kiếm tìm và lập chỉ mục các trang.
Trong bài viết này, Tâm sẽ đề cập đến sơ đồ trang web là gì và cách bạn có thể sử dụng nó để đảm bảo rằng các trang của bạn được lập chỉ mục.
Sitemaps – sơ đồ trang web là gì?
Sitemaps – sơ đồ trang web là một tệp XML cung cấp danh sách các trang, video và các tệp khác trên một trang web, cùng với mối quan hệ giữa chúng. Nó hoạt động như một bản đồ (map) cho các công cụ tìm kiếm, giúp chúng thu thập thông tin và lập chỉ mục một trang web hiệu quả hơn.
Sitemap cực kỳ hữu ích cho các trang web lớn với nội dung được cập nhật thường xuyên.
Các loại sitemaps
1. XML Sitemaps
Sơ đồ trang web XML sitemaps là một tệp có thể đọc bằng máy, giúp bot dễ dàng thu thập thông tin và lập chỉ mục nội dung của bạn. Chúng bao gồm một danh sách tất cả các URL trên trang web của bạn và bao gồm các siêu dữ liệu bổ sung thông báo cho các công cụ tìm kiếm:
- URL được sửa đổi lần cuối vào lúc nào?
- Tần suất cập nhật của các URL
- Cách ưu tiên thu thập thông tin
- Hình ảnh nào tồn tại trên mỗi URL
- URL có ngôn ngữ nào khác hay không?
- Và nhiều tính năng khác…
2. HTML Sitemaps
Sơ đồ trang web HTML Sitemaps cung cấp cho người dùng danh sách liên kết có cấu trúc đến tất cả các trang của một trang web tại một nơi.
Mặc dù HTML sitemap từng là một cách phổ biến để người dùng điều hướng một trang web, thời điểm hiện tại HTML sitemaps hầu như không còn quan trọng và đang bị loại bỏ bởi rất nhiều website lớn.
Tâm sẽ trích dẫn và dịch lại một đoạn phát biểu của John Mueller – ông là Senior Search Analyst tại Google khi nói về HTML Sitemaps như sau:
Sơ đồ trang web HTML (HTML Sitemaps) không còn quá cần thiết. Các website nên có một cấu trúc điều hướng rõ ràng. Nếu bạn cảm thấy cần sơ đồ trang web HTML, hãy dành thời gian cải thiện cấu trúc trang web của bạn.
Theo John, từ quan điểm SEO, nếu bạn có một trang web lớn, sơ đồ trang web HTML của bạn sẽ không hỗ trợ lập chỉ mục. Thay vào đó, bạn nên sử dụng sơ đồ trang web XML và liên kết nội bộ mạnh mẽ.
Hơn nữa, nếu người dùng thường xuyên dựa vào sơ đồ trang web HTML của bạn để điều hướng, điều đó cho thấy hệ thống điều hướng của trang web là không đầy đủ và cần được cải thiện.
Nhưng sơ đồ trang web HTML cũng không phải là lỗi thời. Một vài ý kiến cho rằng HTML Sitemaps tuy không bắt buộc nhưng nếu có nó sẽ giúp cho người dùng (user) dễ dàng duyệt qua các nội dung trên website của bạn.
Cách tìm Sitemaps của một trang web
Rất dễ tìm một sơ đồ trang web khi bạn biết cách. Dưới đây là 3 cách mà Tâm hay sử dụng khi muốn tìm sitemaps của một trang web nào đó:
1. Kiểm tra thủ công:
Cách đơn giản nhất để tìm một sơ đồ trang web là tìm kiếm nó thủ công bằng trình duyệt web của bạn. Chỉ cần thêm “/sitemap.xml” hoặc “/sitemap_index.xml” vào cuối tên miền gốc của website mà bạn muốn tìm, bạn sẽ được chuyển hướng đến sitemaps của website đó.
Ví dụ, đây là sitemaps của dndtam.com: https://dndtam.com/sitemap_index.xml/
2. Kiểm tra tệp robots.txt
Một tệp robots.txt cung cấp hướng dẫn cho các bot web về khu vực nào cần thu thập thông tin. Vì các bot web truy cập những tệp này để hiểu cách thu thập thông tin trang web, thêm một liên kết đến sơ đồ trang web của nó ở đó là điều hợp lý.
Bạn có thể tìm hiểu bài viết giải thích và hướng dẫn tùy chỉnh file Robots.txt, một trong những bước căn bản khi Audit một website.
Tương tự như cách xem sitemaps thủ công, bạn có thể xem tệp robots.txt bằng cách thêm “/robots.txt” vào cuối URL gốc của website mà bạn muốn xem.
Dưới đây, chúng ta có thể thấy nội dung tệp robots.txt đẹp long lanh và mượt mà (Tâm đoán vậy) mà Tâm làm cho một khách hàng ở Úc. Bạn sẽ thấy dòng khai báo sitemaps được Tâm khoanh đỏ trong hình.
3. Sử dụng các toán tử tìm kiếm
Nghe toán tử tìm kiếm thấy hơi nhức đầu, lần đầu nghe đến “toán tử” Tâm cũng thấy hơi chóng mặt, nhưng thật ra nó chỉ là các lệnh mà bạn có thể sử dụng để tinh chỉnh kết quả tìm kiếm của mình bằng cách cung cấp các hướng dẫn bổ sung cho công cụ tìm kiếm như là Google hay Bing, Yandex.
Để tìm sitemaps của một trang web nào đó, chúng ta sẽ sử dụng cả toán tử đó là: “site:” và “filetype:“.
Tâm sẽ làm một ví dụ trực quan là lấy sitemaps của báo Thanh Niên. Đây sẽ là những gì bạn nhập vào thanh tìm kiếm của Google:
site:thanhnien.vn filetype:xml
Cấu trúc & cú pháp sitemap.xml
XML Sitemaps liệt kê các URL cho một trang web, cùng với siêu dữ liệu bổ sung về mỗi URL. Dưới đây là giải thích ngắn gọn về các thẻ (phần tử) của sơ đồ trang web phổ biến nhất:
- <?xml version=”1.0″ encoding=”UTF-8″?>: Định nghĩa phiên bản XML và mã hóa ký tự.
- <urlset>: Phần tử gốc chứa danh sách các URL. xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″: Chỉ định không gian tên cho sơ đồ trang web.
- <url>: Định nghĩa một mục URL đơn lẻ.
- <loc>: URL của trang.
- <lastmod>: Ngày trang được sửa đổi lần cuối. (Luôn sử dụng định dạng ngày và giờ W3C)
- <changefreq>: Tần suất trang dự kiến thay đổi (ví dụ: hàng ngày, hàng tuần, hàng tháng, hàng năm).
- <priority>: Độ ưu tiên của URL so với các trang khác trên trang web (từ 0.0 đến 1.0).
- hreflang=”x”: Xác định các biến thể ngôn ngữ và vùng địa lý của một trang cho các trang web đa ngôn ngữ.
Dưới đây là ảnh chụp màn hình một phần từ sitemaps của Báo Thanh Niên:
Bạn cũng thấy là Sitemaps của Báo Thanh Niên không cần sử dụng hết các thẻ, họ chỉ sử dụng 2 thẻ chính là <loc> và <lastmod>.
Tại sao Sitemaps lại quan trọng?
Về cơ bản, sơ đồ trang web – sitemaps cho phép các công cụ tìm kiếm lập chỉ mục các trang web của bạn một cách chính xác. Tuy nhiên, ngay cả khi bạn không có sơ đồ trang web, miễn là nội dung liên kết đến các trang trên trang web của bạn, Google vẫn có thể thu thập dữ liệu và lập chỉ mục nội dung của bạn.
Lời khuyên của Tâm là bạn không nên phức tạp hóa cách liên kết giữa các nội dung trên website của mình. Thậm chí, một vài trường hợp nếu website của bạn có nội dung ít và không có nhiều tuyến nội dung – “layers”, bạn hoàn toàn có thể không sử dụng sitemaps.
Vậy thì khi nào bạn cần có sitemaps?
- Trang web của bạn có hàng trăm đến hàng ngàn (chỉ mục) trang nội dung: Thường thì, các trang web lớn có bố cục phức tạp, khiến việc thu thập thông tin trở nên khó khăn. Cũng rất khó để quản lý liên kết nội bộ trên một trang web khổng lồ. Một sơ đồ trang web sẽ dễ dàng giải quyết điều này.
- Bạn cần chỉ định các trang ưu tiên: Trong một sơ đồ trang web, bạn có thể gán mức độ ưu tiên cho các trang khác nhau, chỉ định cho các công cụ tìm kiếm những trang nào quan trọng hơn. Điều này có thể giúp các công cụ tìm kiếm ưu tiên thu thập thông tin và lập chỉ mục các trang quan trọng nhất của bạn.
- Trang web của bạn phức tạp: Một sitemaps được cấu trúc tốt có thể cung cấp cho các công cụ tìm kiếm hiểu rõ hơn về cấu trúc và tổ chức của trang web của bạn, có thể cải thiện sự phù hợp của các trang của bạn trong kết quả tìm kiếm.
Tạo XML Sitemaps:
Có hai cách để tạo một sơ đồ trang web XML sitemaps:
- Tự động (các CMS như WordPress, Wix hay Haravan sẽ tự động tạo sitemaps cho bạn)
- Tạo sơ đồ trang web của riêng bạn (Cách nâng cao, bạn có thể click vào link để xem hướng dẫn chi tiết từ Google)
Nếu bạn tự tạo một sơ đồ trang web, đây là một số kinh nghiệm của Tâm mà bạn nên cân nhắc:
Kiểm soát số lượng URL:
Một sơ đồ sitemaps nên chứa ít hơn 50,000 URL hoặc kích thước tệp không nén không nên vượt quá 50MB.
Chỉ bao gồm các trang bạn muốn lập chỉ mục:
Có nhiều trường hợp bạn sẽ không muốn bao gồm một số trang nhất định trong chỉ mục của Google.
Ví dụ:
- Các trang nội dung trùng lặp
- Các trang về quyền riêng tư hoặc bảo mật
- Các trang kết quả tìm kiếm nội bộ
- Các trang cảm ơn hoặc xác nhận đã mua hàng
Bạn không nên để những trang này được lập chỉ mục bởi các bot.
Trên thực tế, cách an toàn nhất là chỉ đưa vào sitemap các URL chuẩn hay còn gọi là canonical URLs. Điều này sẽ tránh các rủi ro về nội dung trùng lặp và đảm bảo rằng các công cụ tìm kiếm chỉ thu thập thông tin và lập chỉ mục các phiên bản chính xác của các trang của bạn, giữ một cấu trúc rõ ràng và có tổ chức cho nội dung trang web của bạn trong kết quả tìm kiếm.
Tránh sơ đồ trang web tĩnh
Một sơ đồ trang web tĩnh tức là không có cập nhật để thông báo các thay đổi trong nội dung hoặc cấu trúc trang web của bạn. Bạn nên tránh sử dụng dạng sitemaps này, vì khi bạn thay đổi nội dung hoặc đăng nội mới lên trang web, sơ đồ trang web dạng này sẽ trở nên vô dụng.
Có nhiều công cụ trực tuyến được thiết kế để thu thập thông tin các trang web và tạo một sitemaps tĩnh, bạn có thể xem nó như một bức ảnh, còn sitemaps động thì như đang livestream vậy. Tâm khuyên bạn không nên xài loại này.
Sử dụng cú pháp tối ưu
Các sơ đồ trang web của bạn chỉ nên bao gồm các URL tuyệt đối, bao gồm các địa chỉ web đầy đủ, bao gồm cả giao thức (ví dụ: https:) và tên miền.
Xem mục “Thẻ cần thiết” tại tài liệu hướng dẫn của Google để được cập nhật chính xác nhất: Tham chiếu đến chỉ mục Sơ đồ trang web.
Cân nhắc khi sử dụng sitemap lồng nhau
Cấu trúc sơ đồ trang web lồng nhau được thiết kế để chia nhỏ một sơ đồ trang web rất lớn thành nhiều tệp sơ đồ trang web nhỏ hơn và sau đó cung cấp một tệp chỉ mục sơ đồ trang web trỏ đến từng sơ đồ trang web cá nhân đó. Về nguyên tắc Google chưa hỗ trợ, nhưng thực tế rất nhiều trường hợp vẫn indexed được theo cách này. Bạn nên cân nhắc.
Nén các sơ đồ trang web lớn
Khi các sơ đồ trang web của bạn trở nên quá lớn, bạn có thể nén chúng bằng phương pháp gzip.
Từ khóa để bạn tự nghiên cứu: “How to zip a sitemap?” hoặc “Làm thế nào để nén sitemap?”.
Gửi sơ đồ trang web của bạn đến Google Search Console (GSC)
Với sơ đồ trang web trong tay, đã đến lúc “thông báo” đến chỉ mục của Google và các công cụ tìm kiếm khác. Tâm sẽ hướng dẫn bạn cách xử lý đối với Google trước, bằng cách khai báo Sitemaps của bạn vào công cụ lập chỉ mục của Google Search Console.
Đây là cách làm:
- Truy cập vào [https://search.google.com/] sau đó điều hướng đến tab Sitemaps (như ảnh)
- Nhập URL của tệp sơ đồ trang web của bạn, ví dụ: https://www.example.com/sitemap.xml
- Nhấp vào nút “Submit” Báo cáo Sitemaps của Search Console
Thường xuyên kiểm tra GSC để phát hiện lỗi Index
Khi bạn đã gửi sơ đồ trang web, bạn cần phải kiểm tra liên tục trong khoảng thời gian đầu xem sitemaps của bạn có lỗi gì không. Trong trang sơ đồ trang web, bạn sẽ thấy một bảng liệt kê tất cả các sơ đồ trang web của bạn. Kiểm tra cột trạng thái để xem có lỗi nào không. Nếu không có lỗi, bạn sẽ thấy ‘Success’ trong cột Trạng thái-Status.
Nếu có lỗi nào, nhấp vào URL, và bạn sẽ được chuyển đến một trang liệt kê các lỗi của bạn, với các menu thả xuống giải thích từng vấn đề.
Thêm liên kết sơ đồ trang web của bạn vào tệp robots.txt
Mặc dù bạn đã gửi sitemaps lên Google Search Console, Tâm khuyên bạn vẫn nên thêm nó vào tệp robots.txt của bạn. Lý do là tệp robots.txt của bạn là một trong những nơi đầu tiên các “bot” của công cụ tìm kiếm tìm khi truy cập một trang web.
Các bot của công cụ tìm kiếm sử dụng tệp robots.txt để hiểu những phần nào của trang web mà họ được phép thu thập thông tin và lập chỉ mục.
Bằng cách thêm sơ đồ trang web của bạn vào trong tệp robots.txt, bạn đang chỉ dẫn trực tiếp cho các bot công cụ tìm kiếm vị trí của tệp sơ đồ trang web của bạn, làm cho nó dễ dàng hơn để các công cụ tìm kiếm tìm và thu thập thông tin các trang của trang web của bạn hiệu quả.
Sitemaps – Kim chỉ nam cho các công cụ tìm kiếm
Sitemaps sẽ tiết kiệm cho các Công cụ tìm kiếm rất nhiều thời gian, năng lượng để “thu thập” thông tin, và trong thời điểm mà các công ty công nghệ đang liên tục cắt giảm từ nhân sự cho đến kinh phí thì việc chúng ta góp phần làm giảm thời gian “indexing” cũng sẽ giúp ích cho tất cả các bên – và chắc chắn là không có hại gì khi Google đang tìm thấy tất cả các trang của bạn, phải không?
Nếu bạn bỏ chút thời gian, Tâm tin rằng bạn hoàn toàn có thể tự xử lý những vấn đề này mà không cần chuyên gia, việc tuy nhỏ nhưng lợi ích của nó cực kỳ lớn và rất quan trọng khi bắt đầu các chiến dịch SEO của bạn. Trên thực tế, việc set-up một sơ đồ trang web – Sitemaps đúng chuẩn là một phần không thể bỏ qua khi Audit website của bạn.
FAQs – Câu hỏi thường gặp về Sitemaps
Sitemaps là gì?
Sơ đồ trang web (sitemaps) là một tệp XML chứa danh sách các trang, video và các tệp khác trên một trang web, cùng với mối quan hệ giữa chúng. Nó giúp các công cụ tìm kiếm như Google, Bing, Yandex thu thập thông tin và lập chỉ mục trang web hiệu quả hơn, đặc biệt là với các trang web lớn và có nội dung cập nhật thường xuyên.
Có bao nhiêu loại sitemaps?
Có hai loại sơ đồ trang web (sitemaps) chính: sơ đồ trang web XML và sơ đồ trang web HTML. Sơ đồ trang web XML là tệp có thể đọc bằng máy giúp bot thu thập thông tin và lập chỉ mục nội dung dễ dàng hơn. Sơ đồ trang web HTML cung cấp danh sách liên kết có cấu trúc cho người dùng để điều hướng trang web.
Làm thế nào để tạo và đăng ký sitemaps lên Google?
Bạn có thể tạo sơ đồ trang web tự động bằng các CMS như WordPress, Laravel, Wix,v.v…, hoặc tạo thủ công. Để gửi sơ đồ trang web đến Google, bạn vào Google Search Console, điều hướng đến trang Sitemaps, nhập URL sitemaps của bạn và nhấp vào nút “Submit”.
Khi nào cần tạo sơ đồ trang web?
Bạn cần một sơ đồ trang web khi trang web của bạn có hàng ngàn trang, cần chỉ định các trang ưu tiên, hoặc có cấu trúc phức tạp. Sơ đồ trang web giúp các công cụ tìm kiếm hiểu rõ hơn về cấu trúc và tổ chức của trang web, từ đó cải thiện sự phù hợp của các trang trong kết quả tìm kiếm.
Làm thế nào để tìm và kiểm tra sơ đồ trang web của một website?
Bạn có thể tìm sơ đồ trang web bằng cách thêm /sitemap.xml vào tên miền của trang web. Nếu không tìm thấy, bạn có thể kiểm tra tệp robots.txt bằng cách thêm /robots.txt vào thư mục gốc của trang web, hoặc sử dụng các toán tử tìm kiếm như site: và filetype: trên Google để tìm sơ đồ trang web đã được lập chỉ mục.