Audit Hreflang Bằng Screaming Frog Cho Website Đa Ngôn Ngữ

Nội dung

Audit hreflang bằng Screaming Frog luôn là một trong những thách thức lớn nhất của SEOer, bởi chỉ cần implementation sai, Google có thể phục vụ nhầm phiên bản ngôn ngữ hoặc quốc gia, dẫn đến mất traffic quốc tế và giảm hiệu quả SEO đa thị trường – tương tự như các vấn đề thường gặp khi audit redirect, audit status code crawl hoặc crawl website có mật khẩu không đúng cách. Trên thực tế, rất nhiều website đa ngôn ngữ tại Việt Nam gặp lỗi hreflang nhưng không phát hiện kịp thời. Tuy nhiên, với việc Screaming Frog hỗ trợ crawl và phân tích hreflang toàn diện, quy trình audit sẽ được đơn giản hóa đáng kể. Screaming Frog có khả năng crawl rel=”alternate” hreflang trong HTML, HTTP Header và XML Sitemap, đồng thời báo cáo đầy đủ các lỗi hreflang phổ biến ở quy mô lớn. LENART sẽ hướng dẫn chi tiết từ khâu tải công cụ, kích hoạt licence trả phí cho đến phân tích implementation, giúp bạn audit và tối ưu hreflang chính xác chỉ trong vài bước.

audit-hreflang-screaming-frog.png

1. Chọn ‘Crawl’ và ‘Store’ Hreflang Trong Config > Spider > Crawl

Menu Configuration nằm trong thanh điều hướng cấp cao của Screaming Frog SEO Spider.

cau-hinh-hreflang-cho-audit-hreflang

Việc bật tùy chọn này cho phép Screaming Frog crawl các URL được tham chiếu trong hreflang annotations và trích xuất đầy đủ dữ liệu hreflang phục vụ audit. Sau khi cấu hình xong, nhấn OK để lưu thiết lập.

2. Crawl Hreflang Trong XML Sitemaps: Config > Spider > Crawl

Chọn Crawl Linked XML Sitemaps trong Config > Spider > Crawl.

Sau đó chọn discover XML Sitemaps qua robots.txt (cần entry Sitemap: https://dulichtritai.vn/index_sitemap.xml ), hoặc cung cấp trực tiếp đường dẫn XML Sitemap. Trong quá trình này, bạn nên kết hợp kiểm tra robots.txt bằng Screaming Frog để đảm bảo sitemap không bị chặn crawl hoặc index ngoài ý muốn.

crawl-hreflang-sitemaps-setup-audit-hreflang

Nếu hreflang được implement thông qua link elements trong HTML hoặc HTTP Header, bạn có thể bỏ qua bước crawl XML Sitemap.

Trong trường hợp không chắc hreflang được implement theo cách nào, bạn vẫn nên crawl XML Sitemap vì Screaming Frog sẽ tự động detect tất cả hreflang annotations hiện có.

3. Crawl Multiple Domains: Config > CDNs

Nếu hreflang được thiết lập trên nhiều domain, các trang thuộc external domain sẽ không được Screaming Frog review đầy đủ theo mặc định. Điều này đặc biệt dễ gây lỗi với các website dùng bypass geo IP redirect hoặc cấu hình redirect theo quốc gia không nhất quán. Khi đó, Screaming Frog chỉ kiểm tra status của external URLs mà không tải HTML để phân tích return links hreflang.

Để download và process các trang này, thêm external domains trong hreflang vào CDN (Configuration > CDNs).

cau-hinh-cdn-ho-tro-audit-hreflang

Khi Crawl Hreflang đã bật (Configuration > Spider > Crawl Hreflang), các URL từ domains này được coi là internal pages, crawl đầy đủ và process HTML.

Nếu hreflang qua XML sitemaps, thêm external sitemaps như hướng dẫn trên

4. Crawl The Website

Open up the SEO Spider, type or copy in the website you wish to crawl in the ‘Enter URL to spider’ box and hit ‘Start’.

website-crawl-setup-for-audit-hreflang

The website will be crawled and rel=”alternate” hreflang annotations in HTML, via HTTP Header or in XML Sitemaps will be discovered.

Now grab a coffee and wait until the progress bar reaches 100%, and the crawl is completed.

5. Xem Tab Hreflang

Tab Hreflang hiển thị toàn bộ URL được phát hiện trong quá trình crawl, kèm theo các rel=”alternate” hreflang annotations được discover và reference ở các cột bên phải của pane chính. Cột Occurrences cho biết số lượng hreflang annotations được phát hiện trên mỗi URL. Trong thực tế, bạn không nhất thiết phải xử lý tất cả filters, mà nên ưu tiên các lỗi ảnh hưởng trực tiếp đến khả năng Google hiểu và phục vụ đúng phiên bản ngôn ngữ.

Tab Hreflang có 13 filters (như hình dưới) giúp identify common SEO issues.

the-hreflang-trong-seo-spider-audit-hreflang

12/13 filters xem được ngay trong hoặc sau crawl. Filter ‘unlinked hreflang URLs’ cần post Crawl Analysis sau crawl để populate data.

Pane overview bên phải hiển thị message ‘(Crawl Analysis Required)’ cho filter cần post analysis.

hreflang-crawl-analysis-filter-audit-hreflang

6. Chạy ‘Crawl Analysis > Start’ Để Populate Hreflang Filters

Để populate filter ‘unlinked hreflang URLs’, click nút crawl analysis.

bat-dau-crawl-analysis-cho-audit-hreflang

Nếu đã config Crawl Analysis trước, kiểm tra Crawl Analysis > Configure đảm bảo Hreflang được tick. Có thể bỏ tick các items khác cần post crawl analysis để bước này nhanh hơn.

post-crawl-hreflang-analysis-audit-hreflang

Khi crawl analysis hoàn tất, progress bar đạt 100% và filters không còn message ‘(Crawl Analysis Required)’.

hoan-tat-crawl-va-phan-tich-audit-hreflang

7. Click ‘Hreflang’ & Xem Filters Đã Populate

Sau khi thực hiện post crawl analysis, tất cả hreflang filters sẽ được populate với data khi applicable.

seo-spider-hreflang-auditing-dashboard

  • Hreflang data được review trong các columns để đảm bảo implementation đúng yêu cầu. Có thể filter theo các SEO issues sau:
  • Contains Hreflang – Đây là các URL có rel=”alternate” hreflang annotations từ bất kỳ implementation nào, dù là link element, HTTP header hay XML Sitemap.
  • Non-200 Hreflang URLs – Đây là các URL chứa rel=”alternate” hreflang annotations nhưng không có response code 200, như URL bị block bởi robots.txt, no response, 3XX (redirects), 4XX (client errors) hoặc 5XX (server errors). Hreflang URLs bắt buộc phải crawlable và indexable, vì vậy các URL trả về non-200 status code được xem là lỗi. Trên thực tế, những vấn đề này thường đi kèm trạng thái crawled currently not indexed hoặc discovered currently not indexed trong Google Search Console và có thể bị công cụ tìm kiếm bỏ qua hoàn toàn. Đây là lỗi nghiêm trọng, nên ưu tiên xử lý sớm.
  • Unlinked Hreflang URLs – Đây là các pages chứa một hoặc nhiều hreflang URLs chỉ discoverable qua rel=”alternate” hreflang link annotations. Do hreflang annotations không truyền PageRank như anchor text thông thường, các URL chỉ được discover qua hreflang có thể là dấu hiệu của vấn đề internal linking, tương tự các lỗi thường gặp khi phân tích vị trí liên kết hoặc tìm link lỗi bằng Screaming Frog có thể là lỗi trong hreflang annotation. Nếu hreflang setup across multiple domains và chỉ crawl single domain thì sẽ bị flagged. Sử dụng CDNs feature để crawl multiple domains. Export Reports > Hreflang > Unlinked Hreflang URLs để xem chính xác hreflang URLs nào unlinked.
  • Missing Return Links – Đây là URLs thiếu return links (hay ‘return tags’ trong Google Search Console) từ alternate pages. Hreflang là reciprocal, tất cả alternate versions phải confirm relationship. Khi page X link đến page Y qua hreflang, page Y phải có return link. No return links nghĩa là hreflang annotations có thể bị ignore hoặc không interpret đúng. Missing return links URLs hiển thị trong lower window ‘URL Info’ pane với ‘missing’ confirmation status. Export Reports > Hreflang > Missing Return Links.
  • Inconsistent Language & Region Return Links – URLs có inconsistent language và regional return links. Return link có language hoặc regional value khác URL đang reference. Inconsistent language return URLs hiển thị trong lower window ‘URL Details’ pane với ‘Inconsistent’ confirmation status. Export Reports > Hreflang > Inconsistent Language Return Links.
  • Non Canonical Return Links – URLs có non canonical hreflang return links. Hreflang chỉ nên include canonical versions of URLs. Filter này detect return links trỏ đến non-canonical URLs. Non canonical return URLs hiển thị trong lower window ‘URL Details’ pane với ‘Non Canonical’ confirmation status. Export Reports > Hreflang > Non Canonical Return Links.
  • Noindex Return Links – Return links có meta tag ‘noindex’. Tất cả pages trong set phải indexable, đặc biệt với các trang audit AMP hoặc audit PDF SEO, nơi noindex thường bị cấu hình sai ngoài ý muốn, return URLs có ‘noindex’ có thể khiến hreflang relationship bị ignore. Noindex return links URLs hiển thị trong lower window ‘URL Details’ pane với ‘noindex’ confirmation status. Export Reports > Hreflang > Noindex Return Links.
  • Incorrect Language & Region Codes – Verify language (ISO 639-1 format) và optional regional (ISO 3166-1 Alpha 2 format) code values hợp lệ. Unsupported hreflang values hiển thị trong lower window ‘URL Details’ pane với ‘invalid’ status.
  • Multiple Entries – URLs có multiple entries đến cùng language hoặc regional code. Ví dụ page X link đến page Y và Z với cùng ‘en’ hreflang value. Filter cũng detect multiple implementations (link elements + HTTP header).
  • Missing Self Reference – URLs thiếu self referencing rel=”alternate” hreflang annotation. Trước đây là requirement, giờ Google cho optional nhưng vẫn good practice.
  • Not Using Canonical – URLs không dùng canonical URL trên page trong hreflang annotation. Hreflang chỉ include canonical versions. Hiển thị trong lower window ‘URL Details’ pane với ‘Not using canonical’ status.
  • Missing X-Default – URLs thiếu x-default hreflang attribute (optional).
  • Missing – URLs hoàn toàn thiếu hreflang attribute (có thể valid nếu không có multiple versions).
  • Outside <head> – Pages có hreflang link element nằm ngoài head element trong HTML. Hreflang link element phải trong head, nếu không search engines sẽ ignore.

8. Xem Tab ‘URL Details’ Pane Dưới Để Xem Errors

Tab ‘URL Details’ ở dưới hiển thị thông tin granular hữu ích về specific hreflang errors gặp phải.

thong-tin-url-hreflang-audit-hreflang

Ví dụ với filter ‘Noindex Return Links’, nó hiển thị ‘hreflang confirmation status’ của alternate pages. Như ví dụ dưới, thấy URL nào bị mark ‘noindex’.

noindex-confirmation-urls-hreflang-audit

Các URL này có thể export bulk qua Reports > Hreflang > Noindex Return Links.

Một ví dụ thực tế khác đến trực tiếp từ Google cho thấy ngay cả các website lớn cũng có thể gặp khó khăn khi implement hreflang đúng cách. Google dùng hreflang annotations trong XML Sitemaps và có nhiều issues. Review Google search XML Sitemap ( https://www.google.com/sitemap_search.xml ) thấy 169 ‘Incorrect Language & Region Codes’.

Mỗi URL trong XML Sitemap có 362 hreflang, audit manual sẽ cực kỳ painful. Nhưng dùng filter ‘Incorrect Language & Region Codes’, review (hoặc export + filter) tab ‘URL Info’ pane dưới, nhanh chóng identify column ‘language code valid’ với status ‘invalid’.

ma-ngon-ngu-hreflang-khong-hop-le-audit-hreflang

Khi đối chiếu với danh sách ISO 639-1, có thể thấy ‘fl’ không phải là mã ngôn ngữ hợp lệ cho Filipino; mã đúng phải là ‘tl’. Đây cũng là lỗi khá phổ biến trên các website Việt khi dev hardcode mã ngôn ngữ mà không đối chiếu tiêu chuẩn ISO.

9. Sử Dụng ‘Reports > Hreflang > X’ Exports Để Bulk Export Source URLs & Errors

Để bulk export details của source pages chứa errors hoặc issues hreflang, sử dụng các options ‘Reports > Hreflang’.

Ví dụ, export ‘Reports > Hreflang > Non-200 Hreflang URLs’ sẽ include details source pages chứa rel=”alternate” hreflang annotations trỏ đến exact URLs bị error hoặc redirect.

hreflang-reports-cho-audit-hreflang

Cách này đôi khi dễ digest hơn UI, vì source URLs và hreflang links được list riêng từng row.

Qua bài viết này, bạn đã nắm được quy trình audit hreflang bằng Screaming Frog từ cấu hình crawl, phân tích XML Sitemap, chạy Crawl Analysis cho đến kiểm tra 13 nhóm lỗi hreflang phổ biến. Khi audit, hãy luôn ưu tiên kiểm tra non-200 hreflang URLs, missing return links và mã ngôn ngữ không hợp lệ trước các lỗi mang tính best practice. LENART SEO tin rằng hướng dẫn audit hreflang này sẽ giúp bạn phát hiện chính xác các lỗi implementation, tối ưu international SEO và đảm bảo Google luôn phục vụ đúng phiên bản ngôn ngữ cho từng thị trường mục tiêu. Nhờ quy trình này, bạn có thể dễ dàng phát hiện implementation sai, missing return links, invalid codes và đảm bảo hreflang hoàn hảo, đồng thời kết hợp hiệu quả với các quy trình crawl danh sách URL, crawl javascript SEOkiểm tra structured data để tối ưu toàn diện technical SEO. LENART SEO tin rằng hướng dẫn audit hreflang này sẽ giúp bạn phát hiện chính xác các lỗi implementation, tối ưu international SEO và đảm bảo Google luôn phục vụ đúng phiên bản ngôn ngữ cho từng thị trường mục tiêu.

Nội dung được nhân sự phòng Technical chia sẻ!

Bài viết liên quan

Nội dung
Bài viết nổi bật
Lên đầu trang