Hướng Dẫn Cách Bypass Geo IP Redirect Khi Crawl Website

Nội dung

Bypass geo ip redirect là một trong những vấn đề phổ biến nhất khi crawl và phân tích website quốc tế, đặc biệt với các site tự động chuyển hướng người dùng theo vị trí địa lý. Nếu bạn đang gặp tình trạng bị ép redirect về phiên bản địa phương và đang tìm cách bypass geo IP redirect mà không cần dùng proxy hay chỉnh Accept-Language header phức tạp, thì bài viết này LENART sẽ giúp bạn. Trong bài viết này, mình sẽ hướng dẫn cách bypass geo ip redirect bằng forms-based authentication trong Screaming Frog, thông qua việc thiết lập cookie vị trí mong muốn để crawl đúng phiên bản website cần phân tích, kèm ví dụ thực tế và những lưu ý quan trọng để tránh crawl sai dữ liệu.

bypass-geo-ip-redirect-bang-authentication

1. Thách Thức Từ Chuyển Hướng Geo IP

Bạn có bao giờ gặp tình huống này chưa? Đang định phân tích một website quốc tế, nhưng nó cứ tự động “đẩy” bạn sang phiên bản địa phương mà chẳng hỏi han gì. Google làm vậy với công cụ tìm kiếm (mặc dù họ cũng thừa nhận điều này ảnh hưởng trải nghiệm người dùng), và hàng loạt thương hiệu lớn cũng áp dụng chiến lược tương tự.

Thoạt nghe thì tiện lợi cho người dùng thông thường, nhưng với dân SEO như chúng ta thì đây lại là một bài toán đau đầu, đặc biệt trong quá trình audit redirect và phân tích website quốc tế. Mỗi lần muốn phân tích site quốc tế, bạn phải vật lộn tìm link phiên bản đúng quốc gia, rồi ngồi cài đặt cookie ưu tiên trong trình duyệt, khiến dữ liệu http status code crawl dễ bị sai lệch do redirect ngoài ý muốn.

Trước kia, để crawl những site kiểu này, bạn buộc phải dùng proxy giả lập IP quốc gia, thêm đủ thứ tham số URL, hoặc chỉnh Accept-Language header (cái này khá dễ trong SEO Spider). Nhưng giờ đây, mọi thứ đã thay đổi. Tính năng xác thực web forms authentication ra đời như một vị cứu tinh, cho phép bạn đăng nhập và crawl bất kỳ site nào, tương tự như khi crawl website có mật khẩu trong các dự án SEO nâng cao.

forms-based-authentication-seo

2. Hướng Dẫn Crawl Với Forms-Based Authentication: Đơn Giản Hơn Bạn Nghĩ

Để minh họa cụ thể, mình sẽ lấy ví dụ về https://dulichtritai.vn/ – một trường hợp điển hình, nhưng trước đó bạn nên kiểm tra robots.txt bằng Screaming Frog để đảm bảo bot không bị chặn khi crawl. Khi bạn cố crawl phiên bản Mỹ từ bên ngoài nước Mỹ, site sẽ ngay lập tức redirect 302 sang https://dulichtritai.vn/ (phiên bản Bồ Đào Nha). Giải pháp? Dùng forms authentication để set cookie vị trí mà bạn mong muốn.

Bước 1: Thiết lập ban đầu Vào Configuration > Authentication > Forms Based, nhấn Add. Nhập URL gốc là https://dulichtritai.vn/. Một trình duyệt tích hợp sẽ tự động mở ra, và đương nhiên nó vẫn redirect theo IP hiện tại của bạn – chưa sao cả.

Bước 2: Chọn vị trí mong muốn Đây là phần thú vị! Trong trình duyệt vừa mở, bạn chọn vị trí mình cần crawl. Với Du Lịch Trí Tài thì rất tiện, họ có sẵn menu quốc gia – bạn chỉ cần chọn United States là xong. Site sẽ tự động set cookie và quay về https://dulichtritai.vn/. Nhấn OK để lưu thông tin vào SEO Spider.

Bước 3: Bắt đầu crawl Chạy crawl lại lần nữa. Lúc này SEO Spider đã “nhớ” cookie bạn vừa set, giúp bạn kiểm tra redirect và xác nhận website không còn ép chuyển hướng sai phiên bản, và sẽ crawl đúng phiên bản vị trí mà không cần bất kỳ proxy phức tạp nào cả.

Phương pháp này nhanh gọn và hiệu quả với các website sử dụng cookie để xác định vị trí, giúp bạn crawl và phân tích đúng phiên bản mong muốn mà không cần proxy phức tạp.

geo-ip-redirect-seo

3. Thực Hành Với Du Lịch Trí Tài: Case Study Chi Tiết

Như đã nhắc ở trên, đây là ví dụ điển hình cho site tự động chuyển hướng theo vị trí địa lý, gây ảnh hưởng trực tiếp đến quá trình audit hreflang nếu crawl sai phiên bản quốc gia. Họ sử dụng subdomain theo từng quốc gia, với phiên bản Mỹ nằm tại https://dulichtritai.vn/. Hãy tưởng tượng: bạn đang ở Việt Nam (hoặc Bồ Đào Nha), cố gắng crawl https://dulichtritai.vn/. Kết quả? Trang chủ sẽ ngay lập tức 302 redirect sang https://dulichtritai.vn/en. Site không cho phép bạn crawl phiên bản Việt, mà cứ liên tục chuyển hướng, dẫn đến nguy cơ phát sinh trạng thái crawled currently not indexed do Google thu thập sai phiên bản URL.

crawling-dulichtritai-geo-ip-redirection

May mắn là người dùng có thể tự set vị trí mong muốn thông qua cookie, và đây chính là lúc tính năng forms-based authentication tỏa sáng.

3.1. Truy Cập Forms-Based Authentication

Đầu tiên, vào Configuration > Authentication > Forms Based, sau đó nhấn Add. URL của site bạn đang crawl sẽ tự động điền sẵn (ở đây là https://dulichtritai.vn/).

forms-based-auth-ip-redirection

Một cửa sổ trình duyệt tích hợp sẽ hiện ra, và như dự đoán, phiên bản www lại redirect sang subdomain theo vị trí hiện tại của bạn – giống hệt như lúc crawl.

forms-based-auth-ip-redirection

Subdomain Bồ Đào Nha xuất hiện, nhưng đừng lo, mục tiêu vẫn là crawl phiên bản Mỹ mà!

3.2. Set Vị Trí Crawl Trong Trình Duyệt Tích Hợp

Bây giờ đến phần đơn giản nhất: chỉ cần chọn phiên bản site bạn muốn crawl. Du Lịch Trí Tài làm việc này cực kỳ thuận tiện với menu quốc gia của họ.

forms-based-auth-ip-redirection-browser-set-location

Nhấn vào liên kết United States để chuyển sang subdomain https://dulichtritai.vn/, hiển thị đúng vị trí Mỹ. Site sẽ tự động set cookie trong cả trình duyệt và SEO Spider luôn.

forms-based-auth-ip-redirection-browser-set-location-now-us

Sau đó, nhấn OK trong cửa sổ trình duyệt là xong.

3.3. Crawl Với Vị Trí Đã Set

Giờ thì chạy crawl lại thôi! Với cookie đã được set đúng chuẩn, SEO Spider sẽ crawl đúng phiên bản vị trí mà bạn mong muốn – không còn redirect lung tung nữa.

geo-location-redirection-bypassed

Phương pháp này vượt trội hơn hẳn so với việc dùng proxy, đồng thời hạn chế các lỗi index như discovered currently not indexed do crawl nhầm phiên bản website. vốn vừa chậm, vừa phức tạp để thiết lập.

Qua bài viết này, bạn đã hiểu rõ cách bypass geo ip redirect bằng tính năng forms-based authentication trong Screaming Frog từ việc nhận diện nguyên nhân redirect theo vị trí, thiết lập cookie đúng quốc gia, đến kiểm tra lại phiên bản site được crawl. Nhờ quy trình này, bạn có thể dễ dàng vượt qua các rào cản định tuyến theo IP, sau đó tiếp tục mở rộng phân tích sang các hạng mục như kiểm tra structured data để đảm bảo dữ liệu SEO chính xác, tránh bị ép sang phiên bản địa phương và đảm bảo phân tích chính xác phiên bản quốc tế của website. SEOLENART tin rằng hướng dẫn bypass geo IP redirect này sẽ giúp bạn tối ưu hiệu suất crawl, cải thiện độ chính xác trong phân tích SEO và tăng hiệu quả cho các dự án quốc tế.

Nội dung được nhân sự phòng Technical chia sẻ!

Bài viết liên quan

Nội dung
Bài viết nổi bật
Lên đầu trang