crawl danh sách URL Trong Screaming Frog có hai chế độ thu thập dữ liệu (crawl) cơ bản trong SEO Spider: chế độ mặc định ‘Spider’, cho phép bạn nhập và crawl một website, và ‘List’, cho phép bạn tải lên một danh sách URL.
Nghe có vẻ đơn giản, và đúng là như vậy – nhưng chế độ List còn có những cách sử dụng nâng cao phức tạp hơn, khiến nó trở nên cực kỳ mạnh mẽ. Phần hướng dẫn dưới đây sẽ giải thích chi tiết.
Trước tiên, hãy đi qua phần cơ bản. Để chuyển sang chế độ List, hãy nhấp vào ‘Mode > List’ trong thanh điều hướng trên cùng.

Chế độ ‘List’ thực ra không quá khác biệt so với chế độ ‘Spider’ thông thường, nhưng có hai điểm khác nhau quan trọng:
- Giao diện sẽ thay đổi, hiển thị nút tải lên thay vì thanh nhập địa chỉ.
- Cài đặt ‘Limit Crawl Depth’ sẽ được tự động bật và đặt về ‘0’. Điều này có nghĩa là chỉ những URL bạn tải lên trong chế độ List mới được crawl.
Điểm thứ hai là khác biệt quan trọng, vì nó có nghĩa là chỉ những URL được tải lên mới được crawl. Công cụ sẽ không crawl các URL đó và hình ảnh của chúng, hay các liên kết ngoài… Nó chỉ crawl đúng các URL được tải lên, không hơn không kém*.
Trừ khi bạn đang sử dụng JavaScript rendering, lúc này SEO Spider cần crawl thêm các tài nguyên của trang để render trang chính xác trong trình duyệt headless Chrome.
1. Upload Danh Sách lên Screaming Frog
Khi bạn đang ở chế độ List (Mode > List), chỉ cần nhấp vào nút ‘Upload’ và chọn tải lên từ một tệp, nhập trực tiếp vào hộp thoại, dán danh sách URL hoặc tải xuống một XML Sitemap để bất đầu crawl danh sách URL nhanh chóng.

Nó đơn giản như vậy. Tuy nhiên, vẫn có một vài lưu ý ban đầu bạn cần biết khi tải URL trong chế độ List.
2. Yêu Cầu Có Giao Thức (Protocol)
Nếu bạn không bao gồm HTTP hoặc HTTPS (ví dụ: chỉ nhập https://dulichtritai.vn/thue-xe-4-cho/ ), URL sẽ không được đọc và không được tải lên.

Bạn sẽ thấy một thông báo rất “buồn” rằng ‘found 0 URLs’. Vì vậy, hãy luôn nhập URL kèm giao thức, ví dụ – https://dulichtritai.vn/thue-xe-4-cho/
3. Chuẩn Hoá và Loại Bỏ Trùng Lặp Danh Sách URL
SEO Spider sẽ chuẩn hoá (normalise) URL khi tải lên và loại bỏ trùng lặp (de-dupe) trong quá trình crawl danh sách URL. Ví dụ, giả sử bạn có 4 URL sau để tải lên:
https://dulichtritai.vn/thue-xe-4-cho/
https://dulichtritai.vn/thue-xe-7-cho/
https://dulichtritai.vn/thue-xe-9-cho/
https://dulichtritai.vn/thue-xe-9-cho/
SEO Spider sẽ tự động nhận diện có bao nhiêu URL là duy nhất để crawl. Với danh sách nhỏ, có thể dễ dàng nhận thấy 4 URL trên thực chất chỉ tương ứng với 2 URL độc nhất. Nhưng với danh sách lớn, việc này trở nên khó khăn hơn rất nhiều.
Lưu ý rằng URL có fragment (phần sau dấu ‘#’) không được xem là URL khác biệt, nên sẽ được chuẩn hoá khi tải lên. Trong ví dụ trên, trang SEO Spider bị trùng lặp, còn URL có fragment sẽ không được coi là URL độc nhất.
Khi bạn tải các URL này vào SEO Spider, công cụ sẽ báo đã tìm thấy 4 URL trong danh sách – và hiển thị phiên bản đã chuẩn hóa trong cửa sổ giao diện.

Tuy nhiên, trong quá trình crawl, SEO Spider chỉ thực hiện thu thập dữ liệu trên các URL độc nhất (trong ví dụ này là 2 URL).

Kết quả là hai URL độc nhất đã được crawl trong chế độ List! Mặc dù vậy, bạn vẫn có thể xuất (export) lại toàn bộ danh sách URL gốc với đúng thứ tự ban đầu nếu cần.
4. Xuất Dữ Liệu Trong Screaming Frog
Bạn có thể sử dụng ‘nút export’ ở bất kỳ tab nào như bình thường để xuất dữ liệu trong chế độ List.
Tuy nhiên, nếu muốn xuất dữ liệu theo đúng thứ tự bạn đã tải lên để dễ dàng đối chiếu với dữ liệu khác hãy dùng nút ‘Export’ nằm ngay cạnh các nút ‘upload’ và ‘start’ ở phía trên giao diện.

File xuất ra sẽ giữ nguyên thứ tự và bao gồm toàn bộ URL gốc bạn từng tải lên, dù là URL trùng lặp hay đã được chỉnh sửa.

Ở file xuất, ‘Original URL’ thể hiện URL bạn đã cung cấp, còn ‘Address’ là URL mà SEO Spider thực tế thu thập.
5. Crawl Nâng Cao Với Chế Độ List
Chế độ List sẽ trở nên cực kỳ mạnh mẽ khi bạn thiết lập đúng cách. Có một số cách sử dụng nâng cao rất hữu ích mà bạn nên biết để tập trung phân tích chính xác hơn, đồng thời tiết kiệm thời gian và công sức.
5.1. Crawl Một Danh Sách URL Kèm Theo Một Thành Phần Khác
Chế độ List rất linh hoạt và cho phép bạn crawl danh sách URL đã tải lên cùng với một thành phần bổ sung khác.
Ví dụ: bạn có thể crawl danh sách URL và cả hình ảnh của chúng. Hoặc cần audit danh sách URL cùng các thẻ canonical, AMP, hoặc hreflang mới triển khai, thay vì crawl toàn bộ website. Hoặc muốn thu thập tất cả external link từ danh sách URL phục vụ cho việc xây dựng broken link. Tất cả đều có thể thực hiện trong chế độ List, và cách làm gần như tương tự nhau.
Khi ở chế độ List, hãy tắt giới hạn độ sâu crawl vốn được đặt mặc định là ‘0’ bằng cách vào ‘Config > Spider > Limits’ và bỏ chọn cấu hình này.

Điều này đồng nghĩa SEO Spider sẽ crawl danh sách URL bạn tải lên, cùng tất cả các URL trên subdomain liên kết từ chúng.
Vì vậy, để kiểm soát chính xác những gì được crawl, bạn cần thiết lập các tùy chọn cấu hình chi tiết ở ‘Config > Spider > Crawl’. Tắt toàn bộ ‘Resource Links’ và ‘Page Links’ trong phần cấu hình ‘Crawl’, sau đó chọn những thành phần bạn muốn crawl cùng danh sách URL.
Ví dụ, nếu muốn crawl URL kèm theo hình ảnh, bạn sẽ thiết lập tương ứng với mục tiêu đó.
Nếu bạn chỉ tải lên một URL duy nhất, như trang SEO Spider, bạn sẽ thấy cả trang và hình ảnh của trang đó đều được crawl.

Khả năng cấu hình linh hoạt này giúp bạn thực hiện các cuộc audit cực kỳ chính xác, tập trung đúng vào những thành phần liên kết cần thiết.
5.2. Audit Redirects Trong Screaming Frog
Nếu bạn đang audit các redirect trong quá trình chuyển đổi website (site migration), việc crawl danh sách URL đích cùng toàn bộ chuỗi redirect sẽ rất hữu ích. Điều này giúp bạn không cần phải tải lên nhiều danh sách URL đích từng lần để theo dõi toàn bộ chuỗi chuyển hướng.
Trong trường hợp này, hãy bật cấu hình ‘always follow redirects’ trong ‘Config > Spider > Advanced’. Khi bật, giới hạn độ sâu crawl (crawl depth limit) sẽ bị bỏ qua, SEO Spider sẽ tự động theo dõi các redirect liên tục cho đến khi gặp phản hồi không phải mã 3XX, hoặc khi đạt đến giới hạn ‘Max Redirects To Follow’ trong ‘Config > Spider > Limits’.

Sau đó, bạn sử dụng báo cáo ‘All Redirects’ để xem toàn bộ chuỗi redirect được hiển thị trong một báo cáo duy nhất.

Bạn có thể tham khảo hướng dẫn chi tiết của chúng tôi về cách audit redirects trong quá trình chuyển đổi website để nắm rõ quy trình hơn.
5.3. Kết Nối Với Các API Bằng Screaming Frog
Trong chế độ List, bạn có thể kết nối với các API của Google Analytics, Google Search Console, PageSpeed Insights và các công cụ phân tích backlink để thu thập dữ liệu.
Ví dụ, bạn có thể kết nối với Ahrefs API để lấy các dữ liệu như referring domains, từ khóa, traffic và giá trị (value), sau đó hiển thị chúng trong tab ‘Link Metrics’.
e
Điều này rất hữu ích khi bạn cần tổng hợp dữ liệu phục vụ cho việc phân tích đối thủ cạnh tranh một cách chi tiết và chính xác hơn.
6. Kết Luận
Qua bài viết này, LENART đã giúp bạn hiểu rõ cách crawl danh sách URL phục vụ cho quy trình SEO, từ việc thu thập dữ liệu onpage, kiểm tra tình trạng website đến tối ưu cấu trúc liên kết. Hy vọng bạn có thể áp dụng ngay kiến thức SEO này để cải thiện hiệu suất làm việc và nâng cao chất lượng phân tích website của mình.
