Audit cookie là quá trình rà soát toàn bộ cookie mà website phát hành khi người dùng truy cập, nhằm xác định loại cookie, mục đích sử dụng, bên phát hành (first-party hoặc third-party) và thời điểm cookie được đặt. Đây là một bước quan trọng trong quá trình kiểm tra tuân thủ website, đặc biệt với các website có sử dụng công cụ phân tích, quảng cáo hoặc dịch vụ bên thứ ba. Trong thực tế, cookie thường không được thiết lập tập trung tại một vị trí cố định, mà có thể được tải rải rác thông qua JavaScript, tag manager hoặc các tài nguyên bên ngoài. Điều này khiến việc kiểm tra thủ công từng trang rất dễ bỏ sót, đặc biệt với các website có cấu trúc phức tạp hoặc nhiều script theo dõi. Screaming Frog SEO Spider cho phép thu thập và hệ thống hóa toàn bộ cookie mà website phát hành trong quá trình crawl. Trong bài viết này, LENART sẽ hướng dẫn cách cấu hình Screaming Frog để audit cookie website, đồng thời phân tích dữ liệu cookie thu thập được nhằm phục vụ mục đích tuân thủ và kiểm soát rủi ro liên quan đến quyền riêng tư.
1. Thiết lập Screaming Frog để thu thập cookie website
Mở SEO Spider, đi đến ‘Config > Spider > Extraction’ và chọn ‘Cookies’ dưới mục ‘URL Details’.

Điều này có nghĩa là SEO Spider sẽ lưu trữ tất cả cookie được phát hiện.
Lưu ý quan trọng: Khi bật tính năng lưu trữ cookie, Screaming Frog sẽ vô hiệu hóa cơ chế loại trừ tự động đối với các thẻ theo dõi Google Analytics. Điều này giúp đảm bảo tất cả cookie được ghi nhận đầy đủ, nhưng có thể ảnh hưởng đến báo cáo phân tích nếu bạn không chủ động loại trừ các script theo dõi không cần thiết thông qua cấu hình Config > Exclude.
Điều này có nghĩa là nó sẽ ảnh hưởng đến báo cáo phân tích của bạn, trừ khi bạn chọn loại trừ các script theo dõi bằng cách sử dụng cấu hình loại trừ (‘Config > Exclude’).
2. Bật JavaScript Rendering để phát hiện cookie tải động
Nhấp vào ‘Config > Spider > Rendering’ và chọn ‘JavaScript’. Điều này có nghĩa là SEO Spider sẽ mở từng trang web trong trình duyệt Chrome không giao diện người dùng (headless Chrome) ở chế độ nền.

Đây là bước quan trọng, vì nó cho phép phát hiện các cookie được tải bằng JavaScript hoặc thẻ hình ảnh pixel.
Kích thước cửa sổ được đặt tự động thành Googlebot Smartphone, nhưng có thể điều chỉnh thành desktop nếu có sự khác biệt trong cách trang web phát hành cookie.
3. Thiết lập User-Agent Chrome để mô phỏng người dùng thật
Để mô phỏng người dùng thông thường, chuyển user-agent sang trình duyệt như Chrome qua ‘Config > User-agent’.

Một số trang web thiết lập cookie dựa trên user-agent và quá trình thu thập dữ liệu, vì ‘Screaming Frog SEO Spider’ có thể không luôn cung cấp hình ảnh chính xác nếu không có thiết lập này.
4. Bỏ qua robots.txt để không bỏ sót cookie
Nhấp vào ‘Configuration > robots.txt > Settings’ và chọn ‘Ignore robots.txt’ hoặc ‘Ignore robots.txt but report status’.

Cookie có thể được tải từ các URL có sẵn cho người dùng nhưng không cho bot, chẳng hạn như các trang hoặc tài nguyên bị chặn qua robots.txt. Do đó, điều quan trọng là cho phép tất cả tài nguyên được tải. Các chức năng Include hoặc Exclude do người dùng thiết lập cũng có thể ảnh hưởng đến điều này.
5. Crawl website để ghi nhận cookie phát hành
Mở SEO Spider, nhập hoặc dán URL trang web bạn muốn thu thập dữ liệu vào ô ‘Enter URL to spider’ và nhấn ‘Start’.

Chờ cho đến khi quá trình thu thập dữ liệu hoàn tất và đạt 100%, nhưng bạn cũng có thể xem một số chi tiết theo thời gian thực.
6. Xác định URL đang phát hành cookie
Trong tab ‘Internal’, có cột ‘cookies’ hiển thị số lượng cookie được phát hiện cho từng URL.

Bạn cần cuộn sang phải để xem. Điều này giúp bạn xác định vị trí cookie được phát hiện trong quá trình quét.
7. Phân tích chi tiết cookie theo từng URL
Nhấp vào một URL trong cửa sổ trên, sau đó nhấp vào tab ‘Cookies’ ở dưới để hiển thị chi tiết về cookie được phát hiện cho từng URL trong cửa sổ dưới.

Bạn có thể nhấp vào hình ảnh trên để xem phiên bản lớn hơn. Bạn có thể xem dữ liệu cookie chi tiết cho từng URL. Bạn cũng có thể chọn nhiều URL cùng lúc và xem chúng cùng nhau (cột ‘Địa chỉ’ bên phải hiển thị URL tương ứng).

Các cột trong tab Cookies bao gồm:
Tên cookie – Tên của cookie.
Giá trị cookie – Giá trị của cookie.
Domain – Tên miền đã phát hành cookie. Đây có thể là domain chính hoặc domain bên thứ ba.
Thời gian hết hạn – Thời gian hết hạn của cookie.
Secure – Chi tiết về thuộc tính ‘secure’ của cookie. ‘True’ có nghĩa là thuộc tính ‘secure’ có mặt.
HttpOnly – Chi tiết về thuộc tính ‘HttpOnly’ của cookie. ‘True’ có nghĩa là thuộc tính ‘HttpOnly’ có mặt.
Địa chỉ – URL mà cookie được đặt.
8. Tổng hợp danh sách cookie phát hiện được
Xuất bản báo cáo tóm tắt tổng hợp về các cookie được phát hiện bằng cách nhấp vào ‘Báo cáo > Cookie > Tóm tắt Cookie’.

Báo cáo này hiển thị tổng quan về các cookie duy nhất được phát hiện trong quá trình quét, bao gồm tên, miền, thời gian hết hạn, thuộc tính Secure và HttpOnly. Số lượng URL mà mỗi cookie duy nhất được phát hành cũng sẽ được hiển thị. Giá trị của cookie chính nó không được tính vào tổng hợp này (vì chúng là duy nhất!).

9. Xuất dữ liệu cookie để phân tích và đối chiếu
Nhấp vào ‘Xuất theo lô > Web > Tất cả cookie’ để xuất tất cả URL, cookie và tất cả thuộc tính cookie được phát hiện.

Việc xuất này cho phép bạn truy vấn dữ liệu theo cách bạn muốn.
10. Xác định cookie bên thứ ba có nguy cơ bị Chrome chặn
Chrome dự định hạn chế cookie của bên thứ ba vào năm 2024, tùy thuộc vào việc giải quyết các vấn đề cạnh tranh còn lại của Cơ quan Cạnh tranh và Thị trường Vương quốc Anh (CMA). Các trình duyệt khác có thể sẽ theo sau, nếu chưa làm điều đó.
Mục tiêu của hộp cát quyền riêng tư là giảm theo dõi giữa các trang web để bảo vệ quyền riêng tư. Chrome sẽ vô hiệu hóa cookie của bên thứ ba cho 1% người dùng vào tháng 1 để thử nghiệm, với mục tiêu tăng lên 100% người dùng từ quý 3 năm 2024. Để chuẩn bị cho thay đổi này, các cookie của bên thứ ba trên trang web của bạn sẽ bị chặn trong Chrome cần được xác định và kiểm tra xem có bị lỗi hay không.
Để xác định các trang web có cookie của bên thứ ba sẽ bị loại bỏ, hãy kích hoạt chế độ hiển thị JavaScript qua ‘Config > Spider > Rendering’ và ‘JavaScript Error Reporting’.

Các trang web có thể chứa cookie của bên thứ ba gây vấn đề có thể được xem dưới tab ‘JavaScript’ và bộ lọc ‘Pages With Chrome Issues’. Tab ‘Chrome Console Log’ phía dưới sẽ xác định các vấn đề liên quan đến mô tả
‘Cookie Issue. [WARN_THIRD_PARTY_PHASEOUT]’.

Các vấn đề này có thể được xuất hàng loạt qua ‘Xuất hàng loạt > JavaScript > Trang có vấn đề JavaScript’.
11. Kiểm tra cookie trước và sau khi người dùng đồng ý
Bạn có thể sử dụng xác thực ‘Forms Based’ để chấp nhận cửa sổ pop-up cookie và thu thập dữ liệu trang web để kiểm tra cookie như thể bạn đã đồng ý. Để thực hiện điều này, hãy đi đến ‘Config > Authentication > Forms Based’, sau đó nhấp vào ‘Add’, nhập URL trang web và nhấp ‘OK’. Khi trang web tải trong trình duyệt Chrome tích hợp, chấp nhận cửa sổ pop-up cookie như bình thường.

Nhấp ‘OK’, sau đó nhấp ‘OK’ lần nữa. Sau đó thực hiện các bước 1-8 trong hướng dẫn trên. Cách tiếp cận này giúp xác định:
- Cookie nào được đặt trước consent
- Cookie nào chỉ được kích hoạt sau khi người dùng đồng ý
- CMP có hoạt động đúng như kỳ vọng hay không
Việc triển khai audit cookie một cách có hệ thống từ cấu hình công cụ crawl, mô phỏng hành vi người dùng thực, thu thập dữ liệu cookie theo từng URL, đến phân tích chi tiết thuộc tính và ngữ cảnh phát hành giúp doanh nghiệp kiểm soát toàn diện cách website xử lý dữ liệu người dùng. Thay vì kiểm tra rời rạc hoặc phụ thuộc vào giả định, quy trình audit cookie bài bản cho phép bạn nhanh chóng phát hiện các cookie được đặt trước consent, cookie bên thứ ba tiềm ẩn rủi ro, cũng như những sai lệch giữa cấu hình kỹ thuật và chính sách quyền riêng tư đã công bố. LENART tin rằng việc thực hiện audit cookie định kỳ không chỉ hỗ trợ đáp ứng các yêu cầu tuân thủ ngày càng khắt khe về bảo vệ dữ liệu, mà còn giúp team SEO, marketing và kỹ thuật chủ động giảm thiểu rủi ro pháp lý, tối ưu trải nghiệm người dùng và duy trì tính minh bạch trong toàn bộ hệ sinh thái website một cách bền vững.
