DEV Community

Huy Dang
Huy Dang

Posted on

Thiết kế NGFW - Throughput:  40Gbps và WAF-WAF - Throughput: 80Gbps khi bật các tính năng nâng cao dưới On-prem

1. Yêu cầu đầu bài

  • Vào những ngày cuối năm 2025 thay vì đi mua sắm, đi du xuân t lựa chọn viết bài blog này để cố gắng phân tích và đưa ra giải pháp cho một bài toán phức tạp khiến một team kỹ thuật gồm vài chục người đau đầu xử lý.

  • Yêu cầu kỹ thuật:

  • NGFW (Next gen firewall) khi bật các tính năng IPS, Application control and SSL/TLS Decryption phải đạt được Throughput:  40Gbps

  • WAF(Web Application Firewall) khi bật các tính năng full WAF mode, Bot Defense, API Security and SSL/TLS offload đặt được Throughput: 80Gbps

  • Yêu cầu sử dụng giải pháp ảo hóa (vFW, vWAF) để tối ưu chi phí và phù hợp với giải pháp Cloud xây dựng trên nền KVM và Openstack

2. Thách thức đặt ra
2.1. Thách thức về hiệu năng trong môi trường ảo hóa.
Trong môi trường vật lý, các thiết bị NGFW và WAF thường sử dụng các chip xử lý chuyên dụng như ASIC (Application-Specific Integrated Circuit) hoặc FPGA (Field-Programmable Gate Array) để xử lý gói tin ở tốc độ dây (wire-speed). Ngược lại, các giải pháp ảo hóa (vFW, vWAF) phải vận hành trên các bộ vi xử lý mục đích chung (General-purpose CPU) kiến trúc x86. Sự thiếu vắng của các chip tăng tốc phần cứng chuyên biệt khiến cho các tác vụ nặng như giải mã SSL/TLS, kiểm tra dấu hiệu xâm nhập (IPS) và phân tích hành vi bot trở nên cực kỳ tiêu tốn tài nguyên CPU.

Khi kích hoạt đầy đủ các tính năng như IPS, Application Control và đặc biệt là giải mã SSL/TLS, hiệu năng của các giải pháp ảo hóa thường bị sụt giảm từ 50% đến 80% so với thông lượng tường lửa thông thường. Điều này là do mỗi gói tin cần phải được giải mã, tái lắp ghép và đối chiếu với hàng ngàn chữ ký (signatures) trong bộ nhớ, một quá trình đòi hỏi chu kỳ CPU lớn và độ trễ truy xuất bộ nhớ thấp. *Để đạt được mức 40 Gbps cho NGFW và 80 Gbps cho WAF, kiến trúc không thể dựa vào một instance đơn lẻ mà phải chuyển sang mô hình xử lý song song (Parallel Processing) và mở rộng theo chiều ngang (Horizontal Scaling). *

2.2. Phân tích yêu cầu NGFW 40 Gbps với IPS và SSL Decryption
Yêu cầu 40 Gbps cho NGFW là một ngưỡng hiệu năng rất cao đối với các firewall ảo. Các thành phần tham gia vào quá trình xử lý bao gồm:

Intrusion Prevention System (IPS): Yêu cầu phân tích sâu gói tin (DPI) để phát hiện các mẫu tấn công phức tạp. Hiệu năng IPS thường tỷ lệ thuận với số lượng vCPU được cấp phát và khả năng tối ưu hóa tập lệnh xử lý chuỗi.

Application Control: Phân tích các đặc điểm của giao thức tầng ứng dụng để định danh phần mềm, ngay cả khi ứng dụng đó sử dụng các cổng không tiêu chuẩn.

SSL/TLS Decryption: Đây là "nút thắt cổ chai" lớn nhất. Việc thiết lập các phiên SSL mới (CPS - Connections Per Second) và duy trì thông lượng giải mã đòi hỏi khả năng tính toán số học cực mạnh để xử lý các thuật toán như RSA hoặc ECC.

2.3. Phân tích yêu cầu WAF 80 Gbps với Bot Defense và API Security
Mức thông lượng 80 Gbps cho WAF là một thách thức cực đại, vì WAF xử lý hoàn toàn ở tầng 7 (Application Layer). Các yêu cầu HTTP/HTTPS phải được phân tích ngữ nghĩa hoàn chỉnh.

Full WAF Mode: Bảo vệ chống lại các lỗ hổng OWASP Top 10, yêu cầu phân tích mọi thành phần của HTTP request bao gồm headers, cookies và body.

Bot Defense: Sử dụng các kỹ thuật như Device Fingerprinting, thử thách CAPTCHA hoặc phân tích hành vi dựa trên AI để phân biệt người dùng thật và các chương trình tự động.

API Security: Kiểm tra tính hợp lệ của các cấu trúc JSON/XML, thực thi schema validation và ngăn chặn các cuộc tấn công nhắm vào điểm cuối API.

SSL/TLS Offload: WAF thường đóng vai trò là điểm kết thúc SSL (SSL Termination) để kiểm tra dữ liệu trước khi chuyển tiếp đến máy chủ web. Việc xử lý 80 Gbps lưu lượng giải mã đòi hỏi một kiến trúc phân tán quy mô lớn.

3. Giải pháp khắc phục cho Firewall
3.1. Giải pháp Palo Alto Networks VM-Series


Link tham chiếu: https://docs.paloaltonetworks.com/vm-series/10-1/vm-series-performance-capacity/vm-series-performance-capacity

Dữ liệu cho thấy ngay cả model cao cấp nhất là VM-700 cũng chỉ đạt xấp xỉ 10 Gbps cho tính năng Threat Prevention trên mỗi instance. Để đạt mục tiêu 40 Gbps, hệ thống cần tối thiểu 5-6 instance VM-700 chạy song song.

3.2. Giải pháp Fortinet FortiGate-VM


Link tham chiếu: https://www.avfirewalls.com/fortigate-vm-series.asp

FortiGate-VM thể hiện hiệu năng vượt trội trên mỗi đơn vị vCPU. Đặc biệt, model VM-32 có thể đạt tới 16.5 Gbps NGFW. Với model VM-ULS (Unlimited), Fortinet cho phép tận dụng tối đa sức mạnh phần cứng của máy chủ vật lý. Để đạt được 40 Gbps NGFW, việc triển khai 3 instance VM-32 hoặc sử dụng các instance AWS dòng C6in/C7g với số lượng vCPU lớn là hoàn toàn khả thi.

3.3. Giải pháp Check Point CloudGuard Network Security


Link tham chiếu: https://www.checkpoint.com/downloads/products/cloudguard-gateway-performance-for-vmware-esxi-datasheet.pdf

Mặc dù thông lượng Firewall và IPS của Check Point khá ấn tượng (đạt 12.3 Gbps với 8 vCPU), nhưng hiệu năng giải mã SSL (SSL NGFW) sụt giảm rất mạnh, chỉ còn 2.6 Gbps. Điều này có nghĩa là nếu yêu cầu 40 Gbps bao gồm cả giải mã SSL toàn phần, kiến trúc Check Point sẽ cần một số lượng rất lớn các gateway (khoảng 15-20 instance 8 vCPU) để đáp ứng tải, dẫn đến sự phức tạp trong quản lý và chi phí bản quyền tăng cao.

3.4. Đánh giá khả năng đáp ứng yêu cầu 40 Gbps NGFW
Để đáp ứng yêu cầu 40 Gbps với đầy đủ tính năng IPS, Application Control và SSL Decryption, phân tích chỉ ra rằng không có một instance ảo hóa đơn lẻ nào của bất kỳ nhà cung cấp nào có thể đáp ứng được tại thời điểm hiện tại. Do đó, giải pháp bắt buộc phải sử dụng kiến trúc phân tán.

Hiệu quả vCPU: Fortinet dẫn đầu về thông lượng trên mỗi vCPU nhờ công nghệ vSPU, giúp tiết kiệm chi phí hạ tầng nhất cho mục tiêu 40 Gbps.

Độ sâu bảo mật: Palo Alto Networks cung cấp khả năng phát hiện mối đe dọa chính xác nhất thông qua App-ID, giảm thiểu rủi ro sai sót trong quá trình kiểm soát ứng dụng.

Hỗ trợ tăng tốc phần cứng: Sự hỗ trợ cho SR-IOV và DPDK là bắt buộc để đạt được mức 40 Gbps. Palo Alto và Fortinet đều có sự tối ưu hóa sâu với các driver mạng hiệu năng cao.

4. Giải pháp khắc phục cho WAF
4.1. Giải pháp F5 BIG-IP Advanced WAF (Virtual Edition)


Link tham chiếu: https://cdn.studio.f5.com/files/k6fem79d/production/01eb18e19a56cc2863b4d6a3fa8de9e6a5b7c8f3.pdf
Bản quyền High Performance của F5 cho phép tận dụng tới 24 lõi xử lý TMM, giúp một instance đơn lẻ có thể đạt được thông lượng WAF rất cao. Để đạt mục tiêu 80 Gbps WAF, một cụm 2-4 instance F5 BIG-IP VE chạy song song là phương án khả thi và ổn định nhất.

Mô hình tham khảo

4.2. Giải pháp NetScaler VPX (Citrix ADC)


Link tham chiếu: https://docs.netscaler.com/en-us/vpx/current-release/deploy-vpx-faq.html

NetScaler có hiệu năng WAF rất tốt, nhưng nút thắt cổ chai nằm ở SSL/TLS offload. Vì VPX thực hiện giải mã hoàn toàn bằng phần mềm (Software-based SSL), nó chỉ đạt được tối đa 30 Gbps lưu lượng giải mã trên một instance. Để đạt 80 Gbps WAF kèm SSL offload, hệ thống cần ít nhất 3-4 instance VPX 100G

5. So sánh với giải pháp AWS
5.1. NGFW Bên thứ ba so với AWS Network Firewall


Link tham chiếu: https://docs.aws.amazon.com/network-firewall/latest/developerguide/quotas.html

AWS Network Firewall vượt trội về khả năng đạt ngưỡng 40 Gbps hoặc thậm chí 100 Gbps mà không cần người dùng phải thiết kế cụm HA phức tạp. Tuy nhiên, đối với các doanh nghiệp yêu cầu bảo mật mức độ cao (High Assurance) với các chữ ký IPS độc quyền và khả năng kiểm soát ứng dụng chi tiết, các giải pháp từ Palo Alto hay Fortinet vẫn là lựa chọn ưu tiên dù việc triển khai khó khăn hơn.

5.2. WAF Bên thứ ba so với AWS WAF


Link tham chiếu: https://aws.amazon.com/waf/pricing/

AWS WAF hiệu quả về mặt thông lượng (dễ dàng đáp ứng 80 Gbps lưu lượng web) và chi phí cho các ứng dụng có lưu lượng trung bình. Tuy nhiên, đối với yêu cầu "Full WAF mode, Bot Defense và API Security" ở mức chuyên sâu, AWS WAF thường không thể sánh được với khả năng phân tích ngữ nghĩa và AI của F5 hay Imperva. Đặc biệt, tính năng chống Bot của AWS WAF chủ yếu dựa trên việc viết rule thủ công hoặc sử dụng Managed Rules cơ bản, trong khi F5 hay Radware cung cấp các engine tự học có khả năng thích ứng với các bot hiện đại luôn thay đổi hành vi.

6. Kết luận
6.1. Thiết kế cho NGFW 40 Gbps - ví dụ cho aws và onprem tương tự
Sử dụng Fortinet FortiGate-VM (ULS) hoặc Palo Alto VM-700 triển khai đằng sau AWS Gateway Load Balancer.

Instance Type: Lựa chọn các dòng instance AWS C6in hoặc C7g (Graviton) với băng thông mạng lên tới 100 Gbps.

Cấu hình: Triển khai tối thiểu 4-6 instance (mỗi instance 16 hoặc 32 vCPU) để chia sẻ tải. Việc sử dụng nhiều instance nhỏ sẽ mang lại khả năng dự phòng tốt hơn là sử dụng một vài instance cực lớn.

Tối ưu hóa: Kích hoạt SR-IOV và ENA (Enhanced Networking Adapter) trên AWS để đảm bảo giao tiếp giữa GWLB và Firewall đạt hiệu năng tối đa.

Link tham chiếu: https://docs.fortinet.com/document/fortigate-public-cloud/7.6.0/aws-administration-guide/379696/deploying-autoscaling-on-aws

6.2. Thiết kế cho WAF 80 Gbps - ví dụ cho aws và onprem tương tự
Sử dụng F5 BIG-IP VE (High Performance) trong mô hình Auto Scaling.

Lớp cân bằng tải: Sử dụng AWS Network Load Balancer (NLB) ở phía trước để tiếp nhận 80 Gbps lưu lượng. NLB có khả năng xử lý hàng triệu phiên mà không bị nghẽn.

Lớp WAF: Triển khai một cụm F5 BIG-IP VE. Để đạt 80 Gbps WAF với Bot Defense và API Security, kiến trúc cần khoảng 4-8 instance F5 (mỗi instance sử dụng bản quyền HP với 24 TMM cores).

SSL Offload: Để giảm tải cho CPU của máy ảo WAF, có thể thực hiện SSL termination tại lớp NLB hoặc sử dụng các instance EC2 có hỗ trợ tăng tốc mã hóa mạnh mẽ để các máy ảo F5 có thể giải mã bằng phần mềm hiệu quả hơn.

Link tham chiếu: https://community.f5.com/kb/technicalarticles/getting-the-most-out-of-amazon-ec2-autoscale-groups-with-f5-big-ip/288760

Top comments (0)