Thẻ: performance
Kỹ thuật nén mô hình: Chuyển đổi mô hình 16-bit sang 4-bit chạy mượt
Cốt lõi của vấn đề Sử dụng kỹ thuật lượng tử hóa (Quantization) để nén các trọng số mô hình lớn từ float16 sang int4.\n- Cắt giảm đến 75% dung lượng lưu trữ RAM/VRAM yêu cầu trên thiết bị phần cứng.\n- Giữ nguyên 95% độ chính xác của mô hình gốc khi thực hiện các…
vLLM: Thư viện đẩy nhanh tốc độ phục vụ mô hình LLM mã nguồn mở
Cốt lõi của vấn đề Áp dụng thuật toán PagedAttention đột phá để quản lý bộ nhớ đệm KV cache cực kỳ hiệu quả.\n- Đẩy nhanh tốc độ xử lý yêu cầu đồng thời (throughput) lên gấp 2 đến 4 lần thông thường.\n- Giảm thiểu tối đa hiện tượng nghẽn bộ nhớ VRAM của card…