Google Ra Mắt Gemini 3.1 Flash-Lite: Cắt Giảm Chi Phí API Và Tăng Tốc Độ Trả Lời

—

bởi

Đột phá bài toán chi phí gọi dữ liệu phục vụ các đại lý hoạt động tần suất cao

Google trình làng phiên bản Gemini 3.1 Flash-Lite hướng trực diện vào các tác vụ suy luận siêu tốc độ trễ thấp.
Mức giá gọi dữ liệu đạt mức rẻ kỷ lục với 0.25 USD cho một triệu token đầu vào và 1.50 USD cho đầu ra.
Tốc độ phản hồi thời gian đầu tiên của mỗi mã token nhanh gấp 2,5 lần so với thế hệ tiền nhiệm.
Tích hợp tính năng tự chỉnh độ sâu suy luận giúp nhà phát triển kiểm soát chặt chẽ độ trễ của từng tác vụ.
Thích hợp hoàn hảo cho việc xây dựng các đại lý tự động thực hiện tương tác liên tục với lượng dữ liệu lớn.

Nhận yêu cầu, chọn chế độ suy luận phù hợp và trả kết quả siêu tốc thông qua hạ tầng Google Cloud:

Tối ưu: Cắt giảm hóa đơn chi phí gọi dịch vụ API tới hơn 80% cho các tác vụ phân loại và dịch thuật quy mô lớn.
Ứng dụng ngay: Thiết lập làm nhân tố cốt lõi trong các hệ thống đàm thoại đàm thoại tự động trực tuyến của doanh nghiệp.

Bảng giá chi tiết dịch vụ Vertex AI
Tài liệu hướng dẫn tối ưu độ trễ với Gemini 3.1
Liên kết chéo: [[subq-1m-preview-subquadratic]] (Mô hình phi Transformer bối cảnh 12M token), [[zaya1-8b-moe-amd-instinct]] (Nén KV-Cache động để chạy thiết bị cục bộ)