Mô Hình SubQ 1M-Preview: Đột Phá Kiến Trúc Phi Transformer Xử Lý 12 Triệu Token

—

bởi

Giải bài toán chi phí điện toán tăng theo cấp số nhân của bối cảnh dài

Startup Subquadratic giới thiệu kiến trúc chú ý thưa phi Transformer giúp tỷ lệ tính toán tăng tuyến tính thay vì bình phương.
Bản thử nghiệm SubQ 1M-Preview hỗ trợ xử lý mượt mà tài liệu dài tới 1 triệu token trong một lần truy vấn duy nhất.
Hệ thống hỗ trợ mở rộng bối cảnh tối đa lên tới 12 triệu token qua giao thức kết nối API chuyên dụng cho nhà phát triển.
Tốc độ suy luận đạt kỷ lục nhanh gấp 52 lần so với các mô hình sử dụng kỹ thuật FlashAttention truyền thống.
Cắt giảm tới 63% năng lượng điện toán tiêu hao giúp doanh nghiệp vận hành ứng dụng quy mô lớn với chi phí cực thấp.

Sử dụng cơ chế chú ý thưa phi tuyến tính SSA để quét qua hàng triệu token mà không cần nhân ma trận bình phương:

Tối ưu: Cho phép nạp toàn bộ mã nguồn dự án hoặc hàng trăm cuốn sách hướng dẫn kỹ thuật vào một cửa sổ ngữ cảnh duy nhất.
Ứng dụng ngay: Đưa vào làm hạt nhân cho các đại lý tự động phân tích hồ sơ thiết kế hoặc tra cứu tài liệu vận hành nhà máy.

Trang chủ của dự án Subquadratic
Tài liệu so sánh hiệu năng của kiến trúc SSA
Liên kết chéo: [[gemini-3-1-flash-lite]] (So sánh chi phí gọi API và hiệu năng suy luận), [[zaya1-8b-moe-amd-instinct]] (Mô hình MoE nguồn mở chạy trên phần cứng AMD Instinct)