Mô Hình MoE ZAYA1-8B: Huấn Luyện Thành Công Trên Phần Cứng Đồ Họa AMD

—

bởi

Tự chủ hạ tầng huấn luyện mô hình ngôn ngữ lớn từ con số không

Startup Zyphra hoàn tất quy trình tiền huấn luyện đầy đủ mô hình ZAYA1-8B bằng hạ tầng chip đồ họa AMD Instinct MI300X.
Chứng minh khả năng thay thế hạ tầng phần cứng Nvidia đang khan hiếm bằng hệ thống kết nối mạng Pensando Pollara.
Thiết kế hỗn hợp chuyên gia MoE++ đạt hiệu năng cao với chỉ 760 triệu tham số kích hoạt trong tổng số 8,4 tỷ tham số.
Đột phá kỹ thuật nén bối cảnh động CCA giúp giảm kích thước bộ nhớ KV-Cache tới 8 lần trong lúc suy luận.
Mở ra khả năng tự chủ công nghệ cho các trung tâm dữ liệu thông qua hệ sinh thái phần mềm mã nguồn mở ROCm.

Sử dụng bộ định tuyến MLP-based kết hợp bộ điều khiển PID giúp phân phối dữ liệu huấn luyện mượt mà trên 1.024 GPU AMD:

Tối ưu: Loại bỏ sự phụ thuộc độc quyền vào phần cứng Nvidia, tối thiểu hóa chi phí đầu tư mua sắm máy chủ ban đầu.
Ứng dụng ngay: Khai thác ZAYA1-8B trên máy chủ GPU AMD MI300X chạy bộ ROCm để làm hạt nhân suy luận chuyên sâu.

Thông báo chính thức của Zyphra về ZAYA1
Tài liệu nghiên cứu kiến trúc MoE++ trên Hugging Face
Liên kết chéo: [[subq-1m-preview-subquadratic]] (Giải pháp phi Transformer cho bối cảnh lớn), [[gemini-3-1-flash-lite]] (Đại lý AI suy luận siêu tốc độ trễ thấp)