Cấu trúc XML và kỹ thuật tối ưu Prompt Caching cho LLM

—

bởi

Lợi ích của Prompt Caching

Tiêu chuẩn mới: Không viết prompt theo dạng tự do. Sử dụng các thẻ XML như <system_instructions>, <context>, <rules> là cách tốt nhất để mô hình ngôn ngữ phân biệt rõ ràng từng vùng thông tin.
Tiết kiệm cực lớn: Nhờ có cơ chế Prompt Caching của Claude và GPT, bạn có thể cất toàn bộ phần hướng dẫn cùng những ví dụ cố định (few-shot) vào cache. Điều này giúp cắt giảm đến 80% chi phí sử dụng và giảm một nửa thời gian chờ lấy kết quả.
Kiến trúc tách biệt: Chia prompt thành 2 khối riêng biệt. Khách hàng chỉ thay đổi phần input cực kỳ nhỏ làm mới ở cuối prompt để giữ nguyên cache của phần trên.

Cơ chế caching hoạt động bằng cách giữ lại token tĩnh ở phần đầu prompt. Mọi thay đổi ở phần giữa sẽ làm hỏng toàn bộ cache phía sau:

Phần đầu (Phần Tĩnh): Đặt instructions hệ thống, định nghĩa tool, tài liệu hướng dẫn dài và ví dụ mẫu đặt trong thẻ <examples>. Đây là phần để AI lưu vào cache.
Phần cuối (Phần Động): Đặt dữ liệu đầu vào thực tế từ phía người dùng vào thẻ <user_input>. Tính chất thay đổi liên tục của vùng này sẽ không làm ảnh hưởng đến phần cache tĩnh đã lưu ở trước đó.

Tối ưu: Giảm đáng kể thời gian chờ lấy dữ liệu của các chatbot phức tạp. API phản hồi nhanh hơn gấp hai đến ba lần so với thông thường.
Ứng dụng ngay:
Khi viết code gọi API, hãy dùng thẻ XML phân chia rõ các vùng như <source_code>, <test_cases>.
Luôn kiểm tra dung lượng cache hit thông qua trường trả về trong metadata của phản hồi API để đo đạc hiệu quả chi phí.