CORE_HUB / AI OPEN SOURCE & REPOS / Semble: Giải Pháp RAG Cho Source Code Giúp Giảm 98% Token Khi AI Đọc Code

Semble: Giải Pháp RAG Cho Source Code Giúp Giảm 98% Token Khi AI Đọc Code

Tìm kiếm ngữ nghĩa siêu tốc giúp giảm hóa đơn API

  • Giải quyết triệt để tình trạng lãng phí token do AI agent phải đọc toàn bộ file mã nguồn chỉ để sửa một vài dòng.
  • Cung cấp lớp truy xuất dữ liệu chuyên biệt chỉ lấy đúng các phân đoạn code liên quan nhất.
  • Chạy hoàn toàn cục bộ trên CPU với thời gian phản hồi siêu tốc dưới 2 mili-giây.

Cách hoạt động & Quy trình siêu tốc (Bite-sized Workflow)

Hệ thống hoạt động như một lớp RAG cho mã nguồn (retrieval layer), kết hợp tìm kiếm ngữ nghĩa và tìm kiếm từ khóa.

Sơ đồ quy trình

Chi tiết các bước vận hành:
1. Kiến trúc lai thông minh: Semble kết hợp vector nhúng (Model2Vec embeddings) cho tìm kiếm ngữ nghĩa cùng tìm kiếm từ khóa truyền thống (BM25 lexical search). Kết quả được tinh chỉnh qua cơ chế Reciprocal Rank Fusion và thuật toán reranking dành riêng cho mã nguồn. Điều này giúp hệ thống hiểu cả ngữ nghĩa lẫn tên biến, tên hàm.
2. Hiệu năng cục bộ cực tốt: Quá trình lập chỉ mục cho toàn bộ repo chỉ mất khoảng 250 mili-giây. Mỗi câu truy vấn được xử lý trong vòng 1.5 mili-giây. Không cần kết nối API ngoài, không yêu cầu phần cứng GPU đắt đỏ.
3. Tiết kiệm chi phí vận hành: Thay vì luồng làm việc cũ (dùng grep tìm kiếm, mở file và đọc hàng nghìn dòng code), hệ thống chỉ trích xuất đúng phân đoạn code cần thiết. Lượng token tiêu thụ giảm đến 98%, giúp các Coding Agent chạy nhanh và tiết kiệm đáng kể hóa đơn API.

Giá trị thực tế & Ứng dụng (Actionable Value)

  • Tối ưu: Giải phóng lập trình viên và doanh nghiệp khỏi các hóa đơn API khổng lồ khi sử dụng AI Agent tự động sửa lỗi dự án lớn.
  • Ứng dụng ngay: Cài đặt Semble cục bộ và cấu hình làm lớp tìm kiếm (MCP server hoặc local tool) cho Claude Code hoặc Cursor để định vị nhanh các phần code cần chỉnh sửa.

Xem thêm


Bình luận

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *