ISSN-2815-5823
Việt Anh
Thứ tư, 07h00 01/10/2025

DeepSeek có bước phát triển mới về mô hình trí tuệ nhân tạo (AI)

(KDPT) - Theo thông báo trên diễn đàn Hugging Face, DeepSeek đã công bố mô hình trí tuệ nhân tạo (AI) thử nghiệm mới mang tên DeepSeek-V3.2-Exp và gọi đó là “bước trung gian hướng tới kiến trúc thế hệ tiếp theo”.

Theo thông báo trên diễn đàn Hugging Face ngày 29/9, DeepSeek xem V3.2-Exp là “bước trung gian hướng tới kiến trúc thế hệ tiếp theo”. Đây được xem là sản phẩm quan trọng nhất của DeepSeek kể từ sau màn ra mắt của các phiên bản V3 và R1 từng gây bất ngờ cho giới công nghệ Mỹ hồi đầu năm.

Điểm nhấn của V3.2-exp nằm ở cơ chế DeepSeek Sparse Attention, (một hệ thống chú ý thưa thớt). Thay vì xử lý toàn bộ dữ liệu, hệ thống này sử dụng một mô-đun gọi là “bộ lập chỉ mục sét” để ưu tiên trích xuất các đoạn văn bản quan trọng trong cửa sổ ngữ cảnh.

Sau đó, một mô-đun khác là “hệ thống lựa chọn mã thông báo chi tiết” sẽ chọn lọc các token quan trọng để đưa vào cửa sổ chú ý hạn chế. Cách tiếp cận này giúp giảm tải máy chủ nhưng vẫn duy trì khả năng xử lý các đoạn ngữ cảnh dài.

Ảnh minh họa
Ảnh minh họa

Theo thử nghiệm ban đầu, DeepSeek cho biết chi phí thực hiện một lệnh gọi API có thể giảm tới 50% trong những tình huống yêu cầu ngữ cảnh lớn.

Dù cần thêm nhiều đánh giá độc lập để xác thực, nhưng việc công khai mô hình trên Hugging Face sẽ sớm mở đường cho các bên thứ ba thử nghiệm và kiểm chứng.

Sự ra mắt của V3.2-exp nối tiếp chuỗi nỗ lực giải quyết vấn đề chi phí suy luận, là một trong những thách thức lớn nhất trong vận hành mô hình AI.

Không giống chi phí đào tạo ban đầu, chi phí suy luận liên quan trực tiếp đến hạ tầng máy chủ để phục vụ người dùng, và luôn là gánh nặng lớn cho các doanh nghiệp triển khai AI.

Dù giới phân tích nhận định V3.2-Exp khó tạo ra biến động lớn trên thị trường như các bản phát hành hồi tháng 1, sản phẩm mới vẫn có thể gây sức ép lên các đối thủ trong ngành như Alibaba hay OpenAI, nếu chứng minh được năng lực cao với chi phí huấn luyện thấp hơn đáng kể.

Công ty trí tuệ nhân tạo DeepSeek được thành lập vào năm 2023 tại thành phố Hàng Châu, Trung Quốc. Người sáng lập công ty này là Lương Văn Phong, sinh năm 1985, tốt nghiệp cử nhân và thạc sĩ ngành kỹ thuật điện tử và thông tin tại Đại học Chiết Giang.

Theo các chuyên gia và người dùng nhận định, sức mạnh của DeepSeek đã có thể sánh ngang hoặc thậm chí vượt trội so với những mô hình AI nổi tiếng như ChatGPT của OpenAI, Gemini của Google, CoPilot của Microsoft hay Llama của Meta…



Kinhdoanhvaphattrien.vn | 05/11/2023

eMagazine
 
kinhdoanhvaphattrien.vn | 05/12/2025