Công ty Trung Quốc DeepSeek cho biết đã đào tạo mô hình R1 với chi phí ít tốn kém hơn nhiều so với các đối thủ.
Theo bản cập nhật nghiên cứu của nhóm phát triển AI tại DeepSeek, công bố trên tạp chí Nature tuần này, mô hình lý luận R1 có chi phí đào tạo 294.000 USD và sử dụng 512 chip H800 của Nvidia. Phiên bản trước đó của nghiên cứu được xuất bản hồi tháng 1 và không chứa thông tin trên.
Cộng thêm 6 triệu USD mà DeepSeek chi để tạo mô hình ngôn ngữ lớn (LLM) làm cơ sở cho R1, tổng số tiền công ty bỏ ra vẫn ít hơn đáng kể so với các công ty đối thủ. Năm 2023, Sam Altman, CEO OpenAI, cho biết việc đào tạo mô hình nền tảng có chi phí “cao hơn nhiều” mức 100 triệu USD. Dù vậy, OpenAI không đưa ra con số cụ thể cho bất cứ mô hình nào của công ty.
Logo ứng dụng DeepSeek hiển thị trên một màn hình điện thoại. Ảnh: Reuters
Chip H800 được Nvidia thiết kế cho thị trường Trung Quốc sau khi Mỹ cấm công ty xuất khẩu chip AI H100 và A100 vào tháng 10/2022. Tuy nhiên, trong tài liệu bổ sung kèm theo nghiên cứu trên Nature, DeepSeek lần đầu thừa nhận sở hữu chip A100 và sử dụng chúng trong giai đoạn chuẩn bị phát triển.
“Về nghiên cứu DeepSeek R1, chúng tôi sử dụng các GPU A100 để chuẩn bị cho những thí nghiệm với một mô hình nhỏ hơn”, nhóm nghiên cứu, trong đó có CEO DeepSeek Liang Wenfeng, nêu. Sau giai đoạn đầu này, R1 được huấn luyện tổng cộng 80 giờ trên cụm 512 chip H800.
R1 được thiết kế để thực hiện tốt nhiệm vụ lý luận như toán học và lập trình, là đối thủ cạnh tranh giá rẻ với công cụ do các công ty công nghệ Mỹ phát triển. R1 là mô hình “trọng số mở”, cho phép bất cứ ai cũng có thể tải xuống. Đây cũng là mô hình phổ biến nhất thuộc loại này trên nền tảng cộng đồng AI Hugging Face đến nay với 10,9 triệu lượt tải.
DeepSeek cho biết dữ liệu đào tạo mô hình V3 của công ty dựa vào những trang web chứa “một lượng lớn câu trả lời do các mô hình OpenAI tạo ra, điều này có thể khiến mô hình nền tảng gián tiếp tiếp thu kiến thức từ những mô hình mạnh khác”. Tuy nhiên, công ty khẳng định đây không phải hành động cố ý mà chỉ là tình cờ.
Theo Reuters, DeepSeek luôn ủng hộ phương pháp “chưng cất” vì giúp mô hình đạt hiệu suất tốt hơn trong khi chi phí đào tạo và vận hành rẻ hơn nhiều, cho phép các công nghệ AI được tiếp cận rộng rãi hơn. Thuật ngữ “chưng cất” đề cập đến kỹ thuật trong đó một hệ thống AI học hỏi từ hệ thống AI khác, nhờ đó mô hình mới tận dụng được lợi ích từ sự đầu tư về thời gian và sức mạnh tính toán nhằm xây dựng mô hình cũ mà không phải chịu chi phí tương ứng.
Thu Thảo (Theo Reuters, Nature)
https%3A%2F%2Fvnexpress.net%2Fdeepseek-tuyen-bo-chi-ton-294-000-usd-dao-tao-mo-hinh-ai-4941458.html