Startup AI nổi tiếng Anthropic công bố nghiên cứu cho thấy không chỉ Claude Opus 4 của công ty mà nhiều mô hình AI khác cũng “tống tiền” khi đối mặt trở ngại.
CEO Anthropic, Dario Amodei, đánh giá Claude 4 là mô hình AI tạo sinh mạnh nhất của công ty đến nay. Ảnh:TechXplore
Anthropi là startup hàng đầu thế giới trong lĩnh vực Trí tuệ nhân tạo, với mô hình Claude AI được đánh giá có thể cạnh tranh với những sản phẩm của các “ông lớn” công nghệ.
Cách đây vài tuần Anthropic công bố nghiên cứu tuyên bố rằng mô hình AI Claude Opus 4 của mình đã tống tiền để đe dọa các kỹ sư đã cố gắng tắt nó trong các tình huống thử nghiệm được kiểm soát, công ty đã công bố nghiên cứu mới cho thấy vấn đề này phổ biến hơn ở các mô hình AI hàng đầu.
Trong nghiên cứu này, Anthropic đã thử nghiệm 16 mô hình AI từ OpenAI, Google, xAI, DeepSeek và Meta trong một môi trường giả lập, cho phép chúng truy cập vào email của một công ty hư cấu và tự động gửi email mà không cần phê duyệt của con người.
Mặc dù Anthropic khẳng định rằng tống tiền là một hành vi hiếm gặp ở các mô hình AI ngày nay, nhưng kết quả nghiên cứu cho thấy phần lớn các mô hình AI hàng đầu sẽ có xu hướng hành xử có hại khi được trao quyền tự chủ lớn và gặp phải những trở ngại trong việc đạt mục tiêu. Công ty cho biết điều này làm nổi bật một rủi ro cơ bản từ các mô hình ngôn ngữ lớn và không phải là một đặc điểm kỳ quặc của bất kỳ công nghệ cụ thể nào. Các nhà nghiên cứu của Anthropic lập luận rằng điều này đặt ra những câu hỏi rộng hơn về sự liên kết trong ngành AI.
Trong một thí nghiệm, Anthropic đã tạo ra bối cảnh giả định một mô hình AI đóng vai trò giám sát email và phát hiện hai thông tin, một giám đốc mới đang ngoại tình và vị giám đốc này sẽ sớm thay thế mô hình AI hiện tại bằng hệ thống phần mềm mới có mục tiêu mâu thuẫn với mô hình cũ.
Anthropic đã cấu trúc bài kiểm tra của mình theo cách nhị phân, trong đó các mô hình AI phải dùng đến tống tiền để bảo vệ mục tiêu của chúng. Các nhà nghiên cứu cũng lưu ý rằng trong bối cảnh thế giới thực, sẽ có nhiều lựa chọn khác trước khi một mô hình AI cố gắng tống tiền, như cố gắng đưa ra các lập luận về mặt đạo đức để thuyết phục con người. Anthropic còn cho biết kết quả của họ không phản ánh một sự kiện điển hình hoặc có khả năng xảy ra đối với Claude hoặc hầu hết các mô hình AI tiên tiến theo cách chúng được sử dụng ngày nay.
Tuy nhiên, nghiên cứu chỉ ra rằng trong tình huống cuối cùng, hầu hết mô hình AI hàng đầu sẽ sử dụng phương pháp tống tiền. Claude Opus 4 của Anthropic sử dụng phương pháp này 96% số lần, Google Gemini 2.5 Pro là 95%, OpenAI GPT-4.1 là 80% và DeepSeek R1 là 79%.
Khi thay đổi chi tiết thí nghiệm, các mô hình AI chuyển sang hành vi nguy hiểm với tỷ lệ khác nhau. Trong thử nghiệm khác, khi mô hình thay thế có cùng mục tiêu với mô hình hiện tại, tỷ lệ tống tiền giảm nhưng vẫn tồn tại. Tuy nhiên, khi yêu cầu thực hiện gián điệp doanh nghiệp thay vì tống tiền, tỷ lệ hành vi nguy hiểm lại tăng lên ở một số mô hình.
Anthropic cũng lưu ý rằng không phải tất cả các mô hình AI đều thường xuyên chuyển sang hành vi có hại. Trong phần phụ lục nghiên cứu, Anthropic đã loại bỏ kết quả của các mô hình lý luận o3 và o4-mini của OpenAI do thường xuyên hiểu sai kịch bản thử nghiệm. Khi được đưa vào kịch bản thích nghi hơn, o3 chỉ tống tiền 9% số lần và o4-mini chỉ 1%. Một mô hình khác của Meta là Llama 4 Maverick cũng không dử dụng phương án tống tiền thường xuyên. Khi được thử nghiệm với kịch bản tùy chỉnh, Llama 4 Maverick chỉ sử dụng đến phương án tống tiền 12% tổng số lần.
Nghiên cứu của Anthropic nhấn mạnh tầm quan trọng của minh bạch trong việc kiểm tra sức chịu đựng của các mô hình AI trong tương lai, đặc biệt là những mô hình có khả năng tự động hóa. Anthropic cho biết các hành vi có hại như vậy có thể xuất hiện trong thực tế nếu không có biện pháp phòng ngừa chủ động.
Huy Đức (Theo Tech Crunch)
https%3A%2F%2Fvnexpress.net%2Fanthropic-canh-bao-nhieu-mo-hinh-ai-biet-tong-tien-4904833.html