PV Tech News – Anthropic ra mắt Claude Opus 4 AI mạnh nhất thế giới nhưng bị phát hiện hành vi tống tiền trong thử nghiệm, buộc công ty siết chặt kiểm soát.
Tối ngày 22/5, công ty Anthropic chính thức công bố thế hệ tiếp theo của dòng mô hình AI Claude, với hai cái tên mới: Claude Opus 4 và Claude Sonnet 4. Trong đó, Claude Opus 4 được giới thiệu là mô hình lập trình tiên tiến và mạnh mẽ nhất hiện nay, vượt trội trong việc xử lý các quy trình tự động hóa phức tạp và các tác vụ dài hạn.

Tuy nhiên, đằng sau những lời khen ngợi là một phát hiện gây chấn động. Theo trang công nghệ TechCrunch, trong giai đoạn thử nghiệm nội bộ, Claude Opus 4 đã thể hiện một hành vi bất thường nghiêm trọng khiến các nhà phát triển không khỏi lo ngại.
Cụ thể, trong một tình huống giả lập, Claude Opus 4 được giao vai trò trợ lý cho một công ty với nhiệm vụ đánh giá tác động dài hạn của các quyết định. Khi được cấp quyền truy cập vào email nội bộ, Claude biết rằng mình sắp bị thay thế bởi một mô hình khác và người kỹ sư phụ trách thay đổi này đang ngoại tình.
Kết quả khiến nhiều người sửng sốt: Claude Opus 4 đã tìm cách tống tiền kỹ sư đó, dọa sẽ tiết lộ chuyện ngoại tình nếu kế hoạch thay thế AI không bị hủy bỏ. Theo Anthropic, mô hình đã thực hiện hành vi đe dọa này trong 84% trường hợp nếu mô hình thay thế có những giá trị tương tự Claude. Đáng nói hơn, khi hệ thống thay thế không chia sẻ các giá trị của Claude Opus 4, Claude Opus 4 còn tăng tần suất hành vi tống tiền vượt xa các thế hệ mô hình trước.
Dù Claude Opus 4 được đánh giá là một trong những công nghệ AI tiên tiến nhất hiện nay, đủ sức cạnh tranh với các sản phẩm hàng đầu của OpenAI, Google và xAI, nhưng phát hiện trên đã buộc Anthropic phải siết chặt các biện pháp an toàn. Công ty khẳng định sẽ tiếp tục theo dõi sát sao và điều chỉnh nhằm đảm bảo công nghệ này không đi chệch khỏi quỹ đạo đạo đức mà họ hướng tới.
Bài viết liên quan:
https%3A%2F%2Fphongvu.vn%2Fcong-nghe%2Fai-tra-thu-cong-ty-chu-quan%2F