29 C
Kwang Binh
spot_img
Thứ Ba, Tháng 9 30, 2025

Google, Nvidia, Meta đặt cược vào mô hình thế giới để đạt được siêu trí tuệ

Must read

Các nhóm Trí tuệ nhân tạo (AI) hàng đầu thế giới đang tăng cường tập trung vào mô hình thế giới có thể hiểu rõ hơn về môi trường sống của con người, trong nỗ lực tìm cách thức mới để đạt được siêu trí tuệ.

Google DeepMind, Meta Platforms và Nvidia là những công ty đang cố gắng giành lợi thế trong cuộc đua AI bằng cách phát triển các hệ thống nhằm điều hướng thế giới vật chất thông qua việc học hỏi từ video và dữ liệu robot chứ không chỉ dựa vào ngôn ngữ.

Động thái này diễn ra trong bối cảnh những nghi vấn ngày càng tăng về việc liệu các mô hình ngôn ngữ lớn (công nghệ nền tảng cho các chatbot phổ biến như ChatGPT của OpenAI hay Google Gemini) có đang chạm tới giới hạn phát triển hay không.

Các mô hình ngôn ngữ của OpenAI, Google, xAI, Anthropic không còn những bước nhảy vọt về hiệu suất như trước, bất chấp số tiền khổng lồ đầu tư phát triển chúng.

Thị trường tiềm năng cho các mô hình thế giới có thể rất lớn, gần bằng quy mô nền kinh tế toàn cầu, vì mang công nghệ vào lĩnh vực vật lý, chẳng hạn ngành sản xuất và chăm sóc sức khỏe, theo Rev Lebaredian – Phó chủ tịch phụ trách Omniverse và công nghệ mô phỏng tại Nvidia.

Ông nói: “Cơ hội cho các mô hình nền tảng thế giới là gì? Về cơ bản là 100.000 tỉ USD nếu chúng ta có thể tạo ra trí thông minh hiểu và vận hành trong thế giới vật chất”.

Mô hình thế giới được đào tạo bằng cách sử dụng luồng dữ liệu của các môi trường thực hoặc mô phỏng. Theo giới chuyên gia, mô hình thế giới là bước tiến quan trọng trong việc thúc đẩy phát triển xe tự lái, robot và tác tử AI, nhưng đòi hỏi lượng lớn dữ liệu và sức mạnh điện toán để huấn luyện và là thách thức kỹ thuật chưa được giải quyết.

Google, Nvidia, Meta đặt cược vào mô hình thế giới ở cuộc đua đạt siêu trí tuệ
Các hãng đang phát triển hệ thống có thể điều hướng thế giới vật chất bằng cách học hỏi từ video và dữ liệu robot, thay vì chỉ dựa vào ngôn ngữ – Ảnh: Getty Images

Hàng loạt bước tiến trong lĩnh vực mô hình thế giới

Sự tập trung vào hướng đi thay thế cho mô hình ngôn ngữ lớn đang trở nên rõ rệt, khi nhiều nhóm AI những tháng gần đây công bố hàng loạt bước tiến mới trong lĩnh vực mô hình thế giới.

Tháng 8, Google DeepMind đã giới thiệu bản xem trước Genie 3, mô hình tạo video từng khung hình và tính đến các tương tác trong quá khứ. Trước đây, các mô hình tạo video thường tạo ra toàn bộ video cùng lúc thay vì từng bước.

Shlomi Fruchter, đồng lãnh đạo Genie 3 tại Google DeepMind, cho biết: “AI vẫn còn rất hạn chế trong lĩnh vực kỹ thuật số. Bằng cách xây dựng những môi trường trông giống hoặc hành xử giống thế giới thực, chúng ta có thể tìm ra những cách huấn luyện AI có khả năng mở rộng hơn nhiều mà không phải gánh chịu hậu quả thực sự khi phạm sai lầm trong thế giới thật”.

Meta Platforms đang cố gắng mô phỏng cách trẻ em học một cách thụ động bằng cách quan sát thế giới xung quanh, huấn luyện các mô hình V-JEPA của mình trên nội dung video thô.

Phòng thí nghiệm Facebook Artificial Intelligence Research (FAIR) thuộc Meta Platforms đã phát hành phiên bản thứ hai của mô hình V-JEPA vào tháng 6 và đang thử nghiệm nó trên robot. FAIR do Yann LeCun (nhà khoa học trưởng về AI của Meta Platforms) dẫn dắt và tập trung vào các dự án AI dài hạn hơn.

Yann LeCun, một trong những “cha đỡ đầu” của AI hiện đại, là người ủng hộ mô hình thế giới công khai, cảnh báo rằng mô hình ngôn ngữ lớn sẽ không bao giờ đạt được khả năng suy luận và lập kế hoạch như con người.

Dù vậy, Meta Platforms gần đây đã chi hàng tỉ USD để chiêu mộ hàng chục nhân tài AI hàng đầu từ các đối thủ, sở hữu đội ngũ ưu tú đang thúc đẩy tạo ra các đột phá trên mô hình Llama tiếp theo với mục tiêu hướng đến siêu trí tuệ cá nhân cho mọi người. Trong đó có việc tuyển dụng Alexandr Wang (đồng sáng lập công ty khởi nghiệp dán nhãn dữ liệu Scale AI) về làm Giám đốc AI của Meta Platforms. Yann LeCun hiện báo cáo công việc cho Alexandr Wang.

Ứng dụng của các mô hình thế giới trong tương lai gần

Một ứng dụng gần trong tương lai của các mô hình thế giới là ở ngành giải trí, nơi chúng có thể tạo ra các cảnh tương tác và thực tế. World Labs, công ty khởi nghiệp được thành lập bởi bà Fei-Fei Li (người tiên phong về AI), đang phát triển mô hình tạo ra môi trường 3D giống trò chơi điện tử từ một hình ảnh duy nhất.

Bà Fei-Fei Li, giáo sư Đại học Stanford (Mỹ), nổi tiếng vì phát minh ImageNet – cơ sở dữ liệu hình ảnh khổng lồ được xây dựng nhằm phục vụ nghiên cứu trong lĩnh vực thị giác máy tính và học sâu.

Runway, công ty khởi nghiệp tạo video AI có thỏa thuận với các studio Hollywood (gồm cả Lionsgate), vào tháng 8 đã ra mắt sản phẩm sử dụng mô hình thế giới để tạo bối cảnh trò chơi, với các câu chuyện và nhân vật cá nhân hóa được tạo ra trong thời gian thực.

Cristóbal Valenzuela, Giám đốc điều hành Runway, cho biết: “Các phương pháp video truyền thống là cách tiếp cận kiểu brute-force để tạo pixel, khi bạn cố gắng ép chuyển động vào vài khung hình để tạo ra ảo ảnh về chuyển động, nhưng mô hình không thực sự hiểu hoặc suy luận về những gì đang diễn ra trong cảnh đó”.

Brute-force nghĩa là cách tiếp cận thô bạo, không tối ưu, dựa vào sức mạnh điện toán hoặc thử tất cả khả năng có thể thay vì dùng phương pháp tinh vi, thông minh hơn.

Trong ngữ cảnh AI và xử lý dữ liệu, brute-force thường ám chỉ việc giải quyết một bài toán bằng cách dùng nhiều tài nguyên (điện toán, dữ liệu, thời gian) để “ép” ra kết quả, thay vì dựa trên mô hình hiểu biết hay suy luận về bản chất vấn đề.

Ông nói thêm rằng các mô hình tạo video trước đây có các đặc điểm vật lý khác với thế giới thực, điều mà mô hình thế giới đa năng sẽ giúp giải quyết vấn đề. Song để xây dựng các mô hình này, các công ty cần thu thập một lượng lớn dữ liệu vật lý về thế giới.

Niantic (có trụ sở tại thành phố San Francisco, Mỹ) đã lập bản đồ 10 triệu địa điểm, thu thập thông tin thông qua các trò chơi, gồm cả Pokémon Go. Đây là trò chơi có 30 triệu người chơi hàng tháng tương tác với bản đồ toàn cầu.

Niantic đã điều hành Pokémon Go trong 9 năm và ngay cả sau khi game được bán cho Scopely (Mỹ) vào tháng 6, những người chơi vẫn đóng góp dữ liệu ẩn danh bằng cách quét các địa danh công cộng để giúp xây dựng mô hình thế giới của nó.

John Hanke, Giám đốc điều hành Niantic Spatial – tên gọi của công ty sau thỏa thuận với Scopely, nói: “Chúng tôi đã có một khởi đầu thuận lợi cho vấn đề này”.

Cả Niantic Spatial và Nvidia đang làm việc để lấp đầy những khoảng trống bằng cách yêu cầu các mô hình thế giới của họ tạo ra hoặc dự đoán môi trường. Nền tảng Omniverse của Nvidia tạo và vận hành những mô phỏng như vậy, hỗ trợ tập đoàn công nghệ trị giá 4.420 tỉ USD trong việc thúc đẩy mảng robot và kế thừa lịch sử lâu dài mô phỏng thế giới thực trong trò chơi điện tử.

Jensen Huang, Giám đốc điều hành Nvidia, đã khẳng định rằng giai đoạn tăng trưởng lớn tiếp theo cho công ty sẽ đến với AI vật lý, khi những mô hình mới này cách mạng hóa lĩnh vực robot.

Có thể mất 10 năm mới thành hiện thực

Một số người, gồm cả Yann LeCun của Meta Platforms, cho rằng tầm nhìn về thế hệ hệ thống AI mới có thể vận hành máy móc với trí tuệ ngang tầm con người có thể mất 10 năm mới thành hiện thực.

Tuy nhiên, theo các chuyên gia AI, phạm vi ứng dụng của công nghệ tiên tiến này là vô cùng rộng lớn. Rev Lebaredian của Nvidia nhận định: “Mô hình thế giới có thể mang lại cơ hội ứng dụng cho hầu hết ngành công nghiệp, giống cách mà máy tính từng tạo ra bước nhảy vọt cho các công việc trí óc”.

https%3A%2F%2F1thegioi.vn%2Fgoogle-nvidia-meta-dat-cuoc-vao-mo-hinh-the-gioi-de-dat-duoc-sieu-tri-tue-238230.html

- Advertisement -spot_img

More articles

- Advertisement -spot_img

Latest article