Home Ứng dụng AI Vào cuộc sống Không phải nhiều dữ liệu hơn, mà là các mô hình thế...

Không phải nhiều dữ liệu hơn, mà là các mô hình thế giới tốt hơn – Unite.AI

0

Trong nhiều năm, ngành công nghiệp Trí tuệ nhân tạo đã tuân theo một quy tắc đơn giản, tàn nhẫn: càng lớn càng tốt. Chúng ta đã huấn luyện các mô hình trên các tập dữ liệu khổng lồ, tăng số lượng tham số và dồn sức mạnh tính toán khổng lồ vào vấn đề. Công thức này đã hiệu quả trong hầu hết các trường hợp. Từ GPT-3 đến GPT-4, và từ các chatbot thô sơ đến các công cụ suy luận, “định luật tỉ lệ“Người ta cho rằng nếu chúng ta cứ tiếp tục cung cấp thêm văn bản cho máy, cuối cùng nó sẽ trở nên thông minh.”

Nhưng bây giờ chúng ta đụng phải bức tườngInternet có giới hạn. Dữ liệu công cộng chất lượng cao đang dần cạn kiệt, và lợi ích thu được từ việc đơn thuần mở rộng quy mô mô hình là rất hạn chế. giảm dầnCác nhà nghiên cứu AI hàng đầu tranh luận Bước tiến lớn tiếp theo trong trí tuệ nhân tạo sẽ không đến từ việc chỉ đọc thêm nhiều văn bản. Nó sẽ đến từ việc hiểu được thực tại đằng sau văn bản. Niềm tin này báo hiệu một sự thay đổi cơ bản trong trọng tâm của AI, mở ra kỷ nguyên của Mô hình Thế giới.

Những hạn chế của dự đoán token tiếp theo

Để hiểu tại sao chúng ta cần một cách tiếp cận mới, trước tiên chúng ta phải xem xét các hệ thống AI hiện tại thực sự làm gì. Mặc dù có khả năng ấn tượng, các mô hình như ChatGPT hay Claude về cơ bản vẫn còn nhiều hạn chế. công cụ thống kêHọ dự đoán từ tiếp theo trong một chuỗi dựa trên xác suất của những gì đã xảy ra trước đó. Họ không hiểu rằng một chiếc ly bị rơi sẽ vỡ; họ chỉ biết rằng trong hàng triệu câu chuyện, từ “vỡ” thường theo sau cụm từ “ly bị rơi”.

Cách tiếp cận này, được gọi là mô hình tự hồi quyNó có một điểm yếu chí mạng. Nó hoàn toàn dựa vào mối tương quan, chứ không phải nguyên nhân. Nếu bạn huấn luyện một mô hình LLM bằng hàng nghìn mô tả về một vụ tai nạn xe hơi, nó sẽ học được ngôn ngữ của các vụ tai nạn. Nhưng nó không bao giờ học được vật lý về động lượng, ma sát hoặc tính dễ vỡ. Nó chỉ là người quan sát, chứ không phải người tham gia.

Hạn chế này đang trở thành “Tường dữ liệuChúng ta gần như đã thu thập toàn bộ dữ liệu từ internet công cộng. Để mở rộng quy mô hơn nữa bằng phương pháp hiện tại, chúng ta cần lượng dữ liệu nhiều hơn gấp bội so với hiện có. Dữ liệu tổng hợp (tức là văn bản do AI tạo ra) chỉ là giải pháp tạm thời, nhưng nó thường dẫn đến “sự sụp đổ của mô hình“Nơi mà hệ thống khuếch đại những thành kiến ​​và sai sót của chính nó. Chúng ta không thể mở rộng quy mô để đạt được Trí tuệ Nhân tạo Tổng quát (AGI) chỉ bằng văn bản vì văn bản là một dạng nén băng thông thấp của thế giới. Nó mô tả thực tế, nhưng nó không phải là thực tế.”

Tại sao mô hình thế giới lại quan trọng?

AI các nhà lãnh đạo Giống như Yann LeCun, nhiều người từ lâu đã lập luận rằng các hệ thống AI hiện nay thiếu một khía cạnh cơ bản của nhận thức con người mà ngay cả trẻ nhỏ cũng sở hữu một cách tự nhiên. Đó là khả năng duy trì một mô hình nội tại về cách thế giới vận hành, điều mà họ thường gọi là mô hình nhận thức. Người mẫu thế giớiMột mô hình thế giới không chỉ dự đoán từ tiếp theo; nó xây dựng một bản đồ tinh thần nội tại về cách môi trường vật lý vận hành. Khi chúng ta thấy một quả bóng lăn phía sau ghế sofa, chúng ta biết nó vẫn ở đó. Chúng ta biết nó sẽ xuất hiện ở phía bên kia trừ khi nó bị chặn lại. Chúng ta không cần đọc sách giáo khoa để hiểu điều này; chúng ta chạy một mô phỏng tinh thần dựa trên “mô hình thế giới” nội tại của chúng ta về vật lý và tính bền vững của vật thể.

Để trí tuệ nhân tạo (AI) tiến bộ, nó phải chuyển từ việc bắt chước thống kê sang loại mô phỏng nội tại này. Nó cần hiểu được nguyên nhân sâu xa của các sự kiện, chứ không chỉ là mô tả bằng văn bản.

Kiến trúc dự đoán nhúng chung (JEPA) JEPA là một ví dụ điển hình cho sự thay đổi mô hình này. Không giống như các mô hình ngôn ngữ ký hiệu (LLM) cố gắng dự đoán từng pixel hoặc từng từ (một quá trình tốn kém về mặt tính toán và nhiều nhiễu), JEPA dự đoán các biểu diễn trừu tượng. Nó bỏ qua các chi tiết không thể dự đoán được như chuyển động của từng chiếc lá trên cây và tập trung vào các khái niệm cấp cao như cây, gió và mùa. Bằng cách học cách dự đoán sự thay đổi của các trạng thái cấp cao này theo thời gian, AI học được cấu trúc của thế giới chứ không phải các chi tiết bề mặt.

Từ dự đoán đến mô phỏng

Chúng ta đã thấy những dấu hiệu đầu tiên của sự chuyển đổi này trong các mô hình tạo video. Khi OpenAI phát hành Sora, họ mô tả nó không chỉ là một công cụ video, mà còn là một “mô phỏng thế giới“.

Sự khác biệt này rất quan trọng. Một trình tạo video thông thường có thể tạo ra video về một người đang đi bộ bằng cách dự đoán các pixel màu nào thường nằm cạnh nhau. Tuy nhiên, một trình mô phỏng thế giới cố gắng duy trì tính nhất quán 3D, ánh sáng và sự tồn tại của các vật thể theo thời gian. Nó “hiểu” rằng nếu người đó đi sau một bức tường, họ không nên biến mất khỏi sự tồn tại.

Mặc dù các mô hình video hiện tại vẫn còn xa vời so với sự hoàn hảo, nhưng chúng đại diện cho một môi trường huấn luyện mới. Thế giới vật lý chứa đựng lượng thông tin nhiều hơn đáng kể so với thế giới văn bản. Một giây video chứa hàng triệu điểm dữ liệu hình ảnh liên quan đến vật lý, ánh sáng và tương tác. Bằng cách huấn luyện các mô hình trên thực tế hình ảnh này, chúng ta có thể dạy cho AI “kiến thức thông thường” mà các mô hình học máy hiện đang thiếu.

Điều này tạo ra một quy luật mở rộng mới. Thành công sẽ không còn được đo bằng số nghìn tỷ token mà một mô hình đã đọc được. Nó sẽ được đo bằng độ chính xác của mô phỏng và khả năng dự đoán trạng thái tương lai của môi trường. Một AI có thể mô phỏng chính xác hậu quả của một hành động mà không cần phải thực hiện hành động đó là một AI có khả năng lập kế hoạch, suy luận và hành động một cách an toàn.

Hiệu quả và con đường dẫn đến Trí tuệ nhân tạo tổng quát (AGI)

Sự thay đổi này cũng giải quyết được vấn đề không bền vững. tiền điện Trong số các thuật toán AI hiện nay, LLM (Learning Learning Module) hoạt động kém hiệu quả vì chúng phải dự đoán mọi chi tiết để tạo ra một kết quả đầu ra mạch lạc. Mô hình Thế giới (World Model) hiệu quả hơn vì nó có tính chọn lọc. Giống như người lái xe tập trung vào đường đi và bỏ qua hình dạng của các đám mây trên bầu trời, Mô hình Thế giới tập trung vào các yếu tố nhân quả có liên quan đến một nhiệm vụ.

LeCun lập luận rằng phương pháp này cho phép các mô hình học hỏi nhanh hơn nhiều. Một hệ thống như vậy V-JEPA (Kiến trúc dự đoán nhúng video kết hợp) đã chứng minh rằng nó có thể hội tụ về một giải pháp với số lần lặp huấn luyện ít hơn nhiều so với các phương pháp truyền thống. Bằng cách học “hình dạng” của dữ liệu thay vì ghi nhớ chính dữ liệu, World Models xây dựng một dạng trí tuệ mạnh mẽ hơn, có khả năng khái quát hóa tốt hơn đối với các tình huống mới, chưa từng thấy.

Đây chính là mắt xích còn thiếu đối với Trí tuệ Nhân tạo Tổng quát (AGI). Trí tuệ thực sự đòi hỏi khả năng điều hướng. Nó đòi hỏi một tác nhân phải nhìn vào mục tiêu, mô phỏng các con đường khác nhau để đạt được mục tiêu đó bằng cách sử dụng mô hình thế giới nội tại của nó, và sau đó chọn con đường có xác suất thành công cao nhất. Các công cụ tạo văn bản không thể làm được điều này; chúng chỉ có thể viết ra một kế hoạch, chứ không thể hiểu được các ràng buộc khi thực thi kế hoạch đó.

Lời kết

Ngành công nghiệp AI đang ở một bước ngoặt. Chiến lược “chỉ cần thêm nhiều dữ liệu” đang đi đến hồi kết hợp lý. Chúng ta đang chuyển từ kỷ nguyên của Chatbot sang kỷ nguyên của Trình mô phỏng.

Thế hệ tiếp theo của việc mở rộng quy mô AI sẽ không phải là việc đọc toàn bộ internet. Nó sẽ là việc quan sát thế giới, hiểu các quy luật của nó và xây dựng một kiến ​​trúc nội bộ phản ánh thực tế. Đây không chỉ là một nâng cấp kỹ thuật; mà là một sự thay đổi cơ bản trong những gì chúng ta coi là “học tập”.

Đối với các doanh nghiệp và nhà nghiên cứu, trọng tâm cần phải thay đổi. Chúng ta cần ngừng ám ảnh về số lượng tham số và bắt đầu đánh giá xem hệ thống của chúng ta hiểu mối quan hệ nhân quả tốt đến mức nào. Trí tuệ nhân tạo của tương lai sẽ không chỉ cho bạn biết điều gì đã xảy ra; nó sẽ cho bạn thấy điều gì có thể xảy ra và tại sao. Đó là lời hứa của Mô hình Thế giới, và đó là con đường duy nhất để tiến lên.

https%3A%2F%2Fwww.unite.ai%2Fvi%2Fais-next-scaling-law-not-more-data-but-better-world-models%2F

Exit mobile version