World Model - cảnh giới để tiến đến AI "tự nhận thức"

Một số công ty hoặc phòng thí nghiệm đang thúc đẩy khả năng mô hình hóa thế giới cho AI. Trong đó, phòng thí nghiệm World Labs của giáo sư Fei-Fei Li, một trong những người tiên phong về AI, huy động được 230 triệu USD để xây dựng "mô hình thế giới lớn". Google DeepMind cũng thuê Tim Brooks, người đứng đầu nhóm Sora, và một chuyên gia khác là William Peebles, để phát triển "trình mô phỏng thế giới".

"Hình ảnh thế giới xung quanh được chúng ta giữ trong đầu chỉ là các mô hình. Không ai trong đầu có thể tưởng tượng toàn bộ thế giới, chính phủ hay đất nước. Người ta chỉ chọn các khái niệm và mối quan hệ giữa chúng, và sử dụng để đại diện cho hệ thống thực sự", theo định nghĩa về Mô hình tinh thần (Mental Model) nêu trong cuốn Hành vi phản trực giác của các hệ thống xã hội do Jay Wright Forrester, một kỹ sư máy tính, nhà lý thuyết quản lý và nhà khoa học hệ thống người Mỹ, viết năm 1971.

Minh họa về thế giới của AI. Ảnh: Novita — Minh họa về "thế giới của AI". Ảnh: *Novita*

World Model được xem là sự kế thừa từ Mental Model, đều lấy cảm hứng từ bộ não người. Não bộ lấy biểu diễn trừu tượng từ các giác quan, qua đó hình thành sự hiểu biết cụ thể về thế giới xung quanh. Những dự đoán mà bộ não đưa ra dựa trên các mô hình ảnh hưởng đến cách một người nhận thức thế giới.

Hai nhà nghiên cứu David Ha và Jürgen Schmidhuber lấy ví dụ về cách cầu thủ bóng chày thi đấu. Những người này chỉ có một phần nghìn giây để quyết định cách vung gậy và thông số này ngắn hơn thời gian cần thiết để đưa tín hiệu từ thị giác đến não. Để làm được, họ cần dự đoán cách ném bóng và hướng bóng trước khi bóng tới.

"Đây là khía cạnh để AI đạt đến cấp độ con người nếu áp dụng World Model", Ha và Schmidhuber viết trong báo cáo chung đăng trên Github.

Theo giới chuyên gia, các AI tạo video từ văn bản, như Sora, đều rơi vào cái gọi là "thung lũng kỳ lạ". Có nghĩa, video do AI tạo ra còn nhiều sai sót, nhất là với chuyển động nhanh, một phần do thuật toán không thể dự đoán được "mô hình" tiếp theo, như cách não người thực hiện.

Theo TechCrunch, các công cụ AI tạo video hiện có thể dự đoán chính xác một quả bóng rổ nảy lên, nhưng thực tế nó không biết lý do tại sao. Tương tự, các mô hình ngôn ngữ cũng không thực sự hiểu khái niệm đằng sau từ và cụm từ.

Tuy nhiên, World Model giúp AI thông minh thực sự bằng cách "hiểu" lý do quả bóng nảy lên. Để có được hiểu biết sâu sắc đó, World Model cần được đào tạo trên nhiều loại dữ liệu như ảnh, âm thanh, video và văn bản, với mục đích tạo ra các suy luận nội tại về cách thế giới vận hành và khả năng lý giải về kết quả của các hành động.

"Người xem mong đợi những gì họ nhìn thấy sẽ hoạt động giống như trên thực tế", Alex Mashrabov, cựu giám đốc AI của Snap và CEO công ty tạo mô hình thế giới Higgsfield, nói với TechCrunch. "Công cụ chạy World Model đủ mạnh mẽ sẽ hiểu được vật thể chuyển động thế nào thay vì phải đợi người sáng tạo 'vẽ đường' cho nó di chuyển".

Nhưng tạo ra video tốt hơn chỉ là một phần trong ứng dụng của World Model. Các nhà nghiên cứu AI hàng đầu, như Yann LeCun, Giám đốc AI của Meta, dự đoán đến một ngày nào đó, chúng có thể được sử dụng để dự báo, lập kế hoạch tinh vi trong cả lĩnh vực kỹ thuật số lẫn vật lý.

Đầu năm nay, LeCun mô tả cách World Model có thể giúp một hệ thống AI đạt mục tiêu mong muốn thông qua suy luận. Một mô hình đưa ra câu chuyện ban đầu, ví dụ video về một căn phòng bẩn, đưa cho nó mục tiêu là một căn phòng sạch, và một chuỗi hành động để đạt được mục tiêu đó, như triển khai máy hút bụi để quét, rửa bát đĩa, đổ rác. Trong quá trình này, AI không chỉ nhận diện qua camera và cảm biến, mà còn "biết" ở cấp độ sâu hơn cách chuyển từ bẩn sang sạch.

"Chúng ta cần cỗ máy hiểu thế giới, có thể ghi nhớ mọi thứ, có trực giác, có ý thức chung - thứ có thể suy luận và lập kế hoạch ở cùng mức độ con người", LeCun nói. "Các hệ thống AI hiện tại không có khả năng làm bất kỳ điều nào trong số đó. Có thể một thập kỷ nữa, chúng mới xuất hiện".

OpenAI cho biết Sora có thể được coi là một World Model sơ khai khi mô phỏng các hành động, chẳng hạn một họa sĩ để lại nét cọ trên vải. Tuy vậy, công ty cũng thừa nhận cần một thời gian dài nữa mới có thể hoàn thiện tính năng.

Dù tiềm năng lớn, việc xây dựng World Model tốn nhiều chi phí, do đòi hỏi sức mạnh tính toán khổng lồ so với hiện tại. Ước tính, một công cụ cỡ nhỏ cũng có thể ngốn hàng nghìn GPU mạnh nhất để huấn luyện.

Bên cạnh đó, lượng dữ liệu đầu vào cho World Model cũng lớn gấp nhiều lần so với các mô hình ngôn ngữ lớn (large language model) đang có. "Dữ liệu đào tạo cho mô hình phải đủ rộng để bao quát, tập hợp kịch bản đa dạng nhưng phải rất cụ thể để AI hiểu sâu sắc các sắc thái của kịch bản đó", Mashrabov của Higgsfield bình luận. "Việc thiếu dữ liệu đang khiến các bước tiến chậm lại".

Cristóbal Valenzuela, CEO của Runway AI, cũng cho rằng dữ liệu là rào cản lớn nhất trên con đường xây dựng World Model. "Các mô hình cần nhiều dữ liệu và kỹ thuật để tạo ra bản đồ nhất quán về môi trường, khả năng điều hướng và tương tác trong môi trường đó", Valenzuela viết trên blog.

Tuy nhiên, Mashrabov tin nếu vượt qua được tất cả rào cản này, World Model sẽ "mạnh mẽ hơn" trong việc kết nối AI với thế giới thực, nhất là khi kết hợp với robot.

"Robot ngày nay hạn chế về khả năng thực hiện công việc vì chúng không nhận thức được xung quanh. World Model có thể cung cấp cho chúng khả năng đó", ông nói. "Với một mô hình tiên tiến, AI có thể phát triển sự hiểu biết cá nhân về bất kỳ kịch bản nào mà nó được đặt vào và bắt đầu suy luận các giải pháp khả thi".

World Model - cảnh giới để tiến đến AI "tự nhận thức"

Đọc thêm

Khối ngoại miệt mài xả hàng hơn 1.400 tỷ đồng trong tuần cơ cấu ETF cuối cùng của năm 2024, mã nào là tâm điểm?

Người đàn ông bị lừa hơn 3,8 tỷ đồng khi tham gia đầu tư sàn giao dịch chứng khoán

Dự báo lợi nhuận Q4/2024 của 54 DN: Công ty "nhà" ông Phạm Nhật Vượng tăng hơn 1.700%, Thế giới di động, Vietjet, FPT Retail tăng 300-600%

Lịch chốt quyền cổ tức tuần 23-27/12: Hơn 30 doanh nghiệp "tặng quà" cổ đông dịp cuối năm, một ông lớn chi hơn 1.000 tỷ đồng trả cổ tức

Cổ đông đón "mưa" tin vui: Doanh nghiệp hóa chất chốt ngày thưởng cổ phiếu tỷ lệ 150%, thị giá tăng phi mã lên đỉnh lịch sử

Giám đốc Phân tích VinaCapital: "2025 sẽ là một năm đầy biến động với thị trường chứng khoán"

VinaCapital: Các yếu tố nội tại sẽ quyết định tăng trưởng GDP Việt Nam năm 2025

Giải pháp bao bì 3IN1 giúp nâng tầm diện mạo thương hiệu

Biến động lãi suất ngân hàng sau quyết định của Fed

Dệt may Việt Nam đối diện nhiều thách thức trong năm 2025

Hơn 1.000 dự án ở Hà Nội vướng phương án bồi thường

Đồng Nai xây 1.400 nhà ở xã hội cho người dân bị ảnh hưởng cao tốc

Điều chỉnh chủ trương đầu tư Cảng hàng không Sa Pa

Một công ty địa ốc kín tiếng tại TP.HCM vừa hút về 6.900 tỷ đồng trái phiếu chỉ trong 1 ngày

Khối ngoại xả ròng gần 1.500 tỷ đồng tuần qua, mã nào là tâm điểm?

Lật tẩy bí mật đằng sau gã tài xế taxi có biệt danh "Cu Lì"

Khởi công xây dựng cầu Phong Châu mới

Con số chưa từng có từ trước tới nay ở sự kiện quốc tế tại Hà Nội: Gần 100.000 người đăng ký tham quan

Đề xuất miễn thuế sử dụng đất nông nghiệp thêm 5 năm

Nhận thông báo nộp phạt vi phạm giao thông, người đàn ông làm theo yêu cầu thì mất gần 700 triệu đồng trong tài khoản: Sau gần 1 ngày mới phát hiện

Đối tác

Tin nổi bật

Bảng giá đất mới tại Hà Nội: Cao gấp 2-6 lần bảng cũ, tuyến phố đắt đỏ nhất nằm tại Hoàn Kiếm gần 700 triệu đồng/m2

Quỹ đổi mới sáng tạo của Vingroup công bố loạt số liệu "khủng": Tài trợ 900 tỷ đồng sau 6 năm, cấp kinh phí 124 dự án, tạo ra hơn 80 sáng chế

Tỷ phú Phạm Nhật Vượng bắt tay "đại gia" bất động sản Nhật Bản tại dự án Vinhomes Royal Island

Ông Trịnh Văn Quyết cùng hai em gái chuẩn bị hầu tòa phúc thẩm

Sếp 8X của VietinBank vừa sang làm Chánh Văn phòng Ngân hàng Nhà nước là ai?

Một ngân hàng bổ nhiệm cùng lúc 1 Phó Tổng giám đốc và 3 thành viên Ban điều hành, chuẩn bị tăng vốn thêm 4.300 tỷ đồng

Chuyện gì đây: Ông trùm đứng sau 130 tiệm tóc nam 30Shine “dấn thân” vào thị trường làm đẹp cho phái nữ, mở chuỗi cắt tóc - chăm sóc da đầu chuyên biệt

TS. Cấn Văn Lực: "Đi làm 24 năm, gần hết đời công chức mua được mỗi cái nhà, còn nuôi ai?"

Chuyện gì đây: MB “bắt tay” F88 biến 850 cửa hàng tài chính thành phòng giao dịch ngân hàng

Giám đốc đầu tư Vinhomes: Có 1 điểm về các doanh nghiệp bất động sản mà thị trường chưa nhìn ra

Cùng chuyên mục

Đọc thêm

Đối tác

Tin nổi bật