Mô hình thế giới chuyển từ dự đoán sang lập kế hoạch, HWM và các vấn đề kiểm soát dài hạn

Giới thiệu

Trọng tâm nghiên cứu của các mô hình thế giới trong năm qua ban đầu tập trung vào việc học về cách biểu diễn và dự đoán trong tương lai. Đầu tiên, mô hình sẽ hiểu thế giới và sau đó suy ra trạng thái tương lai trong nội bộ. Tuyến đường này đã tạo ra một số kết quả tiêu biểu. V-JEPA 2 (Kiến trúc dự đoán nhúng chung video 2—bộ mô hình thế giới video do Meta phát hành vào năm 2025) sử dụng hơn 1 triệu giờ video trên Internet để đào tạo trước, kết hợp với một lượng nhỏ dữ liệu tương tác với robot, để chứng minh tiềm năng của mô hình thế giới trong việc hiểu, dự đoán và lập kế hoạch robot không mẫu.

Nhưng mô hình có thể dự đoán, điều đó không có nghĩa là mô hình có thể xử lý các tác vụ dài. Đối mặt với việc điều khiển nhiều giai đoạn, hệ thống thường gặp phải hai áp lực. Một là các lỗi dự đoán sẽ tiếp tục tích lũy trong thời gian triển khai kéo dài (trừ liên tục nhiều bước), khiến toàn bộ lộ trình ngày càng có nhiều khả năng đi chệch khỏi mục tiêu. Thứ hai là không gian tìm kiếm hành động sẽ mở rộng nhanh chóng khi chân trời (chân trời quy hoạch) phát triển, khiến chi phí lập kế hoạch tiếp tục tăng. HWM không viết lại lộ trình học tập cơ bản của mô hình thế giới mà bổ sung cấu trúc lập kế hoạch phân cấp vào mô hình thế giới hiện có với các điều kiện hành động, cho phép hệ thống tổ chức các lộ trình giai đoạn trước rồi xử lý các hành động cục bộ.

Về mặt kỹ thuật, V-JEPA 2 (https://ai.meta.com/research/vjepa/) thiên về đại diện thế giới và dự đoán cơ bản, HWM thiên về lập kế hoạch dài hạn hơn và WAV (Trình xác minh hành động thế giới: Mô hình thế giới tự cải thiện thông qua tính bất đối xứng nghịch đảo phía trước, https://arxiv.org/abs/2604.01985) tập trung hơn vào việc công nhận và hiệu chỉnh sự biến dạng dự đoán của chính mô hình. Ba dòng đang dần hội tụ. Trọng tâm của nghiên cứu mô hình thế giới đã chuyển từ việc dự đoán đơn giản về tương lai sang cách chuyển đổi khả năng dự đoán thành khả năng hệ thống có thể thực thi, sửa chữa và kiểm chứng được.

1. Tại sao kiểm soát dài hạn vẫn là điểm nghẽn của mô hình thế giới

Khó khăn trong kiểm soát dài hạn sẽ dễ thấy rõ hơn khi đặt vào nhiệm vụ robot. Lấy thao tác của cánh tay robot làm ví dụ, việc lấy một chiếc cốc và đặt nó vào ngăn kéo không phải là một hành động đơn lẻ mà là một chuỗi các bước liên tiếp nhau. Hệ thống cần đến gần đối tượng, điều chỉnh tư thế của nó, hoàn thành việc lấy, di chuyển đến vị trí mục tiêu, sau đó xử lý ngăn kéo và vị trí. Khi chuỗi phát triển, hai vấn đề sẽ xuất hiện cùng một lúc. Một là lỗi dự đoán sẽ tiếp tục tích lũy trong quá trình triển khai và thứ hai là không gian tìm kiếm hành động sẽ mở rộng nhanh chóng.

Điều mà hệ thống thiếu thường không phải là khả năng dự đoán cục bộ mà là khả năng sắp xếp các mục tiêu ở xa vào các đường dẫn trên sân khấu. Nhiều hành động có thể có vẻ sai lệch so với mục tiêu nhưng thực chất lại là những bước trung gian cần thiết để đạt được mục tiêu. Ví dụ, hãy giơ tay lên trước khi nắm lấy và lùi lại một chút trước khi mở ngăn kéo và điều chỉnh góc.

Trong các nhiệm vụ trình diễn, các mô hình trên thế giới đã có thể đưa ra những dự đoán mạch lạc. Nhưng sau khi bước vào cảnh điều khiển thực sự, hiệu suất bắt đầu giảm sút và xuất hiện nhiều vấn đề. Áp lực không chỉ đến từ bản thân người đại diện mà còn đến từ sự thiếu chín chắn ở cấp độ lập kế hoạch.

2. Cách HWM xây dựng lại quy trình lập kế hoạch

HWM chia quy trình lập kế hoạch ban đầu được hoàn thành trong một lớp thành hai lớp. Lớp trên chịu trách nhiệm định hướng giai đoạn trên thang thời gian dài hơn và lớp dưới chịu trách nhiệm thực hiện cục bộ trên thang thời gian ngắn hơn. Mô hình không lập kế hoạch chỉ theo một nhịp mà đồng thời lập kế hoạch theo hai nhịp thời gian khác nhau.

Khi một phương thức một lớp xử lý các tác vụ dài, thường cần phải tìm kiếm trực tiếp toàn bộ chuỗi hành động trong không gian hành động cơ bản. Nhiệm vụ càng dài thì chi phí tìm kiếm càng cao và các lỗi dự đoán càng dễ tiếp tục lan rộng trong quá trình triển khai nhiều bước. Sau quá trình tháo gỡ HWM, lớp cấp cao chỉ xử lý việc lựa chọn tuyến đường trong khoảng thời gian dài hơn và lớp cấp thấp hơn chỉ xử lý việc hoàn thành hành động hiện tại. Toàn bộ nhiệm vụ dài được chia thành nhiều nhiệm vụ ngắn hơn và độ phức tạp của việc lập kế hoạch giảm đi.

Ở đây cũng có một thiết kế chính. Hành động cấp cao không chỉ ghi lại sự khác biệt giữa hai trạng thái mà còn sử dụng bộ mã hóa để nén hành động cấp thấp thành biểu diễn hành động cấp cao hơn. Đối với các nhiệm vụ dài, điều quan trọng không chỉ là sự khác biệt giữa điểm bắt đầu và điểm kết thúc mà còn là cách tổ chức các bước trung gian. Nếu lãnh đạo cấp cao chỉ nhìn vào sự chênh lệch dịch chuyển thì rất dễ làm mất thông tin đường đi trong chuỗi hành động này.

HWM thể hiện phương pháp tổ chức nhiệm vụ theo cấp bậc. Đối mặt với một công việc có nhiều giai đoạn, hệ thống không còn bắt đầu tất cả các hành động cùng một lúc mà trước tiên hình thành một đường dẫn giai đoạn thô, sau đó thực hiện và sửa từng bước. Sau khi mối quan hệ thứ bậc này đi vào mô hình thế giới, khả năng dự đoán sẽ bắt đầu được chuyển hóa ổn định hơn thành khả năng lập kế hoạch.

3. Từ 0% đến 70%, kết quả thử nghiệm cho thấy điều gì?

Trong nhiệm vụ lấy và đặt trong thế giới thực được nêu trong bài báo, hệ thống chỉ thu được các điều kiện mục tiêu cuối cùng và không cung cấp các mục tiêu trung gian thủ công. Trong điều kiện này, tỷ lệ thành công của HWM đạt 70%, trong khi tỷ lệ thành công của mô hình thế giới một lớp là 0%. Những nhiệm vụ dài mà ban đầu gần như không thể hoàn thành đã trở nên có thể đạt được với xác suất cao sau khi áp dụng quy hoạch phân cấp.

Bài viết cũng thử nghiệm các tác vụ mô phỏng như đẩy vật thể và điều hướng trong mê cung. Kết quả cho thấy, lập kế hoạch theo cấp bậc không chỉ cải thiện tỷ lệ thành công mà còn giảm chi phí tính toán trong giai đoạn lập kế hoạch. Trong một số môi trường, chi phí tính toán của giai đoạn lập kế hoạch có thể giảm tới khoảng 1/4 giá trị ban đầu trong khi vẫn duy trì tỷ lệ thành công cao hơn hoặc tương đương.

4. Từ V-JEPA đến HWM rồi đến WAV

V-JEPA 2 đại diện cho lộ trình đại diện cho thế giới. V-JEPA 2 sử dụng hơn 1 triệu giờ video trên Internet để đào tạo trước, sau đó kết hợp ít hơn 62 giờ video về rô-bốt để đào tạo sau (đào tạo có mục tiêu sau khi đào tạo trước) để thu được mô hình thế giới điều kiện hành động tiềm ẩn (mô hình thế giới kết hợp thông tin hành động để dự đoán trong một không gian biểu diễn trừu tượng) có thể được sử dụng để hiểu, dự đoán và lập kế hoạch cho thế giới vật chất. Những gì nó cho thấy là các mô hình có thể thu được sự thể hiện của thế giới thông qua các quan sát quy mô lớn và chuyển sự thể hiện này sang việc lập kế hoạch cho robot.

HWM đang ở bước tiếp theo. Mô hình này đã có khả năng biểu diễn thế giới và dự đoán cơ bản, nhưng một khi nó đi vào kiểm soát nhiều giai đoạn, các vấn đề về tích lũy lỗi và mở rộng không gian tìm kiếm sẽ nảy sinh. HWM không thay đổi lộ trình học biểu diễn cơ bản mà bổ sung cấu trúc quy hoạch quy mô nhiều thời gian vào mô hình thế giới hiện có để thúc đẩy các điều kiện hành động. Vấn đề mà nó giải quyết là làm thế nào mô hình tổ chức các mục tiêu xa thành một tập hợp các bước trung gian và sau đó tiến triển từng bước.

WAV tập trung hơn nữa vào khả năng xác minh. Nếu mô hình thế giới muốn bước vào kịch bản triển khai và tối ưu hóa chiến lược, nó không chỉ phải dự đoán mà còn phải khám phá những lĩnh vực mà nó dễ bị biến dạng và đưa ra những điều chỉnh cho phù hợp. Nó tập trung vào cách mô hình tự kiểm tra.

V-JEPA thiên về đại diện cho thế giới, HWM thiên về lập kế hoạch nhiệm vụ và WAV thiên về xác minh kết quả. Mặc dù cả ba có trọng tâm khác nhau nhưng hướng đi chung của họ là như nhau. Giai đoạn tiếp theo của mô hình thế giới không còn chỉ là dự đoán nội bộ mà dự đoán, lập kế hoạch và xác minh dần dần được kết nối thành một tập hợp các khả năng của hệ thống.

5. Từ dự đoán nội bộ đến hệ thống thực thi

Nhiều công trình mô hình thế giới trước đây tiến gần hơn đến việc cải thiện tính liên tục của dự đoán trạng thái trong tương lai hoặc cải thiện tính ổn định của cách thể hiện thế giới nội bộ. Tuy nhiên, trọng tâm của nghiên cứu hiện nay đã bắt đầu thay đổi. Hệ thống không chỉ phải đưa ra phán đoán về môi trường mà còn phải chuyển phán đoán đó thành hành động và tiếp tục điều chỉnh bước tiếp theo sau khi có kết quả. Nếu muốn tiến gần hơn đến việc triển khai thực tế, bạn cần kiểm soát việc lan truyền lỗi, nén phạm vi tìm kiếm và giảm chi phí suy luận trong các tác vụ dài hạn.

Những thay đổi như vậy cũng ảnh hưởng đến các tác nhân AI. Nhiều hệ thống tác nhân đã có thể hoàn thành các tác vụ liên kết ngắn, chẳng hạn như công cụ gọi điện, đọc tệp và thực hiện một số hướng dẫn bước. Tuy nhiên, một khi nhiệm vụ trở thành một liên kết dài, nhiều giai đoạn và phải lập kế hoạch lại giữa chừng thì hiệu suất sẽ giảm sút. Điều này về cơ bản không khác gì những khó khăn trong việc điều khiển robot. Tất cả đều do năng lực tổ chức đường dẫn cấp cao không đủ, dẫn đến sự mất kết nối giữa việc thực thi cục bộ và các mục tiêu tổng thể.

Ý tưởng phân cấp do HWM cung cấp, lớp cao hơn chịu trách nhiệm về đường dẫn và mục tiêu giai đoạn, lớp thấp hơn chịu trách nhiệm về các hành động cục bộ và xử lý phản hồi, sau đó áp dụng xác minh kết quả. Kiểu cấu trúc phân cấp này sẽ tiếp tục xuất hiện trong nhiều hệ thống hơn trong tương lai. Trong giai đoạn tiếp theo của mô hình thế giới, trọng tâm không còn chỉ là dự đoán tương lai mà còn tổ chức dự đoán, thực hiện và điều chỉnh thành một lộ trình có thể thực hiện được.

Mô hình thế giới chuyển từ dự đoán sang lập kế hoạch, HWM và các vấn đề kiểm soát dài hạn

Giới thiệu

1. Tại sao kiểm soát dài hạn vẫn là điểm nghẽn của mô hình thế giới

2. Cách HWM xây dựng lại quy trình lập kế hoạch

3. Từ 0% đến 70%, kết quả thử nghiệm cho thấy điều gì?

4. Từ V-JEPA đến HWM rồi đến WAV

5. Từ dự đoán nội bộ đến hệ thống thực thi

Artikel Terkait

DWF Depth Report: AI mengoptimasi manfaat dalam DeFi atas manusia, tapi masih lima kali di belakang transaksi kompleks

Pendiri Netflix "Rebel" AI:

Tidak ada waktu perdagangan

Laporan DWF: AI adalah lima kali di belakang dalam perdagangan diri sendiri sambil mengoptimalkan manusia dalam pendapatan DeFi

Produk

Hukum & Dukungan

Tautan Teman