世界模型從預測到計劃、HWM和遠程控制挑戰

引言

世界模型在近年的研究重點最初是學習的表象和未來的預測。模特兒了解世界,然後追求未來這條路線已產生一系列有代表性的結果。 V-JEPA 2Video Point 嵌入預測建築 2Meta於2025年推出影像世界模型, 使用超過100萬小時的網路影片預測訓練。

但模型預測這將不等于長期任務面临多個控制階段,系統通常會遇到兩個壓力. 一是延展期間的預測錯誤持續累积(一次连续的多步演练), 導致計畫成本持續增加。 HWM並沒有重寫世界模型的底部學習路徑, 而是在世界模型中增加了一個層面的規劃結構。

V-JEPA 2(https://ai.meta.com/research/vjepa/)偏好世界代表性和基礎投影世界行动计划:通过前向反向不对称改进世界模式https://arxiv.org/abs/2604.01985) 更偏見的模型辨識和修改了自己的預言. 三行逐漸收縮. 世界建模研究的重心從對未來的預測轉而為預測能力的轉變。

一、為什麼长期控制仍然是世界模式的瓶颈

在機器人任務中, 例如用机械手臂操作, 抓起杯子放進抽屉, 系統是接近物件,調整態度,完成捕捉,移到目標位置,重新處理抽屉並放置. 一旦鏈子長了兩個問題都會同时出現預測的錯誤會隨著推出而累积。

系統所缺乏的往往不是當地投影的能力, 許多與目標相距甚遠的行動, 例如,你抬起手臂,然后拿下它, 在你打開抽屉和调整角度之前,你轉回去一點。

世界模型已提供一致的預測。但當我們進入真正的控制場景, 性能開始下降, 壓力不僅來自標誌本身。

二. HWM 如何重建规划程序

HWM將計劃流程的原始層面分成兩層. 上層负责更長時間尺度的舞台方向,下層负责更短時間尺度的部分執行. 模型不是用一個節奏計劃的,而是用兩個不同的時間節奏。

當單層處理長期工作時,通常需要在底部動作空間直接搜尋整個動作鏈. 越長的任務, 搜索成本越高, 預測錯誤會越容易蔓延到多步。 HWM 分解過程後, 頂端只處理路由選擇更長的時間尺度, 下端只處理完成目前移動的這個部分, 整個長期工作被分解成若干更短的工作, 減少了計劃的複雜性

也有一個關鍵的設計, 高層動作不僅是兩州差別的紀錄, 在很長的任務中, 關鍵不僅是起始點和終點的差異程度, 如果高層只看轉移。

HWM反映了分級安排工作的方法。面對多階段流程, 系統不再以一次性方式進行所有動作, 當這個階級進入世界模型時, 預測能力開始更穩定地轉化成計劃能力。

三. 從0%到70% 結果是什麼

在現實世界中, 在這些条件下,HWM的成功率为70%,而單層世界模型的成功率为0%. 由於引入分層計劃。

也試驗了仿真, 結果顯示, 分層計劃不但提高了成功率, 有些環境的計劃期成本可以降低到最大約四分之一。

四、从V-JEPA到HWM到WAV

V -JEPA 2代表世界的道路。 V-JEPA 2以超過100萬小時的網路影片進行前期訓練, 數據顯示模型可以通过大尺度的觀察取得世界標誌。

下一個是HWM 模型已經有世界代表性和基礎預測能力, 但一旦它們進入多個控制階段, HWM並未改變學習路徑的底部表示, 它涉及的是模式如何形成一套在逐段基础上向前迈进的中间步骤。

WAV更注重授權能力。世界模式试图進入戰術优化與部署的情景, 它擔心模特們如何自我考驗。

V-JEPA偏見世界代表性, HWM偏見任務計劃, WAV偏見結果。三种不同,但方向相同. 世界模型的下一個階段不再只是內部預測。

五. 由內部預估转向可操作的系統

过去,世界的建模工作大多更接近于改善今后國家預言的连续性或改善世界内部表现的稳定性。但目前研究的焦點開始改變, 要更接近真正的部署, 必須控制遠程任務中錯誤的蔓延, 压缩搜尋範圍。

這些改變也影響了人工智能的動能。很多代理系統都能夠完成短路的工作,例如呼叫工具、讀取文件以及執行若干步指令。然而,一旦工作變成長鏈、多階段的工作,需要中期重新规划,工作业绩就下降。這與機器人控制的困難並非根本不同。

HWM提供的分類方式, 由領導人負責路徑與階段目標, 重點不僅是預測未來, 而是組織預測、實施與修改。

世界模型從預測到計劃、HWM和遠程控制挑戰

引言

一、為什麼长期控制仍然是世界模式的瓶颈

二. HWM 如何重建规划程序

三. 從0%到70% 結果是什麼

四、从V-JEPA到HWM到WAV

五. 由內部預估转向可操作的系統

相关文章

DWF深度报告：AI在DeFi做收益优化超越人类，但复杂交易仍落后5倍

Netflix创始人「叛逃」AI：怕什么，就去做什么

Arthur Hayes新文：现在是「无交易」时间

DWF报告：AI在DeFi收益优化跑赢人类，自主交易却落后5倍

产品

法律与支持

友情链接

世界模型從預測到計劃、HWM和遠程控制挑戰

引言

一、為什麼长期控制仍然是世界模式的瓶颈

二. HWM 如何重建规划程序

三. 從0%到70% 結果是什麼

四、从V-JEPA到HWM到WAV

五. 由內部預估转向可操作的系統

相关文章

DWF深度报告：AI在DeFi做收益优化超越人类，但复杂交易仍落后5倍

Netflix创始人「叛逃」AI：怕什么，就去做什么

Arthur Hayes新文 ：现在是「无交易」时间

DWF报告：AI在DeFi收益优化跑赢人类，自主交易却落后5倍

产品

法律与支持

友情链接

Arthur Hayes新文：现在是「无交易」时间