세계 모델은 예측에서 계획, HWM 및 장거리 제어 문제로 이동

제품정보

최근 몇 년 동안 세계 모델의 연구 초점은 학습과 미래 예측에 처음이었다. 모델은 세상을 이해하고 미래를 밀어. 이 루트는 결과의 대표 세트를 생산하고있다. V-JEPA 2의비디오 포인트 Embeding Predicative Architecture 2— Meta는 2025)에 있는 영상 세계 모형을 인터넷 영상 전 훈련의 1백만 시간 이상, 로봇식 상호 작용하는 자료의 소량과 결합해, 이해를 위한 세계 모형의 잠재력을, 예측하고 0개의 표본 로봇 계획 설명합니다。

그러나 모델은 긴 임무와 동일하지 않을 것이라고 예측합니다. 통제의 다수 단계로 직면해, 체계는 보통 2개의 압력을 만합니다. 1은 긴 롤아웃 ( 연속 멀티 스텝 운동)에서 예측된 오류의 지속적인 축적, 전체 경로의 증가 취약점에서 대상 편차에. 또 다른 작업 공간의 급속한 확장은 수평선의 성장과 함께 계획 비용의 지속적인 증가를 선도합니다. HWM은 세계 모델의 밑바닥 학습 경로를 재 작성하는 대신, HWM은 지역 행동을 처리하기 전에 단계 경로를 구성 할 수 있도록하는 세계 모델에 계층화된 계획 구조를 추가했습니다。

기술적으로, V-JEPA 2 (https://ai.meta.com/research/vjepa/)는 세계 표현과 기본적인 투상, HWM는 장기 계획, WAV를 선호합니다세계 행동 계획 : 앞으로의 Asymmetry를 통해 자체 개선 세계 모델https://arxiv.org/abs/2604.01985) 더 많은 입찰 모델은 자신의 예측을 확인하고 수정합니다. 3개의 선은 점차적으로 수축입니다. 세계 모델링 연구의 초점은 예측 능력의 변화에 미래 예측의 예측과 구현 가능한 역방향성, 검증 가능한 시스템 기능으로 전환했습니다。

나는. 왜 장기 통제는 세계 모형에 있는 Bottleneck 남아 있습니다

장기 제어의 어려움은 로봇 임무에서 쉽게 볼 수 있습니다. 기계적인 팔 가동을 사용하여, 예를 들면, 컵은 압수되고 단 하나 움직이지 않는 서랍에서, 그러나 단계의 순서. 이 시스템은 객체에 접근하고, 태도를 조정하고, 캡처를 완료하고, 대상 위치로 이동하고 서랍을 다시 처리하고 배치합니다. 체인이 길어지면 동시에 문제가 발생합니다. 한 손으로 예측 된 오류는 롤아웃과 다른 한편으로 축적됩니다. 모션 검색 공간은 빠르게 확장됩니다。

시스템의 부족은 종종 로컬 프로젝트의 능력이 아니라 단계로 장거리 목표를 구성 할 수있는 능력입니다. 대상에서 로컬로 탈선하는 많은 행동은 목표를 달성하기 위해 필요한 실제로 중간 단계입니다. 예를 들면, 당신은 그(것)들을 가지고 가기 전에 팔을 들어, 당신은 당신의 서랍을 열고 당신의 각을 조정하기 전에 조금을 돌려。

데모 임무에서 세계 모델은 이미 일관된 예측을 제공합니다. 그러나 우리가 실제 제어 장면을 입력 할 때, 성능은 쇠퇴를 시작, 그리고 문제는 따라. 압력은 표시에서뿐만 아니라 계획 수준에서 나옵니다。

II. HWM 계획 프로세스를 재구성하는 방법

HWM은 2개의 층으로 계획 과정의 본래 수준을 분할합니다. 위는 더 긴 시간 가늠자에 단계의 방향을 책임지고 더 낮은 것은 더 짧은 시간 가늠자에 부분적인 실행을 책임집니다. 모델은 하나의 리듬에 계획되지 않지만 두 개의 다른 시간 리듬에。

단일 레이어가 긴 작업을 처리 할 때, 전체 작업 체인의 직접 검색은 일반적으로 하단 작업 공간에서 필요합니다. 더 긴 임무, 더 높은 검색 비용, 더 쉬운 예측 오류는 여러 단계 롤아웃을 따라 확산됩니다. HWM 브레이크 업 프로세스 후, 상단은 더 긴 시간 규모에서 경로 선택 만 처리, 낮은 핸들 만 이동의이 현재 부분의 완료, 전체 긴 작업은 계획의 복잡성을 감소, 여러 짧은 작업으로 파괴된다

높은 수준의 행동이 단순히 두 주 간의 차이의 기록이 아니라, 오히려 더 높은 수준의 행동을 압축하는 코더. 긴 임무를 위해, 열쇠는 시작점과 끝 점 사이 얼마나 다른지, 또한 중간 단계가 조직되는 방법 입니다. High-levels는 이 행동 체인의 경로 정보를 쉽게 잃을 수 있습니다。

HWM은 업무 조직에 대한 계층 접근 방식을 반영합니다. 다단계 프로세스의 얼굴에서 시스템은 더 이상 원시적 인 단계 경로로 시작하는 원시적 인 패션에서 모든 작업을 수행하지 않고 단락 별 구현 및 개정에 따라 수행됩니다. 이 계층은 세계 모델을 입력 할 때 예측 능력은 계획 용량으로 꾸준히 변환됩니다。

III. 0%에서 70%까지, 결과는 어떻게 쇼 했습니까

실제 세상에서 캡처하고 종이에서 설정 된 작업을 배치하면 시스템은 최종 타겟 용어 만 부여되며 인공적으로 분리 된 중간 목표를 제공하지 않습니다. 이러한 조건에서 HWM의 성공률은 70 퍼센트이며 단일 레이어 세계 모델의 성공률은 0 퍼센트입니다. tiered 계획의 소개와 거의 불가능했던 장기적인 작업은 성취할 수 있는 결과가 되었습니다。

종이는 또한 강요 목표 가동 및 maze 항법과 같은 가장 시험했습니다. tiered 계획이 성공률을 증가시키고 계획 단계의 비용을 줄일 수 없다는 결과를 보여줍니다. 일부 환경에서 계획 단계의 비용은 1/4의 최대로 줄일 수 있으며, 더 높은 또는 비교 가능한 성공률을 유지하면서。

IV. V-JEPA에서 HWM에 WAV에

V-JEPA 2는 세상의 길을 나타냅니다. V-JEPA 2는 인터넷 영상의 1백만 시간 이상에 전 훈련된, 포스트 전 훈련 표적 훈련을 위한 로봇 영상의 62 시간 보다는 더 적은과 결합된, 이해를 위한 세계 모형을 얻는, 실제적인 세계를 계획하고 계획하기 위하여 전 훈련을 전 훈련했습니다. 대규모 관측을 통해 세계 표지판을 얻을 수 있으며 로봇 계획에 대한 마이그레이션을 보여줍니다。

HWM은 다음입니다. 모델은 이미 세계 표현과 기본 예측 기능을 가지고 있지만, 한 번에 여러 단계의 제어, 오류 축적 및 검색 공간 확장 ERUPT의 문제를 입력합니다. HWM은 학습 경로의 하단 표현을 변경하지 않지만, 대신 행동 조건으로 세계 모델에 기반한 멀티 타임 스케일 계획 구조를 통합합니다. 이 모델의 질문은 단락의 기초에 앞으로 이동하는 단계의 중간 집합을 형성합니다。

WAV, 그것의 부분에 대 한, 더 인증 용량에 초점을. 전술적 최적화 및 배포 시나리오로 이동하려는 세계 모델은 예측할 수 없지만, 왜곡을 유발할 수 없는 올바른 영역을 감지하고 수정합니다. 모델이 스스로 검사하는 방법에 대해 걱정합니다。

V-JEPA는 세계 표현을 향해 분기되고, HWM은 임무 계획으로 분기되고, WAV는 결과를 향해 분기됩니다. 세는 다르지만 같은 방향으로. 세계 모델의 다음 단계는 더 이상 내부 예측이 아니지만, 예측, 계획 및 유효성에 대한 시스템 기능입니다。

V. 내부 투상에서 구현 가능한 시스템 이동

과거의 세계 s 모델링 작업의 대부분은 미래의 국가 예측의 연속성을 개선하거나 내부 세계 표현의 안정성을 개선하기 위해 더 가까이되었습니다. 그러나 현재 연구의 초점이 변경되기 시작했으며, 시스템은 환경 판단과 행동으로 진화해야하며, 결과가 사용할 때 다음 단계를 다시 수정해야합니다. 실제 배포에 더 가까이에, 그것은 장거리 임무에 오류의 확산을 제어하는 데 필요한, 검색 범위를 압축하고 이유의 비용을 줄이기 위해。

이 변화는 또한 AI에 영향을 미칩니다. 많은 에이전트 시스템은 짧은 링크 작업을 수행 할 수있었습니다. 도구, 문서 및 여러 단계 지침을 구현. 그러나 작업이 긴 체인이되면 중간 재 계획, 성능 감소를 요구 한 다상화 한 것입니다. 이것은 로봇 통제의 어려움에서 근본적으로 다르지 않습니다, 그러나 국부적으로 실시와 전반적인 목표 사이에서 교차하는 고도 경로 조직 수용량의 부족입니다。

HWM에 의해 제공 된 계층 접근, 경로 및 단계 목표에 대한 수석 책임, 지역 행동 및 피드백 처리에 대한 낮은 책임, 결과의 추가 검증, 미래에 더 많은 시스템에 계속 될 것입니다. 세계 모델의 다음 단계에서 초점은 미래의 예측에 더 이상 없다, 그러나 예측을 구성, 구현 및 기능 경로로 개정。

세계 모델은 예측에서 계획, HWM 및 장거리 제어 문제로 이동

제품정보

나는. 왜 장기 통제는 세계 모형에 있는 Bottleneck 남아 있습니다

II. HWM 계획 프로세스를 재구성하는 방법

III. 0%에서 70%까지, 결과는 어떻게 쇼 했습니까

IV. V-JEPA에서 HWM에 WAV에

V. 내부 투상에서 구현 가능한 시스템 이동

相关文章

DWF深度报告：AI在DeFi做收益优化超越人类，但复杂交易仍落后5倍

Netflix创始人「叛逃」AI：怕什么，就去做什么

Arthur Hayes新文：现在是「无交易」时间

DWF报告：AI在DeFi收益优化跑赢人类，自主交易却落后5倍

产品

法律与支持

友情链接

세계 모델은 예측에서 계획, HWM 및 장거리 제어 문제로 이동

제품정보

나는. 왜 장기 통제는 세계 모형에 있는 Bottleneck 남아 있습니다

II. HWM 계획 프로세스를 재구성하는 방법

III. 0%에서 70%까지, 결과는 어떻게 쇼 했습니까

IV. V-JEPA에서 HWM에 WAV에

V. 내부 투상에서 구현 가능한 시스템 이동

相关文章

DWF深度报告：AI在DeFi做收益优化超越人类，但复杂交易仍落后5倍

Netflix创始人「叛逃」AI：怕什么，就去做什么

Arthur Hayes新文 ：现在是「无交易」时间

DWF报告：AI在DeFi收益优化跑赢人类，自主交易却落后5倍

产品

法律与支持

友情链接

Arthur Hayes新文：现在是「无交易」时间