Litecoin

AL INVESTMENT 지도

2025/12/23 12:19
🌐ko
AL INVESTMENT 지도

저자:제이콥 Zhao사이트맵

 

그것은 세계에서 가장 똑똑한 것“모델 정렬”주요 통계 학습“정상적인 이유”핵심 역량 체계로포스트 훈련중요한 것은 빠르게 상승합니다。딥스카이-R1로그인입니다향상된 학습큰 모형의 나이에 있는 paradigm 교대는 기업 consensus에 지도했습니다:사전 훈련건물 모형을 위한 일반적인 기능 기초향상된 학습가치 매칭 도구 인 대신, 체계적으로 체인과 복잡한 의사 결정 능력의 품질을 업그레이드 할 수있을 수 있으며 점차 지능 수준의 지속적인 업그레이드의 기술 경로로 진화하고 있습니다。

그 의미에서웹3암호화 인센티브 시스템의 AI 's 생산 관계의 파괴는 알고리즘 네트워크의 탈중앙화를 통해 재 엔지니어링되고 롤아웃 샘플링, 보상 신호에 대한 향상된 학습을 위해서는 블록 체인의 계산, 인센티브 및 자연 시너지의 검증으로 잘 정렬됩니다. 이 연구는 AI 훈련 paradigms와 강화한 학습 기술, 주요한 Intelect, Gensyn, Nous Research, Gradient, Grail 및 Fracing AI와 같은 강화된 학습 x Web3 및 분석 프로젝트의 구조상 이점을 설명할 것입니다。

I. AI 훈련의 3 단계 : 명령과 포스트 훈련 정렬의 사전 훈련, 교정

현대 대형 언어 모델 (HLM)사이트맵전체 훈련 수명주기는 일반적으로 3 개의 핵심 단계로 나뉩니다. 사전 훈련 (Pre-training), oversight 미세 조정 (Pre-training)사이트맵(d) 포스트 훈련/RL. 세 가지는 "세계 모델 구축"의 기능을 수행합니다. - 임무 기능 - 소박하고 가치", 그의 computational 구조, 데이터 요구 사항 및 검증 어려움은 탈중앙화의 정도를 결정합니다。

  • 사전 훈련으로 대규모자기 감독 학습 (Self-supervised Learning)모델링 언어 통계 구조 및 크로스 모듈 세계 모델은 LLM 기능에 기초합니다. 글로벌 및 동기화 된 방식으로 훈련을 포함하는이 단계는 급료 언어 물자의 조에, 수천의 10S에 고도로 집중된 클러스터의 비용에 H100 균질 클러스터의 수천에, 80에서 95 퍼센트, 대역폭과 자료 저작권에 극단적으로 과민하 고 높게 집중된 환경에서 달성되어야 합니다。

  • 초정밀임무 기능 및 명령 형식의 주입을 위해 데이터는 작고 비용이 5-15%, 미세 조정 가능교육 훈련, 또한 사용될 수 있습니다매개 변수의 효율적인 미세 조정 (PEFT)방법론, 어디에로라나는 모른다사이트맵·어댑터그것은 기업 주류입니다. 그러나, gradients는 여전히 decentrization에 대한 잠재력을 제한하기 위해 동기화해야합니다。

  • 포스트 훈련학습 시스템(RLHF)을 강화함으로써 모델의 사고, 가치 및 경계를 결정하는 여러 단계로 구성됩니다사이트맵GRPO는 또한 RL를 포함합니다PREFER 최적화 방법 (DPO)·프로세스 인센티브 모델 (PRM)자세히보기 이 기간 동안 데이터의 낮은 볼륨 및 비용 (5-10 %)은 롤아웃 및 전략 업데이트에 집중됩니다. 그것은 자연적으로 전체 무게를 보유하지 않고 산책 및 분산 구현을 지원하며, 검증 가능한 컴퓨팅 및 체인 인센티브와 결합하여 개방 분산 훈련 네트워크를 형성 할 수 있습니다. Web3에 가장 적합한 교육 링크。

图片

II. LEVEL의 기술 강화: 특색, 작품 및 신청

학습의 건축과 핵심 요소 강화

강화된 학습 (강력 학습, RL)패스워드"Environmental Interaction - 인센티브 피드백 - 전략적 업데이트"운전 모델은 자율적으로 의사 결정 능력을 향상시키고 핵심 구조는 국가, 행동, 보상 및 전략으로 구성된 피드백 루프로 볼 수 있습니다. 완전한 RL 체계는 보통 성분의 3가지의 유형으로 이루어져 있습니다:Polity, 롤아웃, 학습자나는 모른다. 전략은 trajectories를 생성하기 위해 환경과 상호 작용하고, 학습자는 보상 신호를 기반으로 전략을 업데이트합니다. 따라서 iterative 및 최적화 학습 프로세스를 만듭니다

图片
  1. - 연혁환경의 상태에서 작업의 발생은 시스템의 심장에 '의 결정. 교육은 일관성을 유지하기위한 중앙 집중식 반전 장애가 필요합니다. 이유가 병렬의 다른 노드로 배포 될 수 있습니다。

  2. 경험 표본 (Rollout): 노드는 전략에 따라 환경의 상호 작용을 구현하고, 국가 활동 추적 등을 생성한다. 공정은 매우 병렬 및 통신은 매우 낮으며 하드웨어 차이에 대한 불명은 탈중앙화에서 가장 적합한 확장입니다。

  3. 더 알아보기: 모든 롤아웃 트랙을 컴파일하고 전략적인 그라디언트 업그레이드를 구현하는 것은 가장 높은 수준의 컴퓨팅 및 대역폭 요구 사항을 충족하는 유일한 모듈이며, 일반적으로 중앙 또는 조명을 배치하여 안정성을 보장합니다。

학습을 위한 향상된 프레임 워크 (RLHF → RLAIF → PRM → GRPO)

향상된 학습은 일반적으로 5 단계로 나눌 수 있습니다. 아래 설명 된 전반적인 과정 :

图片

# 나는 모른다 #데이터 생성 주요연혁

주어진 입력 힌트의 밑에, 전략 모형은 전략 탐험의 빵을 determining 후속 선호도 평가와 보상 모델링을 위한 표본 기초를 제공하는 다수 후보자 reasoning 사슬 또는 완전한 궤도를 일으킵니다。

# 나는 모른다 #PREFERENCE 피드백 단계 (RLHF / RLAIF)

  • 사이트맵모델은 여러 후보 답변, 수동 기본 라벨, 교육 인센티브 모델 (RMS) 및 PPO 최적화 전략을 통해 인간의 가치와 일관성을 출력하는 것은 GPT-3.5 GPT-4의 핵심 링크입니다

  • 사이트맵AI Judge 또는 헌법 규칙과 수동 라벨링을 교체하고, 선호도 취득을 자동화하고 비용이 크게 절감하고 확장되고 Anthropic, OpenAI, DeepSeek 등에 대한 지배적 정렬 패러다임이되었습니다。

# 나는 모른다 #보상 모델링

인센티브 모델을 입력하고 보상으로 지도 출력을 배우는 PREFER. RM은 모델 “옳은 대답은 무엇인가”를 가르치고 PRM은 모델 “옳은 이유를 만드는 방법”。

  • RM (리워드 모델)마지막 대답의 질을 평가하기 위하여, 산출은 평가됩니다:

  • 공정 보상 모더최종 답을 평가하는 대신, 모든 토큰, 모든 논리 세그먼트의 모든 단계를 평가하고, OpenAI o1 및 DeepSeek-R1에 대한 주요 기술이며, 근본적으로 "모델이 어떻게 생각하는지 알아"。

# 나는 모른다 #인센티브 검증 단계 (RLVR / 보상 검증)

이 세대의 "valitable constraints"의 도입과 인센티브의 사용, 복제 규칙, 사실 또는 합의에서 가능한 한 멀리 상승에 결과, 보상과 바이스의 위험을 감소시키고 개방 환경에 대한 감사와 확장성을 향상시킵니다。

# 나는 모른다 #정책 최적화

그것은 정책 매개 변수의 업데이트, 보상 모델에 의해 주어진 신호에 의해 안내, 더 많은 이유를 얻을, 더 안전하고 더 안정적인 패턴의 행동. mainstream 최적화 방법은 다음과 같습니다

  • 사이트맵RLHF의 전통적인 낙관자, 안정성에 대한 긴, 종종 느린과 복잡한 이유 작업에 충분한 안정성과 같은 제약을 직면。

  • GRPO (그룹 관계 정책 최적화):: DeepSeek-R1 혁신의 핵심은 단순히 분류하는 것보다 후보 응답 그룹 내에서 이점의 배포를 모델링하여 원하는 가치를 추정합니다. 방법론은 인센티브 마진에 대한 정보를 유지하고, 납땜 체인의 최적화에 더 잘 적응하고, 교육 과정은 더 안정적이며, PPO를 따르는 깊은 이유 장면에 대한 중요한 향상된 학습 최적화 프레임 워크로 볼 수 있습니다。

  • DPO (직접 관리 신청): Non-enhanced Learning post-training 방법 : 오히려 trajectories와 인센티브 모델을 만드는 것보다, 그들은 직접 선호, 낮은 비용과 안정적인 결과와 함께, 널리 Llama, Gemma와 같은 오픈 소스 모델을 정렬하는 데 사용하지만 이유를 강화하지 않습니다。

# 나는 모른다 #새로운 정책 배포

최적화된 모델은: 더 강한 사슬의 이유 발생 (System-2 Resoning), 더 많은 인간 또는 AI 친절한 행동, 더 낮은 hallucinogenicity, 더 높은 안전. 모델은 계속해서 선호도를 배우기 위해 프로세스를 최적화하고 의사 결정의 질을 향상시키고 시간을 닫히는 원형을 만듭니다。

图片

강화된 학습을 위한 5개의 넓은 분야

향상된 학습초기 게임 인텔리전스에서 Cross-industry 자율 의사 결정의 핵심 프레임 워크에 이르기까지 응용 프로그램은 기술 성숙과 산업 위치에 따라 다섯 가지 넓은 범주로 그룹화 될 수 있으며, 해당 방향으로 핵심 돌파구에 기여합니다。

  • 게임 및 계획; 회사연혁:: 그것은 RL의 첫 번째 입증 된 방향이었다, AlphaGo와 같은 환경에서, AlphaZero, AlphaStar, OpenAI Five 등, RL는 인간의 전문가와 경쟁 할 수있는 결정적인 만들기 인텔리전스를 보여, 심지어 그들을 초과, 현대 RL 알고리즘에 대한 기초를 놓。

  • Embodied AI를RL은 연속 제어, 전원 모델링 및 환경 상호 작용을 통해 로봇을 통해 로봇을 조작, 운동 제어 및 크로스 모듈 작업 (예 : RT-2, RT-X)을 통해 조작, 운동 제어 및 크로스 모듈 작업 (예 : RT-2, RT-X)하는 방법을 배울 수 있으며, 산업화에 빠르게 이동하고 실제 세계에서 로봇의 가을을위한 핵심 기술 경로입니다。

  • 디지털 연구 / LLM System-2RL + PRM은 DeepSeek-R1, OpenAI o1/o3, Anthropic Claude 및 AlphaGeometry와 같은 아웃소싱을 나타내는 "구조적 인 소싱"에 "linguistic imitation"에서 움직이는 대형 모델을 홍보합니다. 이는 일반적으로 최종 응답을 평가하는 것보다 오히려 납득 체인의 수준에 최적화되어 있습니다。

  • 자동 과학 발견 및 수학 최적화RL의 최고의 구조 또는 전략에 대한 검색 unlabelled, 복잡한 보상 및 광대 한 검색 공간은 AlphaTensor, AlphaDev, Fusion RL과 같은 근본적인 돌파구로 이끌고 인간의 학비를 넘어 탐구 할 수있는 능력을 보여줍니다。

  • 경제 결정-Making & 거래RL은 전술적 최적화, 높은 차원의 위험 관리 및 자기 적응 거래 시스템 생성에 사용되며 전통적인 정량 모델보다 불확실한 환경에서 지속적인 학습을 가능하게하는 스마트 금융의 중요한 구성 요소입니다。

III. 향상된 학습과 Web3의 자연적 일치

RL과 Web3 사이 정렬의 높은 정도는 둘 다에서 줄기“인센티브 구동 시스템”나는 모른다. RL은 인센티브 신호 최적화 전략에 의존하며, 블록 체인은 참가자의 행동을 해소하기 위해 경제적 인센티브에 의존합니다. 따라서 2는 기관 수준에서 자연스럽게 정렬됩니다. RL의 핵심 수요 — 대규모 이노머 롤아웃, 인센티브 할당 및 정통 검증 — Web3의 구조적 이점이 정확합니다。

# 나는 모른다 #이유와 훈련 사이 겸용성

강화된 학습을 위한 훈련 과정은 명확하게 2단계로 분할될 수 있습니다:

  • 롤아웃 (풀 샘플링): Models는 현재 전략을 기반으로 한 대량의 데이터를 생성합니다컴퓨터 집중하지만..통신 Thinness공지사항 노드 간의 빈번한 통신이 요구되지 않으며, 소비 수준 GPU의 글로벌 배포에서 공동 세대에 적합하지 않습니다。

  • 업데이트 (parameter 업데이트): 수집된 데이터에 기반한 업데이트 모델 무게, 높은 대역폭 중앙화 노드가 필요합니다。

de-centre isomeric power 구조의 "debate-train"자연적인 조합: 롤아웃은 토큰 메커니즘을 통해 기여를 정착하기 위해 개방형 네트워크에 참여할 수 있으며, 모델 업데이트는 안정성을 보장하기 위해 농도를 유지합니다。

# 나는 모른다 #인증 및 인증

ZK 및 Proof-of-Learning은 노드가 이유에 진실하고 개방 네트워크에서 정직의 문제를 해결하는지 확인하는 방법을 제공합니다. 코드, 수학적인 이유와 같은 특정 작업에서는, certifier는 워크로드를 확인하는 답변을 확인하고 분산 된 RL 시스템의 신뢰성을 크게 향상시킵니다。

# 나는 모른다 #인센티브 레이어, 통화 경제에 기반한 피드백 생산 메커니즘

Web3 's 토큰 메커니즘은 RLHF/RLAIF 's 선호하는 피드백 기여자가 데이터 생성을 위해 투명하고 명확하고 비 유리한 인센티브 구조를 제공함으로써 보상합니다. 권고 및 감소 (Staking/Slashing)은 피드백의 품질을 제한하고 전통적인 크라우드 패키지보다 더 효율적이고 정렬 된 피드백 시장을 만듭니다。

# 나는 모른다 #MULTI-INTELLECTUAL 향상된 학습 (MARL) 잠재력

블록 체인은 근본적으로 개방적이고 투명하며 지속적으로 진화하는 멀티 인TELLECTUAL 환경이며, 계정, 계약 및 지능형 기관은 전략을 조정하기 위해 지속적으로 동기를 부여하여 대규모 MARL 실험실을 구축하는 자연 잠재력을 가지고 있습니다. 초기 단계에 여전히, 그 상태의 공개, VERIFIABLE 및 PROGRAMMABLE 특성의 구현은 MARL의 미래 개발에 대한 원칙적 이점을 제공합니다。

Classic Web3 + 향상된 학습 프로젝트 분석

위에서 설명한 개념적인 프레임워크를 바탕으로 현재 생태의 가장 대표적인 프로젝트의 간략한 분석이 될 것입니다

Prime Intellact : 단계별 향상된 학습 패러다임

Prime Intellect는 글로벌 개방형 컴퓨팅 시장을 구축하기 위해 최선을 다하고 있습니다. 교육 임계값을 낮추고 협력적인 탈중앙화를 촉진하고 전체 오픈 소스 슈퍼 인트elligence 기술을 개발합니다. 이 시스템은 다음과 같습니다 : 프라임 컴퓨팅 (Uniform Cloud/Distributional Computing Environment), Intellect Model Family (10B-1000B+), Open Enhanced Learning Environments (Environments Hub) 및 대규모 합성 데이터 엔진 (SYNTHETIC-1/2) 센터。

주요 인프라 핵심 인프라 회사연혁주요 rl프레임 워크는 이식적 환경을 위해 특별히 설계되었으며, 대역폭 병목을 깨는 것을 포함하여 나머지와 함께 향상된 학습에 매우 관련이 있습니다OpenDiLoCo 커뮤니케이션 프로토콜계산의 무결성TopLoc 인증 메커니즘자세히보기。

# 나는 모른다 #주요 인프라 핵심 인프라 회사연혁

图片

# 나는 모른다 #기술 건물 구획: 주요한 rl 단계 증진 학습 프레임

주요 rl그것은 대규모 도보 센터 환경 디자인을 위해 디자인된 주요한 Intelect의 핵심 훈련 엔진입니다배우-Learner높은 인장력의 완벽한 디코딩 및 안정적인 갱신。실행기 (Rollout Worker)·학습자 (Trainer)비동기 차단 없이 노드가 추가되거나 삭제될 수 있으며 다음과 같은 데이터가 업로드될 수 있습니다

图片
  • 실행자 배우 (Rollout Workers): 모델링 사고 및 데이터 생성에 책임이 있습니다. Prime Intelect는 Actor 끝에 vLLM reasoning 엔진을 혁신적으로 조립했습니다. vLM PagedAttention 기술 및 연속 배치의 기능은 Actor가 매우 높은 처리량에 대한 이유를 생성 할 수 있습니다。

  • 학습자 학습자 (Trainer)전략 최적화에 대한 책임. Learner는 버퍼 존에서 공유 경험을 통해 현재의 배치를 완료하기 위해 모든 배우를 기다리지 않고 그라디언트를 업데이트합니다。

  • 좌표계 (Orchestra): 모델 무게와 데이터 흐름의 움직임에 대한 책임。

# 나는 모른다 #prime-rl의 핵심 혁신점

  • 진정한 Asynchrony: Prime-rl은 PPO의 전통적인 동기 패러다임을 포기하므로 일괄 정렬없이 느린 지점을 기다리지 않고 GPU의 어떤 번호와 성능이 RL의 탈중앙화의 우정을 놓아 언제든지 액세스 할 수 있습니다。

  • 깊이 통합 FSDP2 및 MoE: FSDP2 매개 변수 슬라이스와 MoE 얇은 활성화를 통해, 프라임은 분산 된 환경에서 효율적으로 훈련 할 수 100 억 규모의 모델을 허용하고, 배우는 단지 활성 전문가를 실행, 크게 가시성과 이유의 비용을 감소。

  • GRPO+ (그룹 관계 정책 조직): GRPO는 clitic 네트워크를 면제하고, 크게 계산 및 가시적 비용, 자연적 비틀어진 환경 및 pime-rl의 gRPO +는 안정 메커니즘을 통해 높은 지연 조건 하에서 신뢰할 수있는 수축을 보장합니다。

# 나는 모른다 #제품정보 모형 가족: RL 기술 성숙의 탈중앙화의 상징

  • INTERLECT-1 (10B, 10월 2024)처음에, OpenDiLoCo는 3개의 대륙 (통신 <2 per cent, calculus utilization 98 per cent)에 걸쳐 isomer 네트워크에서 효과적인 훈련을 할 수 있었다는 것을 보였습니다, 교차로 훈련의 물리적 인식을 파괴

  • INTERLECT-2 (32B, 4월 2025)(a) 전 세계 오픈 컬처 참여의 탈중앙화에 대한 다단계 지연 및 가변 환경의 주요 RL 및 GRPO +의 꾸준한 수집 용량의 검증

  • INTERLECT-3 (106B 모, 11 월 2025)12B 매개 변수만 활성화하는 얇은 구조를 사용하여 512xH200의 교육 및 주력 소싱 성능 (AIME 90.8 퍼센트, GPQA 74.4 퍼센트, MMLU-Pro 81.9 퍼센트 등)은 전반적인 성능이 더 가까이 또는 자체 중앙 집중식 폐쇄 자원 모델을 초과했습니다。

또한 몇 가지 지원 인프라가 있습니다오픈DiLoCo(A) 100 배에 의하여 교차하는 훈련을 위한 커뮤니케이션의 양을 감소시키십시오 시간 얇은 커뮤니케이션과 양적 무게 사이 다름, TRANSCONTINENTAL 네트워크에 있는 98의 INTELLECT-1 이용 비율을 지키기TopLoc + 어댑터이름 *신뢰할 수 있는 임원 수준을 중앙화합니다지문 및 샌드박스 검증을 활성화하기 위해 이유와 보상 데이터의 정체성을 보장제품정보 데이터 엔진소싱의 대규모 고품질 체인이 생산되고, 흐름 라인은 소비자 등급 GPU 클러스터의 효율적인 작동으로 671B 모델을 병렬화합니다. 이 구성 요소는 RL 데이터 생성, 검증 및 소싱의 탈중앙화에 중요한 엔지니어링 기지를 제공합니다. 나..주요메뉴 제품정보세계적 수준의 모델의 시범은 심층적 교육 시스템의 실제 단계에 개념의 움직임을 표시 할 것입니다。

Gensyn : RL Swarm 및 SAPO 강화 학습

Gensyn의 목표는 글로벌 유휴 컴퓨팅 전력을 개방적이고 신뢰할 수 있고 무제한 AI 교육 인프라로 함께 가져올 것입니다. 그것의 핵심은 다음을 포함합니다:Cross-Equipment 표준 구현 수준나는 모른다Point-to-point 조정 네트워크·신뢰없이 작업 검증 시스템스마트 컨트랙트를 통해 작업과 보상을 자동으로 할당합니다. Gensyn 소개RL 수영나는 모른다SAPO 소개·채용정보핵심 기계장치와 같은 다른 기계장치는, 할 것입니다생성, 평가, 업데이트세계 이노머 GPU 그룹을 사용하여 3 개의 커플링이 공동으로 진화합니다. 궁극적 인 배달은 단순한 계산이 아니지만 간단한 것Verifiable 지능나는 모른다。

# 나는 모른다 #Gensyn Stacks에 대한 향상된 학습 응용

图片

# 나는 모른다 #RL Swarm : 집중적인 협업 집중 학습 엔진

RL 수영협업의 완전히 새로운 모델이 입증되었습니다. 그것은 더 이상 간단한 작업 배포가 아니지만, 인간 사회 학습을 시뮬레이션하는 "작용"주기, 공동 학습 프로세스의 종류, 무한 사이클을 탈중앙화 :

  • 해결하기: 로컬 모델 소싱 및 롤아웃 세대에 대한 책임, 노드 단열에 해 없음. Gensyn, 현지 통합 높은 볼륨 이유 엔진 (e.g. CodeZero), 그냥 답변보다는 완전한 트랙을 출력 할 수 있습니다。

  • 회사 소개: Dynamic Generation Task (mathematical 질문, 코드 질문 등)커리큘럼 학습은 어려움에 적응나는 모른다。

  • 증발기: 동결 “judgment model” 또는 규칙을 사용하여 로컬 롤아웃의 평가로컬 보상 신호를 생성나는 모른다. 평가 과정은 학대를 위한 범위를 감소시키기 위하여 감사될 수 있습니다。

함께, 그들은 중앙 운동 통제를 위한 필요 없이 대규모 협력 학습을 가능하게 할 P2P RL 조직 구조를 형성합니다。

图片

# 나는 모른다 #SAPO: 탈중앙화 전략을 위한 최적화 알고리즘

SAPO (Swarm Samping 정책 최적화)"Shared Rollout 및 공유 된 gradients 대신 비 졸업 신호 샘플"핵심에서, no-centre coordination에 의해 특징인 환경에 있는 꾸준한 수축은, 지연된 노드, 국부적으로 생성되기 위하여 고려된 Rollout 표본의 대규모 탈중앙화를 통해서 달성되었습니다. 소비자 수준의 GPU는 Critic 네트워크, 고비용 PPO 또는 GRPOs에 비해 매우 낮은 대역폭과 대규모 향상된 학습 최적화에 효과적으로 참여할 수 있습니다。

패스워드RL 수영과 SAPOGensyn는 집중 학습의 증거입니다(특히 RLVR 포스트 훈련 단계)천연 피팅 탈중앙화 구조 - 대형 및 다각화 탐험 (Rollout)에 더 의존하므로 HF 매개 변수의 동기화보다. PoL 및 Verde의 인증 시스템과 함께 Gensyn은 단일 기술 거대에 더 이상 의존하지 않는 조형 매개 변수 모델에서 훈련하는 대안 경로를 제공합니다전 세계 수백만 명의 이노머 네트워크를 자체 진화했습니다。

Nous Research: 검증된 학습 환경Atropos

Nous Research는 설정된 건물입니다중앙, 자기 진화 인식 인프라나는 모른다. 그것의 핵심 성분 - Hermes, Atropos, DisTrO, Psyche 및 World Sim - 계속 닫히는 지적 진화의 체계로 조직됩니다. 전통적인 "pre-training-post-training-debate" 선형 프로세스와는 달리, Nos는 DPO, GRPO, 샘플링의 밀도와 같은 향상된 학습 기술을 사용하여 데이터 생성, 검증, 학습 및 지속적인 피드백 루프로 소모하고 지속적인 자기 개선 AI 생태의 폐쇄 루프를 만들 수 있습니다。

# 나는 모른다 #Nous 연구 구성 요소 개요

图片

# 나는 모른다 #모형 층: Hermes와 reasoning 기능의 진화

헤르메스 시리즈는 노우스 연구의 주요 사용자 중심 모델 인터페이스이며, 그 진화는 기존 SFT / DPO 정렬에서 업계 마이그레이션의 경로를 명확하게 설명합니다

  • Hermes 1-3 : 직접 정렬 및 초기 기관 용량Hermes 1-3는 강력한 명령 정렬을 완료하기 위해 저비용 DPO에 의존하며 Hermes 3에서 Atropos 검증 메커니즘의 첫 번째 소개와 합성 데이터를 사용합니다。

  • 헤르메스 4 / Deephermes: 생각 체인을 통해 무게가 느리며, Teest-Time Scaling의 수학 및 코드 성능을 향상시키고, "No Sampling + Appropos Authentication"에 의존하여 고순도 소모 데이터를 구축하십시오。

  • 회사 소개Psyche가 RL을 사용하는 이유를 허용하기 위해 하드 투 분산 PPO 대신 GRPO의 추가 사용은 GPU 네트워크에 분산, RL의 확장을위한 엔지니어링 기반을 놓。

# 나는 모른다 #Agropos : 인센티브를 검증 할 수있는 향상된 학습 환경

Atropos는 Nous RL 체계의 진실한 허브입니다. 그것은 끝을 위한 표준화한 RL 환경으로 산출의 직접적인 검증을 제공합니다, 공구 외침, 부호 실행 및 상호 작용하는 캡슐의 다수 둥근, 따라서 비 유연한 인간적인 상표를 대체하기 위하여 definite 집중된 신호를 제공합니다. 더 중요한 것은 중앙 집중식 교육 네트워크 Psyche에서 Agropos는 노드의 진정한 업그레이드 전략을 검증하기 위해 "judgment"로 작동하며 감사 가능한 Proof-of-Learning을 지원하기 위해 배포 된 RL에서 상의 신뢰성을 근본적으로 해결합니다。

图片

# 나는 모른다 #DisTrO 및 Psyche : 분산 된 집중 학습을위한 최적화 층

전통적인 RLF (RLHF/RLAIF) 훈련은 중앙 집중된 높 대역폭 클러스터에, 열려있는 근원에 의해 복제될 수 없는 핵심 장벽 의존합니다. DisTrO는 kinetic 구경측정과 gradients를 압축하여 몇 가지 순서로 RL 통신 비용을 절감하고 인터넷 대역폭에서 작동하도록 훈련 할 수 있습니다. Psyche는 이 훈련 메커니즘을 체인에서 네트워크에 배포하므로 노드는 그 이유, 유효성, 보상 평가 및 체중 증가 로컬로 완료하고 완전한 RL 폐쇄 루프를 형성 할 수 있습니다。

Nous 시스템에서 Agropos는 생각 체인을 검증합니다. DisTrO 압축 교육 통신; Psyche는 RL 루프를 실행합니다. World Sim은 복잡한 환경을 제공합니다. Forge는 진실한 이유를 수집합니다. Hermes는 무게로 모든 학습을 기록합니다. 향상된 학습은 훈련 단계뿐만 아니라 Nous 아키텍처의 핵심 계약은 데이터, 환경, 모델 및 인프라를 연결하기 위해 Hermes를 오픈 소스 컴퓨팅 네트워크에서 지속적으로 개선 할 수있는 살아있는 시스템을 만드는。

Gradient 네트워크: 향상된 학습 아키텍처

Gradient Network의 핵심 비전은 Open Intelligence Stack을 통해 AI를 재구성하는 것입니다. Gradient ' s 기술 창고는 독립적으로 진화, 분산 합의의 핵심 세트로 이루어져 있습니다. 이 시스템은 저수준 커뮤니케이션에서 상급 인텔리전스 협력에 이르기까지, Parallax (distributional reasoning), Echo (decentrization RL training), Lattica (P2P 네트워크), SEDM / Massgen / Symphony / CUAHarm (rememination, Collaboration, security), VeriLLM (credible validation), Mirage (high-prototype 시뮬레이션)을 포함, 이는 분산 인텔리전스 인프라의 지속적인 진화를 구성합니다。

图片

Echo - 향상된 학습 및 교육 아키텍처

Echo는 Gradient의 향상된 학습 프레임 워크입니다. 핵심 디자인 철학은 교육, 소원 및 데이터 (반향) 통로를 강화하고, 롤아웃 생성, 전술 최적화 및 보상 평가를 가능하게하며, isomeric 환경에서 독립적으로 이동할 수 있습니다. 기존 DeepSpeed RLHF/VERL의 사고 및 훈련의 조합에 기인한 SPMD 실패와 GPU 활용 병목을 효과적으로 모방하는 가벼운 동기화 기계장치를 가진 넓은 지역 isomeric 환경에 있는 훈련 안정성을 유지하고 훈련의 측으로 이루어져 있는 이성체 네트워크에서 공동으로。

图片

Echo는 알고리즘의 사용을 극대화하기 위해 "debate-train two-cluster Structure"를 사용합니다

  • 표본 삼키기를 극화하십시오: 이유의 그룹(a) 주변 장비와 소비자 등급 GPU는 파라릴라스 (Pipline-parallel)을 사용하여 고휘도 구토 샘플러를 구축 할 수 있습니다

  • gradient 계산을 극화: 교육 Swarm중앙 클러스터 또는 글로벌 멀티 필드에서 운영되는 소비자 수준의 GPU 네트워크는 학습 프로세스에 LoRA 미세 조정 및 초점을 맞추는 gradient updating, 동기화 매개 변수에 대한 책임입니다。

전략과 데이터 간의 일관성을 유지하려면 Echo는이름 *·비동기두 가지 유형의 경량 동기화 프로토콜 전략적인 무게와 trajectories의 양방향 일관성 관리를 달성:

  • Sequenced 풀 모드 정밀도· 새로운 트랙을 뽑기 전에 소싱 노드의 모델 버전의 업데이트를 시행하기 위해 훈련 측면, 따라서 트랙이 이전 전략에 매우 민감하는 작업에 신선하고 적합하다는 것을 보장합니다

  • 효율성을 위한 Push-Pull 모형 우선권: 사고의 측면은 버전 라벨과 트랙을 생성하는 것을 계속하고, 훈련의 측면은 자신의 속도로 소모되고, 조정을 모니터하고 재 점검을 트리거하고 장비의 활용을 극대화합니다。

아래에서, Echo는 Parallax (낮은 대역폭 환경에서의 이체) 및 Light-quantitative 분산 교육 모듈 (예를들면 VERL), LoRA에 의존하여 노드의 동기화 비용을 줄일 수 있도록 개발된 학습은 글로벌 이노머 네트워크에서 꾸준히 작동할 수 있습니다。

Grail: Bittensor Eco-enhanced 학습

그 독특한 Yuma consensus 메커니즘, Bittensor는 인센티브 기능의 광대하고 얇은 비 불안정한 네트워크를 구축했습니다。

Bittensor Ecology Covent AI는 SN3 Templar, SN39 Basilica 및 SN81 Grail를 통해 전후 및 포스트 RL 훈련에서 수직 통합 물 선을 건설했습니다. SN3 Templar는 기본적인 모형에서 전 훈련을 책임집니다, SN39 대성당은 분배한 계산기 시장을 제공합니다, SN81 Grail는 포스트 RL 훈련을 위한 “valitable reasoning 층”로, RLHF/RLAIF 핵심 과정을 나르고 기본적인 모형에서 줄맞춤 전략을 낙관하기 위하여 닫히는 반복을 낙관하기 위하여 봉사합니다。

图片

인기 카테고리목표는 ..각 연구 롤아웃의 정체성을 증명하는 비밀번호는 모델 정체성에 묶습니다RLHF는 신뢰를 필요로 하지 않는 환경에서 안전하게 구현할 수 있도록 합니다. 계약은 세 계층 메커니즘을 통해 신뢰할 수있는 체인을 구축 :

  1. ID 문제 발생· 예상치 못한 사기를 방지하기 위해 무거운 도전 과제(예, SAT, GSM8K)를 사용해서 무거운 임의의 비콘을 사용하지 않고 Hashy를 차단합니다

  2. 샘플링 및 스케치 위원회token-level logprob and the chain of reasoning to enable the certifier to check that rollout was created by the 선언 모델

  3. 모델 ID 바인딩:: Tie는 모델 무게 지문과 토큰 배포의 구조화 된 서명에 대한 이유 프로세스를 사용하여 교체 모델 또는 결과가 즉시 식별됩니다. 결과적으로 RL의 로직 트러리 (rollout)는 정체성을 위한 기초를 제공합니다。

이 기계장치에서는, Grail subnet는 GRPO 작풍 verifiable 포스트 훈련 과정을 달성합니다: 광부는 동일한 주제를 위한 다수 reasoning 경로를 생성하고, 정정에 근거를 둔 certifiers 비율 SAT 만족, 이유의 사슬의 질, 그리고 TAO 무게로 결과를 씁니다. 개방 실험은 프레임 워크가 Qwen2.5-1.5B의 MATH 정확도가 12.7 퍼센트에서 47.6 퍼센트로 증가했으며, 사기를 방지하고 모델링 기능을 크게 향상시킬 수 있다고 경고했습니다. Grail는 Covenant AI의 훈련 부스에 있는 탈중앙화 RLVR/RLAIF의 신뢰 그리고 구현의 코너스톤이고, 공식적인 주요 온라인 선이 없습니다。

Fracing AI: 경쟁 RLFC에 근거를 둔 강화된 학습

Fracing AI의 구조는 명확하게경쟁, RLFC에서 경쟁 학습, 전통적인 RLHF 정체되는 incentive를 열리는, 동적인 경쟁적인 환경을 가진 수동 상표로 대체하십시오. 이 에이전트는 AI 등급과 함께 상대적인 순위를 다른 공간에서 경쟁하고, 지속적인 온라인 멀티 스마트 게임 시스템으로 정렬 프로세스를 변환하는 실시간 인센티브를 구성합니다。

전통적인 RLHF와 Frac AI의 RLFC의 핵심 다름:

图片

RLFC 핵심 가치인센티브는 단일 모델에서 더 이상 제공하지만 진화 라이벌과 증발기에서 보상 모델의 사용을 피하고 전술적 다양성을 통해 생태의 우수성을 방지합니다. 우주의 구조는 게임의 성격을 결정합니다 (zero-sum 또는 긍정적인-sum) confrontation 및 협력에 복잡한 행동의 출현。

체계의 건축에서, Fracing AI는 4개의 중요한 성분으로 훈련 과정을 철거합니다:

  • 이름 *: 오픈 소스 LLM을 기반으로 경량 전략 모듈, QLora를 통한 차별 무게에 의해 확장, 낮은 비용 업데이트

  • 공간(a) 침술된 임무 지역 환경, 대리인이 들어가기 위하여 지불되고 승리를 위해 보상되는 곳에

  • 알 장교: RLAIF 기반, 즉시 반복 레이어, 확장 된 평가를 제공

  • 품질 보증· 특정 경쟁 결과에 대한 전략 업데이트를 바인딩하기 위해 훈련 과정은 검증 및 안티 기반입니다。

Fracing AI의 본질은 다른 하나와 함께 작동하는 진화 엔진을 구축하는 것입니다. " 정책 층의 "Meta-optimizer"로서 사용자는 프로젝트 및 감독에 대한 검색 방향을 안내합니다. 그리고 에이전트는 microlevel 경쟁에서 고품질의 데이터 선호 (Preference Pairs)의 질량을 자동으로 생성합니다. 이 패턴은 데이터를 전달할 수 있습니다"Trustless 미세 조정"영업 종료。

Web3 Project Architecture 비교

图片

₢ 킹 최대 및 기대 : 향상된 학습 X Web3의 방법 및 기회

위에서 언급 한 전면 프로젝트의 파괴적인 분석에 따라, 우리는 참여점 (문화, 엔지니어링 또는 시장)이 팀에서 팀과 함께 팀과 다를 수 있지만, Web3 집중 학습 (RL)과 결합 할 때, 사내 논리는 매우 일관성있는 "decomposition-valid-incentive" 패러다임으로 집계됩니다. 이것은 기술적인 coincidence뿐만 아니라, 또한 네트워크의 탈중앙화의 논리적인 결과가 독특한 속성을 향상시키기 위해。

향상된 일반 학습 아키텍처 기능:핵심 물리적 제약 및 신뢰 문제 해결

  1. 물리적 분리 (Rollouts & Learning) - 기본 계산기 뚱 베어

    희귀, 병렬, 롤아웃 통신은 글로벌 소비자 수준에서 GPU로 아웃소싱되며, 소규모 교육 노드에 초점을 맞춘 높은 대역폭 매개 변수 업데이트와 함께, Prime Industries Actor-Learner의 단계에서 두 그룹 구조에서 Gradient Echo。

  2. 검증된 신뢰 - Infrastructureization

    허가를 요구하지 않는 네트워크에서, 계산의 정체성은 Pol, Prime Intelect 및 Grail에 대한 암호 인증의 성과를 나타내는 수학 및 기관 설계를 통해 필수 보안을 수행해야합니다。

  3. 인센티브 루프 토큰화 - Market self-regulation 

    전력 공급의 배급, 자료 발생, 유효성 검사 및 인센티브는 닫히고, 네트워크가 인센티브 구동 참여를 통해 개방 환경에서 안정적이고 지속적인 유지를 허용하고 슬래시 기반 분산을 통해。

차별화된 기술 경로: 차별화된 "breakpoints"

구조의 융합에도 불구하고, 다른 기술은 그들의 유전자에 근거한 프로젝트에 의해 선정되었습니다:

  • Nus 연구: 수학 기지에서 분산 훈련 (bandwidth Bottlenecks)의 근본적인 금전을 해결하는 시도. 그것의 DisTrO 수천 번의 그라디언트 트래픽을 압축하도록 설계된 Optimizer는 물리적 제약에 "downside blow"이라는 대형 모델 훈련을 실행하는 가구 광대역을 가능하게하는 것을 목표로합니다。

  • 시스템 공학: 차세대 건물에 초점을 맞춘 "AI 실행 시간 시스템" 주요 지적샤드 캐스트그리고 Gradient의팟캐스트모든 것은 기존 네트워크 조건에서 극적인 엔지니어링 기술을 통해 가장 높은 이노머 클러스터 효율성을 추출하도록 설계되었습니다。

  • 그것은 시장 게임입니다: RewardFunction 설계 지능의 출현은 자신의 최고의 전략을 찾을 수있는 우수한 평가 메커니즘의 디자인을 통해 가속화됩니다。

힘, 도전 및 최종 전망

Web3과 향상된 학습을 결합한 패러다임에서 시스템 수준의 장점은 다음과 같습니다비용 구조·Governance 구조수정하기。

  • 비용 복원샘플링 (Rollout)에 대한 RL Post-training 수요는 무제한이며 Web3는 매우 저렴한 비용으로 글로벌 장기 컴퓨팅을 동기화 할 수 있으며 중앙 클라우드 제조업체가 일치 할 수없는 비용 이점을 제공합니다。

  • Sovereign 정렬:: AI Value의 모노폴리를 파괴하는 커뮤니티는 토큰을 사용하여 AI 거버넌스에 대한 좋은 대답을 결정할 수 있습니다。

동시에 시스템은 두 가지 주요 구조적 제약을 직면합니다。

  • 대역폭 벽: DisTrO와 같은 혁신에도 불구하고 물리적 지연은 여전히 hyperparametric model (70B+)의 전체 스케일 훈련을 제한하고, 현재 Web3 AI는 미세 조정 및 이유에 더 제한됩니다。

  • Gudhard 해킹:: 매우 동기를 부여하는 네트워크에서 광부는 "codify" 인센티브 규칙에 매우 쉽습니다. 사기 증거 막대 보상 기능은 영원한 게임입니다。

  • Byzantine 노드 공격: 훈련 신호 및 중독 파괴 모델의 활성 조작을 통해 수행. 핵심은 사기 증거 인센티브 기능의 지속적인 디자인이 아니지만 원적 메커니즘의 건설이 아닙니다。

Web3을 통한 향상된 학습의 조합은 근본적으로 "how Intelligence가 생산, 정렬 및 평가되는 방법"을 보완하기위한 메커니즘입니다. 진화 경로는 세 가지 보완 방향에서 요약 될 수 있습니다:

  1. 중앙 교육 네트워크로 이동기계에서 전략의 네트워크에 이르기까지 병렬 및 검증 가능한 롤아웃은 글로벌 Longtail GPU에 의해 개발 된 학습 하위 네트워크로 시장, 중간 단계 진화를 검증하는 단기 초점입니다

  2. Prefer 및 보상 자산화레테르를 붙이는 노동에서 data equity에. 높은 품질의 피드백과 보상 모델을 관리, 배포 가능한 데이터 자산으로 변환하는 기본 및 인센티브의 자산화, "marking labour"에서 "data equity"로

  3. “소형과 아름다움” 수직 영역에서 진화:: DeFi Policy Implementation, Code Generation과 같은 검증 가능한 결과 및 quantifiable 반환을 가진 수직 시나리오에서 전용, 작고 강한 RLAAgents는, 전략 개선을 직접 가치 캡처에 바인딩하고 일반 폐쇄 자원 모델을 승리 약속합니다。

일반적으로 향상된 학습 x Web3에 대한 실제 기회는 OpenAI의 탈중앙화 된 버전을 복사하지 않지만 "Intelligent Production Relationships"를 재 작성하는 것입니다개방형 컴퓨팅 시장이 될 교육 구현아프리카인센티브 및 선호도는 체인 자산 관리더 이상 플랫폼에 초점을 맞추지 못했지만트레이너, 정렬 및 사용자의 Redistribution。

图片

완료된 독서:

아시아에서 가장 큰 비트 코인 은행, Metaplanet

멀티코인 캐피털: 금융 기술 4.0

a16z 중량 Web3 Unicorn Farcaster는 전환을 강제로, Web3 사회화는 비례적인 문제입니까

บทความที่เกี่ยวข้อง

QQlink

ไม่มีแบ็คดอร์เข้ารหัสลับ ไม่มีการประนีประนอม แพลตฟอร์มโซเชียลและการเงินแบบกระจายอำนาจที่ใช้เทคโนโลยีบล็อกเชน คืนความเป็นส่วนตัวและเสรีภาพให้กับผู้ใช้

© 2024 ทีมวิจัยและพัฒนา QQlink สงวนลิขสิทธิ์