AL INVESTMENT ์ง๋

์ ์:์ ์ด์ฝฅ Zhao์ฌ์ดํธ๋งต
ย
๊ทธ๊ฒ์ ์ธ๊ณ์์ ๊ฐ์ฅ ๋๋ํ ๊ฒโ๋ชจ๋ธ ์ ๋ ฌโ์ฃผ์ ํต๊ณ ํ์ตโ์ ์์ ์ธ ์ด์ โํต์ฌ ์ญ๋ ์ฒด๊ณ๋กํฌ์คํธ ํ๋ จ์ค์ํ ๊ฒ์ ๋น ๋ฅด๊ฒ ์์นํฉ๋๋คใ๋ฅ์ค์นด์ด-R1๋ก๊ทธ์ธ์ ๋๋คํฅ์๋ ํ์ตํฐ ๋ชจํ์ ๋์ด์ ์๋ paradigm ๊ต๋๋ ๊ธฐ์ consensus์ ์ง๋ํ์ต๋๋ค:์ฌ์ ํ๋ จ๊ฑด๋ฌผ ๋ชจํ์ ์ํ ์ผ๋ฐ์ ์ธ ๊ธฐ๋ฅ ๊ธฐ์ดํฅ์๋ ํ์ต๊ฐ์น ๋งค์นญ ๋๊ตฌ ์ธ ๋์ , ์ฒด๊ณ์ ์ผ๋ก ์ฒด์ธ๊ณผ ๋ณต์กํ ์์ฌ ๊ฒฐ์ ๋ฅ๋ ฅ์ ํ์ง์ ์ ๊ทธ๋ ์ด๋ ํ ์์์ ์ ์์ผ๋ฉฐ ์ ์ฐจ ์ง๋ฅ ์์ค์ ์ง์์ ์ธ ์ ๊ทธ๋ ์ด๋์ ๊ธฐ์ ๊ฒฝ๋ก๋ก ์งํํ๊ณ ์์ต๋๋คใ
๊ทธ ์๋ฏธ์์์น3์ํธํ ์ธ์ผํฐ๋ธ ์์คํ ์ AI 's ์์ฐ ๊ด๊ณ์ ํ๊ดด๋ ์๊ณ ๋ฆฌ์ฆ ๋คํธ์ํฌ์ ํ์ค์ํ๋ฅผ ํตํด ์ฌ ์์ง๋์ด๋ง๋๊ณ ๋กค์์ ์ํ๋ง, ๋ณด์ ์ ํธ์ ๋ํ ํฅ์๋ ํ์ต์ ์ํด์๋ ๋ธ๋ก ์ฒด์ธ์ ๊ณ์ฐ, ์ธ์ผํฐ๋ธ ๋ฐ ์์ฐ ์๋์ง์ ๊ฒ์ฆ์ผ๋ก ์ ์ ๋ ฌ๋ฉ๋๋ค. ์ด ์ฐ๊ตฌ๋ AI ํ๋ จ paradigms์ ๊ฐํํ ํ์ต ๊ธฐ์ , ์ฃผ์ํ Intelect, Gensyn, Nous Research, Gradient, Grail ๋ฐ Fracing AI์ ๊ฐ์ ๊ฐํ๋ ํ์ต x Web3 ๋ฐ ๋ถ์ ํ๋ก์ ํธ์ ๊ตฌ์กฐ์ ์ด์ ์ ์ค๋ช ํ ๊ฒ์ ๋๋คใ
I. AI ํ๋ จ์ 3 ๋จ๊ณ : ๋ช ๋ น๊ณผ ํฌ์คํธ ํ๋ จ ์ ๋ ฌ์ ์ฌ์ ํ๋ จ, ๊ต์
ํ๋ ๋ํ ์ธ์ด ๋ชจ๋ธ (HLM)์ฌ์ดํธ๋งต์ ์ฒด ํ๋ จ ์๋ช ์ฃผ๊ธฐ๋ ์ผ๋ฐ์ ์ผ๋ก 3 ๊ฐ์ ํต์ฌ ๋จ๊ณ๋ก ๋๋ฉ๋๋ค. ์ฌ์ ํ๋ จ (Pre-training), oversight ๋ฏธ์ธ ์กฐ์ (Pre-training)์ฌ์ดํธ๋งต(d) ํฌ์คํธ ํ๋ จ/RL. ์ธ ๊ฐ์ง๋ "์ธ๊ณ ๋ชจ๋ธ ๊ตฌ์ถ"์ ๊ธฐ๋ฅ์ ์ํํฉ๋๋ค. - ์๋ฌด ๊ธฐ๋ฅ - ์๋ฐํ๊ณ ๊ฐ์น", ๊ทธ์ computational ๊ตฌ์กฐ, ๋ฐ์ดํฐ ์๊ตฌ ์ฌํญ ๋ฐ ๊ฒ์ฆ ์ด๋ ค์์ ํ์ค์ํ์ ์ ๋๋ฅผ ๊ฒฐ์ ํฉ๋๋คใ
-
์ฌ์ ํ๋ จ์ผ๋ก ๋๊ท๋ชจ์๊ธฐ ๊ฐ๋ ํ์ต (Self-supervised Learning)๋ชจ๋ธ๋ง ์ธ์ด ํต๊ณ ๊ตฌ์กฐ ๋ฐ ํฌ๋ก์ค ๋ชจ๋ ์ธ๊ณ ๋ชจ๋ธ์ LLM ๊ธฐ๋ฅ์ ๊ธฐ์ดํฉ๋๋ค. ๊ธ๋ก๋ฒ ๋ฐ ๋๊ธฐํ ๋ ๋ฐฉ์์ผ๋ก ํ๋ จ์ ํฌํจํ๋์ด ๋จ๊ณ๋ ๊ธ๋ฃ ์ธ์ด ๋ฌผ์์ ์กฐ์, ์์ฒ์ 10S์ ๊ณ ๋๋ก ์ง์ค๋ ํด๋ฌ์คํฐ์ ๋น์ฉ์ H100 ๊ท ์ง ํด๋ฌ์คํฐ์ ์์ฒ์, 80์์ 95 ํผ์ผํธ, ๋์ญํญ๊ณผ ์๋ฃ ์ ์๊ถ์ ๊ทน๋จ์ ์ผ๋ก ๊ณผ๋ฏผํ ๊ณ ๋๊ฒ ์ง์ค๋ ํ๊ฒฝ์์ ๋ฌ์ฑ๋์ด์ผ ํฉ๋๋คใ
-
์ด์ ๋ฐ์๋ฌด ๊ธฐ๋ฅ ๋ฐ ๋ช ๋ น ํ์์ ์ฃผ์ ์ ์ํด ๋ฐ์ดํฐ๋ ์๊ณ ๋น์ฉ์ด 5-15%, ๋ฏธ์ธ ์กฐ์ ๊ฐ๋ฅ๊ต์ก ํ๋ จ, ๋ํ ์ฌ์ฉ๋ ์ ์์ต๋๋ค๋งค๊ฐ ๋ณ์์ ํจ์จ์ ์ธ ๋ฏธ์ธ ์กฐ์ (PEFT)๋ฐฉ๋ฒ๋ก , ์ด๋์๋ก๋ผ๋๋ ๋ชจ๋ฅธ๋ค์ฌ์ดํธ๋งตยท์ด๋ํฐ๊ทธ๊ฒ์ ๊ธฐ์ ์ฃผ๋ฅ์ ๋๋ค. ๊ทธ๋ฌ๋, gradients๋ ์ฌ์ ํ decentrization์ ๋ํ ์ ์ฌ๋ ฅ์ ์ ํํ๊ธฐ ์ํด ๋๊ธฐํํด์ผํฉ๋๋คใ
-
ํฌ์คํธ ํ๋ จํ์ต ์์คํ (RLHF)์ ๊ฐํํจ์ผ๋ก์จ ๋ชจ๋ธ์ ์ฌ๊ณ , ๊ฐ์น ๋ฐ ๊ฒฝ๊ณ๋ฅผ ๊ฒฐ์ ํ๋ ์ฌ๋ฌ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค์ฌ์ดํธ๋งตGRPO๋ ๋ํ RL๋ฅผ ํฌํจํฉ๋๋คPREFER ์ต์ ํ ๋ฐฉ๋ฒ (DPO)ยทํ๋ก์ธ์ค ์ธ์ผํฐ๋ธ ๋ชจ๋ธ (PRM)์์ธํ๋ณด๊ธฐ ์ด ๊ธฐ๊ฐ ๋์ ๋ฐ์ดํฐ์ ๋ฎ์ ๋ณผ๋ฅจ ๋ฐ ๋น์ฉ (5-10 %)์ ๋กค์์ ๋ฐ ์ ๋ต ์ ๋ฐ์ดํธ์ ์ง์ค๋ฉ๋๋ค. ๊ทธ๊ฒ์ ์์ฐ์ ์ผ๋ก ์ ์ฒด ๋ฌด๊ฒ๋ฅผ ๋ณด์ ํ์ง ์๊ณ ์ฐ์ฑ ๋ฐ ๋ถ์ฐ ๊ตฌํ์ ์ง์ํ๋ฉฐ, ๊ฒ์ฆ ๊ฐ๋ฅํ ์ปดํจํ ๋ฐ ์ฒด์ธ ์ธ์ผํฐ๋ธ์ ๊ฒฐํฉํ์ฌ ๊ฐ๋ฐฉ ๋ถ์ฐ ํ๋ จ ๋คํธ์ํฌ๋ฅผ ํ์ฑ ํ ์ ์์ต๋๋ค. Web3์ ๊ฐ์ฅ ์ ํฉํ ๊ต์ก ๋งํฌใ

II. LEVEL์ ๊ธฐ์ ๊ฐํ: ํน์, ์ํ ๋ฐ ์ ์ฒญ
ํ์ต์ ๊ฑด์ถ๊ณผ ํต์ฌ ์์ ๊ฐํ
๊ฐํ๋ ํ์ต (๊ฐ๋ ฅ ํ์ต, RL)ํจ์ค์๋"Environmental Interaction - ์ธ์ผํฐ๋ธ ํผ๋๋ฐฑ - ์ ๋ต์ ์ ๋ฐ์ดํธ"์ด์ ๋ชจ๋ธ์ ์์จ์ ์ผ๋ก ์์ฌ ๊ฒฐ์ ๋ฅ๋ ฅ์ ํฅ์์ํค๊ณ ํต์ฌ ๊ตฌ์กฐ๋ ๊ตญ๊ฐ, ํ๋, ๋ณด์ ๋ฐ ์ ๋ต์ผ๋ก ๊ตฌ์ฑ๋ ํผ๋๋ฐฑ ๋ฃจํ๋ก ๋ณผ ์ ์์ต๋๋ค. ์์ ํ RL ์ฒด๊ณ๋ ๋ณดํต ์ฑ๋ถ์ 3๊ฐ์ง์ ์ ํ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค:Polity, ๋กค์์, ํ์ต์๋๋ ๋ชจ๋ฅธ๋ค. ์ ๋ต์ trajectories๋ฅผ ์์ฑํ๊ธฐ ์ํด ํ๊ฒฝ๊ณผ ์ํธ ์์ฉํ๊ณ , ํ์ต์๋ ๋ณด์ ์ ํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ๋ต์ ์ ๋ฐ์ดํธํฉ๋๋ค. ๋ฐ๋ผ์ iterative ๋ฐ ์ต์ ํ ํ์ต ํ๋ก์ธ์ค๋ฅผ ๋ง๋ญ๋๋ค

-
- ์ฐํํ๊ฒฝ์ ์ํ์์ ์์ ์ ๋ฐ์์ ์์คํ ์ ์ฌ์ฅ์ '์ ๊ฒฐ์ . ๊ต์ก์ ์ผ๊ด์ฑ์ ์ ์งํ๊ธฐ์ํ ์ค์ ์ง์ค์ ๋ฐ์ ์ฅ์ ๊ฐ ํ์ํฉ๋๋ค. ์ด์ ๊ฐ ๋ณ๋ ฌ์ ๋ค๋ฅธ ๋ ธ๋๋ก ๋ฐฐํฌ ๋ ์ ์์ต๋๋คใ
-
๊ฒฝํ ํ๋ณธ (Rollout): ๋ ธ๋๋ ์ ๋ต์ ๋ฐ๋ผ ํ๊ฒฝ์ ์ํธ ์์ฉ์ ๊ตฌํํ๊ณ , ๊ตญ๊ฐ ํ๋ ์ถ์ ๋ฑ์ ์์ฑํ๋ค. ๊ณต์ ์ ๋งค์ฐ ๋ณ๋ ฌ ๋ฐ ํต์ ์ ๋งค์ฐ ๋ฎ์ผ๋ฉฐ ํ๋์จ์ด ์ฐจ์ด์ ๋ํ ๋ถ๋ช ์ ํ์ค์ํ์์ ๊ฐ์ฅ ์ ํฉํ ํ์ฅ์ ๋๋คใ
-
๋ ์์๋ณด๊ธฐ: ๋ชจ๋ ๋กค์์ ํธ๋์ ์ปดํ์ผํ๊ณ ์ ๋ต์ ์ธ ๊ทธ๋ผ๋์ธํธ ์ ๊ทธ๋ ์ด๋๋ฅผ ๊ตฌํํ๋ ๊ฒ์ ๊ฐ์ฅ ๋์ ์์ค์ ์ปดํจํ ๋ฐ ๋์ญํญ ์๊ตฌ ์ฌํญ์ ์ถฉ์กฑํ๋ ์ ์ผํ ๋ชจ๋์ด๋ฉฐ, ์ผ๋ฐ์ ์ผ๋ก ์ค์ ๋๋ ์กฐ๋ช ์ ๋ฐฐ์นํ์ฌ ์์ ์ฑ์ ๋ณด์ฅํฉ๋๋คใ
ํ์ต์ ์ํ ํฅ์๋ ํ๋ ์ ์ํฌ (RLHF โ RLAIF โ PRM โ GRPO)
ํฅ์๋ ํ์ต์ ์ผ๋ฐ์ ์ผ๋ก 5 ๋จ๊ณ๋ก ๋๋ ์ ์์ต๋๋ค. ์๋ ์ค๋ช ๋ ์ ๋ฐ์ ์ธ ๊ณผ์ :

# ๋๋ ๋ชจ๋ฅธ๋ค #๋ฐ์ดํฐ ์์ฑ ์ฃผ์์ฐํ
์ฃผ์ด์ง ์ ๋ ฅ ํํธ์ ๋ฐ์, ์ ๋ต ๋ชจํ์ ์ ๋ต ํํ์ ๋นต์ determining ํ์ ์ ํธ๋ ํ๊ฐ์ ๋ณด์ ๋ชจ๋ธ๋ง์ ์ํ ํ๋ณธ ๊ธฐ์ด๋ฅผ ์ ๊ณตํ๋ ๋ค์ ํ๋ณด์ reasoning ์ฌ์ฌ ๋๋ ์์ ํ ๊ถค๋๋ฅผ ์ผ์ผํต๋๋คใ
# ๋๋ ๋ชจ๋ฅธ๋ค #PREFERENCE ํผ๋๋ฐฑ ๋จ๊ณ (RLHF / RLAIF)
-
์ฌ์ดํธ๋งต๋ชจ๋ธ์ ์ฌ๋ฌ ํ๋ณด ๋ต๋ณ, ์๋ ๊ธฐ๋ณธ ๋ผ๋ฒจ, ๊ต์ก ์ธ์ผํฐ๋ธ ๋ชจ๋ธ (RMS) ๋ฐ PPO ์ต์ ํ ์ ๋ต์ ํตํด ์ธ๊ฐ์ ๊ฐ์น์ ์ผ๊ด์ฑ์ ์ถ๋ ฅํ๋ ๊ฒ์ GPT-3.5 GPT-4์ ํต์ฌ ๋งํฌ์ ๋๋ค
-
์ฌ์ดํธ๋งตAI Judge ๋๋ ํ๋ฒ ๊ท์น๊ณผ ์๋ ๋ผ๋ฒจ๋ง์ ๊ต์ฒดํ๊ณ , ์ ํธ๋ ์ทจ๋์ ์๋ํํ๊ณ ๋น์ฉ์ด ํฌ๊ฒ ์ ๊ฐํ๊ณ ํ์ฅ๋๊ณ Anthropic, OpenAI, DeepSeek ๋ฑ์ ๋ํ ์ง๋ฐฐ์ ์ ๋ ฌ ํจ๋ฌ๋ค์์ด๋์์ต๋๋คใ
# ๋๋ ๋ชจ๋ฅธ๋ค #๋ณด์ ๋ชจ๋ธ๋ง
์ธ์ผํฐ๋ธ ๋ชจ๋ธ์ ์ ๋ ฅํ๊ณ ๋ณด์์ผ๋ก ์ง๋ ์ถ๋ ฅ์ ๋ฐฐ์ฐ๋ PREFER. RM์ ๋ชจ๋ธ โ์ณ์ ๋๋ต์ ๋ฌด์์ธ๊ฐโ๋ฅผ ๊ฐ๋ฅด์น๊ณ PRM์ ๋ชจ๋ธ โ์ณ์ ์ด์ ๋ฅผ ๋ง๋๋ ๋ฐฉ๋ฒโใ
-
RM (๋ฆฌ์๋ ๋ชจ๋ธ)๋ง์ง๋ง ๋๋ต์ ์ง์ ํ๊ฐํ๊ธฐ ์ํ์ฌ, ์ฐ์ถ์ ํ๊ฐ๋ฉ๋๋ค:
-
๊ณต์ ๋ณด์ ๋ชจ๋์ต์ข ๋ต์ ํ๊ฐํ๋ ๋์ , ๋ชจ๋ ํ ํฐ, ๋ชจ๋ ๋ ผ๋ฆฌ ์ธ๊ทธ๋จผํธ์ ๋ชจ๋ ๋จ๊ณ๋ฅผ ํ๊ฐํ๊ณ , OpenAI o1 ๋ฐ DeepSeek-R1์ ๋ํ ์ฃผ์ ๊ธฐ์ ์ด๋ฉฐ, ๊ทผ๋ณธ์ ์ผ๋ก "๋ชจ๋ธ์ด ์ด๋ป๊ฒ ์๊ฐํ๋์ง ์์"ใ
# ๋๋ ๋ชจ๋ฅธ๋ค #์ธ์ผํฐ๋ธ ๊ฒ์ฆ ๋จ๊ณ (RLVR / ๋ณด์ ๊ฒ์ฆ)
์ด ์ธ๋์ "valitable constraints"์ ๋์ ๊ณผ ์ธ์ผํฐ๋ธ์ ์ฌ์ฉ, ๋ณต์ ๊ท์น, ์ฌ์ค ๋๋ ํฉ์์์ ๊ฐ๋ฅํ ํ ๋ฉ๋ฆฌ ์์น์ ๊ฒฐ๊ณผ, ๋ณด์๊ณผ ๋ฐ์ด์ค์ ์ํ์ ๊ฐ์์ํค๊ณ ๊ฐ๋ฐฉ ํ๊ฒฝ์ ๋ํ ๊ฐ์ฌ์ ํ์ฅ์ฑ์ ํฅ์์ํต๋๋คใ
# ๋๋ ๋ชจ๋ฅธ๋ค #์ ์ฑ ์ต์ ํ
๊ทธ๊ฒ์ ์ ์ฑ ๋งค๊ฐ ๋ณ์์ ์ ๋ฐ์ดํธ, ๋ณด์ ๋ชจ๋ธ์ ์ํด ์ฃผ์ด์ง ์ ํธ์ ์ํด ์๋ด, ๋ ๋ง์ ์ด์ ๋ฅผ ์ป์, ๋ ์์ ํ๊ณ ๋ ์์ ์ ์ธ ํจํด์ ํ๋. mainstream ์ต์ ํ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค
-
์ฌ์ดํธ๋งตRLHF์ ์ ํต์ ์ธ ๋๊ด์, ์์ ์ฑ์ ๋ํ ๊ธด, ์ข ์ข ๋๋ฆฐ๊ณผ ๋ณต์กํ ์ด์ ์์ ์ ์ถฉ๋ถํ ์์ ์ฑ๊ณผ ๊ฐ์ ์ ์ฝ์ ์ง๋ฉดใ
-
GRPO (๊ทธ๋ฃน ๊ด๊ณ ์ ์ฑ ์ต์ ํ):: DeepSeek-R1 ํ์ ์ ํต์ฌ์ ๋จ์ํ ๋ถ๋ฅํ๋ ๊ฒ๋ณด๋ค ํ๋ณด ์๋ต ๊ทธ๋ฃน ๋ด์์ ์ด์ ์ ๋ฐฐํฌ๋ฅผ ๋ชจ๋ธ๋งํ์ฌ ์ํ๋ ๊ฐ์น๋ฅผ ์ถ์ ํฉ๋๋ค. ๋ฐฉ๋ฒ๋ก ์ ์ธ์ผํฐ๋ธ ๋ง์ง์ ๋ํ ์ ๋ณด๋ฅผ ์ ์งํ๊ณ , ๋ฉ๋ ์ฒด์ธ์ ์ต์ ํ์ ๋ ์ ์ ์ํ๊ณ , ๊ต์ก ๊ณผ์ ์ ๋ ์์ ์ ์ด๋ฉฐ, PPO๋ฅผ ๋ฐ๋ฅด๋ ๊น์ ์ด์ ์ฅ๋ฉด์ ๋ํ ์ค์ํ ํฅ์๋ ํ์ต ์ต์ ํ ํ๋ ์ ์ํฌ๋ก ๋ณผ ์ ์์ต๋๋คใ
-
DPO (์ง์ ๊ด๋ฆฌ ์ ์ฒญ): Non-enhanced Learning post-training ๋ฐฉ๋ฒ : ์คํ๋ ค trajectories์ ์ธ์ผํฐ๋ธ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ๋ณด๋ค, ๊ทธ๋ค์ ์ง์ ์ ํธ, ๋ฎ์ ๋น์ฉ๊ณผ ์์ ์ ์ธ ๊ฒฐ๊ณผ์ ํจ๊ป, ๋๋ฆฌ Llama, Gemma์ ๊ฐ์ ์คํ ์์ค ๋ชจ๋ธ์ ์ ๋ ฌํ๋ ๋ฐ ์ฌ์ฉํ์ง๋ง ์ด์ ๋ฅผ ๊ฐํํ์ง ์์ต๋๋คใ
# ๋๋ ๋ชจ๋ฅธ๋ค #์๋ก์ด ์ ์ฑ ๋ฐฐํฌ
์ต์ ํ๋ ๋ชจ๋ธ์: ๋ ๊ฐํ ์ฌ์ฌ์ ์ด์ ๋ฐ์ (System-2 Resoning), ๋ ๋ง์ ์ธ๊ฐ ๋๋ AI ์น์ ํ ํ๋, ๋ ๋ฎ์ hallucinogenicity, ๋ ๋์ ์์ . ๋ชจ๋ธ์ ๊ณ์ํด์ ์ ํธ๋๋ฅผ ๋ฐฐ์ฐ๊ธฐ ์ํด ํ๋ก์ธ์ค๋ฅผ ์ต์ ํํ๊ณ ์์ฌ ๊ฒฐ์ ์ ์ง์ ํฅ์์ํค๊ณ ์๊ฐ์ ๋ซํ๋ ์ํ์ ๋ง๋ญ๋๋คใ

๊ฐํ๋ ํ์ต์ ์ํ 5๊ฐ์ ๋์ ๋ถ์ผ
ํฅ์๋ ํ์ต์ด๊ธฐ ๊ฒ์ ์ธํ ๋ฆฌ์ ์ค์์ Cross-industry ์์จ ์์ฌ ๊ฒฐ์ ์ ํต์ฌ ํ๋ ์ ์ํฌ์ ์ด๋ฅด๊ธฐ๊น์ง ์์ฉ ํ๋ก๊ทธ๋จ์ ๊ธฐ์ ์ฑ์๊ณผ ์ฐ์ ์์น์ ๋ฐ๋ผ ๋ค์ฏ ๊ฐ์ง ๋์ ๋ฒ์ฃผ๋ก ๊ทธ๋ฃนํ ๋ ์ ์์ผ๋ฉฐ, ํด๋น ๋ฐฉํฅ์ผ๋ก ํต์ฌ ๋ํ๊ตฌ์ ๊ธฐ์ฌํฉ๋๋คใ
-
๊ฒ์ ๋ฐ ๊ณํ; ํ์ฌ์ฐํ:: ๊ทธ๊ฒ์ RL์ ์ฒซ ๋ฒ์งธ ์ ์ฆ ๋ ๋ฐฉํฅ์ด์๋ค, AlphaGo์ ๊ฐ์ ํ๊ฒฝ์์, AlphaZero, AlphaStar, OpenAI Five ๋ฑ, RL๋ ์ธ๊ฐ์ ์ ๋ฌธ๊ฐ์ ๊ฒฝ์ ํ ์์๋ ๊ฒฐ์ ์ ์ธ ๋ง๋ค๊ธฐ ์ธํ ๋ฆฌ์ ์ค๋ฅผ ๋ณด์ฌ, ์ฌ์ง์ด ๊ทธ๋ค์ ์ด๊ณผ, ํ๋ RL ์๊ณ ๋ฆฌ์ฆ์ ๋ํ ๊ธฐ์ด๋ฅผ ๋ใ
-
Embodied AI๋ฅผRL์ ์ฐ์ ์ ์ด, ์ ์ ๋ชจ๋ธ๋ง ๋ฐ ํ๊ฒฝ ์ํธ ์์ฉ์ ํตํด ๋ก๋ด์ ํตํด ๋ก๋ด์ ์กฐ์, ์ด๋ ์ ์ด ๋ฐ ํฌ๋ก์ค ๋ชจ๋ ์์ (์ : RT-2, RT-X)์ ํตํด ์กฐ์, ์ด๋ ์ ์ด ๋ฐ ํฌ๋ก์ค ๋ชจ๋ ์์ (์ : RT-2, RT-X)ํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ธ ์ ์์ผ๋ฉฐ, ์ฐ์ ํ์ ๋น ๋ฅด๊ฒ ์ด๋ํ๊ณ ์ค์ ์ธ๊ณ์์ ๋ก๋ด์ ๊ฐ์์์ํ ํต์ฌ ๊ธฐ์ ๊ฒฝ๋ก์ ๋๋คใ
-
๋์งํธ ์ฐ๊ตฌ / LLM System-2RL + PRM์ DeepSeek-R1, OpenAI o1/o3, Anthropic Claude ๋ฐ AlphaGeometry์ ๊ฐ์ ์์์์ฑ์ ๋ํ๋ด๋ "๊ตฌ์กฐ์ ์ธ ์์ฑ"์ "linguistic imitation"์์ ์์ง์ด๋ ๋ํ ๋ชจ๋ธ์ ํ๋ณดํฉ๋๋ค. ์ด๋ ์ผ๋ฐ์ ์ผ๋ก ์ต์ข ์๋ต์ ํ๊ฐํ๋ ๊ฒ๋ณด๋ค ์คํ๋ ค ๋ฉ๋ ์ฒด์ธ์ ์์ค์ ์ต์ ํ๋์ด ์์ต๋๋คใ
-
์๋ ๊ณผํ ๋ฐ๊ฒฌ ๋ฐ ์ํ ์ต์ ํRL์ ์ต๊ณ ์ ๊ตฌ์กฐ ๋๋ ์ ๋ต์ ๋ํ ๊ฒ์ unlabelled, ๋ณต์กํ ๋ณด์ ๋ฐ ๊ด๋ ํ ๊ฒ์ ๊ณต๊ฐ์ AlphaTensor, AlphaDev, Fusion RL๊ณผ ๊ฐ์ ๊ทผ๋ณธ์ ์ธ ๋ํ๊ตฌ๋ก ์ด๋๊ณ ์ธ๊ฐ์ ํ๋น๋ฅผ ๋์ด ํ๊ตฌ ํ ์์๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋คใ
-
๊ฒฝ์ ๊ฒฐ์ -Making & ๊ฑฐ๋RL์ ์ ์ ์ ์ต์ ํ, ๋์ ์ฐจ์์ ์ํ ๊ด๋ฆฌ ๋ฐ ์๊ธฐ ์ ์ ๊ฑฐ๋ ์์คํ ์์ฑ์ ์ฌ์ฉ๋๋ฉฐ ์ ํต์ ์ธ ์ ๋ ๋ชจ๋ธ๋ณด๋ค ๋ถํ์คํ ํ๊ฒฝ์์ ์ง์์ ์ธ ํ์ต์ ๊ฐ๋ฅํ๊ฒํ๋ ์ค๋งํธ ๊ธ์ต์ ์ค์ํ ๊ตฌ์ฑ ์์์ ๋๋คใ
III. ํฅ์๋ ํ์ต๊ณผ Web3์ ์์ฐ์ ์ผ์น
RL๊ณผ Web3 ์ฌ์ด ์ ๋ ฌ์ ๋์ ์ ๋๋ ๋ ๋ค์์ ์ค๊ธฐโ์ธ์ผํฐ๋ธ ๊ตฌ๋ ์์คํ โ๋๋ ๋ชจ๋ฅธ๋ค. RL์ ์ธ์ผํฐ๋ธ ์ ํธ ์ต์ ํ ์ ๋ต์ ์์กดํ๋ฉฐ, ๋ธ๋ก ์ฒด์ธ์ ์ฐธ๊ฐ์์ ํ๋์ ํด์ํ๊ธฐ ์ํด ๊ฒฝ์ ์ ์ธ์ผํฐ๋ธ์ ์์กดํฉ๋๋ค. ๋ฐ๋ผ์ 2๋ ๊ธฐ๊ด ์์ค์์ ์์ฐ์ค๋ฝ๊ฒ ์ ๋ ฌ๋ฉ๋๋ค. RL์ ํต์ฌ ์์ โ ๋๊ท๋ชจ ์ด๋ ธ๋จธ ๋กค์์, ์ธ์ผํฐ๋ธ ํ ๋น ๋ฐ ์ ํต ๊ฒ์ฆ โ Web3์ ๊ตฌ์กฐ์ ์ด์ ์ด ์ ํํฉ๋๋คใ
# ๋๋ ๋ชจ๋ฅธ๋ค #์ด์ ์ ํ๋ จ ์ฌ์ด ๊ฒธ์ฉ์ฑ
๊ฐํ๋ ํ์ต์ ์ํ ํ๋ จ ๊ณผ์ ์ ๋ช ํํ๊ฒ 2๋จ๊ณ๋ก ๋ถํ ๋ ์ ์์ต๋๋ค:
-
๋กค์์ (ํ ์ํ๋ง): Models๋ ํ์ฌ ์ ๋ต์ ๊ธฐ๋ฐ์ผ๋ก ํ ๋๋์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํฉ๋๋ค์ปดํจํฐ ์ง์คํ์ง๋ง..ํต์ Thinness๊ณต์ง์ฌํญ ๋ ธ๋ ๊ฐ์ ๋น๋ฒํ ํต์ ์ด ์๊ตฌ๋์ง ์์ผ๋ฉฐ, ์๋น ์์ค GPU์ ๊ธ๋ก๋ฒ ๋ฐฐํฌ์์ ๊ณต๋ ์ธ๋์ ์ ํฉํ์ง ์์ต๋๋คใ
-
์ ๋ฐ์ดํธ (parameter ์ ๋ฐ์ดํธ): ์์ง๋ ๋ฐ์ดํฐ์ ๊ธฐ๋ฐํ ์ ๋ฐ์ดํธ ๋ชจ๋ธ ๋ฌด๊ฒ, ๋์ ๋์ญํญ ์ค์ํ ๋ ธ๋๊ฐ ํ์ํฉ๋๋คใ
de-centre isomeric power ๊ตฌ์กฐ์ "debate-train"์์ฐ์ ์ธ ์กฐํฉ: ๋กค์์์ ํ ํฐ ๋ฉ์ปค๋์ฆ์ ํตํด ๊ธฐ์ฌ๋ฅผ ์ ์ฐฉํ๊ธฐ ์ํด ๊ฐ๋ฐฉํ ๋คํธ์ํฌ์ ์ฐธ์ฌํ ์ ์์ผ๋ฉฐ, ๋ชจ๋ธ ์ ๋ฐ์ดํธ๋ ์์ ์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํด ๋๋๋ฅผ ์ ์งํฉ๋๋คใ
# ๋๋ ๋ชจ๋ฅธ๋ค #์ธ์ฆ ๋ฐ ์ธ์ฆ
ZK ๋ฐ Proof-of-Learning์ ๋ ธ๋๊ฐ ์ด์ ์ ์ง์คํ๊ณ ๊ฐ๋ฐฉ ๋คํธ์ํฌ์์ ์ ์ง์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋์ง ํ์ธํ๋ ๋ฐฉ๋ฒ์ ์ ๊ณตํฉ๋๋ค. ์ฝ๋, ์ํ์ ์ธ ์ด์ ์ ๊ฐ์ ํน์ ์์ ์์๋, certifier๋ ์ํฌ๋ก๋๋ฅผ ํ์ธํ๋ ๋ต๋ณ์ ํ์ธํ๊ณ ๋ถ์ฐ ๋ RL ์์คํ ์ ์ ๋ขฐ์ฑ์ ํฌ๊ฒ ํฅ์์ํต๋๋คใ
# ๋๋ ๋ชจ๋ฅธ๋ค #์ธ์ผํฐ๋ธ ๋ ์ด์ด, ํตํ ๊ฒฝ์ ์ ๊ธฐ๋ฐํ ํผ๋๋ฐฑ ์์ฐ ๋ฉ์ปค๋์ฆ
Web3 's ํ ํฐ ๋ฉ์ปค๋์ฆ์ RLHF/RLAIF 's ์ ํธํ๋ ํผ๋๋ฐฑ ๊ธฐ์ฌ์๊ฐ ๋ฐ์ดํฐ ์์ฑ์ ์ํด ํฌ๋ช ํ๊ณ ๋ช ํํ๊ณ ๋น ์ ๋ฆฌํ ์ธ์ผํฐ๋ธ ๊ตฌ์กฐ๋ฅผ ์ ๊ณตํจ์ผ๋ก์จ ๋ณด์ํฉ๋๋ค. ๊ถ๊ณ ๋ฐ ๊ฐ์ (Staking/Slashing)์ ํผ๋๋ฐฑ์ ํ์ง์ ์ ํํ๊ณ ์ ํต์ ์ธ ํฌ๋ผ์ฐ๋ ํจํค์ง๋ณด๋ค ๋ ํจ์จ์ ์ด๊ณ ์ ๋ ฌ ๋ ํผ๋๋ฐฑ ์์ฅ์ ๋ง๋ญ๋๋คใ
# ๋๋ ๋ชจ๋ฅธ๋ค #MULTI-INTELLECTUAL ํฅ์๋ ํ์ต (MARL) ์ ์ฌ๋ ฅ
๋ธ๋ก ์ฒด์ธ์ ๊ทผ๋ณธ์ ์ผ๋ก ๊ฐ๋ฐฉ์ ์ด๊ณ ํฌ๋ช ํ๋ฉฐ ์ง์์ ์ผ๋ก ์งํํ๋ ๋ฉํฐ ์ธTELLECTUAL ํ๊ฒฝ์ด๋ฉฐ, ๊ณ์ , ๊ณ์ฝ ๋ฐ ์ง๋ฅํ ๊ธฐ๊ด์ ์ ๋ต์ ์กฐ์ ํ๊ธฐ ์ํด ์ง์์ ์ผ๋ก ๋๊ธฐ๋ฅผ ๋ถ์ฌํ์ฌ ๋๊ท๋ชจ MARL ์คํ์ค์ ๊ตฌ์ถํ๋ ์์ฐ ์ ์ฌ๋ ฅ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด๊ธฐ ๋จ๊ณ์ ์ฌ์ ํ, ๊ทธ ์ํ์ ๊ณต๊ฐ, VERIFIABLE ๋ฐ PROGRAMMABLE ํน์ฑ์ ๊ตฌํ์ MARL์ ๋ฏธ๋ ๊ฐ๋ฐ์ ๋ํ ์์น์ ์ด์ ์ ์ ๊ณตํฉ๋๋คใ
Classic Web3 + ํฅ์๋ ํ์ต ํ๋ก์ ํธ ๋ถ์
์์์ ์ค๋ช ํ ๊ฐ๋ ์ ์ธ ํ๋ ์์ํฌ๋ฅผ ๋ฐํ์ผ๋ก ํ์ฌ ์ํ์ ๊ฐ์ฅ ๋ํ์ ์ธ ํ๋ก์ ํธ์ ๊ฐ๋ตํ ๋ถ์์ด ๋ ๊ฒ์ ๋๋ค
Prime Intellact : ๋จ๊ณ๋ณ ํฅ์๋ ํ์ต ํจ๋ฌ๋ค์
Prime Intellect๋ ๊ธ๋ก๋ฒ ๊ฐ๋ฐฉํ ์ปดํจํ ์์ฅ์ ๊ตฌ์ถํ๊ธฐ ์ํด ์ต์ ์ ๋คํ๊ณ ์์ต๋๋ค. ๊ต์ก ์๊ณ๊ฐ์ ๋ฎ์ถ๊ณ ํ๋ ฅ์ ์ธ ํ์ค์ํ๋ฅผ ์ด์งํ๊ณ ์ ์ฒด ์คํ ์์ค ์ํผ ์ธํธelligence ๊ธฐ์ ์ ๊ฐ๋ฐํฉ๋๋ค. ์ด ์์คํ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค : ํ๋ผ์ ์ปดํจํ (Uniform Cloud/Distributional Computing Environment), Intellect Model Family (10B-1000B+), Open Enhanced Learning Environments (Environments Hub) ๋ฐ ๋๊ท๋ชจ ํฉ์ฑ ๋ฐ์ดํฐ ์์ง (SYNTHETIC-1/2) ์ผํฐใ
์ฃผ์ ์ธํ๋ผ ํต์ฌ ์ธํ๋ผ ํ์ฌ์ฐํ์ฃผ์ rlํ๋ ์ ์ํฌ๋ ์ด์์ ํ๊ฒฝ์ ์ํด ํน๋ณํ ์ค๊ณ๋์์ผ๋ฉฐ, ๋์ญํญ ๋ณ๋ชฉ์ ๊นจ๋ ๊ฒ์ ํฌํจํ์ฌ ๋๋จธ์ง์ ํจ๊ป ํฅ์๋ ํ์ต์ ๋งค์ฐ ๊ด๋ จ์ด ์์ต๋๋คOpenDiLoCo ์ปค๋ฎค๋์ผ์ด์ ํ๋กํ ์ฝ๊ณ์ฐ์ ๋ฌด๊ฒฐ์ฑTopLoc ์ธ์ฆ ๋ฉ์ปค๋์ฆ์์ธํ๋ณด๊ธฐใ
# ๋๋ ๋ชจ๋ฅธ๋ค #์ฃผ์ ์ธํ๋ผ ํต์ฌ ์ธํ๋ผ ํ์ฌ์ฐํ

# ๋๋ ๋ชจ๋ฅธ๋ค #๊ธฐ์ ๊ฑด๋ฌผ ๊ตฌํ: ์ฃผ์ํ rl ๋จ๊ณ ์ฆ์ง ํ์ต ํ๋ ์
์ฃผ์ rl๊ทธ๊ฒ์ ๋๊ท๋ชจ ๋๋ณด ์ผํฐ ํ๊ฒฝ ๋์์ธ์ ์ํด ๋์์ธ๋ ์ฃผ์ํ Intelect์ ํต์ฌ ํ๋ จ ์์ง์ ๋๋ค๋ฐฐ์ฐ-Learner๋์ ์ธ์ฅ๋ ฅ์ ์๋ฒฝํ ๋์ฝ๋ฉ ๋ฐ ์์ ์ ์ธ ๊ฐฑ์ ใ์คํ๊ธฐ (Rollout Worker)ยทํ์ต์ (Trainer)๋น๋๊ธฐ ์ฐจ๋จ ์์ด ๋ ธ๋๊ฐ ์ถ๊ฐ๋๊ฑฐ๋ ์ญ์ ๋ ์ ์์ผ๋ฉฐ ๋ค์๊ณผ ๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์ ๋ก๋๋ ์ ์์ต๋๋ค

-
์คํ์ ๋ฐฐ์ฐ (Rollout Workers): ๋ชจ๋ธ๋ง ์ฌ๊ณ ๋ฐ ๋ฐ์ดํฐ ์์ฑ์ ์ฑ ์์ด ์์ต๋๋ค. Prime Intelect๋ Actor ๋์ vLLM reasoning ์์ง์ ํ์ ์ ์ผ๋ก ์กฐ๋ฆฝํ์ต๋๋ค. vLM PagedAttention ๊ธฐ์ ๋ฐ ์ฐ์ ๋ฐฐ์น์ ๊ธฐ๋ฅ์ Actor๊ฐ ๋งค์ฐ ๋์ ์ฒ๋ฆฌ๋์ ๋ํ ์ด์ ๋ฅผ ์์ฑ ํ ์ ์์ต๋๋คใ
-
ํ์ต์ ํ์ต์ (Trainer)์ ๋ต ์ต์ ํ์ ๋ํ ์ฑ ์. Learner๋ ๋ฒํผ ์กด์์ ๊ณต์ ๊ฒฝํ์ ํตํด ํ์ฌ์ ๋ฐฐ์น๋ฅผ ์๋ฃํ๊ธฐ ์ํด ๋ชจ๋ ๋ฐฐ์ฐ๋ฅผ ๊ธฐ๋ค๋ฆฌ์ง ์๊ณ ๊ทธ๋ผ๋์ธํธ๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋คใ
-
์ขํ๊ณ (Orchestra): ๋ชจ๋ธ ๋ฌด๊ฒ์ ๋ฐ์ดํฐ ํ๋ฆ์ ์์ง์์ ๋ํ ์ฑ ์ใ
# ๋๋ ๋ชจ๋ฅธ๋ค #prime-rl์ ํต์ฌ ํ์ ์
-
์ง์ ํ Asynchrony: Prime-rl์ PPO์ ์ ํต์ ์ธ ๋๊ธฐ ํจ๋ฌ๋ค์์ ํฌ๊ธฐํ๋ฏ๋ก ์ผ๊ด ์ ๋ ฌ์์ด ๋๋ฆฐ ์ง์ ์ ๊ธฐ๋ค๋ฆฌ์ง ์๊ณ GPU์ ์ด๋ค ๋ฒํธ์ ์ฑ๋ฅ์ด RL์ ํ์ค์ํ์ ์ฐ์ ์ ๋์ ์ธ์ ๋ ์ง ์ก์ธ์ค ํ ์ ์์ต๋๋คใ
-
๊น์ด ํตํฉ FSDP2 ๋ฐ MoE: FSDP2 ๋งค๊ฐ ๋ณ์ ์ฌ๋ผ์ด์ค์ MoE ์์ ํ์ฑํ๋ฅผ ํตํด, ํ๋ผ์์ ๋ถ์ฐ ๋ ํ๊ฒฝ์์ ํจ์จ์ ์ผ๋ก ํ๋ จ ํ ์ 100 ์ต ๊ท๋ชจ์ ๋ชจ๋ธ์ ํ์ฉํ๊ณ , ๋ฐฐ์ฐ๋ ๋จ์ง ํ์ฑ ์ ๋ฌธ๊ฐ๋ฅผ ์คํ, ํฌ๊ฒ ๊ฐ์์ฑ๊ณผ ์ด์ ์ ๋น์ฉ์ ๊ฐ์ใ
-
GRPO+ (๊ทธ๋ฃน ๊ด๊ณ ์ ์ฑ ์กฐ์ง): GRPO๋ clitic ๋คํธ์ํฌ๋ฅผ ๋ฉด์ ํ๊ณ , ํฌ๊ฒ ๊ณ์ฐ ๋ฐ ๊ฐ์์ ๋น์ฉ, ์์ฐ์ ๋นํ์ด์ง ํ๊ฒฝ ๋ฐ pime-rl์ gRPO +๋ ์์ ๋ฉ์ปค๋์ฆ์ ํตํด ๋์ ์ง์ฐ ์กฐ๊ฑด ํ์์ ์ ๋ขฐํ ์์๋ ์์ถ์ ๋ณด์ฅํฉ๋๋คใ
# ๋๋ ๋ชจ๋ฅธ๋ค #์ ํ์ ๋ณด ๋ชจํ ๊ฐ์กฑ: RL ๊ธฐ์ ์ฑ์์ ํ์ค์ํ์ ์์ง
-
INTERLECT-1 (10B, 10์ 2024)์ฒ์์, OpenDiLoCo๋ 3๊ฐ์ ๋๋ฅ (ํต์ <2 per cent, calculus utilization 98 per cent)์ ๊ฑธ์ณ isomer ๋คํธ์ํฌ์์ ํจ๊ณผ์ ์ธ ํ๋ จ์ ํ ์ ์์๋ค๋ ๊ฒ์ ๋ณด์์ต๋๋ค, ๊ต์ฐจ๋ก ํ๋ จ์ ๋ฌผ๋ฆฌ์ ์ธ์์ ํ๊ดด
-
INTERLECT-2 (32B, 4์ 2025)(a) ์ ์ธ๊ณ ์คํ ์ปฌ์ฒ ์ฐธ์ฌ์ ํ์ค์ํ์ ๋ํ ๋ค๋จ๊ณ ์ง์ฐ ๋ฐ ๊ฐ๋ณ ํ๊ฒฝ์ ์ฃผ์ RL ๋ฐ GRPO +์ ๊พธ์คํ ์์ง ์ฉ๋์ ๊ฒ์ฆ
-
INTERLECT-3 (106B ๋ชจ, 11 ์ 2025)12B ๋งค๊ฐ ๋ณ์๋ง ํ์ฑํํ๋ ์์ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ 512xH200์ ๊ต์ก ๋ฐ ์ฃผ๋ ฅ ์์ฑ ์ฑ๋ฅ (AIME 90.8 ํผ์ผํธ, GPQA 74.4 ํผ์ผํธ, MMLU-Pro 81.9 ํผ์ผํธ ๋ฑ)์ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ์ด ๋ ๊ฐ๊น์ด ๋๋ ์์ฒด ์ค์ ์ง์ค์ ํ์ ์์ ๋ชจ๋ธ์ ์ด๊ณผํ์ต๋๋คใ
๋ํ ๋ช ๊ฐ์ง ์ง์ ์ธํ๋ผ๊ฐ ์์ต๋๋ค์คํDiLoCo(A) 100 ๋ฐฐ์ ์ํ์ฌ ๊ต์ฐจํ๋ ํ๋ จ์ ์ํ ์ปค๋ฎค๋์ผ์ด์ ์ ์์ ๊ฐ์์ํค์ญ์์ค ์๊ฐ ์์ ์ปค๋ฎค๋์ผ์ด์ ๊ณผ ์์ ๋ฌด๊ฒ ์ฌ์ด ๋ค๋ฆ, TRANSCONTINENTAL ๋คํธ์ํฌ์ ์๋ 98์ INTELLECT-1 ์ด์ฉ ๋น์จ์ ์งํค๊ธฐTopLoc + ์ด๋ํฐ์ด๋ฆ *์ ๋ขฐํ ์ ์๋ ์์ ์์ค์ ์ค์ํํฉ๋๋ค์ง๋ฌธ ๋ฐ ์๋๋ฐ์ค ๊ฒ์ฆ์ ํ์ฑํํ๊ธฐ ์ํด ์ด์ ์ ๋ณด์ ๋ฐ์ดํฐ์ ์ ์ฒด์ฑ์ ๋ณด์ฅ์ ํ์ ๋ณด ๋ฐ์ดํฐ ์์ง์์ฑ์ ๋๊ท๋ชจ ๊ณ ํ์ง ์ฒด์ธ์ด ์์ฐ๋๊ณ , ํ๋ฆ ๋ผ์ธ์ ์๋น์ ๋ฑ๊ธ GPU ํด๋ฌ์คํฐ์ ํจ์จ์ ์ธ ์๋์ผ๋ก 671B ๋ชจ๋ธ์ ๋ณ๋ ฌํํฉ๋๋ค. ์ด ๊ตฌ์ฑ ์์๋ RL ๋ฐ์ดํฐ ์์ฑ, ๊ฒ์ฆ ๋ฐ ์์ฑ์ ํ์ค์ํ์ ์ค์ํ ์์ง๋์ด๋ง ๊ธฐ์ง๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋..์ฃผ์๋ฉ๋ด ์ ํ์ ๋ณด์ธ๊ณ์ ์์ค์ ๋ชจ๋ธ์ ์๋ฒ์ ์ฌ์ธต์ ๊ต์ก ์์คํ ์ ์ค์ ๋จ๊ณ์ ๊ฐ๋ ์ ์์ง์์ ํ์ ํ ๊ฒ์ ๋๋คใ
Gensyn : RL Swarm ๋ฐ SAPO ๊ฐํ ํ์ต
Gensyn์ ๋ชฉํ๋ ๊ธ๋ก๋ฒ ์ ํด ์ปดํจํ ์ ๋ ฅ์ ๊ฐ๋ฐฉ์ ์ด๊ณ ์ ๋ขฐํ ์ ์๊ณ ๋ฌด์ ํ AI ๊ต์ก ์ธํ๋ผ๋ก ํจ๊ป ๊ฐ์ ธ์ฌ ๊ฒ์ ๋๋ค. ๊ทธ๊ฒ์ ํต์ฌ์ ๋ค์์ ํฌํจํฉ๋๋ค:Cross-Equipment ํ์ค ๊ตฌํ ์์ค๋๋ ๋ชจ๋ฅธ๋คPoint-to-point ์กฐ์ ๋คํธ์ํฌยท์ ๋ขฐ์์ด ์์ ๊ฒ์ฆ ์์คํ ์ค๋งํธ ์ปจํธ๋ํธ๋ฅผ ํตํด ์์ ๊ณผ ๋ณด์์ ์๋์ผ๋ก ํ ๋นํฉ๋๋ค. Gensyn ์๊ฐRL ์์๋๋ ๋ชจ๋ฅธ๋คSAPO ์๊ฐยท์ฑ์ฉ์ ๋ณดํต์ฌ ๊ธฐ๊ณ์ฅ์น์ ๊ฐ์ ๋ค๋ฅธ ๊ธฐ๊ณ์ฅ์น๋, ํ ๊ฒ์ ๋๋ค์์ฑ, ํ๊ฐ, ์ ๋ฐ์ดํธ์ธ๊ณ ์ด๋ ธ๋จธ GPU ๊ทธ๋ฃน์ ์ฌ์ฉํ์ฌ 3 ๊ฐ์ ์ปคํ๋ง์ด ๊ณต๋์ผ๋ก ์งํํฉ๋๋ค. ๊ถ๊ทน์ ์ธ ๋ฐฐ๋ฌ์ ๋จ์ํ ๊ณ์ฐ์ด ์๋์ง๋ง ๊ฐ๋จํ ๊ฒVerifiable ์ง๋ฅ๋๋ ๋ชจ๋ฅธ๋คใ
# ๋๋ ๋ชจ๋ฅธ๋ค #Gensyn Stacks์ ๋ํ ํฅ์๋ ํ์ต ์์ฉ

# ๋๋ ๋ชจ๋ฅธ๋ค #RL Swarm : ์ง์ค์ ์ธ ํ์ ์ง์ค ํ์ต ์์ง
RL ์์ํ์ ์ ์์ ํ ์๋ก์ด ๋ชจ๋ธ์ด ์ ์ฆ๋์์ต๋๋ค. ๊ทธ๊ฒ์ ๋ ์ด์ ๊ฐ๋จํ ์์ ๋ฐฐํฌ๊ฐ ์๋์ง๋ง, ์ธ๊ฐ ์ฌํ ํ์ต์ ์๋ฎฌ๋ ์ด์ ํ๋ "์์ฉ"์ฃผ๊ธฐ, ๊ณต๋ ํ์ต ํ๋ก์ธ์ค์ ์ข ๋ฅ, ๋ฌดํ ์ฌ์ดํด์ ํ์ค์ํ :
-
ํด๊ฒฐํ๊ธฐ: ๋ก์ปฌ ๋ชจ๋ธ ์์ฑ ๋ฐ ๋กค์์ ์ธ๋์ ๋ํ ์ฑ ์, ๋ ธ๋ ๋จ์ด์ ํด ์์. Gensyn, ํ์ง ํตํฉ ๋์ ๋ณผ๋ฅจ ์ด์ ์์ง (e.g. CodeZero), ๊ทธ๋ฅ ๋ต๋ณ๋ณด๋ค๋ ์์ ํ ํธ๋์ ์ถ๋ ฅ ํ ์ ์์ต๋๋คใ
-
ํ์ฌ ์๊ฐ: Dynamic Generation Task (mathematical ์ง๋ฌธ, ์ฝ๋ ์ง๋ฌธ ๋ฑ)์ปค๋ฆฌํ๋ผ ํ์ต์ ์ด๋ ค์์ ์ ์๋๋ ๋ชจ๋ฅธ๋คใ
-
์ฆ๋ฐ๊ธฐ: ๋๊ฒฐ โjudgment modelโ ๋๋ ๊ท์น์ ์ฌ์ฉํ์ฌ ๋ก์ปฌ ๋กค์์์ ํ๊ฐ๋ก์ปฌ ๋ณด์ ์ ํธ๋ฅผ ์์ฑ๋๋ ๋ชจ๋ฅธ๋ค. ํ๊ฐ ๊ณผ์ ์ ํ๋๋ฅผ ์ํ ๋ฒ์๋ฅผ ๊ฐ์์ํค๊ธฐ ์ํ์ฌ ๊ฐ์ฌ๋ ์ ์์ต๋๋คใ
ํจ๊ป, ๊ทธ๋ค์ ์ค์ ์ด๋ ํต์ ๋ฅผ ์ํ ํ์ ์์ด ๋๊ท๋ชจ ํ๋ ฅ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ P2P RL ์กฐ์ง ๊ตฌ์กฐ๋ฅผ ํ์ฑํฉ๋๋คใ

# ๋๋ ๋ชจ๋ฅธ๋ค #SAPO: ํ์ค์ํ ์ ๋ต์ ์ํ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ
SAPO (Swarm Samping ์ ์ฑ ์ต์ ํ)"Shared Rollout ๋ฐ ๊ณต์ ๋ gradients ๋์ ๋น ์กธ์ ์ ํธ ์ํ"ํต์ฌ์์, no-centre coordination์ ์ํด ํน์ง์ธ ํ๊ฒฝ์ ์๋ ๊พธ์คํ ์์ถ์, ์ง์ฐ๋ ๋ ธ๋, ๊ตญ๋ถ์ ์ผ๋ก ์์ฑ๋๊ธฐ ์ํ์ฌ ๊ณ ๋ ค๋ Rollout ํ๋ณธ์ ๋๊ท๋ชจ ํ์ค์ํ๋ฅผ ํตํด์ ๋ฌ์ฑ๋์์ต๋๋ค. ์๋น์ ์์ค์ GPU๋ Critic ๋คํธ์ํฌ, ๊ณ ๋น์ฉ PPO ๋๋ GRPOs์ ๋นํด ๋งค์ฐ ๋ฎ์ ๋์ญํญ๊ณผ ๋๊ท๋ชจ ํฅ์๋ ํ์ต ์ต์ ํ์ ํจ๊ณผ์ ์ผ๋ก ์ฐธ์ฌํ ์ ์์ต๋๋คใ
ํจ์ค์๋RL ์์๊ณผ SAPOGensyn๋ ์ง์ค ํ์ต์ ์ฆ๊ฑฐ์ ๋๋ค(ํนํ RLVR ํฌ์คํธ ํ๋ จ ๋จ๊ณ)์ฒ์ฐ ํผํ ํ์ค์ํ ๊ตฌ์กฐ - ๋ํ ๋ฐ ๋ค๊ฐํ ํํ (Rollout)์ ๋ ์์กดํ๋ฏ๋ก HF ๋งค๊ฐ ๋ณ์์ ๋๊ธฐํ๋ณด๋ค. PoL ๋ฐ Verde์ ์ธ์ฆ ์์คํ ๊ณผ ํจ๊ป Gensyn์ ๋จ์ผ ๊ธฐ์ ๊ฑฐ๋์ ๋ ์ด์ ์์กดํ์ง ์๋ ์กฐํ ๋งค๊ฐ ๋ณ์ ๋ชจ๋ธ์์ ํ๋ จํ๋ ๋์ ๊ฒฝ๋ก๋ฅผ ์ ๊ณตํฉ๋๋ค์ ์ธ๊ณ ์๋ฐฑ๋ง ๋ช ์ ์ด๋ ธ๋จธ ๋คํธ์ํฌ๋ฅผ ์์ฒด ์งํํ์ต๋๋คใ
Nous Research: ๊ฒ์ฆ๋ ํ์ต ํ๊ฒฝAtropos
Nous Research๋ ์ค์ ๋ ๊ฑด๋ฌผ์ ๋๋ค์ค์, ์๊ธฐ ์งํ ์ธ์ ์ธํ๋ผ๋๋ ๋ชจ๋ฅธ๋ค. ๊ทธ๊ฒ์ ํต์ฌ ์ฑ๋ถ - Hermes, Atropos, DisTrO, Psyche ๋ฐ World Sim - ๊ณ์ ๋ซํ๋ ์ง์ ์งํ์ ์ฒด๊ณ๋ก ์กฐ์ง๋ฉ๋๋ค. ์ ํต์ ์ธ "pre-training-post-training-debate" ์ ํ ํ๋ก์ธ์ค์๋ ๋ฌ๋ฆฌ, Nos๋ DPO, GRPO, ์ํ๋ง์ ๋ฐ๋์ ๊ฐ์ ํฅ์๋ ํ์ต ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ ์์ฑ, ๊ฒ์ฆ, ํ์ต ๋ฐ ์ง์์ ์ธ ํผ๋๋ฐฑ ๋ฃจํ๋ก ์๋ชจํ๊ณ ์ง์์ ์ธ ์๊ธฐ ๊ฐ์ AI ์ํ์ ํ์ ๋ฃจํ๋ฅผ ๋ง๋ค ์ ์์ต๋๋คใ
# ๋๋ ๋ชจ๋ฅธ๋ค #Nous ์ฐ๊ตฌ ๊ตฌ์ฑ ์์ ๊ฐ์

# ๋๋ ๋ชจ๋ฅธ๋ค #๋ชจํ ์ธต: Hermes์ reasoning ๊ธฐ๋ฅ์ ์งํ
ํค๋ฅด๋ฉ์ค ์๋ฆฌ์ฆ๋ ๋ ธ์ฐ์ค ์ฐ๊ตฌ์ ์ฃผ์ ์ฌ์ฉ์ ์ค์ฌ ๋ชจ๋ธ ์ธํฐํ์ด์ค์ด๋ฉฐ, ๊ทธ ์งํ๋ ๊ธฐ์กด SFT / DPO ์ ๋ ฌ์์ ์ ๊ณ ๋ง์ด๊ทธ๋ ์ด์ ์ ๊ฒฝ๋ก๋ฅผ ๋ช ํํ๊ฒ ์ค๋ช ํฉ๋๋ค
-
Hermes 1-3 : ์ง์ ์ ๋ ฌ ๋ฐ ์ด๊ธฐ ๊ธฐ๊ด ์ฉ๋Hermes 1-3๋ ๊ฐ๋ ฅํ ๋ช ๋ น ์ ๋ ฌ์ ์๋ฃํ๊ธฐ ์ํด ์ ๋น์ฉ DPO์ ์์กดํ๋ฉฐ Hermes 3์์ Atropos ๊ฒ์ฆ ๋ฉ์ปค๋์ฆ์ ์ฒซ ๋ฒ์งธ ์๊ฐ์ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํฉ๋๋คใ
-
ํค๋ฅด๋ฉ์ค 4 / Deephermes: ์๊ฐ ์ฒด์ธ์ ํตํด ๋ฌด๊ฒ๊ฐ ๋๋ฆฌ๋ฉฐ, Teest-Time Scaling์ ์ํ ๋ฐ ์ฝ๋ ์ฑ๋ฅ์ ํฅ์์ํค๊ณ , "No Sampling + Appropos Authentication"์ ์์กดํ์ฌ ๊ณ ์๋ ์๋ชจ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถํ์ญ์์คใ
-
ํ์ฌ ์๊ฐPsyche๊ฐ RL์ ์ฌ์ฉํ๋ ์ด์ ๋ฅผ ํ์ฉํ๊ธฐ ์ํด ํ๋ ํฌ ๋ถ์ฐ PPO ๋์ GRPO์ ์ถ๊ฐ ์ฌ์ฉ์ GPU ๋คํธ์ํฌ์ ๋ถ์ฐ, RL์ ํ์ฅ์์ํ ์์ง๋์ด๋ง ๊ธฐ๋ฐ์ ๋ใ
# ๋๋ ๋ชจ๋ฅธ๋ค #Agropos : ์ธ์ผํฐ๋ธ๋ฅผ ๊ฒ์ฆ ํ ์์๋ ํฅ์๋ ํ์ต ํ๊ฒฝ
Atropos๋ Nous RL ์ฒด๊ณ์ ์ง์คํ ํ๋ธ์ ๋๋ค. ๊ทธ๊ฒ์ ๋์ ์ํ ํ์คํํ RL ํ๊ฒฝ์ผ๋ก ์ฐ์ถ์ ์ง์ ์ ์ธ ๊ฒ์ฆ์ ์ ๊ณตํฉ๋๋ค, ๊ณต๊ตฌ ์ธ์นจ, ๋ถํธ ์คํ ๋ฐ ์ํธ ์์ฉํ๋ ์บก์์ ๋ค์ ๋ฅ๊ทผ, ๋ฐ๋ผ์ ๋น ์ ์ฐํ ์ธ๊ฐ์ ์ธ ์ํ๋ฅผ ๋์ฒดํ๊ธฐ ์ํ์ฌ definite ์ง์ค๋ ์ ํธ๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋ ์ค์ํ ๊ฒ์ ์ค์ ์ง์ค์ ๊ต์ก ๋คํธ์ํฌ Psyche์์ Agropos๋ ๋ ธ๋์ ์ง์ ํ ์ ๊ทธ๋ ์ด๋ ์ ๋ต์ ๊ฒ์ฆํ๊ธฐ ์ํด "judgment"๋ก ์๋ํ๋ฉฐ ๊ฐ์ฌ ๊ฐ๋ฅํ Proof-of-Learning์ ์ง์ํ๊ธฐ ์ํด ๋ฐฐํฌ ๋ RL์์ ์์ ์ ๋ขฐ์ฑ์ ๊ทผ๋ณธ์ ์ผ๋ก ํด๊ฒฐํฉ๋๋คใ

# ๋๋ ๋ชจ๋ฅธ๋ค #DisTrO ๋ฐ Psyche : ๋ถ์ฐ ๋ ์ง์ค ํ์ต์์ํ ์ต์ ํ ์ธต
์ ํต์ ์ธ RLF (RLHF/RLAIF) ํ๋ จ์ ์ค์ ์ง์ค๋ ๋ ๋์ญํญ ํด๋ฌ์คํฐ์, ์ด๋ ค์๋ ๊ทผ์์ ์ํด ๋ณต์ ๋ ์ ์๋ ํต์ฌ ์ฅ๋ฒฝ ์์กดํฉ๋๋ค. DisTrO๋ kinetic ๊ตฌ๊ฒฝ์ธก์ ๊ณผ gradients๋ฅผ ์์ถํ์ฌ ๋ช ๊ฐ์ง ์์๋ก RL ํต์ ๋น์ฉ์ ์ ๊ฐํ๊ณ ์ธํฐ๋ท ๋์ญํญ์์ ์๋ํ๋๋ก ํ๋ จ ํ ์ ์์ต๋๋ค. Psyche๋ ์ด ํ๋ จ ๋ฉ์ปค๋์ฆ์ ์ฒด์ธ์์ ๋คํธ์ํฌ์ ๋ฐฐํฌํ๋ฏ๋ก ๋ ธ๋๋ ๊ทธ ์ด์ , ์ ํจ์ฑ, ๋ณด์ ํ๊ฐ ๋ฐ ์ฒด์ค ์ฆ๊ฐ ๋ก์ปฌ๋ก ์๋ฃํ๊ณ ์์ ํ RL ํ์ ๋ฃจํ๋ฅผ ํ์ฑ ํ ์ ์์ต๋๋คใ
Nous ์์คํ ์์ Agropos๋ ์๊ฐ ์ฒด์ธ์ ๊ฒ์ฆํฉ๋๋ค. DisTrO ์์ถ ๊ต์ก ํต์ ; Psyche๋ RL ๋ฃจํ๋ฅผ ์คํํฉ๋๋ค. World Sim์ ๋ณต์กํ ํ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค. Forge๋ ์ง์คํ ์ด์ ๋ฅผ ์์งํฉ๋๋ค. Hermes๋ ๋ฌด๊ฒ๋ก ๋ชจ๋ ํ์ต์ ๊ธฐ๋กํฉ๋๋ค. ํฅ์๋ ํ์ต์ ํ๋ จ ๋จ๊ณ๋ฟ๋ง ์๋๋ผ Nous ์ํคํ ์ฒ์ ํต์ฌ ๊ณ์ฝ์ ๋ฐ์ดํฐ, ํ๊ฒฝ, ๋ชจ๋ธ ๋ฐ ์ธํ๋ผ๋ฅผ ์ฐ๊ฒฐํ๊ธฐ ์ํด Hermes๋ฅผ ์คํ ์์ค ์ปดํจํ ๋คํธ์ํฌ์์ ์ง์์ ์ผ๋ก ๊ฐ์ ํ ์์๋ ์ด์์๋ ์์คํ ์ ๋ง๋๋ใ
Gradient ๋คํธ์ํฌ: ํฅ์๋ ํ์ต ์ํคํ ์ฒ
Gradient Network์ ํต์ฌ ๋น์ ์ Open Intelligence Stack์ ํตํด AI๋ฅผ ์ฌ๊ตฌ์ฑํ๋ ๊ฒ์ ๋๋ค. Gradient ' s ๊ธฐ์ ์ฐฝ๊ณ ๋ ๋ ๋ฆฝ์ ์ผ๋ก ์งํ, ๋ถ์ฐ ํฉ์์ ํต์ฌ ์ธํธ๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค. ์ด ์์คํ ์ ์ ์์ค ์ปค๋ฎค๋์ผ์ด์ ์์ ์๊ธ ์ธํ ๋ฆฌ์ ์ค ํ๋ ฅ์ ์ด๋ฅด๊ธฐ๊น์ง, Parallax (distributional reasoning), Echo (decentrization RL training), Lattica (P2P ๋คํธ์ํฌ), SEDM / Massgen / Symphony / CUAHarm (rememination, Collaboration, security), VeriLLM (credible validation), Mirage (high-prototype ์๋ฎฌ๋ ์ด์ )์ ํฌํจ, ์ด๋ ๋ถ์ฐ ์ธํ ๋ฆฌ์ ์ค ์ธํ๋ผ์ ์ง์์ ์ธ ์งํ๋ฅผ ๊ตฌ์ฑํฉ๋๋คใ

Echo - ํฅ์๋ ํ์ต ๋ฐ ๊ต์ก ์ํคํ ์ฒ
Echo๋ Gradient์ ํฅ์๋ ํ์ต ํ๋ ์ ์ํฌ์ ๋๋ค. ํต์ฌ ๋์์ธ ์ฒ ํ์ ๊ต์ก, ์์ ๋ฐ ๋ฐ์ดํฐ (๋ฐํฅ) ํต๋ก๋ฅผ ๊ฐํํ๊ณ , ๋กค์์ ์์ฑ, ์ ์ ์ต์ ํ ๋ฐ ๋ณด์ ํ๊ฐ๋ฅผ ๊ฐ๋ฅํ๊ฒํ๋ฉฐ, isomeric ํ๊ฒฝ์์ ๋ ๋ฆฝ์ ์ผ๋ก ์ด๋ํ ์ ์์ต๋๋ค. ๊ธฐ์กด DeepSpeed RLHF/VERL์ ์ฌ๊ณ ๋ฐ ํ๋ จ์ ์กฐํฉ์ ๊ธฐ์ธํ SPMD ์คํจ์ GPU ํ์ฉ ๋ณ๋ชฉ์ ํจ๊ณผ์ ์ผ๋ก ๋ชจ๋ฐฉํ๋ ๊ฐ๋ฒผ์ด ๋๊ธฐํ ๊ธฐ๊ณ์ฅ์น๋ฅผ ๊ฐ์ง ๋์ ์ง์ญ isomeric ํ๊ฒฝ์ ์๋ ํ๋ จ ์์ ์ฑ์ ์ ์งํ๊ณ ํ๋ จ์ ์ธก์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋ ์ด์ฑ์ฒด ๋คํธ์ํฌ์์ ๊ณต๋์ผ๋กใ

Echo๋ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉ์ ๊ทน๋ํํ๊ธฐ ์ํด "debate-train two-cluster Structure"๋ฅผ ์ฌ์ฉํฉ๋๋ค
-
ํ๋ณธ ์ผํค๊ธฐ๋ฅผ ๊ทนํํ์ญ์์ค: ์ด์ ์ ๊ทธ๋ฃน(a) ์ฃผ๋ณ ์ฅ๋น์ ์๋น์ ๋ฑ๊ธ GPU๋ ํ๋ผ๋ฆด๋ผ์ค (Pipline-parallel)์ ์ฌ์ฉํ์ฌ ๊ณ ํ๋ ๊ตฌํ ์ํ๋ฌ๋ฅผ ๊ตฌ์ถ ํ ์ ์์ต๋๋ค
-
gradient ๊ณ์ฐ์ ๊ทนํ: ๊ต์ก Swarm์ค์ ํด๋ฌ์คํฐ ๋๋ ๊ธ๋ก๋ฒ ๋ฉํฐ ํ๋์์ ์ด์๋๋ ์๋น์ ์์ค์ GPU ๋คํธ์ํฌ๋ ํ์ต ํ๋ก์ธ์ค์ LoRA ๋ฏธ์ธ ์กฐ์ ๋ฐ ์ด์ ์ ๋ง์ถ๋ gradient updating, ๋๊ธฐํ ๋งค๊ฐ ๋ณ์์ ๋ํ ์ฑ ์์ ๋๋คใ
์ ๋ต๊ณผ ๋ฐ์ดํฐ ๊ฐ์ ์ผ๊ด์ฑ์ ์ ์งํ๋ ค๋ฉด Echo๋์ด๋ฆ *ยท๋น๋๊ธฐ๋ ๊ฐ์ง ์ ํ์ ๊ฒฝ๋ ๋๊ธฐํ ํ๋กํ ์ฝ ์ ๋ต์ ์ธ ๋ฌด๊ฒ์ trajectories์ ์๋ฐฉํฅ ์ผ๊ด์ฑ ๊ด๋ฆฌ๋ฅผ ๋ฌ์ฑ:
-
Sequenced ํ ๋ชจ๋ ์ ๋ฐ๋ยท ์๋ก์ด ํธ๋์ ๋ฝ๊ธฐ ์ ์ ์์ฑ ๋ ธ๋์ ๋ชจ๋ธ ๋ฒ์ ์ ์ ๋ฐ์ดํธ๋ฅผ ์ํํ๊ธฐ ์ํด ํ๋ จ ์ธก๋ฉด, ๋ฐ๋ผ์ ํธ๋์ด ์ด์ ์ ๋ต์ ๋งค์ฐ ๋ฏผ๊ฐํ๋ ์์ ์ ์ ์ ํ๊ณ ์ ํฉํ๋ค๋ ๊ฒ์ ๋ณด์ฅํฉ๋๋ค
-
ํจ์จ์ฑ์ ์ํ Push-Pull ๋ชจํ ์ฐ์ ๊ถ: ์ฌ๊ณ ์ ์ธก๋ฉด์ ๋ฒ์ ๋ผ๋ฒจ๊ณผ ํธ๋์ ์์ฑํ๋ ๊ฒ์ ๊ณ์ํ๊ณ , ํ๋ จ์ ์ธก๋ฉด์ ์์ ์ ์๋๋ก ์๋ชจ๋๊ณ , ์กฐ์ ์ ๋ชจ๋ํฐํ๊ณ ์ฌ ์ ๊ฒ์ ํธ๋ฆฌ๊ฑฐํ๊ณ ์ฅ๋น์ ํ์ฉ์ ๊ทน๋ํํฉ๋๋คใ
์๋์์, Echo๋ Parallax (๋ฎ์ ๋์ญํญ ํ๊ฒฝ์์์ ์ด์ฒด) ๋ฐ Light-quantitative ๋ถ์ฐ ๊ต์ก ๋ชจ๋ (์๋ฅผ๋ค๋ฉด VERL), LoRA์ ์์กดํ์ฌ ๋ ธ๋์ ๋๊ธฐํ ๋น์ฉ์ ์ค์ผ ์ ์๋๋ก ๊ฐ๋ฐ๋ ํ์ต์ ๊ธ๋ก๋ฒ ์ด๋ ธ๋จธ ๋คํธ์ํฌ์์ ๊พธ์คํ ์๋ํ ์ ์์ต๋๋คใ
Grail: Bittensor Eco-enhanced ํ์ต
๊ทธ ๋ ํนํ Yuma consensus ๋ฉ์ปค๋์ฆ, Bittensor๋ ์ธ์ผํฐ๋ธ ๊ธฐ๋ฅ์ ๊ด๋ํ๊ณ ์์ ๋น ๋ถ์์ ํ ๋คํธ์ํฌ๋ฅผ ๊ตฌ์ถํ์ต๋๋คใ
Bittensor Ecology Covent AI๋ SN3 Templar, SN39 Basilica ๋ฐ SN81 Grail๋ฅผ ํตํด ์ ํ ๋ฐ ํฌ์คํธ RL ํ๋ จ์์ ์์ง ํตํฉ ๋ฌผ ์ ์ ๊ฑด์คํ์ต๋๋ค. SN3 Templar๋ ๊ธฐ๋ณธ์ ์ธ ๋ชจํ์์ ์ ํ๋ จ์ ์ฑ ์์ง๋๋ค, SN39 ๋์ฑ๋น์ ๋ถ๋ฐฐํ ๊ณ์ฐ๊ธฐ ์์ฅ์ ์ ๊ณตํฉ๋๋ค, SN81 Grail๋ ํฌ์คํธ RL ํ๋ จ์ ์ํ โvalitable reasoning ์ธตโ๋ก, RLHF/RLAIF ํต์ฌ ๊ณผ์ ์ ๋๋ฅด๊ณ ๊ธฐ๋ณธ์ ์ธ ๋ชจํ์์ ์ค๋ง์ถค ์ ๋ต์ ๋๊ดํ๊ธฐ ์ํ์ฌ ๋ซํ๋ ๋ฐ๋ณต์ ๋๊ดํ๊ธฐ ์ํ์ฌ ๋ด์ฌํฉ๋๋คใ

์ธ๊ธฐ ์นดํ ๊ณ ๋ฆฌ๋ชฉํ๋ ..๊ฐ ์ฐ๊ตฌ ๋กค์์์ ์ ์ฒด์ฑ์ ์ฆ๋ช ํ๋ ๋น๋ฐ๋ฒํธ๋ ๋ชจ๋ธ ์ ์ฒด์ฑ์ ๋ฌถ์ต๋๋คRLHF๋ ์ ๋ขฐ๋ฅผ ํ์๋ก ํ์ง ์๋ ํ๊ฒฝ์์ ์์ ํ๊ฒ ๊ตฌํํ ์ ์๋๋ก ํฉ๋๋ค. ๊ณ์ฝ์ ์ธ ๊ณ์ธต ๋ฉ์ปค๋์ฆ์ ํตํด ์ ๋ขฐํ ์์๋ ์ฒด์ธ์ ๊ตฌ์ถ :
-
ID ๋ฌธ์ ๋ฐ์ยท ์์์น ๋ชปํ ์ฌ๊ธฐ๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ๋ฌด๊ฑฐ์ด ๋์ ๊ณผ์ (์, SAT, GSM8K)๋ฅผ ์ฌ์ฉํด์ ๋ฌด๊ฑฐ์ด ์์์ ๋น์ฝ์ ์ฌ์ฉํ์ง ์๊ณ Hashy๋ฅผ ์ฐจ๋จํฉ๋๋ค
-
์ํ๋ง ๋ฐ ์ค์ผ์น ์์ํtoken-level logprob and the chain of reasoning to enable the certifier to check that rollout was created by the ์ ์ธ ๋ชจ๋ธ
-
๋ชจ๋ธ ID ๋ฐ์ธ๋ฉ:: Tie๋ ๋ชจ๋ธ ๋ฌด๊ฒ ์ง๋ฌธ๊ณผ ํ ํฐ ๋ฐฐํฌ์ ๊ตฌ์กฐํ ๋ ์๋ช ์ ๋ํ ์ด์ ํ๋ก์ธ์ค๋ฅผ ์ฌ์ฉํ์ฌ ๊ต์ฒด ๋ชจ๋ธ ๋๋ ๊ฒฐ๊ณผ๊ฐ ์ฆ์ ์๋ณ๋ฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก RL์ ๋ก์ง ํธ๋ฌ๋ฆฌ (rollout)๋ ์ ์ฒด์ฑ์ ์ํ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋คใ
์ด ๊ธฐ๊ณ์ฅ์น์์๋, Grail subnet๋ GRPO ์ํ verifiable ํฌ์คํธ ํ๋ จ ๊ณผ์ ์ ๋ฌ์ฑํฉ๋๋ค: ๊ด๋ถ๋ ๋์ผํ ์ฃผ์ ๋ฅผ ์ํ ๋ค์ reasoning ๊ฒฝ๋ก๋ฅผ ์์ฑํ๊ณ , ์ ์ ์ ๊ทผ๊ฑฐ๋ฅผ ๋ certifiers ๋น์จ SAT ๋ง์กฑ, ์ด์ ์ ์ฌ์ฌ์ ์ง, ๊ทธ๋ฆฌ๊ณ TAO ๋ฌด๊ฒ๋ก ๊ฒฐ๊ณผ๋ฅผ ์๋๋ค. ๊ฐ๋ฐฉ ์คํ์ ํ๋ ์ ์ํฌ๊ฐ Qwen2.5-1.5B์ MATH ์ ํ๋๊ฐ 12.7 ํผ์ผํธ์์ 47.6 ํผ์ผํธ๋ก ์ฆ๊ฐํ์ผ๋ฉฐ, ์ฌ๊ธฐ๋ฅผ ๋ฐฉ์งํ๊ณ ๋ชจ๋ธ๋ง ๊ธฐ๋ฅ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค๊ณ ๊ฒฝ๊ณ ํ์ต๋๋ค. Grail๋ Covenant AI์ ํ๋ จ ๋ถ์ค์ ์๋ ํ์ค์ํ RLVR/RLAIF์ ์ ๋ขฐ ๊ทธ๋ฆฌ๊ณ ๊ตฌํ์ ์ฝ๋์คํค์ด๊ณ , ๊ณต์์ ์ธ ์ฃผ์ ์จ๋ผ์ธ ์ ์ด ์์ต๋๋คใ
Fracing AI: ๊ฒฝ์ RLFC์ ๊ทผ๊ฑฐ๋ฅผ ๋ ๊ฐํ๋ ํ์ต
Fracing AI์ ๊ตฌ์กฐ๋ ๋ช ํํ๊ฒ๊ฒฝ์, RLFC์์ ๊ฒฝ์ ํ์ต, ์ ํต์ ์ธ RLHF ์ ์ฒด๋๋ incentive๋ฅผ ์ด๋ฆฌ๋, ๋์ ์ธ ๊ฒฝ์์ ์ธ ํ๊ฒฝ์ ๊ฐ์ง ์๋ ์ํ๋ก ๋์ฒดํ์ญ์์ค. ์ด ์์ด์ ํธ๋ AI ๋ฑ๊ธ๊ณผ ํจ๊ป ์๋์ ์ธ ์์๋ฅผ ๋ค๋ฅธ ๊ณต๊ฐ์์ ๊ฒฝ์ํ๊ณ , ์ง์์ ์ธ ์จ๋ผ์ธ ๋ฉํฐ ์ค๋งํธ ๊ฒ์ ์์คํ ์ผ๋ก ์ ๋ ฌ ํ๋ก์ธ์ค๋ฅผ ๋ณํํ๋ ์ค์๊ฐ ์ธ์ผํฐ๋ธ๋ฅผ ๊ตฌ์ฑํฉ๋๋คใ
์ ํต์ ์ธ RLHF์ Frac AI์ RLFC์ ํต์ฌ ๋ค๋ฆ:

RLFC ํต์ฌ ๊ฐ์น์ธ์ผํฐ๋ธ๋ ๋จ์ผ ๋ชจ๋ธ์์ ๋ ์ด์ ์ ๊ณตํ์ง๋ง ์งํ ๋ผ์ด๋ฒ๊ณผ ์ฆ๋ฐ๊ธฐ์์ ๋ณด์ ๋ชจ๋ธ์ ์ฌ์ฉ์ ํผํ๊ณ ์ ์ ์ ๋ค์์ฑ์ ํตํด ์ํ์ ์ฐ์์ฑ์ ๋ฐฉ์งํฉ๋๋ค. ์ฐ์ฃผ์ ๊ตฌ์กฐ๋ ๊ฒ์์ ์ฑ๊ฒฉ์ ๊ฒฐ์ ํฉ๋๋ค (zero-sum ๋๋ ๊ธ์ ์ ์ธ-sum) confrontation ๋ฐ ํ๋ ฅ์ ๋ณต์กํ ํ๋์ ์ถํใ
์ฒด๊ณ์ ๊ฑด์ถ์์, Fracing AI๋ 4๊ฐ์ ์ค์ํ ์ฑ๋ถ์ผ๋ก ํ๋ จ ๊ณผ์ ์ ์ฒ ๊ฑฐํฉ๋๋ค:
-
์ด๋ฆ *: ์คํ ์์ค LLM์ ๊ธฐ๋ฐ์ผ๋ก ๊ฒฝ๋ ์ ๋ต ๋ชจ๋, QLora๋ฅผ ํตํ ์ฐจ๋ณ ๋ฌด๊ฒ์ ์ํด ํ์ฅ, ๋ฎ์ ๋น์ฉ ์ ๋ฐ์ดํธ
-
๊ณต๊ฐ(a) ์นจ์ ๋ ์๋ฌด ์ง์ญ ํ๊ฒฝ, ๋๋ฆฌ์ธ์ด ๋ค์ด๊ฐ๊ธฐ ์ํ์ฌ ์ง๋ถ๋๊ณ ์น๋ฆฌ๋ฅผ ์ํด ๋ณด์๋๋ ๊ณณ์
-
์ ์ฅ๊ต: RLAIF ๊ธฐ๋ฐ, ์ฆ์ ๋ฐ๋ณต ๋ ์ด์ด, ํ์ฅ ๋ ํ๊ฐ๋ฅผ ์ ๊ณต
-
ํ์ง ๋ณด์ฆยท ํน์ ๊ฒฝ์ ๊ฒฐ๊ณผ์ ๋ํ ์ ๋ต ์ ๋ฐ์ดํธ๋ฅผ ๋ฐ์ธ๋ฉํ๊ธฐ ์ํด ํ๋ จ ๊ณผ์ ์ ๊ฒ์ฆ ๋ฐ ์ํฐ ๊ธฐ๋ฐ์ ๋๋คใ
Fracing AI์ ๋ณธ์ง์ ๋ค๋ฅธ ํ๋์ ํจ๊ป ์๋ํ๋ ์งํ ์์ง์ ๊ตฌ์ถํ๋ ๊ฒ์ ๋๋ค. " ์ ์ฑ ์ธต์ "Meta-optimizer"๋ก์ ์ฌ์ฉ์๋ ํ๋ก์ ํธ ๋ฐ ๊ฐ๋ ์ ๋ํ ๊ฒ์ ๋ฐฉํฅ์ ์๋ดํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์์ด์ ํธ๋ microlevel ๊ฒฝ์์์ ๊ณ ํ์ง์ ๋ฐ์ดํฐ ์ ํธ (Preference Pairs)์ ์ง๋์ ์๋์ผ๋ก ์์ฑํฉ๋๋ค. ์ด ํจํด์ ๋ฐ์ดํฐ๋ฅผ ์ ๋ฌํ ์ ์์ต๋๋ค"Trustless ๋ฏธ์ธ ์กฐ์ "์์ ์ข ๋ฃใ
Web3 Project Architecture ๋น๊ต

โข ํน ์ต๋ ๋ฐ ๊ธฐ๋ : ํฅ์๋ ํ์ต X Web3์ ๋ฐฉ๋ฒ ๋ฐ ๊ธฐํ
์์์ ์ธ๊ธ ํ ์ ๋ฉด ํ๋ก์ ํธ์ ํ๊ดด์ ์ธ ๋ถ์์ ๋ฐ๋ผ, ์ฐ๋ฆฌ๋ ์ฐธ์ฌ์ (๋ฌธํ, ์์ง๋์ด๋ง ๋๋ ์์ฅ)์ด ํ์์ ํ๊ณผ ํจ๊ป ํ๊ณผ ๋ค๋ฅผ ์ ์์ง๋ง, Web3 ์ง์ค ํ์ต (RL)๊ณผ ๊ฒฐํฉ ํ ๋, ์ฌ๋ด ๋ ผ๋ฆฌ๋ ๋งค์ฐ ์ผ๊ด์ฑ์๋ "decomposition-valid-incentive" ํจ๋ฌ๋ค์์ผ๋ก ์ง๊ณ๋ฉ๋๋ค. ์ด๊ฒ์ ๊ธฐ์ ์ ์ธ coincidence๋ฟ๋ง ์๋๋ผ, ๋ํ ๋คํธ์ํฌ์ ํ์ค์ํ์ ๋ ผ๋ฆฌ์ ์ธ ๊ฒฐ๊ณผ๊ฐ ๋ ํนํ ์์ฑ์ ํฅ์์ํค๊ธฐ ์ํดใ
ํฅ์๋ ์ผ๋ฐ ํ์ต ์ํคํ ์ฒ ๊ธฐ๋ฅ:ํต์ฌ ๋ฌผ๋ฆฌ์ ์ ์ฝ ๋ฐ ์ ๋ขฐ ๋ฌธ์ ํด๊ฒฐ
-
๋ฌผ๋ฆฌ์ ๋ถ๋ฆฌ (Rollouts & Learning) - ๊ธฐ๋ณธ ๊ณ์ฐ๊ธฐ ๋ฑ ๋ฒ ์ด
ํฌ๊ท, ๋ณ๋ ฌ, ๋กค์์ ํต์ ์ ๊ธ๋ก๋ฒ ์๋น์ ์์ค์์ GPU๋ก ์์์์ฑ๋๋ฉฐ, ์๊ท๋ชจ ๊ต์ก ๋ ธ๋์ ์ด์ ์ ๋ง์ถ ๋์ ๋์ญํญ ๋งค๊ฐ ๋ณ์ ์ ๋ฐ์ดํธ์ ํจ๊ป, Prime Industries Actor-Learner์ ๋จ๊ณ์์ ๋ ๊ทธ๋ฃน ๊ตฌ์กฐ์์ Gradient Echoใ
-
๊ฒ์ฆ๋ ์ ๋ขฐ - Infrastructureization
ํ๊ฐ๋ฅผ ์๊ตฌํ์ง ์๋ ๋คํธ์ํฌ์์, ๊ณ์ฐ์ ์ ์ฒด์ฑ์ Pol, Prime Intelect ๋ฐ Grail์ ๋ํ ์ํธ ์ธ์ฆ์ ์ฑ๊ณผ๋ฅผ ๋ํ๋ด๋ ์ํ ๋ฐ ๊ธฐ๊ด ์ค๊ณ๋ฅผ ํตํด ํ์ ๋ณด์์ ์ํํด์ผํฉ๋๋คใ
-
์ธ์ผํฐ๋ธ ๋ฃจํ ํ ํฐํ - Market self-regulationย
์ ๋ ฅ ๊ณต๊ธ์ ๋ฐฐ๊ธ, ์๋ฃ ๋ฐ์, ์ ํจ์ฑ ๊ฒ์ฌ ๋ฐ ์ธ์ผํฐ๋ธ๋ ๋ซํ๊ณ , ๋คํธ์ํฌ๊ฐ ์ธ์ผํฐ๋ธ ๊ตฌ๋ ์ฐธ์ฌ๋ฅผ ํตํด ๊ฐ๋ฐฉ ํ๊ฒฝ์์ ์์ ์ ์ด๊ณ ์ง์์ ์ธ ์ ์ง๋ฅผ ํ์ฉํ๊ณ ์ฌ๋์ ๊ธฐ๋ฐ ๋ถ์ฐ์ ํตํดใ
์ฐจ๋ณํ๋ ๊ธฐ์ ๊ฒฝ๋ก: ์ฐจ๋ณํ๋ "breakpoints"
๊ตฌ์กฐ์ ์ตํฉ์๋ ๋ถ๊ตฌํ๊ณ , ๋ค๋ฅธ ๊ธฐ์ ์ ๊ทธ๋ค์ ์ ์ ์์ ๊ทผ๊ฑฐํ ํ๋ก์ ํธ์ ์ํด ์ ์ ๋์์ต๋๋ค:
-
Nus ์ฐ๊ตฌ: ์ํ ๊ธฐ์ง์์ ๋ถ์ฐ ํ๋ จ (bandwidth Bottlenecks)์ ๊ทผ๋ณธ์ ์ธ ๊ธ์ ์ ํด๊ฒฐํ๋ ์๋. ๊ทธ๊ฒ์ DisTrO ์์ฒ ๋ฒ์ ๊ทธ๋ผ๋์ธํธ ํธ๋ํฝ์ ์์ถํ๋๋ก ์ค๊ณ๋ Optimizer๋ ๋ฌผ๋ฆฌ์ ์ ์ฝ์ "downside blow"์ด๋ผ๋ ๋ํ ๋ชจ๋ธ ํ๋ จ์ ์คํํ๋ ๊ฐ๊ตฌ ๊ด๋์ญ์ ๊ฐ๋ฅํ๊ฒํ๋ ๊ฒ์ ๋ชฉํ๋กํฉ๋๋คใ
-
์์คํ ๊ณตํ: ์ฐจ์ธ๋ ๊ฑด๋ฌผ์ ์ด์ ์ ๋ง์ถ "AI ์คํ ์๊ฐ ์์คํ " ์ฃผ์ ์ง์ ์ค๋ ์บ์คํธ๊ทธ๋ฆฌ๊ณ Gradient์ํ์บ์คํธ๋ชจ๋ ๊ฒ์ ๊ธฐ์กด ๋คํธ์ํฌ ์กฐ๊ฑด์์ ๊ทน์ ์ธ ์์ง๋์ด๋ง ๊ธฐ์ ์ ํตํด ๊ฐ์ฅ ๋์ ์ด๋ ธ๋จธ ํด๋ฌ์คํฐ ํจ์จ์ฑ์ ์ถ์ถํ๋๋ก ์ค๊ณ๋์์ต๋๋คใ
-
๊ทธ๊ฒ์ ์์ฅ ๊ฒ์์ ๋๋ค: RewardFunction ์ค๊ณ ์ง๋ฅ์ ์ถํ์ ์์ ์ ์ต๊ณ ์ ์ ๋ต์ ์ฐพ์ ์์๋ ์ฐ์ํ ํ๊ฐ ๋ฉ์ปค๋์ฆ์ ๋์์ธ์ ํตํด ๊ฐ์ํ๋ฉ๋๋คใ
ํ, ๋์ ๋ฐ ์ต์ข ์ ๋ง
Web3๊ณผ ํฅ์๋ ํ์ต์ ๊ฒฐํฉํ ํจ๋ฌ๋ค์์์ ์์คํ ์์ค์ ์ฅ์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค๋น์ฉ ๊ตฌ์กฐยทGovernance ๊ตฌ์กฐ์์ ํ๊ธฐใ
-
๋น์ฉ ๋ณต์์ํ๋ง (Rollout)์ ๋ํ RL Post-training ์์๋ ๋ฌด์ ํ์ด๋ฉฐ Web3๋ ๋งค์ฐ ์ ๋ ดํ ๋น์ฉ์ผ๋ก ๊ธ๋ก๋ฒ ์ฅ๊ธฐ ์ปดํจํ ์ ๋๊ธฐํ ํ ์ ์์ผ๋ฉฐ ์ค์ ํด๋ผ์ฐ๋ ์ ์กฐ์ ์ฒด๊ฐ ์ผ์น ํ ์์๋ ๋น์ฉ ์ด์ ์ ์ ๊ณตํฉ๋๋คใ
-
Sovereign ์ ๋ ฌ:: AI Value์ ๋ชจ๋ ธํด๋ฆฌ๋ฅผ ํ๊ดดํ๋ ์ปค๋ฎค๋ํฐ๋ ํ ํฐ์ ์ฌ์ฉํ์ฌ AI ๊ฑฐ๋ฒ๋์ค์ ๋ํ ์ข์ ๋๋ต์ ๊ฒฐ์ ํ ์ ์์ต๋๋คใ
๋์์ ์์คํ ์ ๋ ๊ฐ์ง ์ฃผ์ ๊ตฌ์กฐ์ ์ ์ฝ์ ์ง๋ฉดํฉ๋๋คใ
-
๋์ญํญ ๋ฒฝ: DisTrO์ ๊ฐ์ ํ์ ์๋ ๋ถ๊ตฌํ๊ณ ๋ฌผ๋ฆฌ์ ์ง์ฐ์ ์ฌ์ ํ hyperparametric model (70B+)์ ์ ์ฒด ์ค์ผ์ผ ํ๋ จ์ ์ ํํ๊ณ , ํ์ฌ Web3 AI๋ ๋ฏธ์ธ ์กฐ์ ๋ฐ ์ด์ ์ ๋ ์ ํ๋ฉ๋๋คใ
-
Gudhard ํดํน:: ๋งค์ฐ ๋๊ธฐ๋ฅผ ๋ถ์ฌํ๋ ๋คํธ์ํฌ์์ ๊ด๋ถ๋ "codify" ์ธ์ผํฐ๋ธ ๊ท์น์ ๋งค์ฐ ์ฝ์ต๋๋ค. ์ฌ๊ธฐ ์ฆ๊ฑฐ ๋ง๋ ๋ณด์ ๊ธฐ๋ฅ์ ์์ํ ๊ฒ์์ ๋๋คใ
-
Byzantine ๋ ธ๋ ๊ณต๊ฒฉ: ํ๋ จ ์ ํธ ๋ฐ ์ค๋ ํ๊ดด ๋ชจ๋ธ์ ํ์ฑ ์กฐ์์ ํตํด ์ํ. ํต์ฌ์ ์ฌ๊ธฐ ์ฆ๊ฑฐ ์ธ์ผํฐ๋ธ ๊ธฐ๋ฅ์ ์ง์์ ์ธ ๋์์ธ์ด ์๋์ง๋ง ์์ ๋ฉ์ปค๋์ฆ์ ๊ฑด์ค์ด ์๋๋๋คใ
Web3์ ํตํ ํฅ์๋ ํ์ต์ ์กฐํฉ์ ๊ทผ๋ณธ์ ์ผ๋ก "how Intelligence๊ฐ ์์ฐ, ์ ๋ ฌ ๋ฐ ํ๊ฐ๋๋ ๋ฐฉ๋ฒ"์ ๋ณด์ํ๊ธฐ์ํ ๋ฉ์ปค๋์ฆ์ ๋๋ค. ์งํ ๊ฒฝ๋ก๋ ์ธ ๊ฐ์ง ๋ณด์ ๋ฐฉํฅ์์ ์์ฝ ๋ ์ ์์ต๋๋ค:
-
์ค์ ๊ต์ก ๋คํธ์ํฌ๋ก ์ด๋๊ธฐ๊ณ์์ ์ ๋ต์ ๋คํธ์ํฌ์ ์ด๋ฅด๊ธฐ๊น์ง ๋ณ๋ ฌ ๋ฐ ๊ฒ์ฆ ๊ฐ๋ฅํ ๋กค์์์ ๊ธ๋ก๋ฒ Longtail GPU์ ์ํด ๊ฐ๋ฐ ๋ ํ์ต ํ์ ๋คํธ์ํฌ๋ก ์์ฅ, ์ค๊ฐ ๋จ๊ณ ์งํ๋ฅผ ๊ฒ์ฆํ๋ ๋จ๊ธฐ ์ด์ ์ ๋๋ค
-
Prefer ๋ฐ ๋ณด์ ์์ฐํ๋ ํ ๋ฅด๋ฅผ ๋ถ์ด๋ ๋ ธ๋์์ data equity์. ๋์ ํ์ง์ ํผ๋๋ฐฑ๊ณผ ๋ณด์ ๋ชจ๋ธ์ ๊ด๋ฆฌ, ๋ฐฐํฌ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์์ฐ์ผ๋ก ๋ณํํ๋ ๊ธฐ๋ณธ ๋ฐ ์ธ์ผํฐ๋ธ์ ์์ฐํ, "marking labour"์์ "data equity"๋ก
-
โ์ํ๊ณผ ์๋ฆ๋ค์โ ์์ง ์์ญ์์ ์งํ:: DeFi Policy Implementation, Code Generation๊ณผ ๊ฐ์ ๊ฒ์ฆ ๊ฐ๋ฅํ ๊ฒฐ๊ณผ ๋ฐ quantifiable ๋ฐํ์ ๊ฐ์ง ์์ง ์๋๋ฆฌ์ค์์ ์ ์ฉ, ์๊ณ ๊ฐํ RLAAgents๋, ์ ๋ต ๊ฐ์ ์ ์ง์ ๊ฐ์น ์บก์ฒ์ ๋ฐ์ธ๋ฉํ๊ณ ์ผ๋ฐ ํ์ ์์ ๋ชจ๋ธ์ ์น๋ฆฌ ์ฝ์ํฉ๋๋คใ
์ผ๋ฐ์ ์ผ๋ก ํฅ์๋ ํ์ต x Web3์ ๋ํ ์ค์ ๊ธฐํ๋ OpenAI์ ํ์ค์ํ ๋ ๋ฒ์ ์ ๋ณต์ฌํ์ง ์์ง๋ง "Intelligent Production Relationships"๋ฅผ ์ฌ ์์ฑํ๋ ๊ฒ์ ๋๋ค๊ฐ๋ฐฉํ ์ปดํจํ ์์ฅ์ด ๋ ๊ต์ก ๊ตฌํ์ํ๋ฆฌ์นด์ธ์ผํฐ๋ธ ๋ฐ ์ ํธ๋๋ ์ฒด์ธ ์์ฐ ๊ด๋ฆฌ๋ ์ด์ ํ๋ซํผ์ ์ด์ ์ ๋ง์ถ์ง ๋ชปํ์ง๋งํธ๋ ์ด๋, ์ ๋ ฌ ๋ฐ ์ฌ์ฉ์์ Redistributionใ

์๋ฃ๋ ๋ ์:
์์์์์ ๊ฐ์ฅ ํฐ ๋นํธ ์ฝ์ธ ์ํ, Metaplanet
