Litecoin

AL INVESTMENT ์ง€๋„

2025/12/23 12:19
๐Ÿ‘คchaincatcher
๐ŸŒko
AL INVESTMENT ์ง€๋„

์ €์ž:์ œ์ด์ฝฅ Zhao์‚ฌ์ดํŠธ๋งต

ย 

๊ทธ๊ฒƒ์€ ์„ธ๊ณ„์—์„œ ๊ฐ€์žฅ ๋˜‘๋˜‘ํ•œ ๊ฒƒโ€œ๋ชจ๋ธ ์ •๋ ฌโ€์ฃผ์š” ํ†ต๊ณ„ ํ•™์Šตโ€œ์ •์ƒ์ ์ธ ์ด์œ โ€ํ•ต์‹ฌ ์—ญ๋Ÿ‰ ์ฒด๊ณ„๋กœํฌ์ŠคํŠธ ํ›ˆ๋ จ์ค‘์š”ํ•œ ๊ฒƒ์€ ๋น ๋ฅด๊ฒŒ ์ƒ์Šนํ•ฉ๋‹ˆ๋‹คใ€‚๋”ฅ์Šค์นด์ด-R1๋กœ๊ทธ์ธ์ž…๋‹ˆ๋‹คํ–ฅ์ƒ๋œ ํ•™์Šตํฐ ๋ชจํ˜•์˜ ๋‚˜์ด์— ์žˆ๋Š” paradigm ๊ต๋Œ€๋Š” ๊ธฐ์—… consensus์— ์ง€๋„ํ–ˆ์Šต๋‹ˆ๋‹ค:์‚ฌ์ „ ํ›ˆ๋ จ๊ฑด๋ฌผ ๋ชจํ˜•์„ ์œ„ํ•œ ์ผ๋ฐ˜์ ์ธ ๊ธฐ๋Šฅ ๊ธฐ์ดˆํ–ฅ์ƒ๋œ ํ•™์Šต๊ฐ€์น˜ ๋งค์นญ ๋„๊ตฌ ์ธ ๋Œ€์‹ , ์ฒด๊ณ„์ ์œผ๋กœ ์ฒด์ธ๊ณผ ๋ณต์žกํ•œ ์˜์‚ฌ ๊ฒฐ์ • ๋Šฅ๋ ฅ์˜ ํ’ˆ์งˆ์„ ์—…๊ทธ๋ ˆ์ด๋“œ ํ•  ์ˆ˜์žˆ์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ ์ ์ฐจ ์ง€๋Šฅ ์ˆ˜์ค€์˜ ์ง€์†์ ์ธ ์—…๊ทธ๋ ˆ์ด๋“œ์˜ ๊ธฐ์ˆ  ๊ฒฝ๋กœ๋กœ ์ง„ํ™”ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹คใ€‚

๊ทธ ์˜๋ฏธ์—์„œ์›น3์•”ํ˜ธํ™” ์ธ์„ผํ‹ฐ๋ธŒ ์‹œ์Šคํ…œ์˜ AI 's ์ƒ์‚ฐ ๊ด€๊ณ„์˜ ํŒŒ๊ดด๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋„คํŠธ์›Œํฌ์˜ ํƒˆ์ค‘์•™ํ™”๋ฅผ ํ†ตํ•ด ์žฌ ์—”์ง€๋‹ˆ์–ด๋ง๋˜๊ณ  ๋กค์•„์›ƒ ์ƒ˜ํ”Œ๋ง, ๋ณด์ƒ ์‹ ํ˜ธ์— ๋Œ€ํ•œ ํ–ฅ์ƒ๋œ ํ•™์Šต์„ ์œ„ํ•ด์„œ๋Š” ๋ธ”๋ก ์ฒด์ธ์˜ ๊ณ„์‚ฐ, ์ธ์„ผํ‹ฐ๋ธŒ ๋ฐ ์ž์—ฐ ์‹œ๋„ˆ์ง€์˜ ๊ฒ€์ฆ์œผ๋กœ ์ž˜ ์ •๋ ฌ๋ฉ๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” AI ํ›ˆ๋ จ paradigms์™€ ๊ฐ•ํ™”ํ•œ ํ•™์Šต ๊ธฐ์ˆ , ์ฃผ์š”ํ•œ Intelect, Gensyn, Nous Research, Gradient, Grail ๋ฐ Fracing AI์™€ ๊ฐ™์€ ๊ฐ•ํ™”๋œ ํ•™์Šต x Web3 ๋ฐ ๋ถ„์„ ํ”„๋กœ์ ํŠธ์˜ ๊ตฌ์กฐ์ƒ ์ด์ ์„ ์„ค๋ช…ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹คใ€‚

I. AI ํ›ˆ๋ จ์˜ 3 ๋‹จ๊ณ„ : ๋ช…๋ น๊ณผ ํฌ์ŠคํŠธ ํ›ˆ๋ จ ์ •๋ ฌ์˜ ์‚ฌ์ „ ํ›ˆ๋ จ, ๊ต์ •

ํ˜„๋Œ€ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ (HLM)์‚ฌ์ดํŠธ๋งต์ „์ฒด ํ›ˆ๋ จ ์ˆ˜๋ช…์ฃผ๊ธฐ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ 3 ๊ฐœ์˜ ํ•ต์‹ฌ ๋‹จ๊ณ„๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค. ์‚ฌ์ „ ํ›ˆ๋ จ (Pre-training), oversight ๋ฏธ์„ธ ์กฐ์ • (Pre-training)์‚ฌ์ดํŠธ๋งต(d) ํฌ์ŠคํŠธ ํ›ˆ๋ จ/RL. ์„ธ ๊ฐ€์ง€๋Š” "์„ธ๊ณ„ ๋ชจ๋ธ ๊ตฌ์ถ•"์˜ ๊ธฐ๋Šฅ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. - ์ž„๋ฌด ๊ธฐ๋Šฅ - ์†Œ๋ฐ•ํ•˜๊ณ  ๊ฐ€์น˜", ๊ทธ์˜ computational ๊ตฌ์กฐ, ๋ฐ์ดํ„ฐ ์š”๊ตฌ ์‚ฌํ•ญ ๋ฐ ๊ฒ€์ฆ ์–ด๋ ค์›€์€ ํƒˆ์ค‘์•™ํ™”์˜ ์ •๋„๋ฅผ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹คใ€‚

  • ์‚ฌ์ „ ํ›ˆ๋ จ์œผ๋กœ ๋Œ€๊ทœ๋ชจ์ž๊ธฐ ๊ฐ๋… ํ•™์Šต (Self-supervised Learning)๋ชจ๋ธ๋ง ์–ธ์–ด ํ†ต๊ณ„ ๊ตฌ์กฐ ๋ฐ ํฌ๋กœ์Šค ๋ชจ๋“ˆ ์„ธ๊ณ„ ๋ชจ๋ธ์€ LLM ๊ธฐ๋Šฅ์— ๊ธฐ์ดˆํ•ฉ๋‹ˆ๋‹ค. ๊ธ€๋กœ๋ฒŒ ๋ฐ ๋™๊ธฐํ™” ๋œ ๋ฐฉ์‹์œผ๋กœ ํ›ˆ๋ จ์„ ํฌํ•จํ•˜๋Š”์ด ๋‹จ๊ณ„๋Š” ๊ธ‰๋ฃŒ ์–ธ์–ด ๋ฌผ์ž์˜ ์กฐ์—, ์ˆ˜์ฒœ์˜ 10S์— ๊ณ ๋„๋กœ ์ง‘์ค‘๋œ ํด๋Ÿฌ์Šคํ„ฐ์˜ ๋น„์šฉ์— H100 ๊ท ์งˆ ํด๋Ÿฌ์Šคํ„ฐ์˜ ์ˆ˜์ฒœ์—, 80์—์„œ 95 ํผ์„ผํŠธ, ๋Œ€์—ญํญ๊ณผ ์ž๋ฃŒ ์ €์ž‘๊ถŒ์— ๊ทน๋‹จ์ ์œผ๋กœ ๊ณผ๋ฏผํ•˜ ๊ณ  ๋†’๊ฒŒ ์ง‘์ค‘๋œ ํ™˜๊ฒฝ์—์„œ ๋‹ฌ์„ฑ๋˜์–ด์•ผ ํ•ฉ๋‹ˆ๋‹คใ€‚

  • ์ดˆ์ •๋ฐ€์ž„๋ฌด ๊ธฐ๋Šฅ ๋ฐ ๋ช…๋ น ํ˜•์‹์˜ ์ฃผ์ž…์„ ์œ„ํ•ด ๋ฐ์ดํ„ฐ๋Š” ์ž‘๊ณ  ๋น„์šฉ์ด 5-15%, ๋ฏธ์„ธ ์กฐ์ • ๊ฐ€๋Šฅ๊ต์œก ํ›ˆ๋ จ, ๋˜ํ•œ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค๋งค๊ฐœ ๋ณ€์ˆ˜์˜ ํšจ์œจ์ ์ธ ๋ฏธ์„ธ ์กฐ์ • (PEFT)๋ฐฉ๋ฒ•๋ก , ์–ด๋””์—๋กœ๋ผ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค์‚ฌ์ดํŠธ๋งตยท์–ด๋Œ‘ํ„ฐ๊ทธ๊ฒƒ์€ ๊ธฐ์—… ์ฃผ๋ฅ˜์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜, gradients๋Š” ์—ฌ์ „ํžˆ decentrization์— ๋Œ€ํ•œ ์ž ์žฌ๋ ฅ์„ ์ œํ•œํ•˜๊ธฐ ์œ„ํ•ด ๋™๊ธฐํ™”ํ•ด์•ผํ•ฉ๋‹ˆ๋‹คใ€‚

  • ํฌ์ŠคํŠธ ํ›ˆ๋ จํ•™์Šต ์‹œ์Šคํ…œ(RLHF)์„ ๊ฐ•ํ™”ํ•จ์œผ๋กœ์จ ๋ชจ๋ธ์˜ ์‚ฌ๊ณ , ๊ฐ€์น˜ ๋ฐ ๊ฒฝ๊ณ„๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ์—ฌ๋Ÿฌ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค์‚ฌ์ดํŠธ๋งตGRPO๋Š” ๋˜ํ•œ RL๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹คPREFER ์ตœ์ ํ™” ๋ฐฉ๋ฒ• (DPO)ยทํ”„๋กœ์„ธ์Šค ์ธ์„ผํ‹ฐ๋ธŒ ๋ชจ๋ธ (PRM)์ž์„ธํžˆ๋ณด๊ธฐ ์ด ๊ธฐ๊ฐ„ ๋™์•ˆ ๋ฐ์ดํ„ฐ์˜ ๋‚ฎ์€ ๋ณผ๋ฅจ ๋ฐ ๋น„์šฉ (5-10 %)์€ ๋กค์•„์›ƒ ๋ฐ ์ „๋žต ์—…๋ฐ์ดํŠธ์— ์ง‘์ค‘๋ฉ๋‹ˆ๋‹ค. ๊ทธ๊ฒƒ์€ ์ž์—ฐ์ ์œผ๋กœ ์ „์ฒด ๋ฌด๊ฒŒ๋ฅผ ๋ณด์œ ํ•˜์ง€ ์•Š๊ณ  ์‚ฐ์ฑ… ๋ฐ ๋ถ„์‚ฐ ๊ตฌํ˜„์„ ์ง€์›ํ•˜๋ฉฐ, ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ์ปดํ“จํŒ… ๋ฐ ์ฒด์ธ ์ธ์„ผํ‹ฐ๋ธŒ์™€ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ฐœ๋ฐฉ ๋ถ„์‚ฐ ํ›ˆ๋ จ ๋„คํŠธ์›Œํฌ๋ฅผ ํ˜•์„ฑ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Web3์— ๊ฐ€์žฅ ์ ํ•ฉํ•œ ๊ต์œก ๋งํฌใ€‚

ๅ›พ็‰‡

II. LEVEL์˜ ๊ธฐ์ˆ  ๊ฐ•ํ™”: ํŠน์ƒ‰, ์ž‘ํ’ˆ ๋ฐ ์‹ ์ฒญ

ํ•™์Šต์˜ ๊ฑด์ถ•๊ณผ ํ•ต์‹ฌ ์š”์†Œ ๊ฐ•ํ™”

๊ฐ•ํ™”๋œ ํ•™์Šต (๊ฐ•๋ ฅ ํ•™์Šต, RL)ํŒจ์Šค์›Œ๋“œ"Environmental Interaction - ์ธ์„ผํ‹ฐ๋ธŒ ํ”ผ๋“œ๋ฐฑ - ์ „๋žต์  ์—…๋ฐ์ดํŠธ"์šด์ „ ๋ชจ๋ธ์€ ์ž์œจ์ ์œผ๋กœ ์˜์‚ฌ ๊ฒฐ์ • ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ํ•ต์‹ฌ ๊ตฌ์กฐ๋Š” ๊ตญ๊ฐ€, ํ–‰๋™, ๋ณด์ƒ ๋ฐ ์ „๋žต์œผ๋กœ ๊ตฌ์„ฑ๋œ ํ”ผ๋“œ๋ฐฑ ๋ฃจํ”„๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์™„์ „ํ•œ RL ์ฒด๊ณ„๋Š” ๋ณดํ†ต ์„ฑ๋ถ„์˜ 3๊ฐ€์ง€์˜ ์œ ํ˜•์œผ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์Šต๋‹ˆ๋‹ค:Polity, ๋กค์•„์›ƒ, ํ•™์Šต์ž๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค. ์ „๋žต์€ trajectories๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ ์ž‘์šฉํ•˜๊ณ , ํ•™์Šต์ž๋Š” ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ „๋žต์„ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ iterative ๋ฐ ์ตœ์ ํ™” ํ•™์Šต ํ”„๋กœ์„ธ์Šค๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค

ๅ›พ็‰‡
  1. - ์—ฐํ˜ํ™˜๊ฒฝ์˜ ์ƒํƒœ์—์„œ ์ž‘์—…์˜ ๋ฐœ์ƒ์€ ์‹œ์Šคํ…œ์˜ ์‹ฌ์žฅ์— '์˜ ๊ฒฐ์ •. ๊ต์œก์€ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๊ธฐ์œ„ํ•œ ์ค‘์•™ ์ง‘์ค‘์‹ ๋ฐ˜์ „ ์žฅ์• ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด์œ ๊ฐ€ ๋ณ‘๋ ฌ์˜ ๋‹ค๋ฅธ ๋…ธ๋“œ๋กœ ๋ฐฐํฌ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹คใ€‚

  2. ๊ฒฝํ—˜ ํ‘œ๋ณธ (Rollout): ๋…ธ๋“œ๋Š” ์ „๋žต์— ๋”ฐ๋ผ ํ™˜๊ฒฝ์˜ ์ƒํ˜ธ ์ž‘์šฉ์„ ๊ตฌํ˜„ํ•˜๊ณ , ๊ตญ๊ฐ€ ํ™œ๋™ ์ถ”์  ๋“ฑ์„ ์ƒ์„ฑํ•œ๋‹ค. ๊ณต์ •์€ ๋งค์šฐ ๋ณ‘๋ ฌ ๋ฐ ํ†ต์‹ ์€ ๋งค์šฐ ๋‚ฎ์œผ๋ฉฐ ํ•˜๋“œ์›จ์–ด ์ฐจ์ด์— ๋Œ€ํ•œ ๋ถˆ๋ช…์€ ํƒˆ์ค‘์•™ํ™”์—์„œ ๊ฐ€์žฅ ์ ํ•ฉํ•œ ํ™•์žฅ์ž…๋‹ˆ๋‹คใ€‚

  3. ๋” ์•Œ์•„๋ณด๊ธฐ: ๋ชจ๋“  ๋กค์•„์›ƒ ํŠธ๋ž™์„ ์ปดํŒŒ์ผํ•˜๊ณ  ์ „๋žต์ ์ธ ๊ทธ๋ผ๋””์–ธํŠธ ์—…๊ทธ๋ ˆ์ด๋“œ๋ฅผ ๊ตฌํ˜„ํ•˜๋Š” ๊ฒƒ์€ ๊ฐ€์žฅ ๋†’์€ ์ˆ˜์ค€์˜ ์ปดํ“จํŒ… ๋ฐ ๋Œ€์—ญํญ ์š”๊ตฌ ์‚ฌํ•ญ์„ ์ถฉ์กฑํ•˜๋Š” ์œ ์ผํ•œ ๋ชจ๋“ˆ์ด๋ฉฐ, ์ผ๋ฐ˜์ ์œผ๋กœ ์ค‘์•™ ๋˜๋Š” ์กฐ๋ช…์„ ๋ฐฐ์น˜ํ•˜์—ฌ ์•ˆ์ •์„ฑ์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹คใ€‚

ํ•™์Šต์„ ์œ„ํ•œ ํ–ฅ์ƒ๋œ ํ”„๋ ˆ์ž„ ์›Œํฌ (RLHF โ†’ RLAIF โ†’ PRM โ†’ GRPO)

ํ–ฅ์ƒ๋œ ํ•™์Šต์€ ์ผ๋ฐ˜์ ์œผ๋กœ 5 ๋‹จ๊ณ„๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์•„๋ž˜ ์„ค๋ช… ๋œ ์ „๋ฐ˜์ ์ธ ๊ณผ์ • :

ๅ›พ็‰‡

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #๋ฐ์ดํ„ฐ ์ƒ์„ฑ ์ฃผ์š”์—ฐํ˜

์ฃผ์–ด์ง„ ์ž…๋ ฅ ํžŒํŠธ์˜ ๋ฐ‘์—, ์ „๋žต ๋ชจํ˜•์€ ์ „๋žต ํƒํ—˜์˜ ๋นต์„ determining ํ›„์† ์„ ํ˜ธ๋„ ํ‰๊ฐ€์™€ ๋ณด์ƒ ๋ชจ๋ธ๋ง์„ ์œ„ํ•œ ํ‘œ๋ณธ ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•˜๋Š” ๋‹ค์ˆ˜ ํ›„๋ณด์ž reasoning ์‚ฌ์Šฌ ๋˜๋Š” ์™„์ „ํ•œ ๊ถค๋„๋ฅผ ์ผ์œผํ‚ต๋‹ˆ๋‹คใ€‚

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #PREFERENCE ํ”ผ๋“œ๋ฐฑ ๋‹จ๊ณ„ (RLHF / RLAIF)

  • ์‚ฌ์ดํŠธ๋งต๋ชจ๋ธ์€ ์—ฌ๋Ÿฌ ํ›„๋ณด ๋‹ต๋ณ€, ์ˆ˜๋™ ๊ธฐ๋ณธ ๋ผ๋ฒจ, ๊ต์œก ์ธ์„ผํ‹ฐ๋ธŒ ๋ชจ๋ธ (RMS) ๋ฐ PPO ์ตœ์ ํ™” ์ „๋žต์„ ํ†ตํ•ด ์ธ๊ฐ„์˜ ๊ฐ€์น˜์™€ ์ผ๊ด€์„ฑ์„ ์ถœ๋ ฅํ•˜๋Š” ๊ฒƒ์€ GPT-3.5 GPT-4์˜ ํ•ต์‹ฌ ๋งํฌ์ž…๋‹ˆ๋‹ค

  • ์‚ฌ์ดํŠธ๋งตAI Judge ๋˜๋Š” ํ—Œ๋ฒ• ๊ทœ์น™๊ณผ ์ˆ˜๋™ ๋ผ๋ฒจ๋ง์„ ๊ต์ฒดํ•˜๊ณ , ์„ ํ˜ธ๋„ ์ทจ๋“์„ ์ž๋™ํ™”ํ•˜๊ณ  ๋น„์šฉ์ด ํฌ๊ฒŒ ์ ˆ๊ฐํ•˜๊ณ  ํ™•์žฅ๋˜๊ณ  Anthropic, OpenAI, DeepSeek ๋“ฑ์— ๋Œ€ํ•œ ์ง€๋ฐฐ์  ์ •๋ ฌ ํŒจ๋Ÿฌ๋‹ค์ž„์ด๋˜์—ˆ์Šต๋‹ˆ๋‹คใ€‚

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #๋ณด์ƒ ๋ชจ๋ธ๋ง

์ธ์„ผํ‹ฐ๋ธŒ ๋ชจ๋ธ์„ ์ž…๋ ฅํ•˜๊ณ  ๋ณด์ƒ์œผ๋กœ ์ง€๋„ ์ถœ๋ ฅ์„ ๋ฐฐ์šฐ๋Š” PREFER. RM์€ ๋ชจ๋ธ โ€œ์˜ณ์€ ๋Œ€๋‹ต์€ ๋ฌด์—‡์ธ๊ฐ€โ€๋ฅผ ๊ฐ€๋ฅด์น˜๊ณ  PRM์€ ๋ชจ๋ธ โ€œ์˜ณ์€ ์ด์œ ๋ฅผ ๋งŒ๋“œ๋Š” ๋ฐฉ๋ฒ•โ€ใ€‚

  • RM (๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ)๋งˆ์ง€๋ง‰ ๋Œ€๋‹ต์˜ ์งˆ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•˜์—ฌ, ์‚ฐ์ถœ์€ ํ‰๊ฐ€๋ฉ๋‹ˆ๋‹ค:

  • ๊ณต์ • ๋ณด์ƒ ๋ชจ๋”์ตœ์ข… ๋‹ต์„ ํ‰๊ฐ€ํ•˜๋Š” ๋Œ€์‹ , ๋ชจ๋“  ํ† ํฐ, ๋ชจ๋“  ๋…ผ๋ฆฌ ์„ธ๊ทธ๋จผํŠธ์˜ ๋ชจ๋“  ๋‹จ๊ณ„๋ฅผ ํ‰๊ฐ€ํ•˜๊ณ , OpenAI o1 ๋ฐ DeepSeek-R1์— ๋Œ€ํ•œ ์ฃผ์š” ๊ธฐ์ˆ ์ด๋ฉฐ, ๊ทผ๋ณธ์ ์œผ๋กœ "๋ชจ๋ธ์ด ์–ด๋–ป๊ฒŒ ์ƒ๊ฐํ•˜๋Š”์ง€ ์•Œ์•„"ใ€‚

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #์ธ์„ผํ‹ฐ๋ธŒ ๊ฒ€์ฆ ๋‹จ๊ณ„ (RLVR / ๋ณด์ƒ ๊ฒ€์ฆ)

์ด ์„ธ๋Œ€์˜ "valitable constraints"์˜ ๋„์ž…๊ณผ ์ธ์„ผํ‹ฐ๋ธŒ์˜ ์‚ฌ์šฉ, ๋ณต์ œ ๊ทœ์น™, ์‚ฌ์‹ค ๋˜๋Š” ํ•ฉ์˜์—์„œ ๊ฐ€๋Šฅํ•œ ํ•œ ๋ฉ€๋ฆฌ ์ƒ์Šน์— ๊ฒฐ๊ณผ, ๋ณด์ƒ๊ณผ ๋ฐ”์ด์Šค์˜ ์œ„ํ—˜์„ ๊ฐ์†Œ์‹œํ‚ค๊ณ  ๊ฐœ๋ฐฉ ํ™˜๊ฒฝ์— ๋Œ€ํ•œ ๊ฐ์‚ฌ์™€ ํ™•์žฅ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹คใ€‚

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #์ •์ฑ… ์ตœ์ ํ™”

๊ทธ๊ฒƒ์€ ์ •์ฑ… ๋งค๊ฐœ ๋ณ€์ˆ˜์˜ ์—…๋ฐ์ดํŠธ, ๋ณด์ƒ ๋ชจ๋ธ์— ์˜ํ•ด ์ฃผ์–ด์ง„ ์‹ ํ˜ธ์— ์˜ํ•ด ์•ˆ๋‚ด, ๋” ๋งŽ์€ ์ด์œ ๋ฅผ ์–ป์„, ๋” ์•ˆ์ „ํ•˜๊ณ  ๋” ์•ˆ์ •์ ์ธ ํŒจํ„ด์˜ ํ–‰๋™. mainstream ์ตœ์ ํ™” ๋ฐฉ๋ฒ•์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค

  • ์‚ฌ์ดํŠธ๋งตRLHF์˜ ์ „ํ†ต์ ์ธ ๋‚™๊ด€์ž, ์•ˆ์ •์„ฑ์— ๋Œ€ํ•œ ๊ธด, ์ข…์ข… ๋А๋ฆฐ๊ณผ ๋ณต์žกํ•œ ์ด์œ  ์ž‘์—…์— ์ถฉ๋ถ„ํ•œ ์•ˆ์ •์„ฑ๊ณผ ๊ฐ™์€ ์ œ์•ฝ์„ ์ง๋ฉดใ€‚

  • GRPO (๊ทธ๋ฃน ๊ด€๊ณ„ ์ •์ฑ… ์ตœ์ ํ™”):: DeepSeek-R1 ํ˜์‹ ์˜ ํ•ต์‹ฌ์€ ๋‹จ์ˆœํžˆ ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ํ›„๋ณด ์‘๋‹ต ๊ทธ๋ฃน ๋‚ด์—์„œ ์ด์ ์˜ ๋ฐฐํฌ๋ฅผ ๋ชจ๋ธ๋งํ•˜์—ฌ ์›ํ•˜๋Š” ๊ฐ€์น˜๋ฅผ ์ถ”์ •ํ•ฉ๋‹ˆ๋‹ค. ๋ฐฉ๋ฒ•๋ก ์€ ์ธ์„ผํ‹ฐ๋ธŒ ๋งˆ์ง„์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์œ ์ง€ํ•˜๊ณ , ๋‚ฉ๋•œ ์ฒด์ธ์˜ ์ตœ์ ํ™”์— ๋” ์ž˜ ์ ์‘ํ•˜๊ณ , ๊ต์œก ๊ณผ์ •์€ ๋” ์•ˆ์ •์ ์ด๋ฉฐ, PPO๋ฅผ ๋”ฐ๋ฅด๋Š” ๊นŠ์€ ์ด์œ  ์žฅ๋ฉด์— ๋Œ€ํ•œ ์ค‘์š”ํ•œ ํ–ฅ์ƒ๋œ ํ•™์Šต ์ตœ์ ํ™” ํ”„๋ ˆ์ž„ ์›Œํฌ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹คใ€‚

  • DPO (์ง์ ‘ ๊ด€๋ฆฌ ์‹ ์ฒญ): Non-enhanced Learning post-training ๋ฐฉ๋ฒ• : ์˜คํžˆ๋ ค trajectories์™€ ์ธ์„ผํ‹ฐ๋ธŒ ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š” ๊ฒƒ๋ณด๋‹ค, ๊ทธ๋“ค์€ ์ง์ ‘ ์„ ํ˜ธ, ๋‚ฎ์€ ๋น„์šฉ๊ณผ ์•ˆ์ •์ ์ธ ๊ฒฐ๊ณผ์™€ ํ•จ๊ป˜, ๋„๋ฆฌ Llama, Gemma์™€ ๊ฐ™์€ ์˜คํ”ˆ ์†Œ์Šค ๋ชจ๋ธ์„ ์ •๋ ฌํ•˜๋Š” ๋ฐ ์‚ฌ์šฉํ•˜์ง€๋งŒ ์ด์œ ๋ฅผ ๊ฐ•ํ™”ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹คใ€‚

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #์ƒˆ๋กœ์šด ์ •์ฑ… ๋ฐฐํฌ

์ตœ์ ํ™”๋œ ๋ชจ๋ธ์€: ๋” ๊ฐ•ํ•œ ์‚ฌ์Šฌ์˜ ์ด์œ  ๋ฐœ์ƒ (System-2 Resoning), ๋” ๋งŽ์€ ์ธ๊ฐ„ ๋˜๋Š” AI ์นœ์ ˆํ•œ ํ–‰๋™, ๋” ๋‚ฎ์€ hallucinogenicity, ๋” ๋†’์€ ์•ˆ์ „. ๋ชจ๋ธ์€ ๊ณ„์†ํ•ด์„œ ์„ ํ˜ธ๋„๋ฅผ ๋ฐฐ์šฐ๊ธฐ ์œ„ํ•ด ํ”„๋กœ์„ธ์Šค๋ฅผ ์ตœ์ ํ™”ํ•˜๊ณ  ์˜์‚ฌ ๊ฒฐ์ •์˜ ์งˆ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ์‹œ๊ฐ„์„ ๋‹ซํžˆ๋Š” ์›ํ˜•์„ ๋งŒ๋“ญ๋‹ˆ๋‹คใ€‚

ๅ›พ็‰‡

๊ฐ•ํ™”๋œ ํ•™์Šต์„ ์œ„ํ•œ 5๊ฐœ์˜ ๋„“์€ ๋ถ„์•ผ

ํ–ฅ์ƒ๋œ ํ•™์Šต์ดˆ๊ธฐ ๊ฒŒ์ž„ ์ธํ…”๋ฆฌ์ „์Šค์—์„œ Cross-industry ์ž์œจ ์˜์‚ฌ ๊ฒฐ์ •์˜ ํ•ต์‹ฌ ํ”„๋ ˆ์ž„ ์›Œํฌ์— ์ด๋ฅด๊ธฐ๊นŒ์ง€ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์€ ๊ธฐ์ˆ  ์„ฑ์ˆ™๊ณผ ์‚ฐ์—… ์œ„์น˜์— ๋”ฐ๋ผ ๋‹ค์„ฏ ๊ฐ€์ง€ ๋„“์€ ๋ฒ”์ฃผ๋กœ ๊ทธ๋ฃนํ™” ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํ•ด๋‹น ๋ฐฉํ–ฅ์œผ๋กœ ํ•ต์‹ฌ ๋ŒํŒŒ๊ตฌ์— ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹คใ€‚

  • ๊ฒŒ์ž„ ๋ฐ ๊ณ„ํš; ํšŒ์‚ฌ์—ฐํ˜:: ๊ทธ๊ฒƒ์€ RL์˜ ์ฒซ ๋ฒˆ์งธ ์ž…์ฆ ๋œ ๋ฐฉํ–ฅ์ด์—ˆ๋‹ค, AlphaGo์™€ ๊ฐ™์€ ํ™˜๊ฒฝ์—์„œ, AlphaZero, AlphaStar, OpenAI Five ๋“ฑ, RL๋Š” ์ธ๊ฐ„์˜ ์ „๋ฌธ๊ฐ€์™€ ๊ฒฝ์Ÿ ํ•  ์ˆ˜์žˆ๋Š” ๊ฒฐ์ •์ ์ธ ๋งŒ๋“ค๊ธฐ ์ธํ…”๋ฆฌ์ „์Šค๋ฅผ ๋ณด์—ฌ, ์‹ฌ์ง€์–ด ๊ทธ๋“ค์„ ์ดˆ๊ณผ, ํ˜„๋Œ€ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋Œ€ํ•œ ๊ธฐ์ดˆ๋ฅผ ๋†“ใ€‚

  • Embodied AI๋ฅผRL์€ ์—ฐ์† ์ œ์–ด, ์ „์› ๋ชจ๋ธ๋ง ๋ฐ ํ™˜๊ฒฝ ์ƒํ˜ธ ์ž‘์šฉ์„ ํ†ตํ•ด ๋กœ๋ด‡์„ ํ†ตํ•ด ๋กœ๋ด‡์„ ์กฐ์ž‘, ์šด๋™ ์ œ์–ด ๋ฐ ํฌ๋กœ์Šค ๋ชจ๋“ˆ ์ž‘์—… (์˜ˆ : RT-2, RT-X)์„ ํ†ตํ•ด ์กฐ์ž‘, ์šด๋™ ์ œ์–ด ๋ฐ ํฌ๋กœ์Šค ๋ชจ๋“ˆ ์ž‘์—… (์˜ˆ : RT-2, RT-X)ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ฐฐ์šธ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์‚ฐ์—…ํ™”์— ๋น ๋ฅด๊ฒŒ ์ด๋™ํ•˜๊ณ  ์‹ค์ œ ์„ธ๊ณ„์—์„œ ๋กœ๋ด‡์˜ ๊ฐ€์„์„์œ„ํ•œ ํ•ต์‹ฌ ๊ธฐ์ˆ  ๊ฒฝ๋กœ์ž…๋‹ˆ๋‹คใ€‚

  • ๋””์ง€ํ„ธ ์—ฐ๊ตฌ / LLM System-2RL + PRM์€ DeepSeek-R1, OpenAI o1/o3, Anthropic Claude ๋ฐ AlphaGeometry์™€ ๊ฐ™์€ ์•„์›ƒ์†Œ์‹ฑ์„ ๋‚˜ํƒ€๋‚ด๋Š” "๊ตฌ์กฐ์  ์ธ ์†Œ์‹ฑ"์— "linguistic imitation"์—์„œ ์›€์ง์ด๋Š” ๋Œ€ํ˜• ๋ชจ๋ธ์„ ํ™๋ณดํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์ตœ์ข… ์‘๋‹ต์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ์˜คํžˆ๋ ค ๋‚ฉ๋“ ์ฒด์ธ์˜ ์ˆ˜์ค€์— ์ตœ์ ํ™”๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹คใ€‚

  • ์ž๋™ ๊ณผํ•™ ๋ฐœ๊ฒฌ ๋ฐ ์ˆ˜ํ•™ ์ตœ์ ํ™”RL์˜ ์ตœ๊ณ ์˜ ๊ตฌ์กฐ ๋˜๋Š” ์ „๋žต์— ๋Œ€ํ•œ ๊ฒ€์ƒ‰ unlabelled, ๋ณต์žกํ•œ ๋ณด์ƒ ๋ฐ ๊ด‘๋Œ€ ํ•œ ๊ฒ€์ƒ‰ ๊ณต๊ฐ„์€ AlphaTensor, AlphaDev, Fusion RL๊ณผ ๊ฐ™์€ ๊ทผ๋ณธ์ ์ธ ๋ŒํŒŒ๊ตฌ๋กœ ์ด๋Œ๊ณ  ์ธ๊ฐ„์˜ ํ•™๋น„๋ฅผ ๋„˜์–ด ํƒ๊ตฌ ํ•  ์ˆ˜์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹คใ€‚

  • ๊ฒฝ์ œ ๊ฒฐ์ •-Making & ๊ฑฐ๋ž˜RL์€ ์ „์ˆ ์  ์ตœ์ ํ™”, ๋†’์€ ์ฐจ์›์˜ ์œ„ํ—˜ ๊ด€๋ฆฌ ๋ฐ ์ž๊ธฐ ์ ์‘ ๊ฑฐ๋ž˜ ์‹œ์Šคํ…œ ์ƒ์„ฑ์— ์‚ฌ์šฉ๋˜๋ฉฐ ์ „ํ†ต์ ์ธ ์ •๋Ÿ‰ ๋ชจ๋ธ๋ณด๋‹ค ๋ถˆํ™•์‹คํ•œ ํ™˜๊ฒฝ์—์„œ ์ง€์†์ ์ธ ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒํ•˜๋Š” ์Šค๋งˆํŠธ ๊ธˆ์œต์˜ ์ค‘์š”ํ•œ ๊ตฌ์„ฑ ์š”์†Œ์ž…๋‹ˆ๋‹คใ€‚

III. ํ–ฅ์ƒ๋œ ํ•™์Šต๊ณผ Web3์˜ ์ž์—ฐ์  ์ผ์น˜

RL๊ณผ Web3 ์‚ฌ์ด ์ •๋ ฌ์˜ ๋†’์€ ์ •๋„๋Š” ๋‘˜ ๋‹ค์—์„œ ์ค„๊ธฐโ€œ์ธ์„ผํ‹ฐ๋ธŒ ๊ตฌ๋™ ์‹œ์Šคํ…œโ€๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค. RL์€ ์ธ์„ผํ‹ฐ๋ธŒ ์‹ ํ˜ธ ์ตœ์ ํ™” ์ „๋žต์— ์˜์กดํ•˜๋ฉฐ, ๋ธ”๋ก ์ฒด์ธ์€ ์ฐธ๊ฐ€์ž์˜ ํ–‰๋™์„ ํ•ด์†Œํ•˜๊ธฐ ์œ„ํ•ด ๊ฒฝ์ œ์  ์ธ์„ผํ‹ฐ๋ธŒ์— ์˜์กดํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ 2๋Š” ๊ธฐ๊ด€ ์ˆ˜์ค€์—์„œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ •๋ ฌ๋ฉ๋‹ˆ๋‹ค. RL์˜ ํ•ต์‹ฌ ์ˆ˜์š” โ€” ๋Œ€๊ทœ๋ชจ ์ด๋…ธ๋จธ ๋กค์•„์›ƒ, ์ธ์„ผํ‹ฐ๋ธŒ ํ• ๋‹น ๋ฐ ์ •ํ†ต ๊ฒ€์ฆ โ€” Web3์˜ ๊ตฌ์กฐ์  ์ด์ ์ด ์ •ํ™•ํ•ฉ๋‹ˆ๋‹คใ€‚

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #์ด์œ ์™€ ํ›ˆ๋ จ ์‚ฌ์ด ๊ฒธ์šฉ์„ฑ

๊ฐ•ํ™”๋œ ํ•™์Šต์„ ์œ„ํ•œ ํ›ˆ๋ จ ๊ณผ์ •์€ ๋ช…ํ™•ํ•˜๊ฒŒ 2๋‹จ๊ณ„๋กœ ๋ถ„ํ• ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

  • ๋กค์•„์›ƒ (ํ’€ ์ƒ˜ํ”Œ๋ง): Models๋Š” ํ˜„์žฌ ์ „๋žต์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค์ปดํ“จํ„ฐ ์ง‘์ค‘ํ•˜์ง€๋งŒ..ํ†ต์‹  Thinness๊ณต์ง€์‚ฌํ•ญ ๋…ธ๋“œ ๊ฐ„์˜ ๋นˆ๋ฒˆํ•œ ํ†ต์‹ ์ด ์š”๊ตฌ๋˜์ง€ ์•Š์œผ๋ฉฐ, ์†Œ๋น„ ์ˆ˜์ค€ GPU์˜ ๊ธ€๋กœ๋ฒŒ ๋ฐฐํฌ์—์„œ ๊ณต๋™ ์„ธ๋Œ€์— ์ ํ•ฉํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹คใ€‚

  • ์—…๋ฐ์ดํŠธ (parameter ์—…๋ฐ์ดํŠธ): ์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ์— ๊ธฐ๋ฐ˜ํ•œ ์—…๋ฐ์ดํŠธ ๋ชจ๋ธ ๋ฌด๊ฒŒ, ๋†’์€ ๋Œ€์—ญํญ ์ค‘์•™ํ™” ๋…ธ๋“œ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹คใ€‚

de-centre isomeric power ๊ตฌ์กฐ์˜ "debate-train"์ž์—ฐ์ ์ธ ์กฐํ•ฉ: ๋กค์•„์›ƒ์€ ํ† ํฐ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ๊ธฐ์—ฌ๋ฅผ ์ •์ฐฉํ•˜๊ธฐ ์œ„ํ•ด ๊ฐœ๋ฐฉํ˜• ๋„คํŠธ์›Œํฌ์— ์ฐธ์—ฌํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ชจ๋ธ ์—…๋ฐ์ดํŠธ๋Š” ์•ˆ์ •์„ฑ์„ ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•ด ๋†๋„๋ฅผ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹คใ€‚

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #์ธ์ฆ ๋ฐ ์ธ์ฆ

ZK ๋ฐ Proof-of-Learning์€ ๋…ธ๋“œ๊ฐ€ ์ด์œ ์— ์ง„์‹คํ•˜๊ณ  ๊ฐœ๋ฐฉ ๋„คํŠธ์›Œํฌ์—์„œ ์ •์ง์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š”์ง€ ํ™•์ธํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ฝ”๋“œ, ์ˆ˜ํ•™์ ์ธ ์ด์œ ์™€ ๊ฐ™์€ ํŠน์ • ์ž‘์—…์—์„œ๋Š”, certifier๋Š” ์›Œํฌ๋กœ๋“œ๋ฅผ ํ™•์ธํ•˜๋Š” ๋‹ต๋ณ€์„ ํ™•์ธํ•˜๊ณ  ๋ถ„์‚ฐ ๋œ RL ์‹œ์Šคํ…œ์˜ ์‹ ๋ขฐ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹คใ€‚

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #์ธ์„ผํ‹ฐ๋ธŒ ๋ ˆ์ด์–ด, ํ†ตํ™” ๊ฒฝ์ œ์— ๊ธฐ๋ฐ˜ํ•œ ํ”ผ๋“œ๋ฐฑ ์ƒ์‚ฐ ๋ฉ”์ปค๋‹ˆ์ฆ˜

Web3 's ํ† ํฐ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ RLHF/RLAIF 's ์„ ํ˜ธํ•˜๋Š” ํ”ผ๋“œ๋ฐฑ ๊ธฐ์—ฌ์ž๊ฐ€ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์„ ์œ„ํ•ด ํˆฌ๋ช…ํ•˜๊ณ  ๋ช…ํ™•ํ•˜๊ณ  ๋น„ ์œ ๋ฆฌํ•œ ์ธ์„ผํ‹ฐ๋ธŒ ๊ตฌ์กฐ๋ฅผ ์ œ๊ณตํ•จ์œผ๋กœ์จ ๋ณด์ƒํ•ฉ๋‹ˆ๋‹ค. ๊ถŒ๊ณ  ๋ฐ ๊ฐ์†Œ (Staking/Slashing)์€ ํ”ผ๋“œ๋ฐฑ์˜ ํ’ˆ์งˆ์„ ์ œํ•œํ•˜๊ณ  ์ „ํ†ต์ ์ธ ํฌ๋ผ์šฐ๋“œ ํŒจํ‚ค์ง€๋ณด๋‹ค ๋” ํšจ์œจ์ ์ด๊ณ  ์ •๋ ฌ ๋œ ํ”ผ๋“œ๋ฐฑ ์‹œ์žฅ์„ ๋งŒ๋“ญ๋‹ˆ๋‹คใ€‚

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #MULTI-INTELLECTUAL ํ–ฅ์ƒ๋œ ํ•™์Šต (MARL) ์ž ์žฌ๋ ฅ

๋ธ”๋ก ์ฒด์ธ์€ ๊ทผ๋ณธ์ ์œผ๋กœ ๊ฐœ๋ฐฉ์ ์ด๊ณ  ํˆฌ๋ช…ํ•˜๋ฉฐ ์ง€์†์ ์œผ๋กœ ์ง„ํ™”ํ•˜๋Š” ๋ฉ€ํ‹ฐ ์ธTELLECTUAL ํ™˜๊ฒฝ์ด๋ฉฐ, ๊ณ„์ •, ๊ณ„์•ฝ ๋ฐ ์ง€๋Šฅํ˜• ๊ธฐ๊ด€์€ ์ „๋žต์„ ์กฐ์ •ํ•˜๊ธฐ ์œ„ํ•ด ์ง€์†์ ์œผ๋กœ ๋™๊ธฐ๋ฅผ ๋ถ€์—ฌํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ MARL ์‹คํ—˜์‹ค์„ ๊ตฌ์ถ•ํ•˜๋Š” ์ž์—ฐ ์ž ์žฌ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ดˆ๊ธฐ ๋‹จ๊ณ„์— ์—ฌ์ „ํžˆ, ๊ทธ ์ƒํƒœ์˜ ๊ณต๊ฐœ, VERIFIABLE ๋ฐ PROGRAMMABLE ํŠน์„ฑ์˜ ๊ตฌํ˜„์€ MARL์˜ ๋ฏธ๋ž˜ ๊ฐœ๋ฐœ์— ๋Œ€ํ•œ ์›์น™์  ์ด์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹คใ€‚

Classic Web3 + ํ–ฅ์ƒ๋œ ํ•™์Šต ํ”„๋กœ์ ํŠธ ๋ถ„์„

์œ„์—์„œ ์„ค๋ช…ํ•œ ๊ฐœ๋…์ ์ธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํ˜„์žฌ ์ƒํƒœ์˜ ๊ฐ€์žฅ ๋Œ€ํ‘œ์ ์ธ ํ”„๋กœ์ ํŠธ์˜ ๊ฐ„๋žตํ•œ ๋ถ„์„์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค

Prime Intellact : ๋‹จ๊ณ„๋ณ„ ํ–ฅ์ƒ๋œ ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„

Prime Intellect๋Š” ๊ธ€๋กœ๋ฒŒ ๊ฐœ๋ฐฉํ˜• ์ปดํ“จํŒ… ์‹œ์žฅ์„ ๊ตฌ์ถ•ํ•˜๊ธฐ ์œ„ํ•ด ์ตœ์„ ์„ ๋‹คํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ต์œก ์ž„๊ณ„๊ฐ’์„ ๋‚ฎ์ถ”๊ณ  ํ˜‘๋ ฅ์ ์ธ ํƒˆ์ค‘์•™ํ™”๋ฅผ ์ด‰์ง„ํ•˜๊ณ  ์ „์ฒด ์˜คํ”ˆ ์†Œ์Šค ์Šˆํผ ์ธํŠธelligence ๊ธฐ์ˆ ์„ ๊ฐœ๋ฐœํ•ฉ๋‹ˆ๋‹ค. ์ด ์‹œ์Šคํ…œ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค : ํ”„๋ผ์ž„ ์ปดํ“จํŒ… (Uniform Cloud/Distributional Computing Environment), Intellect Model Family (10B-1000B+), Open Enhanced Learning Environments (Environments Hub) ๋ฐ ๋Œ€๊ทœ๋ชจ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์—”์ง„ (SYNTHETIC-1/2) ์„ผํ„ฐใ€‚

์ฃผ์š” ์ธํ”„๋ผ ํ•ต์‹ฌ ์ธํ”„๋ผ ํšŒ์‚ฌ์—ฐํ˜์ฃผ์š” rlํ”„๋ ˆ์ž„ ์›Œํฌ๋Š” ์ด์‹์  ํ™˜๊ฒฝ์„ ์œ„ํ•ด ํŠน๋ณ„ํžˆ ์„ค๊ณ„๋˜์—ˆ์œผ๋ฉฐ, ๋Œ€์—ญํญ ๋ณ‘๋ชฉ์„ ๊นจ๋Š” ๊ฒƒ์„ ํฌํ•จํ•˜์—ฌ ๋‚˜๋จธ์ง€์™€ ํ•จ๊ป˜ ํ–ฅ์ƒ๋œ ํ•™์Šต์— ๋งค์šฐ ๊ด€๋ จ์ด ์žˆ์Šต๋‹ˆ๋‹คOpenDiLoCo ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜ ํ”„๋กœํ† ์ฝœ๊ณ„์‚ฐ์˜ ๋ฌด๊ฒฐ์„ฑTopLoc ์ธ์ฆ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ž์„ธํžˆ๋ณด๊ธฐใ€‚

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #์ฃผ์š” ์ธํ”„๋ผ ํ•ต์‹ฌ ์ธํ”„๋ผ ํšŒ์‚ฌ์—ฐํ˜

ๅ›พ็‰‡

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #๊ธฐ์ˆ  ๊ฑด๋ฌผ ๊ตฌํš: ์ฃผ์š”ํ•œ rl ๋‹จ๊ณ„ ์ฆ์ง„ ํ•™์Šต ํ”„๋ ˆ์ž„

์ฃผ์š” rl๊ทธ๊ฒƒ์€ ๋Œ€๊ทœ๋ชจ ๋„๋ณด ์„ผํ„ฐ ํ™˜๊ฒฝ ๋””์ž์ธ์„ ์œ„ํ•ด ๋””์ž์ธ๋œ ์ฃผ์š”ํ•œ Intelect์˜ ํ•ต์‹ฌ ํ›ˆ๋ จ ์—”์ง„์ž…๋‹ˆ๋‹ค๋ฐฐ์šฐ-Learner๋†’์€ ์ธ์žฅ๋ ฅ์˜ ์™„๋ฒฝํ•œ ๋””์ฝ”๋”ฉ ๋ฐ ์•ˆ์ •์ ์ธ ๊ฐฑ์‹ ใ€‚์‹คํ–‰๊ธฐ (Rollout Worker)ยทํ•™์Šต์ž (Trainer)๋น„๋™๊ธฐ ์ฐจ๋‹จ ์—†์ด ๋…ธ๋“œ๊ฐ€ ์ถ”๊ฐ€๋˜๊ฑฐ๋‚˜ ์‚ญ์ œ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์—…๋กœ๋“œ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค

ๅ›พ็‰‡
  • ์‹คํ–‰์ž ๋ฐฐ์šฐ (Rollout Workers): ๋ชจ๋ธ๋ง ์‚ฌ๊ณ  ๋ฐ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์— ์ฑ…์ž„์ด ์žˆ์Šต๋‹ˆ๋‹ค. Prime Intelect๋Š” Actor ๋์— vLLM reasoning ์—”์ง„์„ ํ˜์‹ ์ ์œผ๋กœ ์กฐ๋ฆฝํ–ˆ์Šต๋‹ˆ๋‹ค. vLM PagedAttention ๊ธฐ์ˆ  ๋ฐ ์—ฐ์† ๋ฐฐ์น˜์˜ ๊ธฐ๋Šฅ์€ Actor๊ฐ€ ๋งค์šฐ ๋†’์€ ์ฒ˜๋ฆฌ๋Ÿ‰์— ๋Œ€ํ•œ ์ด์œ ๋ฅผ ์ƒ์„ฑ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹คใ€‚

  • ํ•™์Šต์ž ํ•™์Šต์ž (Trainer)์ „๋žต ์ตœ์ ํ™”์— ๋Œ€ํ•œ ์ฑ…์ž„. Learner๋Š” ๋ฒ„ํผ ์กด์—์„œ ๊ณต์œ  ๊ฒฝํ—˜์„ ํ†ตํ•ด ํ˜„์žฌ์˜ ๋ฐฐ์น˜๋ฅผ ์™„๋ฃŒํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋“  ๋ฐฐ์šฐ๋ฅผ ๊ธฐ๋‹ค๋ฆฌ์ง€ ์•Š๊ณ  ๊ทธ๋ผ๋””์–ธํŠธ๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹คใ€‚

  • ์ขŒํ‘œ๊ณ„ (Orchestra): ๋ชจ๋ธ ๋ฌด๊ฒŒ์™€ ๋ฐ์ดํ„ฐ ํ๋ฆ„์˜ ์›€์ง์ž„์— ๋Œ€ํ•œ ์ฑ…์ž„ใ€‚

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #prime-rl์˜ ํ•ต์‹ฌ ํ˜์‹ ์ 

  • ์ง„์ •ํ•œ Asynchrony: Prime-rl์€ PPO์˜ ์ „ํ†ต์ ์ธ ๋™๊ธฐ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ํฌ๊ธฐํ•˜๋ฏ€๋กœ ์ผ๊ด„ ์ •๋ ฌ์—†์ด ๋А๋ฆฐ ์ง€์ ์„ ๊ธฐ๋‹ค๋ฆฌ์ง€ ์•Š๊ณ  GPU์˜ ์–ด๋–ค ๋ฒˆํ˜ธ์™€ ์„ฑ๋Šฅ์ด RL์˜ ํƒˆ์ค‘์•™ํ™”์˜ ์šฐ์ •์„ ๋†“์•„ ์–ธ์ œ๋“ ์ง€ ์•ก์„ธ์Šค ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹คใ€‚

  • ๊นŠ์ด ํ†ตํ•ฉ FSDP2 ๋ฐ MoE: FSDP2 ๋งค๊ฐœ ๋ณ€์ˆ˜ ์Šฌ๋ผ์ด์Šค์™€ MoE ์–‡์€ ํ™œ์„ฑํ™”๋ฅผ ํ†ตํ•ด, ํ”„๋ผ์ž„์€ ๋ถ„์‚ฐ ๋œ ํ™˜๊ฒฝ์—์„œ ํšจ์œจ์ ์œผ๋กœ ํ›ˆ๋ จ ํ•  ์ˆ˜ 100 ์–ต ๊ทœ๋ชจ์˜ ๋ชจ๋ธ์„ ํ—ˆ์šฉํ•˜๊ณ , ๋ฐฐ์šฐ๋Š” ๋‹จ์ง€ ํ™œ์„ฑ ์ „๋ฌธ๊ฐ€๋ฅผ ์‹คํ–‰, ํฌ๊ฒŒ ๊ฐ€์‹œ์„ฑ๊ณผ ์ด์œ ์˜ ๋น„์šฉ์„ ๊ฐ์†Œใ€‚

  • GRPO+ (๊ทธ๋ฃน ๊ด€๊ณ„ ์ •์ฑ… ์กฐ์ง): GRPO๋Š” clitic ๋„คํŠธ์›Œํฌ๋ฅผ ๋ฉด์ œํ•˜๊ณ , ํฌ๊ฒŒ ๊ณ„์‚ฐ ๋ฐ ๊ฐ€์‹œ์  ๋น„์šฉ, ์ž์—ฐ์  ๋น„ํ‹€์–ด์ง„ ํ™˜๊ฒฝ ๋ฐ pime-rl์˜ gRPO +๋Š” ์•ˆ์ • ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ๋†’์€ ์ง€์—ฐ ์กฐ๊ฑด ํ•˜์—์„œ ์‹ ๋ขฐํ•  ์ˆ˜์žˆ๋Š” ์ˆ˜์ถ•์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹คใ€‚

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #์ œํ’ˆ์ •๋ณด ๋ชจํ˜• ๊ฐ€์กฑ: RL ๊ธฐ์ˆ  ์„ฑ์ˆ™์˜ ํƒˆ์ค‘์•™ํ™”์˜ ์ƒ์ง•

  • INTERLECT-1 (10B, 10์›” 2024)์ฒ˜์Œ์—, OpenDiLoCo๋Š” 3๊ฐœ์˜ ๋Œ€๋ฅ™ (ํ†ต์‹  <2 per cent, calculus utilization 98 per cent)์— ๊ฑธ์ณ isomer ๋„คํŠธ์›Œํฌ์—์„œ ํšจ๊ณผ์ ์ธ ํ›ˆ๋ จ์„ ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค, ๊ต์ฐจ๋กœ ํ›ˆ๋ จ์˜ ๋ฌผ๋ฆฌ์  ์ธ์‹์„ ํŒŒ๊ดด

  • INTERLECT-2 (32B, 4์›” 2025)(a) ์ „ ์„ธ๊ณ„ ์˜คํ”ˆ ์ปฌ์ฒ˜ ์ฐธ์—ฌ์˜ ํƒˆ์ค‘์•™ํ™”์— ๋Œ€ํ•œ ๋‹ค๋‹จ๊ณ„ ์ง€์—ฐ ๋ฐ ๊ฐ€๋ณ€ ํ™˜๊ฒฝ์˜ ์ฃผ์š” RL ๋ฐ GRPO +์˜ ๊พธ์ค€ํ•œ ์ˆ˜์ง‘ ์šฉ๋Ÿ‰์˜ ๊ฒ€์ฆ

  • INTERLECT-3 (106B ๋ชจ, 11 ์›” 2025)12B ๋งค๊ฐœ ๋ณ€์ˆ˜๋งŒ ํ™œ์„ฑํ™”ํ•˜๋Š” ์–‡์€ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ 512xH200์˜ ๊ต์œก ๋ฐ ์ฃผ๋ ฅ ์†Œ์‹ฑ ์„ฑ๋Šฅ (AIME 90.8 ํผ์„ผํŠธ, GPQA 74.4 ํผ์„ผํŠธ, MMLU-Pro 81.9 ํผ์„ผํŠธ ๋“ฑ)์€ ์ „๋ฐ˜์ ์ธ ์„ฑ๋Šฅ์ด ๋” ๊ฐ€๊นŒ์ด ๋˜๋Š” ์ž์ฒด ์ค‘์•™ ์ง‘์ค‘์‹ ํ์‡„ ์ž์› ๋ชจ๋ธ์„ ์ดˆ๊ณผํ–ˆ์Šต๋‹ˆ๋‹คใ€‚

๋˜ํ•œ ๋ช‡ ๊ฐ€์ง€ ์ง€์› ์ธํ”„๋ผ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค์˜คํ”ˆDiLoCo(A) 100 ๋ฐฐ์— ์˜ํ•˜์—ฌ ๊ต์ฐจํ•˜๋Š” ํ›ˆ๋ จ์„ ์œ„ํ•œ ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜์˜ ์–‘์„ ๊ฐ์†Œ์‹œํ‚ค์‹ญ์‹œ์˜ค ์‹œ๊ฐ„ ์–‡์€ ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜๊ณผ ์–‘์  ๋ฌด๊ฒŒ ์‚ฌ์ด ๋‹ค๋ฆ„, TRANSCONTINENTAL ๋„คํŠธ์›Œํฌ์— ์žˆ๋Š” 98์˜ INTELLECT-1 ์ด์šฉ ๋น„์œจ์„ ์ง€ํ‚ค๊ธฐTopLoc + ์–ด๋Œ‘ํ„ฐ์ด๋ฆ„ *์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์ž„์› ์ˆ˜์ค€์„ ์ค‘์•™ํ™”ํ•ฉ๋‹ˆ๋‹ค์ง€๋ฌธ ๋ฐ ์ƒŒ๋“œ๋ฐ•์Šค ๊ฒ€์ฆ์„ ํ™œ์„ฑํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์ด์œ ์™€ ๋ณด์ƒ ๋ฐ์ดํ„ฐ์˜ ์ •์ฒด์„ฑ์„ ๋ณด์žฅ์ œํ’ˆ์ •๋ณด ๋ฐ์ดํ„ฐ ์—”์ง„์†Œ์‹ฑ์˜ ๋Œ€๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ ์ฒด์ธ์ด ์ƒ์‚ฐ๋˜๊ณ , ํ๋ฆ„ ๋ผ์ธ์€ ์†Œ๋น„์ž ๋“ฑ๊ธ‰ GPU ํด๋Ÿฌ์Šคํ„ฐ์˜ ํšจ์œจ์ ์ธ ์ž‘๋™์œผ๋กœ 671B ๋ชจ๋ธ์„ ๋ณ‘๋ ฌํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ตฌ์„ฑ ์š”์†Œ๋Š” RL ๋ฐ์ดํ„ฐ ์ƒ์„ฑ, ๊ฒ€์ฆ ๋ฐ ์†Œ์‹ฑ์˜ ํƒˆ์ค‘์•™ํ™”์— ์ค‘์š”ํ•œ ์—”์ง€๋‹ˆ์–ด๋ง ๊ธฐ์ง€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋‚˜..์ฃผ์š”๋ฉ”๋‰ด ์ œํ’ˆ์ •๋ณด์„ธ๊ณ„์  ์ˆ˜์ค€์˜ ๋ชจ๋ธ์˜ ์‹œ๋ฒ”์€ ์‹ฌ์ธต์  ๊ต์œก ์‹œ์Šคํ…œ์˜ ์‹ค์ œ ๋‹จ๊ณ„์— ๊ฐœ๋…์˜ ์›€์ง์ž„์„ ํ‘œ์‹œ ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹คใ€‚

Gensyn : RL Swarm ๋ฐ SAPO ๊ฐ•ํ™” ํ•™์Šต

Gensyn์˜ ๋ชฉํ‘œ๋Š” ๊ธ€๋กœ๋ฒŒ ์œ ํœด ์ปดํ“จํŒ… ์ „๋ ฅ์„ ๊ฐœ๋ฐฉ์ ์ด๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๊ณ  ๋ฌด์ œํ•œ AI ๊ต์œก ์ธํ”„๋ผ๋กœ ํ•จ๊ป˜ ๊ฐ€์ ธ์˜ฌ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ทธ๊ฒƒ์˜ ํ•ต์‹ฌ์€ ๋‹ค์Œ์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค:Cross-Equipment ํ‘œ์ค€ ๊ตฌํ˜„ ์ˆ˜์ค€๋‚˜๋Š” ๋ชจ๋ฅธ๋‹คPoint-to-point ์กฐ์ • ๋„คํŠธ์›Œํฌยท์‹ ๋ขฐ์—†์ด ์ž‘์—… ๊ฒ€์ฆ ์‹œ์Šคํ…œ์Šค๋งˆํŠธ ์ปจํŠธ๋ž™ํŠธ๋ฅผ ํ†ตํ•ด ์ž‘์—…๊ณผ ๋ณด์ƒ์„ ์ž๋™์œผ๋กœ ํ• ๋‹นํ•ฉ๋‹ˆ๋‹ค. Gensyn ์†Œ๊ฐœRL ์ˆ˜์˜๋‚˜๋Š” ๋ชจ๋ฅธ๋‹คSAPO ์†Œ๊ฐœยท์ฑ„์šฉ์ •๋ณดํ•ต์‹ฌ ๊ธฐ๊ณ„์žฅ์น˜์™€ ๊ฐ™์€ ๋‹ค๋ฅธ ๊ธฐ๊ณ„์žฅ์น˜๋Š”, ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค์ƒ์„ฑ, ํ‰๊ฐ€, ์—…๋ฐ์ดํŠธ์„ธ๊ณ„ ์ด๋…ธ๋จธ GPU ๊ทธ๋ฃน์„ ์‚ฌ์šฉํ•˜์—ฌ 3 ๊ฐœ์˜ ์ปคํ”Œ๋ง์ด ๊ณต๋™์œผ๋กœ ์ง„ํ™”ํ•ฉ๋‹ˆ๋‹ค. ๊ถ๊ทน์  ์ธ ๋ฐฐ๋‹ฌ์€ ๋‹จ์ˆœํ•œ ๊ณ„์‚ฐ์ด ์•„๋‹ˆ์ง€๋งŒ ๊ฐ„๋‹จํ•œ ๊ฒƒVerifiable ์ง€๋Šฅ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹คใ€‚

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #Gensyn Stacks์— ๋Œ€ํ•œ ํ–ฅ์ƒ๋œ ํ•™์Šต ์‘์šฉ

ๅ›พ็‰‡

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #RL Swarm : ์ง‘์ค‘์ ์ธ ํ˜‘์—… ์ง‘์ค‘ ํ•™์Šต ์—”์ง„

RL ์ˆ˜์˜ํ˜‘์—…์˜ ์™„์ „ํžˆ ์ƒˆ๋กœ์šด ๋ชจ๋ธ์ด ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๊ฒƒ์€ ๋” ์ด์ƒ ๊ฐ„๋‹จํ•œ ์ž‘์—… ๋ฐฐํฌ๊ฐ€ ์•„๋‹ˆ์ง€๋งŒ, ์ธ๊ฐ„ ์‚ฌํšŒ ํ•™์Šต์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•˜๋Š” "์ž‘์šฉ"์ฃผ๊ธฐ, ๊ณต๋™ ํ•™์Šต ํ”„๋กœ์„ธ์Šค์˜ ์ข…๋ฅ˜, ๋ฌดํ•œ ์‚ฌ์ดํด์„ ํƒˆ์ค‘์•™ํ™” :

  • ํ•ด๊ฒฐํ•˜๊ธฐ: ๋กœ์ปฌ ๋ชจ๋ธ ์†Œ์‹ฑ ๋ฐ ๋กค์•„์›ƒ ์„ธ๋Œ€์— ๋Œ€ํ•œ ์ฑ…์ž„, ๋…ธ๋“œ ๋‹จ์—ด์— ํ•ด ์—†์Œ. Gensyn, ํ˜„์ง€ ํ†ตํ•ฉ ๋†’์€ ๋ณผ๋ฅจ ์ด์œ  ์—”์ง„ (e.g. CodeZero), ๊ทธ๋ƒฅ ๋‹ต๋ณ€๋ณด๋‹ค๋Š” ์™„์ „ํ•œ ํŠธ๋ž™์„ ์ถœ๋ ฅ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹คใ€‚

  • ํšŒ์‚ฌ ์†Œ๊ฐœ: Dynamic Generation Task (mathematical ์งˆ๋ฌธ, ์ฝ”๋“œ ์งˆ๋ฌธ ๋“ฑ)์ปค๋ฆฌํ˜๋Ÿผ ํ•™์Šต์€ ์–ด๋ ค์›€์— ์ ์‘๋‚˜๋Š” ๋ชจ๋ฅธ๋‹คใ€‚

  • ์ฆ๋ฐœ๊ธฐ: ๋™๊ฒฐ โ€œjudgment modelโ€ ๋˜๋Š” ๊ทœ์น™์„ ์‚ฌ์šฉํ•˜์—ฌ ๋กœ์ปฌ ๋กค์•„์›ƒ์˜ ํ‰๊ฐ€๋กœ์ปฌ ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ์ƒ์„ฑ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค. ํ‰๊ฐ€ ๊ณผ์ •์€ ํ•™๋Œ€๋ฅผ ์œ„ํ•œ ๋ฒ”์œ„๋ฅผ ๊ฐ์†Œ์‹œํ‚ค๊ธฐ ์œ„ํ•˜์—ฌ ๊ฐ์‚ฌ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹คใ€‚

ํ•จ๊ป˜, ๊ทธ๋“ค์€ ์ค‘์•™ ์šด๋™ ํ†ต์ œ๋ฅผ ์œ„ํ•œ ํ•„์š” ์—†์ด ๋Œ€๊ทœ๋ชจ ํ˜‘๋ ฅ ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•  P2P RL ์กฐ์ง ๊ตฌ์กฐ๋ฅผ ํ˜•์„ฑํ•ฉ๋‹ˆ๋‹คใ€‚

ๅ›พ็‰‡

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #SAPO: ํƒˆ์ค‘์•™ํ™” ์ „๋žต์„ ์œ„ํ•œ ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜

SAPO (Swarm Samping ์ •์ฑ… ์ตœ์ ํ™”)"Shared Rollout ๋ฐ ๊ณต์œ  ๋œ gradients ๋Œ€์‹  ๋น„ ์กธ์—… ์‹ ํ˜ธ ์ƒ˜ํ”Œ"ํ•ต์‹ฌ์—์„œ, no-centre coordination์— ์˜ํ•ด ํŠน์ง•์ธ ํ™˜๊ฒฝ์— ์žˆ๋Š” ๊พธ์ค€ํ•œ ์ˆ˜์ถ•์€, ์ง€์—ฐ๋œ ๋…ธ๋“œ, ๊ตญ๋ถ€์ ์œผ๋กœ ์ƒ์„ฑ๋˜๊ธฐ ์œ„ํ•˜์—ฌ ๊ณ ๋ ค๋œ Rollout ํ‘œ๋ณธ์˜ ๋Œ€๊ทœ๋ชจ ํƒˆ์ค‘์•™ํ™”๋ฅผ ํ†ตํ•ด์„œ ๋‹ฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์†Œ๋น„์ž ์ˆ˜์ค€์˜ GPU๋Š” Critic ๋„คํŠธ์›Œํฌ, ๊ณ ๋น„์šฉ PPO ๋˜๋Š” GRPOs์— ๋น„ํ•ด ๋งค์šฐ ๋‚ฎ์€ ๋Œ€์—ญํญ๊ณผ ๋Œ€๊ทœ๋ชจ ํ–ฅ์ƒ๋œ ํ•™์Šต ์ตœ์ ํ™”์— ํšจ๊ณผ์ ์œผ๋กœ ์ฐธ์—ฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹คใ€‚

ํŒจ์Šค์›Œ๋“œRL ์ˆ˜์˜๊ณผ SAPOGensyn๋Š” ์ง‘์ค‘ ํ•™์Šต์˜ ์ฆ๊ฑฐ์ž…๋‹ˆ๋‹ค(ํŠนํžˆ RLVR ํฌ์ŠคํŠธ ํ›ˆ๋ จ ๋‹จ๊ณ„)์ฒœ์—ฐ ํ”ผํŒ… ํƒˆ์ค‘์•™ํ™” ๊ตฌ์กฐ - ๋Œ€ํ˜• ๋ฐ ๋‹ค๊ฐํ™” ํƒํ—˜ (Rollout)์— ๋” ์˜์กดํ•˜๋ฏ€๋กœ HF ๋งค๊ฐœ ๋ณ€์ˆ˜์˜ ๋™๊ธฐํ™”๋ณด๋‹ค. PoL ๋ฐ Verde์˜ ์ธ์ฆ ์‹œ์Šคํ…œ๊ณผ ํ•จ๊ป˜ Gensyn์€ ๋‹จ์ผ ๊ธฐ์ˆ  ๊ฑฐ๋Œ€์— ๋” ์ด์ƒ ์˜์กดํ•˜์ง€ ์•Š๋Š” ์กฐํ˜• ๋งค๊ฐœ ๋ณ€์ˆ˜ ๋ชจ๋ธ์—์„œ ํ›ˆ๋ จํ•˜๋Š” ๋Œ€์•ˆ ๊ฒฝ๋กœ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค์ „ ์„ธ๊ณ„ ์ˆ˜๋ฐฑ๋งŒ ๋ช…์˜ ์ด๋…ธ๋จธ ๋„คํŠธ์›Œํฌ๋ฅผ ์ž์ฒด ์ง„ํ™”ํ–ˆ์Šต๋‹ˆ๋‹คใ€‚

Nous Research: ๊ฒ€์ฆ๋œ ํ•™์Šต ํ™˜๊ฒฝAtropos

Nous Research๋Š” ์„ค์ •๋œ ๊ฑด๋ฌผ์ž…๋‹ˆ๋‹ค์ค‘์•™, ์ž๊ธฐ ์ง„ํ™” ์ธ์‹ ์ธํ”„๋ผ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค. ๊ทธ๊ฒƒ์˜ ํ•ต์‹ฌ ์„ฑ๋ถ„ - Hermes, Atropos, DisTrO, Psyche ๋ฐ World Sim - ๊ณ„์† ๋‹ซํžˆ๋Š” ์ง€์  ์ง„ํ™”์˜ ์ฒด๊ณ„๋กœ ์กฐ์ง๋ฉ๋‹ˆ๋‹ค. ์ „ํ†ต์ ์ธ "pre-training-post-training-debate" ์„ ํ˜• ํ”„๋กœ์„ธ์Šค์™€๋Š” ๋‹ฌ๋ฆฌ, Nos๋Š” DPO, GRPO, ์ƒ˜ํ”Œ๋ง์˜ ๋ฐ€๋„์™€ ๊ฐ™์€ ํ–ฅ์ƒ๋œ ํ•™์Šต ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ, ๊ฒ€์ฆ, ํ•™์Šต ๋ฐ ์ง€์†์ ์ธ ํ”ผ๋“œ๋ฐฑ ๋ฃจํ”„๋กœ ์†Œ๋ชจํ•˜๊ณ  ์ง€์†์ ์ธ ์ž๊ธฐ ๊ฐœ์„  AI ์ƒํƒœ์˜ ํ์‡„ ๋ฃจํ”„๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹คใ€‚

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #Nous ์—ฐ๊ตฌ ๊ตฌ์„ฑ ์š”์†Œ ๊ฐœ์š”

ๅ›พ็‰‡

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #๋ชจํ˜• ์ธต: Hermes์™€ reasoning ๊ธฐ๋Šฅ์˜ ์ง„ํ™”

ํ—ค๋ฅด๋ฉ”์Šค ์‹œ๋ฆฌ์ฆˆ๋Š” ๋…ธ์šฐ์Šค ์—ฐ๊ตฌ์˜ ์ฃผ์š” ์‚ฌ์šฉ์ž ์ค‘์‹ฌ ๋ชจ๋ธ ์ธํ„ฐํŽ˜์ด์Šค์ด๋ฉฐ, ๊ทธ ์ง„ํ™”๋Š” ๊ธฐ์กด SFT / DPO ์ •๋ ฌ์—์„œ ์—…๊ณ„ ๋งˆ์ด๊ทธ๋ ˆ์ด์…˜์˜ ๊ฒฝ๋กœ๋ฅผ ๋ช…ํ™•ํ•˜๊ฒŒ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค

  • Hermes 1-3 : ์ง์ ‘ ์ •๋ ฌ ๋ฐ ์ดˆ๊ธฐ ๊ธฐ๊ด€ ์šฉ๋Ÿ‰Hermes 1-3๋Š” ๊ฐ•๋ ฅํ•œ ๋ช…๋ น ์ •๋ ฌ์„ ์™„๋ฃŒํ•˜๊ธฐ ์œ„ํ•ด ์ €๋น„์šฉ DPO์— ์˜์กดํ•˜๋ฉฐ Hermes 3์—์„œ Atropos ๊ฒ€์ฆ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์ฒซ ๋ฒˆ์งธ ์†Œ๊ฐœ์™€ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹คใ€‚

  • ํ—ค๋ฅด๋ฉ”์Šค 4 / Deephermes: ์ƒ๊ฐ ์ฒด์ธ์„ ํ†ตํ•ด ๋ฌด๊ฒŒ๊ฐ€ ๋А๋ฆฌ๋ฉฐ, Teest-Time Scaling์˜ ์ˆ˜ํ•™ ๋ฐ ์ฝ”๋“œ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ , "No Sampling + Appropos Authentication"์— ์˜์กดํ•˜์—ฌ ๊ณ ์ˆœ๋„ ์†Œ๋ชจ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์ถ•ํ•˜์‹ญ์‹œ์˜คใ€‚

  • ํšŒ์‚ฌ ์†Œ๊ฐœPsyche๊ฐ€ RL์„ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ ๋ฅผ ํ—ˆ์šฉํ•˜๊ธฐ ์œ„ํ•ด ํ•˜๋“œ ํˆฌ ๋ถ„์‚ฐ PPO ๋Œ€์‹  GRPO์˜ ์ถ”๊ฐ€ ์‚ฌ์šฉ์€ GPU ๋„คํŠธ์›Œํฌ์— ๋ถ„์‚ฐ, RL์˜ ํ™•์žฅ์„์œ„ํ•œ ์—”์ง€๋‹ˆ์–ด๋ง ๊ธฐ๋ฐ˜์„ ๋†“ใ€‚

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #Agropos : ์ธ์„ผํ‹ฐ๋ธŒ๋ฅผ ๊ฒ€์ฆ ํ•  ์ˆ˜์žˆ๋Š” ํ–ฅ์ƒ๋œ ํ•™์Šต ํ™˜๊ฒฝ

Atropos๋Š” Nous RL ์ฒด๊ณ„์˜ ์ง„์‹คํ•œ ํ—ˆ๋ธŒ์ž…๋‹ˆ๋‹ค. ๊ทธ๊ฒƒ์€ ๋์„ ์œ„ํ•œ ํ‘œ์ค€ํ™”ํ•œ RL ํ™˜๊ฒฝ์œผ๋กœ ์‚ฐ์ถœ์˜ ์ง์ ‘์ ์ธ ๊ฒ€์ฆ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค, ๊ณต๊ตฌ ์™ธ์นจ, ๋ถ€ํ˜ธ ์‹คํ–‰ ๋ฐ ์ƒํ˜ธ ์ž‘์šฉํ•˜๋Š” ์บก์А์˜ ๋‹ค์ˆ˜ ๋‘ฅ๊ทผ, ๋”ฐ๋ผ์„œ ๋น„ ์œ ์—ฐํ•œ ์ธ๊ฐ„์ ์ธ ์ƒํ‘œ๋ฅผ ๋Œ€์ฒดํ•˜๊ธฐ ์œ„ํ•˜์—ฌ definite ์ง‘์ค‘๋œ ์‹ ํ˜ธ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋” ์ค‘์š”ํ•œ ๊ฒƒ์€ ์ค‘์•™ ์ง‘์ค‘์‹ ๊ต์œก ๋„คํŠธ์›Œํฌ Psyche์—์„œ Agropos๋Š” ๋…ธ๋“œ์˜ ์ง„์ •ํ•œ ์—…๊ทธ๋ ˆ์ด๋“œ ์ „๋žต์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด "judgment"๋กœ ์ž‘๋™ํ•˜๋ฉฐ ๊ฐ์‚ฌ ๊ฐ€๋Šฅํ•œ Proof-of-Learning์„ ์ง€์›ํ•˜๊ธฐ ์œ„ํ•ด ๋ฐฐํฌ ๋œ RL์—์„œ ์ƒ์˜ ์‹ ๋ขฐ์„ฑ์„ ๊ทผ๋ณธ์ ์œผ๋กœ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹คใ€‚

ๅ›พ็‰‡

# ๋‚˜๋Š” ๋ชจ๋ฅธ๋‹ค #DisTrO ๋ฐ Psyche : ๋ถ„์‚ฐ ๋œ ์ง‘์ค‘ ํ•™์Šต์„์œ„ํ•œ ์ตœ์ ํ™” ์ธต

์ „ํ†ต์ ์ธ RLF (RLHF/RLAIF) ํ›ˆ๋ จ์€ ์ค‘์•™ ์ง‘์ค‘๋œ ๋†’ ๋Œ€์—ญํญ ํด๋Ÿฌ์Šคํ„ฐ์—, ์—ด๋ ค์žˆ๋Š” ๊ทผ์›์— ์˜ํ•ด ๋ณต์ œ๋  ์ˆ˜ ์—†๋Š” ํ•ต์‹ฌ ์žฅ๋ฒฝ ์˜์กดํ•ฉ๋‹ˆ๋‹ค. DisTrO๋Š” kinetic ๊ตฌ๊ฒฝ์ธก์ •๊ณผ gradients๋ฅผ ์••์ถ•ํ•˜์—ฌ ๋ช‡ ๊ฐ€์ง€ ์ˆœ์„œ๋กœ RL ํ†ต์‹  ๋น„์šฉ์„ ์ ˆ๊ฐํ•˜๊ณ  ์ธํ„ฐ๋„ท ๋Œ€์—ญํญ์—์„œ ์ž‘๋™ํ•˜๋„๋ก ํ›ˆ๋ จ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Psyche๋Š” ์ด ํ›ˆ๋ จ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ฒด์ธ์—์„œ ๋„คํŠธ์›Œํฌ์— ๋ฐฐํฌํ•˜๋ฏ€๋กœ ๋…ธ๋“œ๋Š” ๊ทธ ์ด์œ , ์œ ํšจ์„ฑ, ๋ณด์ƒ ํ‰๊ฐ€ ๋ฐ ์ฒด์ค‘ ์ฆ๊ฐ€ ๋กœ์ปฌ๋กœ ์™„๋ฃŒํ•˜๊ณ  ์™„์ „ํ•œ RL ํ์‡„ ๋ฃจํ”„๋ฅผ ํ˜•์„ฑ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹คใ€‚

Nous ์‹œ์Šคํ…œ์—์„œ Agropos๋Š” ์ƒ๊ฐ ์ฒด์ธ์„ ๊ฒ€์ฆํ•ฉ๋‹ˆ๋‹ค. DisTrO ์••์ถ• ๊ต์œก ํ†ต์‹ ; Psyche๋Š” RL ๋ฃจํ”„๋ฅผ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค. World Sim์€ ๋ณต์žกํ•œ ํ™˜๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. Forge๋Š” ์ง„์‹คํ•œ ์ด์œ ๋ฅผ ์ˆ˜์ง‘ํ•ฉ๋‹ˆ๋‹ค. Hermes๋Š” ๋ฌด๊ฒŒ๋กœ ๋ชจ๋“  ํ•™์Šต์„ ๊ธฐ๋กํ•ฉ๋‹ˆ๋‹ค. ํ–ฅ์ƒ๋œ ํ•™์Šต์€ ํ›ˆ๋ จ ๋‹จ๊ณ„๋ฟ๋งŒ ์•„๋‹ˆ๋ผ Nous ์•„ํ‚คํ…์ฒ˜์˜ ํ•ต์‹ฌ ๊ณ„์•ฝ์€ ๋ฐ์ดํ„ฐ, ํ™˜๊ฒฝ, ๋ชจ๋ธ ๋ฐ ์ธํ”„๋ผ๋ฅผ ์—ฐ๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Hermes๋ฅผ ์˜คํ”ˆ ์†Œ์Šค ์ปดํ“จํŒ… ๋„คํŠธ์›Œํฌ์—์„œ ์ง€์†์ ์œผ๋กœ ๊ฐœ์„  ํ•  ์ˆ˜์žˆ๋Š” ์‚ด์•„์žˆ๋Š” ์‹œ์Šคํ…œ์„ ๋งŒ๋“œ๋Š”ใ€‚

Gradient ๋„คํŠธ์›Œํฌ: ํ–ฅ์ƒ๋œ ํ•™์Šต ์•„ํ‚คํ…์ฒ˜

Gradient Network์˜ ํ•ต์‹ฌ ๋น„์ „์€ Open Intelligence Stack์„ ํ†ตํ•ด AI๋ฅผ ์žฌ๊ตฌ์„ฑํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. Gradient ' s ๊ธฐ์ˆ  ์ฐฝ๊ณ ๋Š” ๋…๋ฆฝ์ ์œผ๋กœ ์ง„ํ™”, ๋ถ„์‚ฐ ํ•ฉ์˜์˜ ํ•ต์‹ฌ ์„ธํŠธ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ์‹œ์Šคํ…œ์€ ์ €์ˆ˜์ค€ ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜์—์„œ ์ƒ๊ธ‰ ์ธํ…”๋ฆฌ์ „์Šค ํ˜‘๋ ฅ์— ์ด๋ฅด๊ธฐ๊นŒ์ง€, Parallax (distributional reasoning), Echo (decentrization RL training), Lattica (P2P ๋„คํŠธ์›Œํฌ), SEDM / Massgen / Symphony / CUAHarm (rememination, Collaboration, security), VeriLLM (credible validation), Mirage (high-prototype ์‹œ๋ฎฌ๋ ˆ์ด์…˜)์„ ํฌํ•จ, ์ด๋Š” ๋ถ„์‚ฐ ์ธํ…”๋ฆฌ์ „์Šค ์ธํ”„๋ผ์˜ ์ง€์†์ ์ธ ์ง„ํ™”๋ฅผ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹คใ€‚

ๅ›พ็‰‡

Echo - ํ–ฅ์ƒ๋œ ํ•™์Šต ๋ฐ ๊ต์œก ์•„ํ‚คํ…์ฒ˜

Echo๋Š” Gradient์˜ ํ–ฅ์ƒ๋œ ํ•™์Šต ํ”„๋ ˆ์ž„ ์›Œํฌ์ž…๋‹ˆ๋‹ค. ํ•ต์‹ฌ ๋””์ž์ธ ์ฒ ํ•™์€ ๊ต์œก, ์†Œ์› ๋ฐ ๋ฐ์ดํ„ฐ (๋ฐ˜ํ–ฅ) ํ†ต๋กœ๋ฅผ ๊ฐ•ํ™”ํ•˜๊ณ , ๋กค์•„์›ƒ ์ƒ์„ฑ, ์ „์ˆ  ์ตœ์ ํ™” ๋ฐ ๋ณด์ƒ ํ‰๊ฐ€๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒํ•˜๋ฉฐ, isomeric ํ™˜๊ฒฝ์—์„œ ๋…๋ฆฝ์ ์œผ๋กœ ์ด๋™ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด DeepSpeed RLHF/VERL์˜ ์‚ฌ๊ณ  ๋ฐ ํ›ˆ๋ จ์˜ ์กฐํ•ฉ์— ๊ธฐ์ธํ•œ SPMD ์‹คํŒจ์™€ GPU ํ™œ์šฉ ๋ณ‘๋ชฉ์„ ํšจ๊ณผ์ ์œผ๋กœ ๋ชจ๋ฐฉํ•˜๋Š” ๊ฐ€๋ฒผ์šด ๋™๊ธฐํ™” ๊ธฐ๊ณ„์žฅ์น˜๋ฅผ ๊ฐ€์ง„ ๋„“์€ ์ง€์—ญ isomeric ํ™˜๊ฒฝ์— ์žˆ๋Š” ํ›ˆ๋ จ ์•ˆ์ •์„ฑ์„ ์œ ์ง€ํ•˜๊ณ  ํ›ˆ๋ จ์˜ ์ธก์œผ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ๋Š” ์ด์„ฑ์ฒด ๋„คํŠธ์›Œํฌ์—์„œ ๊ณต๋™์œผ๋กœใ€‚

ๅ›พ็‰‡

Echo๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์‚ฌ์šฉ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด "debate-train two-cluster Structure"๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค

  • ํ‘œ๋ณธ ์‚ผํ‚ค๊ธฐ๋ฅผ ๊ทนํ™”ํ•˜์‹ญ์‹œ์˜ค: ์ด์œ ์˜ ๊ทธ๋ฃน(a) ์ฃผ๋ณ€ ์žฅ๋น„์™€ ์†Œ๋น„์ž ๋“ฑ๊ธ‰ GPU๋Š” ํŒŒ๋ผ๋ฆด๋ผ์Šค (Pipline-parallel)์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ ํœ˜๋„ ๊ตฌํ†  ์ƒ˜ํ”Œ๋Ÿฌ๋ฅผ ๊ตฌ์ถ• ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค

  • gradient ๊ณ„์‚ฐ์„ ๊ทนํ™”: ๊ต์œก Swarm์ค‘์•™ ํด๋Ÿฌ์Šคํ„ฐ ๋˜๋Š” ๊ธ€๋กœ๋ฒŒ ๋ฉ€ํ‹ฐ ํ•„๋“œ์—์„œ ์šด์˜๋˜๋Š” ์†Œ๋น„์ž ์ˆ˜์ค€์˜ GPU ๋„คํŠธ์›Œํฌ๋Š” ํ•™์Šต ํ”„๋กœ์„ธ์Šค์— LoRA ๋ฏธ์„ธ ์กฐ์ • ๋ฐ ์ดˆ์ ์„ ๋งž์ถ”๋Š” gradient updating, ๋™๊ธฐํ™” ๋งค๊ฐœ ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์ฑ…์ž„์ž…๋‹ˆ๋‹คใ€‚

์ „๋žต๊ณผ ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋ ค๋ฉด Echo๋Š”์ด๋ฆ„ *ยท๋น„๋™๊ธฐ๋‘ ๊ฐ€์ง€ ์œ ํ˜•์˜ ๊ฒฝ๋Ÿ‰ ๋™๊ธฐํ™” ํ”„๋กœํ† ์ฝœ ์ „๋žต์ ์ธ ๋ฌด๊ฒŒ์™€ trajectories์˜ ์–‘๋ฐฉํ–ฅ ์ผ๊ด€์„ฑ ๊ด€๋ฆฌ๋ฅผ ๋‹ฌ์„ฑ:

  • Sequenced ํ’€ ๋ชจ๋“œ ์ •๋ฐ€๋„ยท ์ƒˆ๋กœ์šด ํŠธ๋ž™์„ ๋ฝ‘๊ธฐ ์ „์— ์†Œ์‹ฑ ๋…ธ๋“œ์˜ ๋ชจ๋ธ ๋ฒ„์ „์˜ ์—…๋ฐ์ดํŠธ๋ฅผ ์‹œํ–‰ํ•˜๊ธฐ ์œ„ํ•ด ํ›ˆ๋ จ ์ธก๋ฉด, ๋”ฐ๋ผ์„œ ํŠธ๋ž™์ด ์ด์ „ ์ „๋žต์— ๋งค์šฐ ๋ฏผ๊ฐํ•˜๋Š” ์ž‘์—…์— ์‹ ์„ ํ•˜๊ณ  ์ ํ•ฉํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค

  • ํšจ์œจ์„ฑ์„ ์œ„ํ•œ Push-Pull ๋ชจํ˜• ์šฐ์„ ๊ถŒ: ์‚ฌ๊ณ ์˜ ์ธก๋ฉด์€ ๋ฒ„์ „ ๋ผ๋ฒจ๊ณผ ํŠธ๋ž™์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์„ ๊ณ„์†ํ•˜๊ณ , ํ›ˆ๋ จ์˜ ์ธก๋ฉด์€ ์ž์‹ ์˜ ์†๋„๋กœ ์†Œ๋ชจ๋˜๊ณ , ์กฐ์ •์„ ๋ชจ๋‹ˆํ„ฐํ•˜๊ณ  ์žฌ ์ ๊ฒ€์„ ํŠธ๋ฆฌ๊ฑฐํ•˜๊ณ  ์žฅ๋น„์˜ ํ™œ์šฉ์„ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹คใ€‚

์•„๋ž˜์—์„œ, Echo๋Š” Parallax (๋‚ฎ์€ ๋Œ€์—ญํญ ํ™˜๊ฒฝ์—์„œ์˜ ์ด์ฒด) ๋ฐ Light-quantitative ๋ถ„์‚ฐ ๊ต์œก ๋ชจ๋“ˆ (์˜ˆ๋ฅผ๋“ค๋ฉด VERL), LoRA์— ์˜์กดํ•˜์—ฌ ๋…ธ๋“œ์˜ ๋™๊ธฐํ™” ๋น„์šฉ์„ ์ค„์ผ ์ˆ˜ ์žˆ๋„๋ก ๊ฐœ๋ฐœ๋œ ํ•™์Šต์€ ๊ธ€๋กœ๋ฒŒ ์ด๋…ธ๋จธ ๋„คํŠธ์›Œํฌ์—์„œ ๊พธ์ค€ํžˆ ์ž‘๋™ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹คใ€‚

Grail: Bittensor Eco-enhanced ํ•™์Šต

๊ทธ ๋…ํŠนํ•œ Yuma consensus ๋ฉ”์ปค๋‹ˆ์ฆ˜, Bittensor๋Š” ์ธ์„ผํ‹ฐ๋ธŒ ๊ธฐ๋Šฅ์˜ ๊ด‘๋Œ€ํ•˜๊ณ  ์–‡์€ ๋น„ ๋ถˆ์•ˆ์ •ํ•œ ๋„คํŠธ์›Œํฌ๋ฅผ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹คใ€‚

Bittensor Ecology Covent AI๋Š” SN3 Templar, SN39 Basilica ๋ฐ SN81 Grail๋ฅผ ํ†ตํ•ด ์ „ํ›„ ๋ฐ ํฌ์ŠคํŠธ RL ํ›ˆ๋ จ์—์„œ ์ˆ˜์ง ํ†ตํ•ฉ ๋ฌผ ์„ ์„ ๊ฑด์„คํ–ˆ์Šต๋‹ˆ๋‹ค. SN3 Templar๋Š” ๊ธฐ๋ณธ์ ์ธ ๋ชจํ˜•์—์„œ ์ „ ํ›ˆ๋ จ์„ ์ฑ…์ž„์ง‘๋‹ˆ๋‹ค, SN39 ๋Œ€์„ฑ๋‹น์€ ๋ถ„๋ฐฐํ•œ ๊ณ„์‚ฐ๊ธฐ ์‹œ์žฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค, SN81 Grail๋Š” ํฌ์ŠคํŠธ RL ํ›ˆ๋ จ์„ ์œ„ํ•œ โ€œvalitable reasoning ์ธตโ€๋กœ, RLHF/RLAIF ํ•ต์‹ฌ ๊ณผ์ •์„ ๋‚˜๋ฅด๊ณ  ๊ธฐ๋ณธ์ ์ธ ๋ชจํ˜•์—์„œ ์ค„๋งž์ถค ์ „๋žต์„ ๋‚™๊ด€ํ•˜๊ธฐ ์œ„ํ•˜์—ฌ ๋‹ซํžˆ๋Š” ๋ฐ˜๋ณต์„ ๋‚™๊ด€ํ•˜๊ธฐ ์œ„ํ•˜์—ฌ ๋ด‰์‚ฌํ•ฉ๋‹ˆ๋‹คใ€‚

ๅ›พ็‰‡

์ธ๊ธฐ ์นดํ…Œ๊ณ ๋ฆฌ๋ชฉํ‘œ๋Š” ..๊ฐ ์—ฐ๊ตฌ ๋กค์•„์›ƒ์˜ ์ •์ฒด์„ฑ์„ ์ฆ๋ช…ํ•˜๋Š” ๋น„๋ฐ€๋ฒˆํ˜ธ๋Š” ๋ชจ๋ธ ์ •์ฒด์„ฑ์— ๋ฌถ์Šต๋‹ˆ๋‹คRLHF๋Š” ์‹ ๋ขฐ๋ฅผ ํ•„์š”๋กœ ํ•˜์ง€ ์•Š๋Š” ํ™˜๊ฒฝ์—์„œ ์•ˆ์ „ํ•˜๊ฒŒ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ๊ณ„์•ฝ์€ ์„ธ ๊ณ„์ธต ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ์‹ ๋ขฐํ•  ์ˆ˜์žˆ๋Š” ์ฒด์ธ์„ ๊ตฌ์ถ• :

  1. ID ๋ฌธ์ œ ๋ฐœ์ƒยท ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ์‚ฌ๊ธฐ๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ๋ฌด๊ฑฐ์šด ๋„์ „ ๊ณผ์ œ(์˜ˆ, SAT, GSM8K)๋ฅผ ์‚ฌ์šฉํ•ด์„œ ๋ฌด๊ฑฐ์šด ์ž„์˜์˜ ๋น„์ฝ˜์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  Hashy๋ฅผ ์ฐจ๋‹จํ•ฉ๋‹ˆ๋‹ค

  2. ์ƒ˜ํ”Œ๋ง ๋ฐ ์Šค์ผ€์น˜ ์œ„์›ํšŒtoken-level logprob and the chain of reasoning to enable the certifier to check that rollout was created by the ์„ ์–ธ ๋ชจ๋ธ

  3. ๋ชจ๋ธ ID ๋ฐ”์ธ๋”ฉ:: Tie๋Š” ๋ชจ๋ธ ๋ฌด๊ฒŒ ์ง€๋ฌธ๊ณผ ํ† ํฐ ๋ฐฐํฌ์˜ ๊ตฌ์กฐํ™” ๋œ ์„œ๋ช…์— ๋Œ€ํ•œ ์ด์œ  ํ”„๋กœ์„ธ์Šค๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ต์ฒด ๋ชจ๋ธ ๋˜๋Š” ๊ฒฐ๊ณผ๊ฐ€ ์ฆ‰์‹œ ์‹๋ณ„๋ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ RL์˜ ๋กœ์ง ํŠธ๋Ÿฌ๋ฆฌ (rollout)๋Š” ์ •์ฒด์„ฑ์„ ์œ„ํ•œ ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹คใ€‚

์ด ๊ธฐ๊ณ„์žฅ์น˜์—์„œ๋Š”, Grail subnet๋Š” GRPO ์ž‘ํ’ verifiable ํฌ์ŠคํŠธ ํ›ˆ๋ จ ๊ณผ์ •์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค: ๊ด‘๋ถ€๋Š” ๋™์ผํ•œ ์ฃผ์ œ๋ฅผ ์œ„ํ•œ ๋‹ค์ˆ˜ reasoning ๊ฒฝ๋กœ๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ์ •์ •์— ๊ทผ๊ฑฐ๋ฅผ ๋‘” certifiers ๋น„์œจ SAT ๋งŒ์กฑ, ์ด์œ ์˜ ์‚ฌ์Šฌ์˜ ์งˆ, ๊ทธ๋ฆฌ๊ณ  TAO ๋ฌด๊ฒŒ๋กœ ๊ฒฐ๊ณผ๋ฅผ ์”๋‹ˆ๋‹ค. ๊ฐœ๋ฐฉ ์‹คํ—˜์€ ํ”„๋ ˆ์ž„ ์›Œํฌ๊ฐ€ Qwen2.5-1.5B์˜ MATH ์ •ํ™•๋„๊ฐ€ 12.7 ํผ์„ผํŠธ์—์„œ 47.6 ํผ์„ผํŠธ๋กœ ์ฆ๊ฐ€ํ–ˆ์œผ๋ฉฐ, ์‚ฌ๊ธฐ๋ฅผ ๋ฐฉ์ง€ํ•˜๊ณ  ๋ชจ๋ธ๋ง ๊ธฐ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ฒฝ๊ณ ํ–ˆ์Šต๋‹ˆ๋‹ค. Grail๋Š” Covenant AI์˜ ํ›ˆ๋ จ ๋ถ€์Šค์— ์žˆ๋Š” ํƒˆ์ค‘์•™ํ™” RLVR/RLAIF์˜ ์‹ ๋ขฐ ๊ทธ๋ฆฌ๊ณ  ๊ตฌํ˜„์˜ ์ฝ”๋„ˆ์Šคํ†ค์ด๊ณ , ๊ณต์‹์ ์ธ ์ฃผ์š” ์˜จ๋ผ์ธ ์„ ์ด ์—†์Šต๋‹ˆ๋‹คใ€‚

Fracing AI: ๊ฒฝ์Ÿ RLFC์— ๊ทผ๊ฑฐ๋ฅผ ๋‘” ๊ฐ•ํ™”๋œ ํ•™์Šต

Fracing AI์˜ ๊ตฌ์กฐ๋Š” ๋ช…ํ™•ํ•˜๊ฒŒ๊ฒฝ์Ÿ, RLFC์—์„œ ๊ฒฝ์Ÿ ํ•™์Šต, ์ „ํ†ต์ ์ธ RLHF ์ •์ฒด๋˜๋Š” incentive๋ฅผ ์—ด๋ฆฌ๋Š”, ๋™์ ์ธ ๊ฒฝ์Ÿ์ ์ธ ํ™˜๊ฒฝ์„ ๊ฐ€์ง„ ์ˆ˜๋™ ์ƒํ‘œ๋กœ ๋Œ€์ฒดํ•˜์‹ญ์‹œ์˜ค. ์ด ์—์ด์ „ํŠธ๋Š” AI ๋“ฑ๊ธ‰๊ณผ ํ•จ๊ป˜ ์ƒ๋Œ€์ ์ธ ์ˆœ์œ„๋ฅผ ๋‹ค๋ฅธ ๊ณต๊ฐ„์—์„œ ๊ฒฝ์Ÿํ•˜๊ณ , ์ง€์†์ ์ธ ์˜จ๋ผ์ธ ๋ฉ€ํ‹ฐ ์Šค๋งˆํŠธ ๊ฒŒ์ž„ ์‹œ์Šคํ…œ์œผ๋กœ ์ •๋ ฌ ํ”„๋กœ์„ธ์Šค๋ฅผ ๋ณ€ํ™˜ํ•˜๋Š” ์‹ค์‹œ๊ฐ„ ์ธ์„ผํ‹ฐ๋ธŒ๋ฅผ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹คใ€‚

์ „ํ†ต์ ์ธ RLHF์™€ Frac AI์˜ RLFC์˜ ํ•ต์‹ฌ ๋‹ค๋ฆ„:

ๅ›พ็‰‡

RLFC ํ•ต์‹ฌ ๊ฐ€์น˜์ธ์„ผํ‹ฐ๋ธŒ๋Š” ๋‹จ์ผ ๋ชจ๋ธ์—์„œ ๋” ์ด์ƒ ์ œ๊ณตํ•˜์ง€๋งŒ ์ง„ํ™” ๋ผ์ด๋ฒŒ๊ณผ ์ฆ๋ฐœ๊ธฐ์—์„œ ๋ณด์ƒ ๋ชจ๋ธ์˜ ์‚ฌ์šฉ์„ ํ”ผํ•˜๊ณ  ์ „์ˆ ์  ๋‹ค์–‘์„ฑ์„ ํ†ตํ•ด ์ƒํƒœ์˜ ์šฐ์ˆ˜์„ฑ์„ ๋ฐฉ์ง€ํ•ฉ๋‹ˆ๋‹ค. ์šฐ์ฃผ์˜ ๊ตฌ์กฐ๋Š” ๊ฒŒ์ž„์˜ ์„ฑ๊ฒฉ์„ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค (zero-sum ๋˜๋Š” ๊ธ์ •์ ์ธ-sum) confrontation ๋ฐ ํ˜‘๋ ฅ์— ๋ณต์žกํ•œ ํ–‰๋™์˜ ์ถœํ˜„ใ€‚

์ฒด๊ณ„์˜ ๊ฑด์ถ•์—์„œ, Fracing AI๋Š” 4๊ฐœ์˜ ์ค‘์š”ํ•œ ์„ฑ๋ถ„์œผ๋กœ ํ›ˆ๋ จ ๊ณผ์ •์„ ์ฒ ๊ฑฐํ•ฉ๋‹ˆ๋‹ค:

  • ์ด๋ฆ„ *: ์˜คํ”ˆ ์†Œ์Šค LLM์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฒฝ๋Ÿ‰ ์ „๋žต ๋ชจ๋“ˆ, QLora๋ฅผ ํ†ตํ•œ ์ฐจ๋ณ„ ๋ฌด๊ฒŒ์— ์˜ํ•ด ํ™•์žฅ, ๋‚ฎ์€ ๋น„์šฉ ์—…๋ฐ์ดํŠธ

  • ๊ณต๊ฐ„(a) ์นจ์ˆ ๋œ ์ž„๋ฌด ์ง€์—ญ ํ™˜๊ฒฝ, ๋Œ€๋ฆฌ์ธ์ด ๋“ค์–ด๊ฐ€๊ธฐ ์œ„ํ•˜์—ฌ ์ง€๋ถˆ๋˜๊ณ  ์Šน๋ฆฌ๋ฅผ ์œ„ํ•ด ๋ณด์ƒ๋˜๋Š” ๊ณณ์—

  • ์•Œ ์žฅ๊ต: RLAIF ๊ธฐ๋ฐ˜, ์ฆ‰์‹œ ๋ฐ˜๋ณต ๋ ˆ์ด์–ด, ํ™•์žฅ ๋œ ํ‰๊ฐ€๋ฅผ ์ œ๊ณต

  • ํ’ˆ์งˆ ๋ณด์ฆยท ํŠน์ • ๊ฒฝ์Ÿ ๊ฒฐ๊ณผ์— ๋Œ€ํ•œ ์ „๋žต ์—…๋ฐ์ดํŠธ๋ฅผ ๋ฐ”์ธ๋”ฉํ•˜๊ธฐ ์œ„ํ•ด ํ›ˆ๋ จ ๊ณผ์ •์€ ๊ฒ€์ฆ ๋ฐ ์•ˆํ‹ฐ ๊ธฐ๋ฐ˜์ž…๋‹ˆ๋‹คใ€‚

Fracing AI์˜ ๋ณธ์งˆ์€ ๋‹ค๋ฅธ ํ•˜๋‚˜์™€ ํ•จ๊ป˜ ์ž‘๋™ํ•˜๋Š” ์ง„ํ™” ์—”์ง„์„ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. " ์ •์ฑ… ์ธต์˜ "Meta-optimizer"๋กœ์„œ ์‚ฌ์šฉ์ž๋Š” ํ”„๋กœ์ ํŠธ ๋ฐ ๊ฐ๋…์— ๋Œ€ํ•œ ๊ฒ€์ƒ‰ ๋ฐฉํ–ฅ์„ ์•ˆ๋‚ดํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์—์ด์ „ํŠธ๋Š” microlevel ๊ฒฝ์Ÿ์—์„œ ๊ณ ํ’ˆ์งˆ์˜ ๋ฐ์ดํ„ฐ ์„ ํ˜ธ (Preference Pairs)์˜ ์งˆ๋Ÿ‰์„ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด ํŒจํ„ด์€ ๋ฐ์ดํ„ฐ๋ฅผ ์ „๋‹ฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค"Trustless ๋ฏธ์„ธ ์กฐ์ •"์˜์—… ์ข…๋ฃŒใ€‚

Web3 Project Architecture ๋น„๊ต

ๅ›พ็‰‡

โ‚ข ํ‚น ์ตœ๋Œ€ ๋ฐ ๊ธฐ๋Œ€ : ํ–ฅ์ƒ๋œ ํ•™์Šต X Web3์˜ ๋ฐฉ๋ฒ• ๋ฐ ๊ธฐํšŒ

์œ„์—์„œ ์–ธ๊ธ‰ ํ•œ ์ „๋ฉด ํ”„๋กœ์ ํŠธ์˜ ํŒŒ๊ดด์ ์ธ ๋ถ„์„์— ๋”ฐ๋ผ, ์šฐ๋ฆฌ๋Š” ์ฐธ์—ฌ์  (๋ฌธํ™”, ์—”์ง€๋‹ˆ์–ด๋ง ๋˜๋Š” ์‹œ์žฅ)์ด ํŒ€์—์„œ ํŒ€๊ณผ ํ•จ๊ป˜ ํŒ€๊ณผ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์ง€๋งŒ, Web3 ์ง‘์ค‘ ํ•™์Šต (RL)๊ณผ ๊ฒฐํ•ฉ ํ•  ๋•Œ, ์‚ฌ๋‚ด ๋…ผ๋ฆฌ๋Š” ๋งค์šฐ ์ผ๊ด€์„ฑ์žˆ๋Š” "decomposition-valid-incentive" ํŒจ๋Ÿฌ๋‹ค์ž„์œผ๋กœ ์ง‘๊ณ„๋ฉ๋‹ˆ๋‹ค. ์ด๊ฒƒ์€ ๊ธฐ์ˆ ์ ์ธ coincidence๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๋˜ํ•œ ๋„คํŠธ์›Œํฌ์˜ ํƒˆ์ค‘์•™ํ™”์˜ ๋…ผ๋ฆฌ์ ์ธ ๊ฒฐ๊ณผ๊ฐ€ ๋…ํŠนํ•œ ์†์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ดใ€‚

ํ–ฅ์ƒ๋œ ์ผ๋ฐ˜ ํ•™์Šต ์•„ํ‚คํ…์ฒ˜ ๊ธฐ๋Šฅ:ํ•ต์‹ฌ ๋ฌผ๋ฆฌ์  ์ œ์•ฝ ๋ฐ ์‹ ๋ขฐ ๋ฌธ์ œ ํ•ด๊ฒฐ

  1. ๋ฌผ๋ฆฌ์  ๋ถ„๋ฆฌ (Rollouts & Learning) - ๊ธฐ๋ณธ ๊ณ„์‚ฐ๊ธฐ ๋šฑ ๋ฒ ์–ด

    ํฌ๊ท€, ๋ณ‘๋ ฌ, ๋กค์•„์›ƒ ํ†ต์‹ ์€ ๊ธ€๋กœ๋ฒŒ ์†Œ๋น„์ž ์ˆ˜์ค€์—์„œ GPU๋กœ ์•„์›ƒ์†Œ์‹ฑ๋˜๋ฉฐ, ์†Œ๊ทœ๋ชจ ๊ต์œก ๋…ธ๋“œ์— ์ดˆ์ ์„ ๋งž์ถ˜ ๋†’์€ ๋Œ€์—ญํญ ๋งค๊ฐœ ๋ณ€์ˆ˜ ์—…๋ฐ์ดํŠธ์™€ ํ•จ๊ป˜, Prime Industries Actor-Learner์˜ ๋‹จ๊ณ„์—์„œ ๋‘ ๊ทธ๋ฃน ๊ตฌ์กฐ์—์„œ Gradient Echoใ€‚

  2. ๊ฒ€์ฆ๋œ ์‹ ๋ขฐ - Infrastructureization

    ํ—ˆ๊ฐ€๋ฅผ ์š”๊ตฌํ•˜์ง€ ์•Š๋Š” ๋„คํŠธ์›Œํฌ์—์„œ, ๊ณ„์‚ฐ์˜ ์ •์ฒด์„ฑ์€ Pol, Prime Intelect ๋ฐ Grail์— ๋Œ€ํ•œ ์•”ํ˜ธ ์ธ์ฆ์˜ ์„ฑ๊ณผ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ˆ˜ํ•™ ๋ฐ ๊ธฐ๊ด€ ์„ค๊ณ„๋ฅผ ํ†ตํ•ด ํ•„์ˆ˜ ๋ณด์•ˆ์„ ์ˆ˜ํ–‰ํ•ด์•ผํ•ฉ๋‹ˆ๋‹คใ€‚

  3. ์ธ์„ผํ‹ฐ๋ธŒ ๋ฃจํ”„ ํ† ํฐํ™” - Market self-regulationย 

    ์ „๋ ฅ ๊ณต๊ธ‰์˜ ๋ฐฐ๊ธ‰, ์ž๋ฃŒ ๋ฐœ์ƒ, ์œ ํšจ์„ฑ ๊ฒ€์‚ฌ ๋ฐ ์ธ์„ผํ‹ฐ๋ธŒ๋Š” ๋‹ซํžˆ๊ณ , ๋„คํŠธ์›Œํฌ๊ฐ€ ์ธ์„ผํ‹ฐ๋ธŒ ๊ตฌ๋™ ์ฐธ์—ฌ๋ฅผ ํ†ตํ•ด ๊ฐœ๋ฐฉ ํ™˜๊ฒฝ์—์„œ ์•ˆ์ •์ ์ด๊ณ  ์ง€์†์ ์ธ ์œ ์ง€๋ฅผ ํ—ˆ์šฉํ•˜๊ณ  ์Šฌ๋ž˜์‹œ ๊ธฐ๋ฐ˜ ๋ถ„์‚ฐ์„ ํ†ตํ•ดใ€‚

์ฐจ๋ณ„ํ™”๋œ ๊ธฐ์ˆ  ๊ฒฝ๋กœ: ์ฐจ๋ณ„ํ™”๋œ "breakpoints"

๊ตฌ์กฐ์˜ ์œตํ•ฉ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๋‹ค๋ฅธ ๊ธฐ์ˆ ์€ ๊ทธ๋“ค์˜ ์œ ์ „์ž์— ๊ทผ๊ฑฐํ•œ ํ”„๋กœ์ ํŠธ์— ์˜ํ•ด ์„ ์ •๋˜์—ˆ์Šต๋‹ˆ๋‹ค:

  • Nus ์—ฐ๊ตฌ: ์ˆ˜ํ•™ ๊ธฐ์ง€์—์„œ ๋ถ„์‚ฐ ํ›ˆ๋ จ (bandwidth Bottlenecks)์˜ ๊ทผ๋ณธ์ ์ธ ๊ธˆ์ „์„ ํ•ด๊ฒฐํ•˜๋Š” ์‹œ๋„. ๊ทธ๊ฒƒ์˜ DisTrO ์ˆ˜์ฒœ ๋ฒˆ์˜ ๊ทธ๋ผ๋””์–ธํŠธ ํŠธ๋ž˜ํ”ฝ์„ ์••์ถ•ํ•˜๋„๋ก ์„ค๊ณ„๋œ Optimizer๋Š” ๋ฌผ๋ฆฌ์  ์ œ์•ฝ์— "downside blow"์ด๋ผ๋Š” ๋Œ€ํ˜• ๋ชจ๋ธ ํ›ˆ๋ จ์„ ์‹คํ–‰ํ•˜๋Š” ๊ฐ€๊ตฌ ๊ด‘๋Œ€์—ญ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœํ•ฉ๋‹ˆ๋‹คใ€‚

  • ์‹œ์Šคํ…œ ๊ณตํ•™: ์ฐจ์„ธ๋Œ€ ๊ฑด๋ฌผ์— ์ดˆ์ ์„ ๋งž์ถ˜ "AI ์‹คํ–‰ ์‹œ๊ฐ„ ์‹œ์Šคํ…œ" ์ฃผ์š” ์ง€์ ์ƒค๋“œ ์บ์ŠคํŠธ๊ทธ๋ฆฌ๊ณ  Gradient์˜ํŒŸ์บ์ŠคํŠธ๋ชจ๋“  ๊ฒƒ์€ ๊ธฐ์กด ๋„คํŠธ์›Œํฌ ์กฐ๊ฑด์—์„œ ๊ทน์ ์ธ ์—”์ง€๋‹ˆ์–ด๋ง ๊ธฐ์ˆ ์„ ํ†ตํ•ด ๊ฐ€์žฅ ๋†’์€ ์ด๋…ธ๋จธ ํด๋Ÿฌ์Šคํ„ฐ ํšจ์œจ์„ฑ์„ ์ถ”์ถœํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹คใ€‚

  • ๊ทธ๊ฒƒ์€ ์‹œ์žฅ ๊ฒŒ์ž„์ž…๋‹ˆ๋‹ค: RewardFunction ์„ค๊ณ„ ์ง€๋Šฅ์˜ ์ถœํ˜„์€ ์ž์‹ ์˜ ์ตœ๊ณ ์˜ ์ „๋žต์„ ์ฐพ์„ ์ˆ˜์žˆ๋Š” ์šฐ์ˆ˜ํ•œ ํ‰๊ฐ€ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๋””์ž์ธ์„ ํ†ตํ•ด ๊ฐ€์†ํ™”๋ฉ๋‹ˆ๋‹คใ€‚

ํž˜, ๋„์ „ ๋ฐ ์ตœ์ข… ์ „๋ง

Web3๊ณผ ํ–ฅ์ƒ๋œ ํ•™์Šต์„ ๊ฒฐํ•ฉํ•œ ํŒจ๋Ÿฌ๋‹ค์ž„์—์„œ ์‹œ์Šคํ…œ ์ˆ˜์ค€์˜ ์žฅ์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค๋น„์šฉ ๊ตฌ์กฐยทGovernance ๊ตฌ์กฐ์ˆ˜์ •ํ•˜๊ธฐใ€‚

  • ๋น„์šฉ ๋ณต์›์ƒ˜ํ”Œ๋ง (Rollout)์— ๋Œ€ํ•œ RL Post-training ์ˆ˜์š”๋Š” ๋ฌด์ œํ•œ์ด๋ฉฐ Web3๋Š” ๋งค์šฐ ์ €๋ ดํ•œ ๋น„์šฉ์œผ๋กœ ๊ธ€๋กœ๋ฒŒ ์žฅ๊ธฐ ์ปดํ“จํŒ…์„ ๋™๊ธฐํ™” ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ์ค‘์•™ ํด๋ผ์šฐ๋“œ ์ œ์กฐ์—…์ฒด๊ฐ€ ์ผ์น˜ ํ•  ์ˆ˜์—†๋Š” ๋น„์šฉ ์ด์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹คใ€‚

  • Sovereign ์ •๋ ฌ:: AI Value์˜ ๋ชจ๋…ธํด๋ฆฌ๋ฅผ ํŒŒ๊ดดํ•˜๋Š” ์ปค๋ฎค๋‹ˆํ‹ฐ๋Š” ํ† ํฐ์„ ์‚ฌ์šฉํ•˜์—ฌ AI ๊ฑฐ๋ฒ„๋„Œ์Šค์— ๋Œ€ํ•œ ์ข‹์€ ๋Œ€๋‹ต์„ ๊ฒฐ์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹คใ€‚

๋™์‹œ์— ์‹œ์Šคํ…œ์€ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ๊ตฌ์กฐ์  ์ œ์•ฝ์„ ์ง๋ฉดํ•ฉ๋‹ˆ๋‹คใ€‚

  • ๋Œ€์—ญํญ ๋ฒฝ: DisTrO์™€ ๊ฐ™์€ ํ˜์‹ ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ๋ฌผ๋ฆฌ์  ์ง€์—ฐ์€ ์—ฌ์ „ํžˆ hyperparametric model (70B+)์˜ ์ „์ฒด ์Šค์ผ€์ผ ํ›ˆ๋ จ์„ ์ œํ•œํ•˜๊ณ , ํ˜„์žฌ Web3 AI๋Š” ๋ฏธ์„ธ ์กฐ์ • ๋ฐ ์ด์œ ์— ๋” ์ œํ•œ๋ฉ๋‹ˆ๋‹คใ€‚

  • Gudhard ํ•ดํ‚น:: ๋งค์šฐ ๋™๊ธฐ๋ฅผ ๋ถ€์—ฌํ•˜๋Š” ๋„คํŠธ์›Œํฌ์—์„œ ๊ด‘๋ถ€๋Š” "codify" ์ธ์„ผํ‹ฐ๋ธŒ ๊ทœ์น™์— ๋งค์šฐ ์‰ฝ์Šต๋‹ˆ๋‹ค. ์‚ฌ๊ธฐ ์ฆ๊ฑฐ ๋ง‰๋Œ€ ๋ณด์ƒ ๊ธฐ๋Šฅ์€ ์˜์›ํ•œ ๊ฒŒ์ž„์ž…๋‹ˆ๋‹คใ€‚

  • Byzantine ๋…ธ๋“œ ๊ณต๊ฒฉ: ํ›ˆ๋ จ ์‹ ํ˜ธ ๋ฐ ์ค‘๋… ํŒŒ๊ดด ๋ชจ๋ธ์˜ ํ™œ์„ฑ ์กฐ์ž‘์„ ํ†ตํ•ด ์ˆ˜ํ–‰. ํ•ต์‹ฌ์€ ์‚ฌ๊ธฐ ์ฆ๊ฑฐ ์ธ์„ผํ‹ฐ๋ธŒ ๊ธฐ๋Šฅ์˜ ์ง€์†์ ์ธ ๋””์ž์ธ์ด ์•„๋‹ˆ์ง€๋งŒ ์›์  ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๊ฑด์„ค์ด ์•„๋‹™๋‹ˆ๋‹คใ€‚

Web3์„ ํ†ตํ•œ ํ–ฅ์ƒ๋œ ํ•™์Šต์˜ ์กฐํ•ฉ์€ ๊ทผ๋ณธ์ ์œผ๋กœ "how Intelligence๊ฐ€ ์ƒ์‚ฐ, ์ •๋ ฌ ๋ฐ ํ‰๊ฐ€๋˜๋Š” ๋ฐฉ๋ฒ•"์„ ๋ณด์™„ํ•˜๊ธฐ์œ„ํ•œ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ž…๋‹ˆ๋‹ค. ์ง„ํ™” ๊ฒฝ๋กœ๋Š” ์„ธ ๊ฐ€์ง€ ๋ณด์™„ ๋ฐฉํ–ฅ์—์„œ ์š”์•ฝ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

  1. ์ค‘์•™ ๊ต์œก ๋„คํŠธ์›Œํฌ๋กœ ์ด๋™๊ธฐ๊ณ„์—์„œ ์ „๋žต์˜ ๋„คํŠธ์›Œํฌ์— ์ด๋ฅด๊ธฐ๊นŒ์ง€ ๋ณ‘๋ ฌ ๋ฐ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋กค์•„์›ƒ์€ ๊ธ€๋กœ๋ฒŒ Longtail GPU์— ์˜ํ•ด ๊ฐœ๋ฐœ ๋œ ํ•™์Šต ํ•˜์œ„ ๋„คํŠธ์›Œํฌ๋กœ ์‹œ์žฅ, ์ค‘๊ฐ„ ๋‹จ๊ณ„ ์ง„ํ™”๋ฅผ ๊ฒ€์ฆํ•˜๋Š” ๋‹จ๊ธฐ ์ดˆ์ ์ž…๋‹ˆ๋‹ค

  2. Prefer ๋ฐ ๋ณด์ƒ ์ž์‚ฐํ™”๋ ˆํ…Œ๋ฅด๋ฅผ ๋ถ™์ด๋Š” ๋…ธ๋™์—์„œ data equity์—. ๋†’์€ ํ’ˆ์งˆ์˜ ํ”ผ๋“œ๋ฐฑ๊ณผ ๋ณด์ƒ ๋ชจ๋ธ์„ ๊ด€๋ฆฌ, ๋ฐฐํฌ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ ์ž์‚ฐ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ธฐ๋ณธ ๋ฐ ์ธ์„ผํ‹ฐ๋ธŒ์˜ ์ž์‚ฐํ™”, "marking labour"์—์„œ "data equity"๋กœ

  3. โ€œ์†Œํ˜•๊ณผ ์•„๋ฆ„๋‹ค์›€โ€ ์ˆ˜์ง ์˜์—ญ์—์„œ ์ง„ํ™”:: DeFi Policy Implementation, Code Generation๊ณผ ๊ฐ™์€ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๊ฒฐ๊ณผ ๋ฐ quantifiable ๋ฐ˜ํ™˜์„ ๊ฐ€์ง„ ์ˆ˜์ง ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์ „์šฉ, ์ž‘๊ณ  ๊ฐ•ํ•œ RLAAgents๋Š”, ์ „๋žต ๊ฐœ์„ ์„ ์ง์ ‘ ๊ฐ€์น˜ ์บก์ฒ˜์— ๋ฐ”์ธ๋”ฉํ•˜๊ณ  ์ผ๋ฐ˜ ํ์‡„ ์ž์› ๋ชจ๋ธ์„ ์Šน๋ฆฌ ์•ฝ์†ํ•ฉ๋‹ˆ๋‹คใ€‚

์ผ๋ฐ˜์ ์œผ๋กœ ํ–ฅ์ƒ๋œ ํ•™์Šต x Web3์— ๋Œ€ํ•œ ์‹ค์ œ ๊ธฐํšŒ๋Š” OpenAI์˜ ํƒˆ์ค‘์•™ํ™” ๋œ ๋ฒ„์ „์„ ๋ณต์‚ฌํ•˜์ง€ ์•Š์ง€๋งŒ "Intelligent Production Relationships"๋ฅผ ์žฌ ์ž‘์„ฑํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค๊ฐœ๋ฐฉํ˜• ์ปดํ“จํŒ… ์‹œ์žฅ์ด ๋  ๊ต์œก ๊ตฌํ˜„์•„ํ”„๋ฆฌ์นด์ธ์„ผํ‹ฐ๋ธŒ ๋ฐ ์„ ํ˜ธ๋„๋Š” ์ฒด์ธ ์ž์‚ฐ ๊ด€๋ฆฌ๋” ์ด์ƒ ํ”Œ๋žซํผ์— ์ดˆ์ ์„ ๋งž์ถ”์ง€ ๋ชปํ–ˆ์ง€๋งŒํŠธ๋ ˆ์ด๋„ˆ, ์ •๋ ฌ ๋ฐ ์‚ฌ์šฉ์ž์˜ Redistributionใ€‚

ๅ›พ็‰‡

์™„๋ฃŒ๋œ ๋…์„œ:

์•„์‹œ์•„์—์„œ ๊ฐ€์žฅ ํฐ ๋น„ํŠธ ์ฝ”์ธ ์€ํ–‰, Metaplanet

๋ฉ€ํ‹ฐ์ฝ”์ธ ์บํ”ผํ„ธ: ๊ธˆ์œต ๊ธฐ์ˆ  4.0

a16z ์ค‘๋Ÿ‰ Web3 Unicorn Farcaster๋Š” ์ „ํ™˜์„ ๊ฐ•์ œ๋กœ, Web3 ์‚ฌํšŒํ™”๋Š” ๋น„๋ก€์ ์ธ ๋ฌธ์ œ์ž…๋‹ˆ๊นŒ

้–ข้€ฃ่จ˜ไบ‹

QQlink

ๆš—ๅทใƒใƒƒใ‚ฏใƒ‰ใ‚ขใชใ—ใ€ๅฆฅๅ”ใชใ—ใ€‚ใƒ–ใƒญใƒƒใ‚ฏใƒใ‚งใƒผใƒณๆŠ€่ก“ใซๅŸบใฅใ„ใŸๅˆ†ๆ•ฃๅž‹ใ‚ฝใƒผใ‚ทใƒฃใƒซใŠใ‚ˆใณ้‡‘่žใƒ—ใƒฉใƒƒใƒˆใƒ•ใ‚ฉใƒผใƒ ใงใ€ใƒ—ใƒฉใ‚คใƒใ‚ทใƒผใจ่‡ช็”ฑใ‚’ใƒฆใƒผใ‚ถใƒผใฎๆ‰‹ใซๅ–ใ‚Šๆˆปใ—ใพใ™ใ€‚

ยฉ 2024 QQlink ็ ”็ฉถ้–‹็™บใƒใƒผใƒ . ็„กๆ–ญ่ปข่ผ‰ใ‚’็ฆใ˜ใพใ™ใ€‚