Litecoin

PETA INVESTASI AL

2025/12/23 12:13
🌐id
PETA INVESTASI AL

Penulis:Jacob ZhaoIOSG

 

Itu hal terpintar di dunia"Perataan Model"Terutama pembelajaran statistik terhadap"Alasan struktural"Sebagai sistem kompetensi intiSurat pelatihanYang penting meningkat dengan cepat。DeepSeek-R1Ini pertandaBelajar penuhSebuah pergeseran paradigma dalam usia model besar telah menyebabkan konsensus industri:Pre- pelatihanKemampuan dasar umum untuk membangun modelBelajar penuhAlih-alih menjadi alat yang berharga-pencocokan, telah ditunjukkan untuk dapat meningkatkan kualitas sistematis rantai penalaran dan keputusan kompleks-membuat dan secara bertahap berkembang menjadi jalur teknologi peningkatan tingkat kecerdasan terus-menerus。

Sementara ituWeb3Restrukturisasi dari hubungan produksi AI dengan sistem insentif enkripsi sedang direkayasa melalui decentrisasi jaringan algoritma, dan kebutuhan untuk meningkatkan pembelajaran pada pelontar sampel, sinyal hadiah, dan diverifikasi pelatihan dengan baik selaras dengan perhitungan rantai blok, distribusi insentif dan validasi dari sinergi alam. Studi ini akan menguraikan paradigma pelatihan AI dan meningkatkan teknik belajar, menunjukkan keuntungan struktural dari pembelajaran x Web3 dan menganalisis proyek-proyek seperti Prime Intelect, Gensyn, Nous Research, Gradien, Graine dan Fracing AI。

I. AL TIGA TAHAP PELATIHAN: PRA-PELATIHAN, KALIBRASI PERINTAH DAN POSTING-PELATIHAN ALIGNMEN

Model Bahasa Besar Modern (HLM)LLMSeluruh siklus kehidupan pelatihan biasanya dibagi menjadi tiga tahap inti: pra-pelatihan (Pre- training), oversight finetuning (Pre-training)SFT(d) Pos-pelatihan / RL. Tiga melakukan fungsi "membangun model dunia - kemampuan misi - membentuk penalaran dan nilai", yang struktur komputasional, persyaratan data dan validasi kesulitan menentukan tingkat decentrisasi。

  • Pre- pelatihanDengan besarSelf- diawasi belajar (self - diawasi Belajar)MODELLING LINGUISTIK STRUKTUR STATISTIK DAN MODEL BAKU-MODULAR DUNIA SANGAT MENDASAR UNTUK KEMAMPUAN LLM. TAHAP INI, YANG MELIBATKAN PELATIHAN DALAM CARA GLOBAL DAN SINKRONISASI PADA TRILIUNAN BAHASA KELAS, MENGANDALKAN PULUHAN RIBU SAMPAI PULUHAN RIBU CLUSTER H100 HOMOGEN DENGAN BIAYA HINGGA 80 SAMPAI 95 PERSEN, SANGAT SENSITIF TERHADAP BANDWIDTH DAN HAK CIPTA DATA DAN HARUS DICAPAI DALAM LINGKUNGAN YANG SANGAT TERPUSAT。

  • Supervised Fine- tuningUntuk infus kemampuan misi dan format perintah, data kecil dan biaya sekitar 5-15%, fine- tuning mungkinPelatihan penuh, juga dapat digunakanEFISIEN FINE- TUNING DARI PARAMETER (PEFT)Metode, dimanaLoraAku tidak tahuQ- LoRAdanAdapterIni adalah mainstream industri. Namun, gradien masih perlu disinkronkan untuk membatasi potensi mereka untuk decentrisasi。

  • Surat pelatihanTERDIRI DARI BEBERAPA FASE ITERATIF, MENENTUKAN PENALARAN, NILAI DAN BATAS MODEL, BAIK DENGAN MEMPERKUAT SISTEM PEMBELAJARAN (RLHF)RLAIFGRPO JUGA TIDAK TERMASUK RLLEBIH SUKA METODE OPTIMISASI (DPO)danMODEL INSENTIF PROSES (PRM)Tunggu. Volume dan biaya lebih rendah (5-10 persen) dari data untuk periode ini terkonsentrasi dalam Rollout dan strategi pemutakhiran; secara alami mendukung jalan kaki dan -distributif implementasi tanpa perlu memegang beban penuh, yang dikombinasikan dengan komputasi terverifikasi dan insentif rantai, dapat membentuk jaringan pelatihan decentrisasi terbuka, link pelatihan yang paling tepat untuk Web3。

图片

II. STRENGTHENING THE TECHNOLOGY OF LEVEL: STRUCTURE, FRAMEKERJA DAN APPLIKASI

Memperkuat arsitektur dan elemen inti pembelajaran

Enhanced Learning (Reinforcement Learning, RL)Lewat"Antaraksi Lingkungan - Perbaikan Incentif - Update Strategic"MODEL MENGEMUDI SECARA OTONOM MENINGKATKAN KAPASITAS PEMBUATAN KEPUTUSAN, DAN STRUKTUR INTINYA DAPAT DILIHAT SEBAGAI LOOP UMPAN BALIK YANG TERDIRI DARI NEGARA, AKSI, HADIAH DAN STRATEGI. SISTEM RL YANG LENGKAP BIASANYA TERDIRI DARI TIGA TIPE KOMPONEN:Politas, Rollout, LearnerAku tidak tahu. Strategi berinteraksi dengan lingkungan untuk menghasilkan lintasan, dan Learner memperbarui strategi berdasarkan sinyal imbalan, sehingga menciptakan proses iteratif dan optimalkan pembelajaran:

图片
  1. KebijakanGenerasi aksi dari keadaan lingkungan berada di jantung keputusan sistem. Pelatihan membutuhkan penyebaran terbalik terpusat untuk mempertahankan konsistensi; alasan dapat didistribusikan ke nodal yang berbeda secara paralel。

  2. Sampel pengalaman (Rollout)Node menerapkan interaksi lingkungan menurut strategi, menghasilkan jalur hadiah negara bagian, dsb. Proses ini sangat paralel dan komunikasi sangat rendah, dan tidak sensitif terhadap perbedaan perangkat keras adalah ekstensi yang paling tepat dalam desentrisasi。

  3. LearnerKompilasi semua trek Rollout dan menerapkan peningkatan gradien strategis adalah satu-satunya modul dengan tingkat tertinggi dari komputasi dan kebutuhan bandwidth, dan karena itu biasanya digunakan sentrally atau ringan untuk memastikan stabilitas。

RHANCED FRAMEWORK FOR LEARNING (RLHF....... RLAIF

Pembelajaran yang diperbesar biasanya dapat dibagi menjadi lima tahap, dengan keseluruhan proses yang dijelaskan di bawah ini:

图片

# I don 't know #Generasi Data Tahap

di bawah petunjuk masukan yang diberikan, model strategi menghasilkan banyak kandidat rantai penalaran atau trek lengkap yang menyediakan basis sampel penilaian preferensi dan pemodelan hadiah, menentukan luasnya eksplorasi strategi。

# I don 't know #FASE FEEDBACK PREFERENCE (RLHF / RLAIF)

  • RLHFMEMBUAT MODEL MENGELUARKAN LEBIH KONSISTEN DENGAN NILAI-NILAI MANUSIA MELALUI BEBERAPA JAWABAN KANDIDAT, LABEL PREFERENSI MANUAL, PELATIHAN INSENTIF MODEL (RM) DAN STRATEGI OPTIMASI PPO ADALAH LINK KUNCI GPT-3.5 GPT-4

  • RLAIFGanti label manual dengan aturan AI Judge atau konstitusional, akuisisi preferensi otomatisasi, secara signifikan mengurangi biaya dan skalable, telah menjadi paradigma alignment dominan untuk Anthropic, OpenAI, DeepSeek, dll。

# I don 't know #Modeling Hadiah

LEBIH SUKA MEMASUKKAN MODEL INSENTIF DAN BELAJAR MEMETAKAN KELUARAN SEBAGAI HADIAH. RM MENGAJARKAN MODEL "APA JAWABAN YANG BENAR", DAN PRM MENGAJARKAN MODEL "BAGAIMANA MEMBUAT ALASAN YANG BENAR"。

  • RM (Model Reward)Untuk menilai kualitas jawaban akhir, hanya keluaran dinilai:

  • Moder Reward ProsesAlih-alih menilai hanya jawaban akhir, itu mencetak setiap langkah penalaran, setiap token, setiap segmen logika, dan juga teknologi kunci untuk OpenAI o1 dan DeepSeek-R1, pada dasarnya "mengajarkan bagaimana model berpikir"。

# I don 't know #Insentif tahap validasi (RLVR / Reward Verifibility)

pengantar "batasan yang sah" di generasi dan penggunaan insentif, yang mengakibatkan dorongan yang datang sejauh mungkin dari aturan replicable, fakta atau konsensus, mengurangi risiko menguntungkan dan bias dan meningkatkan audit dan skabilitas dalam lingkungan terbuka。

# I don 't know #Optimasi Kebijakan

ini adalah pembaruan parameter kebijakan, dipandu oleh sinyal yang diberikan oleh model imbalan, untuk mendapatkan yang lebih beralasan, lebih aman dan lebih stabil pola perilaku. pendekatan optimisasi umum termasuk:

  • PPOOPTIMIZER TRADISIONAL RLHF, YANG PANJANG UNTUK STABILITAS, SERING MENGHADAPI KENDALA SEPERTI SLOWNESS DAN TIDAK CUKUP STABILITAS DALAM TUGAS PENALARAN KOMPLEKS。

  • GRPO (Optimisasi Kebijakan Relatif Kelompok): Ini adalah inti dari inovasi DeepSeek-R1 yang memperkirakan nilai yang diinginkan dengan memodelkan distribusi keuntungan dalam kelompok jawaban kandidat, daripada sekedar menyortir. Metodologi mempertahankan informasi pada margin insentif, lebih cocok untuk optimasi rantai penalaran, dan proses pelatihan lebih stabil, dan dilihat sebagai kerangka optimasi pembelajaran penting untuk adegan mendalam penalaran mengikuti PPO。

  • DPO (Aplikasi Manajemen Arah): Tidak-ditingkatkan belajar metode pos-pelatihan: daripada membuat lintasan dan model insentif, mereka secara langsung dioptimalkan dalam preferensi, dengan biaya dan hasil yang rendah stabil, dan secara luas digunakan untuk menyelaraskan model open source seperti Llama, Gemma, tetapi tidak meningkatkan penalaran。

# I don 't know #Penyebaran Kebijakan Baru

Model teroptimasi adalah: rantai yang lebih kuat dari generasi penalaran (System-2 Resoning), lebih dari manusia atau perilaku yang ramah, lebih rendah halusinogen, keselamatan yang lebih tinggi. Model terus belajar preferensi, mengoptimalkan proses, meningkatkan kualitas keputusan - membuat dan menciptakan lingkaran tertutup dari waktu ke waktu。

图片

Lima kategori industri luas untuk meningkatkan pembelajaran

MempelajariDari kecerdasan permainan awal ke kerangka inti dari keputusan-industri otonom - pembuatan, aplikasi dapat dikelompokkan ke dalam lima kategori luas, tergantung pada kedewasaan teknologi dan lokasi industri, dan berkontribusi pada terobosan kunci di arah masing-masing。

  • Permainan & Rencana; Strategi: Itu adalah arah pertama yang terbukti dari RL, dalam lingkungan seperti AlphaGo, AlphaZero, AlphaStar, OpenAI Five dan sebagainya, di mana RL menunjukkan keputusan-keputusan-membuat intelijen yang dapat bersaing dengan ahli-ahli manusia dan bahkan melebihi mereka, meletakkan dasar untuk algoritma RL modern。

  • Ebodied AIRL, YANG MEMUNGKINKAN ROBOTIKA UNTUK BELAJAR BAGAIMANA MEMANIPULASI, MENGENDALIKAN, DAN MENGATUR TUGAS-TUGAS (MISALNYA RT-2, RT-X) MELALUI KONTROL KONTINYU, PEMODELAN KEKUASAAN DAN INTERAKSI LINGKUNGAN, BERGERAK CEPAT MENUJU INDUSTRIALISASI DAN ADALAH RUTE TEKNOLOGI KUNCI UNTUK JATUHNYA ROBOT DI DUNIA NYATA。

  • Digital Meneliti / LLM System- 2RL + PRM mempromosikan model-model besar yang bergerak dari "lmitasi linguistik" ke "alasan terstruktur", mewakili hasil seperti DeepSeek-R1, OpenAI o1 / o3, Anthropic Claude dan Alphageometri, yang pada dasarnya bermanfaat optimasi pada tingkat rantai penalaran daripada hanya mempertimbangkan jawaban akhir。

  • Penemuan ilmiah otomatis dan optimasi matematisPencarian RL untuk struktur atau strategi terbaik dalam imbalan yang tidak berlabel, kompleks dan ruang pencarian yang luas telah menyebabkan terobosan mendasar seperti AlphaTensor, AlphaDev, Fusion RL dan menunjukkan kemampuan untuk mengeksplorasi di luar intuisi manusia。

  • Keputusan Ekonomi - Membuat & PerdaganganRL DIGUNAKAN UNTUK OPTIMASI TAKTIS, KENDALI RISIKO TINGGI DIMENSI DAN PEMBUATAN SISTEM ADAPTASI SENDIRI, DAN MERUPAKAN KOMPONEN PENTING DARI KEUANGAN CERDAS YANG LEBIH MAMPU BELAJAR TERUS MENERUS DI LINGKUNGAN YANG TIDAK MENENTU DARIPADA MODEL KUANTITATIF TRADISIONAL。

III. Pertandingan alami antara pembelajaran ditingkatkan dan Web3

Tingkat keselarasan tinggi antara batang RL dan Web3 dari keduanya"Sistem penggerak Insentif"Aku tidak tahu. RL mengandalkan strategi optimasi sinyal insentif, dan memblokir rantai bergantung pada insentif ekonomi untuk menyelaraskan perilaku peserta, sehingga keduanya secara alami selaras pada tingkat institusional. Permintaan inti RL - large- skala isomer Rollout, alokasi insentif dan verifikasi keaslian - adalah keuntungan struktural Web3。

# I don 't know #Kompatibilitas antara penalaran dan pelatihan

Proses pelatihan untuk meningkatkan pembelajaran dapat jelas dibagi menjadi dua tahap:

  • Rollout (dieksplorasi sampling)Model menghasilkan sejumlah besar data berdasarkan strategi saat iniKomputer intensifTapi..Keanehan komunikasiMISI. HAL INI TIDAK MEMERLUKAN KOMUNIKASI YANG SERING ANTARA NODE DAN COCOK UNTUK CO-GENERASI PADA DISTRIBUSI GLOBAL KONSUMTASI - TINGKAT GPU。

  • Update (parameter update): Update model bobot berdasarkan pengumpulan data, yang membutuhkan titik centralisasi tinggi bandwidth。

"Debat-kereta" kombinasi alami struktur daya isomeric pusat: Rollout dapat outsourced ke jaringan terbuka untuk menyelesaikan kontribusi melalui mekanisme token, sementara model update mempertahankan konsentrasi untuk memastikan stabilitas。

# I don 't know #Verifibilitas

ZK dan Proof-of-Learning menyediakan sarana untuk memverifikasi apakah node adalah benar untuk penalaran dan memecahkan masalah kejujuran dalam jaringan terbuka. Dalam tugas-tugas tertentu, seperti kode, penalaran matematika, sebuah sertifikat hanya perlu memeriksa jawaban untuk mengkonfirmasi beban kerja dan secara signifikan meningkatkan kredibilitas sistem RL yang terdesentralisasi。

# I don 't know #Lapisan Insentif, mekanisme produksi umpan balik berdasarkan ekonomi mata uang

Mekanisme token Web3 secara langsung menghadiahi RLHF / RLAIF (RLAIF) para kontributor umpan balik yang disukai dengan memberikan struktur insentif yang transparan, jelas, non- lisensi untuk pembuatan data; janji dan pengurangan (Staking / Slaying) lebih baik membatasi kualitas umpan balik dan membuat pasar umpan balik yang lebih efisien dan selaras daripada paket kerumunan tradisional。

# I don 't know #MULTI- INTELECTUAL ENHANCED LEARNING (MARL) POTENSIAL

RANTAI BLOK PADA DASARNYA TERBUKA, TRANSPARAN DAN TERUS BERKEMBANG LINGKUNGAN MULTI- INTELEKTUAL, DAN REKENING, KONTRAK DAN TUBUH CERDAS TERUS-MENERUS TERMOTIVASI UNTUK MENYESUAIKAN STRATEGI SEHINGGA MEREKA MEMILIKI POTENSI ALAMI UNTUK MEMBANGUN LARGE- SKALA LABORATORIUM MARL. MESKIPUN MASIH PADA TAHAP AWAL, NEGARA PENGUNGKAPAN, IMPLEMENTASI KARAKTERISTIK YANG DAPAT DIVERIFIKASI DAN DIPROGRAM MEMBERIKAN KEUNTUNGAN PRINSIP UNTUK PENGEMBANGAN MARL MASA DEPAN。

Klasik Web3 + Analisis dari Proyek Belajar Enhanced

Berdasarkan kerangka konseptual yang digambarkan di atas, kami akan membuat analisis singkat dari proyek yang paling mewakili dalam ekologi saat ini:

Prime Inteltact: sebuah paradigma belajar langkah demi langkah

Prime Intelluct berkomitmen untuk membangun pasar komputer terbuka global, menurunkan batas pelatihan, mempromosikan decentrisasi kolaboratif, dan berkembang sepenuhnya open-source super- teknologi intelijen. Sistemnya termasuk: Prime Compute (Uniform Cloud / Distributional Computing Environment), Model Family (10B-1000B +), Pusat untuk Lingkungan Belajar Terbuka (Lingkungan Hub), dan Mesin Data Synthetic skala besar (SYNTHETIC-1 / 2)。

Infrastruktur Perdana Infrastruktur Inti Komponenprime- rlKerangka kerja dirancang khusus untuk lingkungan hetero- distributif dan sangat relevan untuk meningkatkan pembelajaran, dengan sisa termasuk untuk melanggar bottlenecks bandwidthProtokol Komunikasi OpenDiLoCointegritas perhitunganMekanisme Sertifikasi TopLocTunggu。

# I don 't know #Infrastruktur Perdana Infrastruktur Inti Komponen

图片

# I don 't know #blok bangunan teknologi: prime- rl langkah enhancement pembelajaran framework

prime- rlIni adalah mesin latihan inti Prime Intelect yang dirancang untuk berjalan skala besar ke tengah desain lingkunganActor- LearnerSebuah decoupling lengkap tinggi intensitas penalaran dan pembaruan stabil。Executor (Rollout Worker)danLearner (Trainer)Tanpa pemblokiran sinkron, node dapat ditambahkan atau ditarik setiap saat, dengan data berikut yang sedang diunggah:

图片
  • Executor Actor (Rollout Workers): Bertanggung jawab untuk pemodelan penalaran dan generasi data. Intect utama telah secara innovatif dirakit mesin penalaran VLLM pada akhir Aktor. Kemampuan teknologi VLM PagedAttention dan batching terus menerus memungkinkan Aktor untuk menghasilkan jejak penalaran pada proses yang sangat tinggi。

  • Learner Learner (Trainer)Bertanggung jawab untuk optimasi strategi. Learner mengambil data dari pengalaman bersama di zona penyangga dengan langkah untuk memperbarui gradien tanpa menunggu semua Aktor untuk menyelesaikan batch saat ini。

  • Koordinat (Orchestra)Bertanggung jawab atas pergerakan beban model dan aliran data。

# I don 't know #inovasi kunci titik prime-rl

  • Asinkronisasi Benar: prime- rl meninggalkan paradigma tradisional sinkron dari PPO, tanpa menunggu titik lambat, tanpa kumpulan keselarasan, sehingga setiap angka dan kinerja GPU dapat diakses setiap saat, meletakkan kemungkinan desentralisasi RL。

  • Kedalaman Integrasi FSDP2 dan MoE: Melalui irisan parameter FSDP2 dan aktivasi tipis MoE, prime-rl memungkinkan 100 miliar model skala untuk dilatih secara efisien dalam lingkungan yang didistribusikan, dan Aktor hanya menjalankan ahli aktif, secara signifikan mengurangi biaya visibilitas dan penalaran。

  • GRPO + (Organisasi Kebijakan Relatif Kelompok)GRPO mengecualikan jaringan iklim, secara signifikan mengurangi pengeluaran komputasi dan terlihat, lingkungan alami yang terhuyung-huyung, dan GRPO + dalam bentuk pime- rl menjamin kontraksi dapat diandalkan di bawah tinggi kondisi yang tertunda melalui mekanisme stabilisasi。

# I don 't know #INTELLECT KELUARGA MODEL: SIMBOL DESENTRALISASI DARI KEDEWASAAN TEKNOLOGI RL

  • INTERLEC-1 (10B, OKTOBER 2024)Untuk pertama kalinya, OpenDiLoCo terbukti mampu melakukan pelatihan efektif di jaringan isomer di tiga benua (komunikasi < 2 persen, utilisasi kalkulus 98 persen), melanggar persepsi fisik dari pelatihan geografis

  • INTERLEC-2 (32B, APRIL 2025)(a) Validasi dari kapasitas yang stabil koleksi dari prime-rl dan GRPO + dalam multi- langkah tertunda dan lingkungan variabel untuk decentrization global terbuka-perhitungan partisipasi sebagai yang pertama dari model RL Izin

  • Interlec-3 (106B MoE, November 2025)Menggunakan struktur tipis yang hanya mengaktifkan 12B parameter, pelatihan pada 512xH200 dan kinerja flagship penalaran (AIME 90.8 persen, GPQA 74.4 persen, MMMLU-Pro 81.9 per sen, dll) telah membawa kinerja keseluruhan lebih dekat atau bahkan di luar sendiri terpusat sumber model。

Ada juga beberapa infrastruktur pendukung:OpenDiLoCo(A) MENGURANGI VOLUME KOMUNIKASI UNTUK LINTAS-PELATIHAN GEOGRAFIS OLEH BEBERAPA RATUS KALI PERBEDAAN ANTARA WAKTU KOMUNIKASI TIPIS DAN BERAT KUANTITATIF, MENJAGA TINGKAT UTILISASI INTELECT1 98 PERSEN DALAM JARINGAN TRANSCONTINENTALTopLoc + VerifierBentukUntuk memusatkan tingkat eksekutif kredibelUntuk mengaktifkan validasi sidik jari dan kotak pasir untuk memastikan keaslian penalaran dan data imbalanSYNHETIC MESIN DATALARGE- SKALA BESAR RANTAI PENALARAN BERKUALITAS TINGGI DIPRODUKSI, DAN GARIS ALIRAN SEJAJAR DENGAN MODEL 671B DENGAN OPERASI EFISIEN DALAM CLUSTER GPU TINGKAT. KOMPONEN INI MENYEDIAKAN BASIS REKAYASA KRITIS UNTUK DECENTRISASI DARI RL GENERASI DATA, VALIDASI DAN PENALARAN. AKU..NTELLECT SERIDemonstrasi model kelas dunia yang menghasilkan kedewasaan akan menandai gerakan dari konseptual ke fase praktis dari sistem pelatihan yang terdesentralisasi。

RL Swarm and SAPO for Enhanced Learning

Tujuan Gensyn adalah mengumpulkan kekuatan komputasi menganggur global menjadi infrastruktur terbuka, tanpa kepercayaan dan pelatihan AI yang tak terbatas. Intinya termasuk:Lewatkan - Peralatan Standardisasi Tingkat ImplementasiAku tidak tahuJaringan koordinasi titik poindanSistem validasi pekerjaan tanpa kepercayaanDan secara otomatis menetapkan tugas dan imbalan melalui kontrak cerdas. Perkenalan GensynRL SwarmAku tidak tahuSAPOdanSkipPipadan mekanisme lain, seperti mekanisme inti, akanHasilkan, menilai, updateTIGA KOPLING, MENGGUNAKAN KELOMPOK GLOBAL ISOMER GPU DARI "LEBAH" BEREVOLUSI SECARA KOLEKTIF. PENGIRIMAN UTAMA BUKAN KALKULUS SEDERHANA, TAPI SATU SEDERHANAIntelijen TerverifikasiAku tidak tahu。

# I don 't know #Aplikasi Pembelajaran Diaktifkan untuk Sepenyimpanan Gensyn

图片

# I don 't know #RL Swarm: Mesin pembelajaran intensif yang dideklarasi

RL SwarmSebuah model kolaborasi baru telah ditunjukkan. Hal ini tidak lagi sebuah distribusi tugas sederhana, tapi sebuah "generasisasi yang decentrisasi - penilaian" siklus meningkatkan "yang mensimulasikan pembelajaran sosial manusia, semacam proses pembelajaran kolaborasi, sebuah siklus yang tak terbatas:

  • PenyelesaianResponsible for local model penalaran dan generasi Rollout, no harm to node insulation. Gensyn, dalam mesin penalaran volume terpadu lokal (misalnya CodeZero), dapat mengeluarkan trek lengkap daripada sekedar jawaban。

  • Proposer: Tugas generasi dinamis (pertanyaan matematika, pertanyaan kode, dll) untuk mendukung keragaman tugas danBelajar Curriculum beradaptasi dengan kesulitannyaAku tidak tahu。

  • EvaluasiAssembly of the local Rollout menggunakan "model penilaian" atau aturanHasilkan lokal sinyal imbalanAku tidak tahu. Proses perakitan dapat diaudit untuk mengurangi lingkup untuk penyalahgunaan。

BERSAMA-SAMA, MEREKA MEMBENTUK STRUKTUR ORGANISASI P2P RL, YANG AKAN MEMUNGKINKAN PEMBELAJARAN KOLABORATIF SKALA BESAR TANPA KEBUTUHAN UNTUK KONTROL GERAKAN TERPUSAT。

图片

# I don 't know #SAPO: OPTIMALKAN ALGORITMA UNTUK STRATEGI DECENTRISASI

SAPO (Optimisasi Kebijakan Samping)"Bersama Rollout dan disaring non-kelulusan sampel sinyal bukannya gradien bersama"Pada intinya, kontraksi stabil dalam lingkungan yang ditandai oleh koordinasi pusat, node tertunda, dicapai melalui skala besar decentrisasi dari Rollout sampel, yang dianggap hasil lokal. Konsumen level GPU juga dapat berpartisipasi secara efektif dalam jumlah optimasi pembelajaran yang meningkat dengan bandwidth yang sangat rendah dibandingkan dengan jaringan Kritikus, PPOs berbiaya tinggi, atau GPO berdasarkan perkiraan kekuatan kelompok。

LewatRL Swarm dan SAPOGensyn adalah bukti pembelajaran intensif(TERUTAMA RLVR DALAM FASE POS-PELATIHAN)Struktur decentrisasi fit alami - karena mereka lebih tergantung pada skala besar dan diversifikasi eksplorasi (Rollout) daripada pada sinkronisasi parameter HF. Bersama dengan sistem sertifikasi dari PoL dan Verde, Gensyn menawarkan jalur alternatif untuk pelatihan dalam model parameter skala triliunan yang tidak lagi bergantung pada teknologi raksasa tunggal:SEBUAH JARINGAN INTELEKTUAL BERKEMBANG SENDIRI JUTAAN ISOMER DI SELURUH DUNIA。

Riset Nous: Validasi Enhanced Learning Environment Atropos

Nous Research sedang membangun satu setInfrastruktur kognitif terpusat dan berkembangAku tidak tahu. Its inti komponen - Hermes, Atropos, DisTRA, Psyche dan Dunia - yang terorganisir ke dalam sistem evolusi intelektual yang terus ditutup. Tidak seperti proses tradisional "pre-training-post- training" linear process, Nos menggunakan teknik belajar yang ditingkatkan seperti DPO, GRPO, penyangkalan sampling, untuk menyelaraskan generasi data, validasi, belajar dan penalaran menjadi sebuah loop umpan balik terus menerus, dan untuk membuat loop tertutup dari perbaikan AI ekologi yang terus menerus。

# I don 't know #Overview Komponen Penelitian Nous

图片

# I don 't know #Lapisan model: Evolusi Hermes dan kemampuan penalaran

Seri Hermes adalah antarmuka model berorientasi utama untuk Nous Research, dan evolusinya dengan jelas menggambarkan jalur migrasi industri dari keselarasan SFT / DPO tradisional untuk pembelajaran yang ditingkatkan:

  • Hermes 1-3: keselarasan direksi dan kapasitas agensi awalHermes 1-3 bergantung pada DPOs berbiaya rendah untuk menyelesaikan penyesuaian perintah yang kuat dan, di Hermes 3, menggunakan data sintetis dengan pengenalan pertama mekanisme validasi Atropos。

  • Hermes 4 / Deefermes: Tulis system-2 lambat berpikir ke dalam bobot melalui rantai pikir, meningkatkan matematika dan performa kode oleh Skala Waktu Gigi, dan membangun data penalaran kemurnian tinggi dengan mengandalkan "Tidak Ada Otentikasi Sampling + Persetujuan"。

  • DeepHermesPenggunaan lebih lanjut dari GRPO daripada PPOs yang didistribusikan dengan keras untuk memungkinkan penalaran RL untuk beroperasi di Psyche mendesentralisasi jaringan GPU, meletakkan dasar rekayasa untuk ekspansi alasan terbuka RL。

# I don 't know #Agropos: sebuah lingkungan pembelajaran yang ditingkatkan yang dapat memvalidasi insentif

Atropos adalah pusat sebenarnya dari sistem Nous RL. Ini menyediakan validasi langsung dari keluaran sebagai lingkungan standar RL untuk tips, panggilan alat, eksekusi kode dan beberapa putaran encapsulasi interaktif, sehingga menyediakan jelas insentif sinyal untuk menggantikan label manusia yang mahal dan tidak ekstensif. Lebih penting lagi, dalam jaringan pelatihan sentralisasi Psyche, Agropos bertindak sebagai "penghakiman" untuk mengesahkan strategi benar dari node dan untuk mendukung Prof-of-Learning yang dapat diaudit, secara fundamental menangani kredibilitas penghargaan dalam RL yang didistribusikan。

图片

# I don 't know #DisTRO dan Psyche: Lapisan optimizer untuk pembelajaran intensif desentralisasi

Pelatihan tradisional RLF (RLHF / RLAIF) bergantung pada kelompok berpusat tinggi bandwidth, penghalang inti yang tidak dapat direplikasi oleh sumber terbuka. DisTrO mengurangi biaya komunikasi RL dengan beberapa urutan besarnya dengan menekan kalibrasi kinetik dan gradien, memungkinkan pelatihan untuk beroperasi pada bandwidth Internet; Psyche mengerahkan mekanisme pelatihan ini untuk jaringan pada rantai sehingga node dapat menyelesaikan penalaran mereka, validasi, penghargaan penilaian dan pembaruan berat lokal dan bentuk loop tertutup RL lengkap。

Dalam sistem Nous, Agropos memvalidasi rantai pemikiran; DisTRA mengkompresi komunikasi pelatihan; Psyche menjalankan loop RL; Dunia Sim menyediakan lingkungan yang kompleks; Forge mengumpulkan penalaran sejati; Hermes menulis semua pembelajaran ke berat badan. Pembelajaran yang ditingkatkan bukan hanya fase pelatihan, tapi perjanjian inti dalam arsitektur Nous untuk menghubungkan data, lingkungan, model dan infrastruktur, membuat sistem hidup Hermes yang dapat terus-menerus meningkatkan dirinya pada jaringan komputasi open source。

Gradien Network: Enhanced Learning Architecture

Gradien Network 's core vision is to remodel AI through Open Intelligence Stack. Gradien' s teknologi gudang terdiri dari satu set inti independen berkembang, perjanjian interspersif. Sistemnya, mulai dari komunikasi tingkat rendah ke kolaborasi intelijen tingkat atas, termasuk Parallax (penalaran distribusi), Echo (dementrisasi RL training), Lattica (jaringan P2P), simulasi SEDM / Massgen / Symphony / CuAHarm (meritominasi, kolaborasi, VeriLLLM (validasi kredibel), simulasi prototipe tinggi (tinggi), yang bersama-sama merupakan evolusi desentralisasi kecerdasan。

图片

Echo - Enhanced Belajar dan Pelatihan Arsitektur

Echo adalah kerangka pembelajaran yang ditingkatkan dari Gradien, yang desain inti filosofi adalah untuk mendekorasi pelatihan, penalaran, dan data (reward) jalan dalam pembelajaran yang ditingkatkan, memungkinkan generasi Rollout, optimasi taktis dan penilaian penghargaan untuk memperluas dan bergerak secara independen dalam lingkungan isomeric. Operasi operasi dalam jaringan isomer terdiri dari sisi penalaran dan sisi pelatihan, mempertahankan stabilitas pelatihan dalam lingkungan luas-Isomeric dengan mekanisme sinkronisasi cahaya, dan secara efektif mengurangi kegagalan SPMD dan batas utilisasi GPU disebabkan oleh kombinasi penalaran dan pelatihan dalam tradisional DeepSpeed RHF / VERL。

图片

Echo menggunakan "debate- kereta struktur dua-cluster" untuk memaksimalkan penggunaan algoritma, beroperasi independen satu sama lain dan bebas dari satu sama lain:

  • Maksimalkan menelan sampel: sekelompok penalaran(a) Konsumen -grade GPU dengan peralatan perifer untuk membangun tinggi intensitas sampel muntah oleh Parallax dengan pilline- paralel, fokus pada generasi lintasan

  • Perhitungan gradien maksimum: Pelatihan SwarmSebuah jaringan GPU tingkat konsumer yang beroperasi dalam sebuah cluster terpusat atau multi- field global, bertanggung jawab untuk memperbarui gradien, menyelaraskan parameter dengan LoRA finetuning dan berfokus pada proses belajar。

Untuk mempertahankan konsistensi antara strategi dan data, Echo menyediakanOrderdanAsinkronisasiDua jenis protokol sinkronisasi ringan yang mencapai dua arah manajemen koheren strategis bobot dan lintasan:

  • Sequenced Tarik Mode PresisiAba Sisi pelatihan untuk memaksa pemutakhiran versi model dari titik penalaran sebelum mengeluarkan trek baru, sehingga memastikan bahwa trek segar dan cocok untuk tugas-tugas yang sangat sensitif terhadap strategi lama

  • Push- Tarik prioritas model untuk efisiensi: sisi penalaran terus menghasilkan trek dengan label versi, sisi pelatihan dikonsumsi pada kecepatan sendiri, koordinator monitor distorsi dan pemicu peraksi, dan memaksimalkan utilisasi peralatan。

Di bagian bawah, Echo membangun di Parallax (penalaran isomer dalam lingkungan rendah-bandwidth) dan kilat-kuantitatif modul pelatihan didistribusikan (misalnya VERL), mengandalkan LoRA untuk mengurangi biaya sinkronisasi pada node sehingga pembelajaran meningkat dapat beroperasi secara stabil pada jaringan isomer global。

Grail: Bittensor Eco- ditingkatkan Belajar

Melalui uniknya Mekanisme konsensus Yuma, Bittensor telah membangun jaringan insentif yang luas, tipis, tidak stabil。

Covent AI Ekologi Bittensor dibangun garis air vertikal dari pre- dan post- RL pelatihan melalui SN3 Templar, SN39 Basilica dan SN81 Grail. Di antara mereka, SN3 Templar bertanggung jawab untuk pelatihan awal dalam model dasar, SN39 Basilica menyediakan pasar kalkulator terdistribusi, SN81 Grail berfungsi sebagai "lapisan penalaran yang valid" untuk pelatihan post- RLHF / RLAIF, membawa proses inti untuk mengoptimalkan loop tertutup dari model dasar untuk menyesuaikan strategi。

图片

GAILTujuannya adalah..sandi untuk membuktikan keaslian setiap kajian yang ditingkatkan terikat pada identitas modelUNTUK MEMASTIKAN BAHWA RLHF DAPAT DIIMPLEMENTASIKAN DENGAN AMAN DI LINGKUNGAN YANG TIDAK MEMERLUKAN KEPERCAYAAN. PERSETUJUAN MEMBANGUN RANTAI KREDIBEL MELALUI MEKANISME TIGA BERDETIK:

  1. Generasi tantangan identifikasiAba Tak bisa diprediksi tapi ada tugas tantangan (misalnya, SAT, GSM8K) dari penggunaan beacon acak dan blok Hashy untuk mencegah penipuan yang diharapkan

  2. Komite Sampling dan Sketsatoken-level logprob dan rantai penalaran untuk memungkinkan sertifikat untuk mengkonfirmasi bahwa rollout dihasilkan oleh model deklarasi

  3. Pengikatan ID model: Mengikat proses penalaran untuk model berat sidik jari dan tanda tangan terstruktur dari distribusi token untuk memastikan bahwa model pengganti atau hasil segera diidentifikasi. Akibatnya, lintasan logika (rollout) dalam RL menyediakan dasar untuk keaslian。

Dalam mekanisme ini, subnet Grail mencapai proses pelatihan yang diverifikasi dengan gaya GRPO-: penambang menghasilkan beberapa jalan penalaran untuk subjek yang sama, sertifikat menilai kepuasan SAT berdasarkan pembenaran, kualitas dari rantai penalaran, dan menuliskan hasilnya sebagai beban TAO. Eksperimen terbuka telah menunjukkan bahwa kerangka kerja telah meningkatkan akurasi MATH dari Qwen2.5B 1.5B dari 12.7 persen menjadi 47.6 persen, menunjukkan bahwa keduanya dapat mencegah penipuan dan secara signifikan meningkatkan kemampuan modelling. Grail adalah landasan dari kepercayaan dan penerapan dari RLVR / RLAIF yang didesentrasikan dalam ruang pelatihan dari Covenant AI, dan tidak ada jalur online resmi。

Fracing AI: Enhanced Learning Based on Competition RLFC

Struktur dari Facing AI jelas sekitarKompetisi Belajar dari Kompetisi, RLFC, mengganti insentif statis RLHF tradisional dengan label manual dengan lingkungan yang terbuka dan dinamis. Agen ini bersaing dalam Spaces berbeda, yang peringkat relatif, bersama dengan rating AI, merupakan insentif real-time untuk mengubah proses alignment menjadi sistem game multi- pintar terus menerus online。

Perbedaan inti antara RLHF tradisional dan RLFC dari Frac AI:

图片

NILAI INTI RLFCInsentives datang tidak lagi dari satu model, tetapi dari persaingan berkembang dan evaluator, menghindari penggunaan model imbalan dan mencegah keunggulan ekologi melalui keragaman taktis. Struktur Spaces menentukan sifat permainan (zero-sum atau positive-sum) dan mendorong munculnya perilaku kompleks dalam konfrontasi dan kolaborasi。

Dalam arsitektur dari sistem, Memerangi AI membongkar proses pelatihan menjadi empat komponen kunci:

  • Jaman: Modul strategi ringan berbasis LLM open source, dikembangkan oleh bobot diferensial melalui QLora, dengan pemutakhiran biaya rendah

  • Ruang(A) Sebuah lingkungan area misi terpisah, di mana agen dibayar untuk masuk dan dihargai untuk menang

  • Al Hakim: RLAIF BERBASIS, INSTANT- LAPISAN BERMANFAAT, MENYEDIAKAN DIPERPANJANG, PENILAIAN DECENTRIZED

  • Proof- of-LearningAba Untuk mengikat update strategi untuk hasil kompetitif tertentu untuk memastikan bahwa proses pelatihan dapat diverifikasi dan anti- penipuan。

Inti dari Facing AI adalah untuk membangun mesin evolusi yang bekerja satu sama lain ". Pengguna, sebagai" Metal--optimizer "dari lapisan kebijakan, memandu arah pencarian dengan mengisyaratkan ke projek dan supersengineering, dan agen secara otomatis menghasilkan massa preferensi data berkualitas tinggi (Preference Pairs) dalam kompetisi mikrolevel. Pola ini memungkinkan data untuk lulus"Trustless Fine- tuning"Bisnis ditutup。

Enhanced Learning Web3 Project Architecture Comparison

图片

V. Summing up and looking forward: ways and opports for improved learning x Web3

Berdasarkan analisis dekonstruktif dari proyek-proyek depan yang disebutkan di atas lantai, kami mengamati bahwa, meskipun titik masuk (perhitungan, pemasaran, atau pasar) bervariasi dari tim ke tim, ketika dikombinasikan dengan Web3 intensif belajar (RL), logika arsitektur yang mendasarinya menjadi sangat konsisten "dekomponition-valid" paradigma. Ini bukan hanya kebetulan teknis, tetapi juga konsekuensi logis decentrisasi jaringan untuk meningkatkan belajar atribut unik。

Fitur arsitektur pembelajaran generik yang ditingkatkan:Addressing core physical kendala dan masalah kepercayaan

  1. Mempraktekkan Pemisahan Fisik (Decoupling dari Rollouts & amp; Learning) - Kalkulator Baku Popping

    Rare, paralel, komunikasi Rollout yang outsourced ke GPU di tingkat konsumen global, dengan update parameter high-bandwidth difokuskan pada sejumlah kecil node pelatihan, baik dalam struktur dua-kelompok dari langkah Prime Industries-Learner ke Gradien Echo。

  2. Validation- dive Trust - Infrastruktureization

    Dalam jaringan yang tidak memerlukan izin, keaslian komputasi harus tunduk pada keamanan wajib melalui matematika dan desain institusi, yang mewakili pencapaian otentikasi sandi untuk Pol, Prime Intelect, dan Grail。

  3. Tokenize Incentive Loop - Pasar sendiri-regulasi 

    Distribusi power supply, data generation, urutan validasi dan insentif ditutup, memungkinkan jaringan untuk tetap stabil dan terus menerus di lingkungan terbuka melalui insentif partisipasi dan melalui pemotongan berbasis slash。

Jalur teknologi berbeda: berbeda "breakpoint" di bawah arsitektur koheren

Meskipun konvergensi struktur, teknologi yang berbeda telah dipilih oleh proyek berdasarkan gen mereka:

  • Riset Nus: sebuah upaya untuk menyelesaikan fundamental kontradiksi dari pelatihan didistribusikan (bandwidth bottlenecks) dari dasar matematika. Its Distro Optimizer, dirancang untuk mengominasi lalu lintas gradien ribuan kali, bertujuan untuk memungkinkan broadband rumah tangga untuk menjalankan latihan model skala besar, yang merupakan "pukulan downside" untuk kendala fisik。

  • Rekayasa SistemThe "AI running time system" difokuskan pada pembangunan generasi berikutnya. Intelek UtamaShad CastDan GradienParallaxSemua dirancang untuk mengekstrak efisiensi kelompok isomer tertinggi melalui teknik rekayasa ekstrim di bawah kondisi jaringan yang ada。

  • Ini permainan pasarDesain Pengungsi. Keberadaan kecerdasan dipercepat melalui desain mekanisme rating yang sangat baik yang akan menyebabkan penambang untuk menemukan strategi mereka sendiri yang terbaik。

Kuat, menantang dan pandangan terakhir

Dalam paradigma menggabungkan pembelajaran yang ditingkatkan dengan Web3, keuntungan tingkat sistem- dimulai denganStruktur biayadanStruktur pemerintahantulis ulang。

  • Perbaikan BiayaRL Post- pelatihan permintaan untuk sampling (Rollout) tidak terbatas, dan Web3 dapat memobilisasi global jangka panjang komputasi dengan biaya sangat rendah, keuntungan bahwa pabrik awan sentral tidak dapat cocok。

  • Perataan Kerajaan: Melanggar monopoli pada AI Value, masyarakat dapat menggunakan Token untuk memilih untuk menentukan jawaban yang baik untuk mendemokratisasi pemerintahan AI。

Pada saat yang sama, sistem menghadapi dua kendala struktural utama。

  • Dinding BandwidthMeskipun inovasi seperti DisTro, penundaan fisik masih membatasi pelatihan skala penuh dari model hyperparametric (70B +), dan kini Web3 AI lebih terbatas untuk menemukan dan mencari alasan。

  • Gudhard Hacking: Dalam jaringan yang sangat termotivasi, penambang sangat mudah untuk "codefy" insentif aturan daripada upgrade kecerdasan nyata. Mendesain fungsi penghargaan batang palsu adalah permainan abadi。

  • The Byzantium node attackMenghemat melalui manipulasi aktif sinyal pelatihan dan meracuni model penghancuran. Inti bukan desain terus-menerus dari fungsi insentif palsu-bukti, tetapi pembangunan mekanisme konfrontasional。

Kombinasi pembelajaran yang ditingkatkan dengan Web3 pada dasarnya adalah mekanisme untuk menulis ulang "bagaimana kecerdasan diproduksi, selaras dan dihargai". Jalur evolusinya dapat dirangkum dalam tiga arah:

  1. Pergi ke jaringan pelatihan pusatDari mesin ke jaringan strategi, Rollout paralel dan diverifikasi outsourced ke Global Longtail GPU, fokus jangka pendek yang memvalidasi pasar penalaran, dan evolusi medis menjadi jaringan pembelajaran yang ditingkatkan oleh gugus tugas

  2. Lebih suka dan penilaian imbalanDari label tenaga kerja ke ekuitas data. Perakitan preferensi dan insentif untuk mengubah umpan balik dan Model Reward berkualitas tinggi menjadi aset data yang dapat dikelola, didistribusikan, dari "menandai buruh" menjadi "ekuitas data"

  3. "Kecil dan cantik" evolusi di domain vertikal: RLAAgents kecil yang berdedikasi dan kuat dalam skenario vertikal dengan hasil yang dapat diverifikasi dan hasil yang dapat diukur, seperti Implementasi Kebijakan DeFi, Generasi Kode, membuat peningkatan strategi secara langsung mengikat untuk menangkap dan menjanjikan untuk memenangkan sebuah model sumber generik。

Secara umum, kesempatan nyata untuk meningkatkan pembelajaran x Web3 bukan untuk menyalin versi yang terdesentralisasi dari OpenAI, tetapi untuk menulis ulang "Intelligent Produksi Hubungan":Aplikasi pelatihan menjadi pasar komputasi terbukaJeanIncentive dan preferensi menjadi aset rantai yang dikelolaBiarkan nilai kecerdasan tidak lagi fokus pada platform, tapiRedistribusi pelatih, alignors dan pengguna。

图片

RECOMMENDED READING:

Bank bitcoin terbesar di Asia, Metaplanet

Ibukota Multicoin: Teknologi Keuangan 4.0

kelas berat A16z Web3 Unicorn Farcaster memaksa transisi, Sosialisasi Web3 adalah isu munafik

QQlink

无加密后门,无妥协。基于区块链技术的去中心化社交和金融平台,让隐私与自由回归用户手中。

© 2024 QQlink 研发团队. 保留所有权利.