Litecoin

a16z: Amneia for AI, สามารถเรียนรู้ต่อไปได้หรือ

2026/04/25 03:36
🌐th

การค้นพบเป็นสิ่งที่ทําให้แบบจําลองแข็งแรง เมื่อถูกนําไปใช้และฝึกฝน。

a16z: Amneia for AI, สามารถเรียนรู้ต่อไปได้หรือ
ชื่อ เดิม: เหตุ ผล ที่ เรา จําเป็น ต้อง เรียน รู้ ต่อ ๆ ไป
เดิมโดยมาลา อาบากิโรตา แมตต์ บอร์นสไตน์ อา16z การเข้ารหัส
ภาษาดั้งเดิม: Depreque TechFlow

ในชื่อ คริสโตเฟอร์ โนแลน นักแสดงนํา ลีโอนาร์ด เชลบี้ อาศัยอยู่ในช่วงเวลาที่แตกสลาย ความ เสีย หาย ทาง สมอง ทํา ให้ เขา ต้อง ผัด วัน ประกัน พรุ่ง และ สูญ เสีย ความ ทรง จํา ใหม่ ๆ. ทุก 2-3 นาที โลกของเขาจะถูกรีเซ็ต ติดอยู่ใน "ช่วงเวลานี้" ตลอดกาล จําสิ่งที่เพิ่งเกิดขึ้น เพื่อ จะ อยู่ รอด เขา ได้ เขียน และ ถ่าย ภาพ ร่าง ของ เขา เพื่อ แทน ที่ การ จํา ซึ่ง สมอง ไม่ สามารถ ทํา ได้。

แบบ จําลอง ภาษา ใหญ่ มี ชีวิต อยู่ ใน สมัย ที่ คล้ายคลึง กัน. หลัง จาก ได้ รับ การ ฝึก อบรม ความ รู้ มาก มาย ก็ ถูก ทํา ให้ แข็ง แกร่ง ด้วย ตัวแปร และ แบบ จําลอง ก็ ไม่ ได้ สร้าง ความ ทรง จํา ใหม่ ๆ และ ไม่ ได้ ปรับ เปลี่ยน ตัวแปร ของ มัน ให้ ทัน กับ ประสบการณ์ ใหม่ ๆ. เพื่อเติมเต็มช่องว่างนี้ เราใส่มันบนกระดานเรียน: ประวัติการสนทนาเป็นการพิมพ์แบบระยะสั้น ระบบกู้ข้อมูลเป็นสมุดโน้ตภายนอก ระบบคําใบ้เป็นรอยสัก แต่ตัวจําลองเอง ไม่เคยกําหนดข้อมูลใหม่นี้。

นัก วิจัย จํานวน มาก ขึ้น เรื่อย ๆ ถือ ว่า เรื่อง นี้ ไม่ เพียง พอ. การ เรียน รู้ เกี่ยว กับ บริบท (ICL) แก้ ปัญหา หาก คํา ตอบ (หรือ เศษ ส่วน ของ คํา ตอบ) มี อยู่ แล้ว ใน บาง ส่วน ของ โลก. แต่ มี เหตุ ผล ที่ ดี ว่า ทําไม ตัว อย่าง จึง จําเป็น ต้อง มี วิธี ที่ จะ รวม เอา ความ รู้ และ ประสบการณ์ ใหม่ ๆ เข้า ไว้ โดย ตรง ใน ตัวแปร ต่าง ๆ หลัง จาก ใช้ ไป แล้ว สําหรับ ปัญหา เหล่า นั้น ซึ่ง จํา ต้อง ได้ รับ การ ค้น พบ จริง ๆ (เช่น ประกาศนียบัตร คณิตศาสตร์ ใหม่) สําหรับ การ เผชิญ หน้า กัน (ข้อ ป้องกัน ด้าน ความ ปลอด ภัย) หรือ สําหรับ ความ รู้ ที่ ซับ ซ้อน เกิน กว่า จะ แสดง ออก ใน ภาษา。

การเรียนรู้บริบทเป็นเรื่องชั่วคราว การเรียนรู้ที่แท้จริงต้องการการบีบอัด จนกว่าเราจะยอมให้แบบจําลองบีบมันต่อไป มันอาจจะติดอยู่ในห้วงเวลานิรันดร์ของความจํา ในทางกลับกัน ถ้าเราสามารถฝึกแบบจําลอง เพื่อเรียนรู้โครงสร้างความทรงจําของพวกเขาเอง แทนที่จะพึ่งพาเครื่องมือที่ออกแบบเองภายนอก。

สนามนี้เรียกว่าเรียนต่อเนื่อง(การเรียนรู้ภายใน) แนวคิดนี้ไม่ใหม่ (ดู McLoskey และ Cohen 1989) แต่เราคิดว่ามันเป็นหนึ่งในแนวทางการวิจัยที่สําคัญที่สุดในสาขาเอไอในปัจจุบัน การ เจริญ เติบโต อย่าง รวด เร็ว ของ ความ สามารถ ใน การ จําลอง ตลอด สอง ถึง สาม ปี ที่ ผ่าน มา ทํา ให้ ช่อง ว่าง ระหว่าง รุ่น ที่ รู้ จัก กัน นั้น ปรากฏ ชัด ขึ้น เรื่อย ๆ. จุดประสงค์ของบทความนี้ก็คือ การแบ่งปันสิ่งที่เราได้เรียนรู้ จากนักวิจัยชั้นนําในสาขาวิชาต่างๆ เพื่อช่วยให้ความชัดเจนในแนวทางต่างๆ ของการเรียนรู้อย่างต่อเนื่อง。

หมายเหตุ: บทความ นี้ ได้ รับ ประโยชน์ จาก การ แลก เปลี่ยน อย่าง เอา จริง เอา จัง กับ กลุ่ม นัก วิจัย ที่ ดี เยี่ยม นัก ศึกษา และ ผู้ประกอบการ ซึ่ง มี ส่วน ร่วม ใน งาน และ ความ หยั่ง เห็น เข้าใจ ของ ตน อย่าง ใจ กว้าง ใน ขอบ เขต แห่ง การ เรียน รู้ ต่อ ๆ ไป. จากรากฐานทางทฤษฎี สู่ความเป็นจริงทางวิศวกรรม ของการเรียนรู้ภายหลังการบรรลุนิติภาวะ ความเข้าใจของพวกเขา ได้ทําให้บทความนี้มั่นคงมากขึ้น ขอบคุณที่สละเวลาและความคิด

เริ่มจากบริบทก่อน

ก่อนที่จะป้องกันการเรียนรู้ระดับพารามิเตอร์ (เช่น การเรียนรู้ว่าการปรับปรุงน้ําหนักแบบจําลอง) เป็นสิ่งจําเป็นที่จะยอมรับว่า และ มี ข้อ โต้ แย้ง ที่ หนัก แน่น ว่า นั่น จะ ยัง คง ชนะ อยู่ ต่อ ไป。

ที่สําคัญของหม้อแปลง เป็นตัวทํานายต่อไป ขึ้นอยู่กับเงื่อนไขของลําดับ ให้มันลําดับที่ถูกต้อง คุณได้รับพฤติกรรมที่อุดมไปด้วยอย่างน่าทึ่ง และคุณไม่จําเป็นต้องสัมผัสน้ําหนัก นั่นคือเหตุผลว่าทําไมการจัดการบริบท เคล็ดลับ คําแนะนําที่ละเอียดรอบคอบ และตัวอย่างตัวอย่างไม่กี่อย่าง จึงมีอํานาจมาก การจับเท็จฉลาดอยู่ในตัวแปรคงที่ และความสามารถในการแสดงการเปลี่ยนแปลงอย่างน่าทึ่ง เมื่อคุณป้อนเข้าไปในหน้าต่าง。

บทความล่าสุดที่ลงวันที่ 3 โดยเคอร์เซอร์ในการเขียนโปรแกรมอัตโนมัติ สมาร์ทสปอร์ต เป็นตัวอย่างที่ดี: น้ําหนักแบบคงที่แล้ว。

OpenCraw เป็นอีกตัวอย่างที่ดี มันไม่ได้ระเบิดเพราะอภิสิทธิ์พิเศษ (ซึ่งมีให้ใช้ได้ทั้งหมดด้านล่าง) แต่เนื่องจากมันเปลี่ยนบริบทและเครื่องมือไปเป็นสภาพการทํางานอย่างมีประสิทธิภาพมาก: ติดตามสิ่งที่คุณกําลังทําอยู่, การสร้างตัวกลาง, การตัดสินใจเมื่อใดที่จะทําซ้ําและรักษาความทรงจําถาวรของงานก่อนหน้านี้ OpenCrule ยก "การออกแบบนรก" ของคนฉลาดเป็นวินัยอิสระ。

เมื่อกระตุ้นให้โครงการปรากฏขึ้นเป็นครั้งแรก นักวิจัยหลายคนก็สงสัยเกี่ยวกับความจริงที่ว่า "การแบ่งประเภทเพียงอย่างเดียว" มันดูเหมือนแจ็ค อย่าง ไร ก็ ตาม นั่น คือ ผล ผลิต ดั้งเดิม ของ สถาปัตยกรรม แปลง ไม่ จําเป็น ต้อง ใช้ การ ปรับ ปรุง ใหม่ และ ได้ รับ การ ปรับ ปรุง ให้ เป็น ความ ก้าว หน้า แบบ จําลอง โดย อัตโนมัติ. นางแบบแข็งแรงขึ้น คําใบ้ก็แรงขึ้น อินเตอร์เฟส "Simatic but special" มักจะชนะเพราะมันเชื่อมต่อกับระบบด้านล่าง ไม่ใช่ระบบ จนถึงตอนนี้ วิถีของแอลแอลเอ็มก็เป็นแบบนั้น。

รุ่นของพื้นที่: สเตียรอยด์ รุ่นของบริบท

บริบท ของ การ เรียน รู้ อยู่ ภาย ใต้ ความ กดดัน ที่ เพิ่ม ขึ้น เรื่อย ๆ ขณะ ที่ การ ทํา งาน หลัก ๆ ไหล เวียน จาก ระบบ แอล แอล เอ็ม เดิม ไป สู่ การ ไหล เวียน ด้วย เชาวน์ ปัญญา. ใน อดีต แทบ จะ ไม่ มี หน้าต่าง ใน ท้อง ถิ่น ที่ จะ เต็ม ไป หมด. โดย ทั่ว ไป แล้ว เรื่อง นี้ เกิด ขึ้น เมื่อ มี การ ขอ ให้ ILM ทํา งาน ที่ ไม่ มี การ ควบคุม เป็น ระยะ ยาว และ ชั้น ของ โปรแกรม ก็ สามารถ ตัด และ บีบ ให้ เกิด ประวัติ การ สนทนา โดย ตรง ได้。

แต่ สําหรับ ร่าง กาย ที่ มี เชาวน์ ปัญญา ภารกิจ อาจ กิน ส่วน ใหญ่ ของ บริบท ที่ มี อยู่ เสมอ. ทุก ขั้น ตอน ของ วัฏจักร ที่ มี เชาวน์ ปัญญา ขึ้น อยู่ กับ บริบท ที่ ลําดับ แรก ผ่าน ไป. และมันมักจะพลาด 20 ถึง 100 ก้าว ต่อมา เพราะเส้นตรงนั้นแตกแล้ว บริบทเต็ม ความสอดคล้องนั้นเสื่อมสภาพ และไม่สามารถบรรจุได้。

ผลก็คือ ห้องทดลองหลักของ AI ตอนนี้ได้อุทิศทรัพยากรที่สําคัญ (การฝึกซ้อมขนาดใหญ่) นี่เป็นเส้นทางธรรมชาติ เนื่องจากมันตั้งอยู่บนพื้นฐานวิธีการ ที่มีประสิทธิภาพอยู่แล้ว (เรียนตามบริบท) และเป็นไปตามแนวโน้มของอุตสาหกรรม โครง สร้าง ที่ พบ มาก ที่ สุด คือ ชั้น ความ จํา ที่ คงทน, ไอ. เอ. SSM มีเส้นโค้งยืดหดที่ดีขึ้นในบริบทหนึ่ง。

ตัวเลข: SSM เมื่อเทียบกับการปรับขนาดของกลไกการสนใจแบบดั้งเดิม

เป้า หมาย คือ เพื่อ ช่วย ผู้ มี เชาวน์ ปัญญา ให้ เพิ่ม จํานวน ขั้น ตอน ที่ เสมอ ต้น เสมอ ปลาย ขึ้น เป็น หลาย ขั้น ตอน ตั้ง แต่ ราว ๆ 20 ถึง 20,000 ขั้น โดย ไม่ สูญ เสีย ทักษะ และ ความ รู้ อัน กว้าง ขวาง ที่ ผู้ แปลง แบบ ดั้งเดิม ได้ จัด เตรียม ไว้. หากประสบความสําเร็จนี้จะเป็น การค้นพบที่สําคัญสําหรับอัจฉริยะระยะยาว。

คุณสามารถมองนี่เป็นรูปแบบของการเรียนรู้ต่อเนื่อง: แม้ ว่า ไม่ ได้ มี การ ปรับปรุง น้ํา หนัก ตัว รุ่น แต่ มี การ นํา ชั้น ความ จํา ภาย นอก มา ใช้ ซึ่ง แทบ จะ ไม่ จําเป็น ต้อง มี มา แทน。

ดังนั้นวิธีการไม่สมมาตรเหล่านี้ มีจริงและทรงพลัง การประเมินการเรียนรู้อย่างต่อเนื่อง ต้องเริ่มจากตรงนี้ คําถามคือว่า ระบบบริบทในปัจจุบันทํางานหรือไม่ แต่มันก็ได้ผล คําถามคือ เราได้เห็นเพดานหรือยัง และวิธีการใหม่นี้ สามารถนําเราไปได้ไกลกว่านี้。

อะไรหายไปในบริบท

"AGI และอดีตที่ฝึกฝนมา เกิดขึ้นเมื่อมันครอบงํา มนุษย์ไม่ได้เป็น AGI ใช่ มนุษย์ มี ความ สามารถ แต่ เขา ขาด ความ รู้ มาก มาย. เราพึ่งพาการเรียนรู้อย่างต่อเนื่อง。

ถ้าฉันทําให้ซูเปอร์สมาร์ทเด็กอายุ 15 ปี เขาไม่รู้อะไรเลย นักเรียนที่ดี กระตือรือร้นที่จะเรียนรู้ คุณสามารถพูดได้ว่า ไปเป็นโปรแกรมเมอร์ ไปเป็นหมอ การแบ่งชนชั้นเอง เกี่ยวข้องกับ การเรียนรู้, การทดสอบและความผิดพลาด มันเป็นกระบวนการ ไม่ใช่โยนสินค้าที่เสร็จไปแล้วออกไป อิเลีย ซัตสกอร์

ลองนึกถึงระบบที่มีพื้นที่เก็บข้อมูลไม่จํากัด ตู้เอกสารที่ใหญ่ที่สุดในโลก มีดัชนีและเข้าถึงได้อย่างดี มันหาได้ทุกอย่าง มันเรียนรู้หรือยัง

ไม่มีอะไร มันไม่เคยถูกบังคับในการบีบอัด。

นี่คือแก่นของการโต้แย้งของเรา ซึ่งอ้างอิงจากจุดที่ทําก่อนหน้านี้โดย Ilia Sutskver: LLM เป็นอัลกอริทึมบีบอัด ใน ระหว่าง การ ฝึก อบรม พวก เขา บีบ ให้ อินเทอร์เน็ต เป็น ตัวแปร. การบีบอัดสร้างความเสียหาย และเป็นความเสียหายที่ทําให้มันแข็งแกร่ง การบีบอัดบังคับให้แบบจําลองมองหาโครงสร้าง ทั่วไป และสร้างสัญลักษณ์ ที่สามารถเคลื่อนผ่านบริบทได้ แบบจําลองของตัวอย่างที่เรียนยากๆ ในทุกการฝึก ไม่ใช่แบบจําลองของรูปแบบข้างล่าง การบีบอัดคือการเรียนรู้ตัวเอง。

น่า แปลก กลไก ที่ เปิด โอกาส ให้ แอล แอล เอ็ม มี พลัง มาก ใน ช่วง การ ฝึก อบรม (การ กด ข้อมูล ดิบ เข้า ไป ใน การ แสดง ให้ เห็น อย่าง ละเอียด และ ทํา ได้ ง่าย) เป็น สิ่ง ที่ เรา ไม่ ยอม ปล่อย ให้ มัน ดําเนิน ต่อ ไป หลัง จาก ใช้ งาน แล้ว. เราหยุดการบีบอัดในขณะนั้นและแทนที่ด้วยหน่วยความจําภายนอก。

แน่นอน ปลอกหุ้มศพที่ฉลาดที่สุด บีบรัดบริบทในบางแง่ แต่บทเรียนที่น่าขมขื่นที่แบบจําลอง ควรจะเรียนรู้การบีบคั้นโดยตรง และในระดับใหญ่ไม่ใช่เหรอ

ยู ซัน มี ตัว อย่าง การ โต้ เถียง กัน ดัง นี้: คณิตศาสตร์. ดูทฤษฎีเฟอร์แมทสิ เป็น เวลา หลาย ปี ที่ ไม่ มี นัก คณิตศาสตร์ คน ใด ได้ พิสูจน์ ให้ เห็น ว่า ไม่ ใช่ เพราะ ขาด สรรพ หนังสือ ที่ ถูก ต้อง แต่ เพราะ การ แก้ ปัญหา เป็น เรื่อง ที่ แต่ง ขึ้น อย่าง สูง. มันมีระยะทางเชิงประจักษ์มากเกินไป ระหว่างความรู้คณิตศาสตร์กับคําตอบสุดท้าย。

Andrew Willes เมื่อในที่สุดเขาก็เอามันในทศวรรษ 1990 ใช้เวลาเจ็ดปีในการทํางานแบบสันโดษมีการประดิษฐ์เทคโนโลยีใหม่เพื่อเข้าถึงคําตอบ ความ สําเร็จ ของ เขา ขึ้น อยู่ กับ สะพาน ที่ ประสบ ความ สําเร็จ ใน สาขา คณิตศาสตร์ ที่ ต่าง กัน สอง สาขา คือ เส้น โค้ง รูป วงรี และ แบบ จําลอง. ขณะที่เคน ริเบ็ทได้พิสูจน์ก่อนหน้านี้แล้วว่า การเชื่อมต่อนี้สามารถแก้ทฤษฎีเฟอร์มาเทียนได้โดยอัตโนมัติ ไม่มีใครมีเครื่องมือทางทฤษฎี Grigori Peerelman ก็สามารถทําสิ่งเดียวกันได้ ด้วยข้อพิสูจน์ของพ็องการี。

ประเด็นหลักคือตัวอย่างเหล่านี้พิสูจน์หรือเปล่า ว่าแอลแอลเอ็มขาดบางอย่าง ความสามารถบางอย่างที่จะปรับปรุง หรือเรื่องแค่พิสูจน์ตรงกันข้าม ความรู้ของมนุษย์คือข้อมูล ที่สามารถฝึกฝนและสร้างโครงสร้างใหม่ วิลส์และเพอร์เรลแมน

คํา ถาม คือ การ หยั่ง เห็น เข้าใจ และ คํา ตอบ ไม่ แน่นอน. แต่เราทราบว่า มีหลายหมวดหมู่ของปัญหา ที่การเรียนรู้ด้านล่างนี้จะล้มเหลวในวันนี้ และการเรียนรู้ระดับพารามิเตอร์อาจจะมีประโยชน์ ตัว อย่าง เช่น:

ตัวเลข: การเรียนคอนเท็กซ์ล้มเหลว, หมวดหมู่ปัญหาสําหรับการเรียนรู้พารามิเตอร์

ที่ สําคัญ ยิ่ง กว่า นั้น การ เรียน รู้ บริบท สามารถ จัด การ กับ สิ่ง ที่ สามารถ แสดง ออก ใน ภาษา ได้ เท่า นั้น ขณะ ที่ น้ํา หนัก สามารถ เข้า รหัส แนว คิด ที่ ไม่ สามารถ ถ่ายทอด ด้วย คํา พูด. บางโมเดลสูงเกินไป มองไม่เห็นลึกเกินกว่าจะสร้าง ยกตัวอย่างเช่น ในการตรวจสอบทางการแพทย์ พื้นผิวของภาพ ที่แยกความพิเศษของเนื้อร้ายแบบผิดศีลธรรม。

ภาษาจะคล้ายกับพวกเขาเท่านั้น ไม่ มี คําใบ้ ใด จะ ถ่ายทอด สิ่ง เหล่า นี้ ได้ อีก ต่อ ไป ความ รู้ ดัง กล่าว จะ อยู่ รอด ได้ ก็ ต่อ เมื่อ อยู่ ภาย ใน น้ํา หนัก เท่า นั้น. พวกเขาอาศัยอยู่ในพื้นที่เรียนรู้สัญญาณ ไม่ใช่คําพูด ไม่ ว่า จะ มี การ เจริญ เติบโต อย่าง ไร ใน หน้าต่าง บริบท ก็ ตาม มี ความ รู้ บาง อย่าง ที่ ไม่ อาจ อธิบาย ได้ ใน ข้อ ความ นั้น และ มี เฉพาะ แต่ พารามิเตอร์ เท่า นั้น ที่ สามารถ นํา มา ได้。

นี่อาจอธิบายได้ว่าทําไมฟังก์ชัน "หุ่นยนต์จดจําคุณ" (เช่นหน่วยความจําของแชตจีพีที) มักจะทําให้ผู้ใช้ไม่สบายใจ ผู้ใช้ไม่ต้องการ "จํา" แต่ "อํานาจ" แบบจําลองที่มีพฤติกรรมภายในของคุณ สามารถถูกโยงไปยังฉากใหม่ โมเดลที่จดจําประวัติศาสตร์ของคุณไม่ได้ ความแตกต่างระหว่าง "นี่คือสิ่งที่คุณเขียนเป็นครั้งสุดท้าย ที่คุณตอบอีเมล์นี้" (ทวนคํากริยาซ้ํา) และ "ผมเข้าใจวิธีการคิดของคุณมากพอ。

แนะ นํา ให้ เรียน รู้ ต่อ ๆ ไป

มีหลายเส้นทางที่จะเรียนรู้อย่างต่อเนื่อง เส้นแบ่งไม่ใช่ "ไม่มีหน่วยความจํา" แต่การบีบอัดเกิดขึ้นที่ไหนเส้น ทาง เหล่า นี้ จะ ถูก กระจาย ไป ตาม สเปกตรัม ซึ่ง มี ตั้ง แต่ การ ค้น หา โดย ไม่ มี การ บีบ บังคับ (ความ เย็น, น้ํา หนัก) จน กลาย เป็น การ บีบ อัด อย่าง เต็ม ที่ (การ เรียน รู้ ระดับ น้ํา หนัก, แบบ จําลอง จะ ฉลาดกว่า) พร้อม กับ พื้น ที่ สําคัญ (โมไดล)。

ตัว เลข: วิธี เรียน สาม วิธี, โมดูล, น้ํา หนัก

บริบท

ในตอนท้ายของบริบทนี้ ทีมสร้างท่อค้นหาที่ชาญฉลาดมากขึ้น ปลอกร่างกายที่ฉลาดและองค์กรคําใบ้ นี่เป็นหมวดหมู่ที่เป็นผู้ใหญ่ที่สุด: โครงสร้างพื้นฐานได้รับการตรวจสอบ และเส้นทางการใช้งานชัดเจน ลิมิตคือความลึก: ความยาวของบริบท。

ทิศทางใหม่ที่คุ้มค่าในการสังเกต: โครงสร้างหลายปัญญา เป็นกลยุทธ์การปรับขนาด สําหรับบริบทของตัวเอง ถ้าแบบจําลองเดียว จํากัด อยู่ที่หน้าต่าง 128K, ชุดที่ประสานกันของร่างที่ชาญฉลาด แต่ละคนมีบริบทของตัวเอง, ชิ้นเดียวเน้นประเด็น, ร่าง กาย ที่ ฉลาด สุขุม แต่ ละ คน ทํา การ เรียน รู้ ใน หน้าต่าง ของ ตน เอง; ระบบ ต่าง ๆ รวม กัน. ตัวอย่างล่าสุดของโครงการสํารวจอัตโนมัติของคาร์โรธี และเว็บเบราว์เซอร์ของเคอร์เซอร์ คือกรณีแรก นี่เป็นวิธีการที่ไม่สมมาตร (ไม่เปลี่ยนน้ําหนัก) แต่มันยกเพดานขึ้นอย่างมาก。

มอดูล

ในพื้นที่ที่เชื่อมต่อได้ ทีมสร้างโมดูลความรู้ที่ฝังตัวได้ (บีบอัดข้อมูล KV, ชั้นอะแดปเตอร์, คลังหน่วยความจําภายนอก) เพื่อสร้างโมเดลทั่วไปโดยไม่ต้องคํานวณใหม่ โมเดล 8B ที่ใช้โมดูลที่เหมาะสม สามารถจับคู่ประสิทธิภาพของรุ่น 109B บนเป้าหมายได้ โดยหน่วยความจําจะคงที่อยู่เพียงเศษส่วนเท่านั้น สิ่งดึงดูดก็คือ มันเข้ากันได้กับโครงสร้างพื้นฐานของหม้อแปลงที่มีอยู่。

น้ํา หนัก

ในตอนท้ายของการปรับปรุงน้ําหนัก นักวิจัยแสวงหาการเรียนรู้ระดับพารามิเตอร์ที่แท้จริง : ปรับปรุงเฉพาะชั้นหน่วยความจําบาง นี่เป็นส่วนที่ลึกที่สุดและยากที่สุดที่จะนําไปใช้ แต่พวกเขายอมให้โมเดลนี้ ทําหน้าที่ภายในข้อมูลหรือทักษะใหม่ๆ。

มี กลไก ที่ เจาะจง หลาย อย่าง ใน การ ปรับ เปลี่ยน พารามิเตอร์. มี การ ให้ คํา แนะ นํา บาง อย่าง ใน การ วิจัย:

ภาพ ประกอบ: การ พิจารณา คํา แนะ นํา ใน การ ค้นคว้า มาก เกิน ไป เพื่อ การ เรียน หนัก

การ ศึกษา วิจัย เรื่อง น้ํา หนัก ตัว ครอบ คลุม เส้น ทาง ต่าง ๆ ที่ คล้ายคลึง กัน。การ ทํา ให้ เป็น ปกติ และ การ ถ่วง น้ํา หนักพารามิเตอร์ที่เก่าที่สุด: EWC (Krkpatrik al. 2017) เปลี่ยนแปลงพารามิเตอร์ตามความสําคัญของงานก่อนหน้า; การทับซ้อนน้ําหนัก (Kozal etal All, 2024) กลมกลืนกันของการตั้งค่าน้ําหนักที่เก่าและใหม่ในพื้นที่พารามิเตอร์ แต่ทั้งคู่มีความเปราะบางในขนาดขนาดใหญ่。

การ ฝึก อบรม ระหว่าง การ ทดสอบสร้างโดย Sun Et al (2020), และต่อมาได้พัฒนาเป็นภาษาเดิมของสถาปัตยกรรม (TTTT ชั้น, TTTT-E2E, TT TT-DDSoverse), แนวความคิดนี้แตกต่าง: ทําให้เกรเดียนในบททดสอบข้อมูล และบีบข้อมูลใหม่ให้กลายเป็นตัวแปรในขณะจําเป็น。

หยวนเรียนคํา ถาม ก็ คือ เรา จะ ฝึก เลียน แบบ การ เรียน รู้ ได้ ไหม? ตั้งแต่การเริ่มต้นของตัวแปรตัวอย่างไม่กี่ตัวแปรที่เป็นมิตรของ MAML (Finn et al. 2017) จนถึงการเรียนรู้แบบฝังลึกของ Behruz et al (NEd All, 2025) ซึ่งสร้างแบบจําลองนี้ให้กลายเป็นชั้นที่เหมาะกับการแบ่งชั้น เรียกใช้อย่างรวดเร็วและลดความเร็วลงที่เกล็ดเวลาต่าง ๆ แรงบันดาลใจจากการสร้างความทรงจําทางชีวภาพ。

การหยุดการทํางานความ รู้ เกี่ยว กับ งาน ที่ เคย ทํา มา ก่อน นี้ ได้ รับ การ รักษา ไว้ โดย แบบ จําลอง ที่ เข้า กัน ได้ กับ เครื่อง ตรวจ สอบ ของ ครู ที่ แข็ง ตัว. LORD (Liu et al. 2025) อนุญาตให้การกลั่นเพื่อดําเนินงานอย่างมีประสิทธิภาพ จนถึงจุดที่สามารถทนทานได้โดยการตัดแบบจําลองและจัดวางเขตกันชนพร้อมกัน SDFF, Shenfeld et al. 2026) พลิกต้นฉบับ โดยใช้ผลลัพธ์ 'selp' ตัวเองภายใต้เงื่อนไขผู้เชี่ยวชาญเป็นสัญญาณการฝึก, การข้ามความทรงจําที่เสื่อมโทรมของลําดับที่ดี。

การแก้ไขตัวเอง2022) แนวทางการให้เหตุผลจากลูกโซ่ที่สร้างขึ้นเอง Alpholver (Dep Mind, 2025) ค้นพบอัลกอริทึมที่เข้าท่าที่สุดที่ไม่เคยถูกปรับปรุงมาเป็นทศวรรษ; ซิลเวอร์และซัตตัน (2025) นิยามการเรียนรู้ของร่างกายอย่างชาญฉลาดว่า การไหลต่อเนื่องของประสบการณ์ที่ไม่มีวันยุติ。

งานวิจัยเหล่านี้กําลังรวบรวม TTT-Discover ได้รวมการฝึกทดสอบและการสํารวจ RL-ไดรฟ์ ความหวังจะฝังวงจรการเรียนรู้ที่ช้า ในโครงสร้างเดียว SDF เปลี่ยนการกลั่นเป็นปฏิบัติการพื้นฐาน สําหรับการแก้ไขตัวเอง ขอบเขตระหว่างคอลัมน์จะเบลอ ระบบการเรียนรู้อันต่อเนื่องรุ่นต่อไป มีแนวโน้มจะรวมกันเป็นกลยุทธ์: การปรับให้เสถียร การเรียนแบบเมต้าเพื่อเร่งความเร็ว จํานวนที่เพิ่มขึ้นของการเริ่มต้น เป็นการพนันในระดับที่แตกต่างกัน ของโกดังเทคโนโลยีนี้。

เรียนรู้อย่างต่อเนื่อง ผู้ประกอบการ

ปลายสุดของสเปกตรัม ที่ไม่ใช่สเปกตรัม เป็นที่รู้จักมากที่สุด บริษัท เปลือก หอย (Tetta, mem 0 และ subied) สร้างชั้นและพื้น เพื่อจัดการเนื้อหาของหน้าต่างบริบท การจัดเก็บภายนอกและโครงสร้าง RAG (เช่น ไพน์โคนี, xmemory) จัดทําการค้นหากระดูกสันหลัง ข้อมูลมีอยู่และความท้าทายคือการวางชิ้นที่เหมาะสม ในด้านหน้าของโมเดลในเวลาที่เหมาะสม เมื่อบริบทของหน้าต่างขยายออกไป พื้นที่การออกแบบของบริษัทเหล่านี้ โดยเฉพาะที่ขอบนอก。

พารามิเตอร์มันเร็วกว่าและมากขึ้น บริษัทที่นี่กําลังพยายามบางรุ่น ของ "การบีบอัดตําแหน่ง" เพื่อภายในข้อมูลใหม่ในน้ําหนัก เส้นทางสามารถแบ่งออกเป็นหลาย ๆ เดิมพัน เกี่ยวกับสิ่งที่นางแบบควรเรียนรู้ หลังจากได้รับการตีพิมพ์。

การบีบตัวบางส่วน: คุณสามารถเรียนรู้ได้โดยไม่ต้องเรียนซ้ํา。บางทีมกําลังสร้างโมดูลความรู้ที่ฝังตัวอยู่ (บีบอัดข้อมูล KV, ชั้นอะแดปเตอร์, ชั้นเก็บหน่วยความจําภายนอก) เพื่อสร้างแบบจําลองทั่วไปโดยไม่ต้องย้ายน้ําหนักหลัก ข้อโต้แย้งทั่วไปก็คือ คุณสามารถได้รับการบีบอัดที่มีความหมายได้ (ไม่เพียงการรีเฟรชเท่านั้น) ในขณะที่รักษาสมดุลของเสถียรภาพ รุ่น 8B มาพร้อมกับโมดูลที่เหมาะสม เพื่อตรงกับรุ่นขนาดใหญ่ในภารกิจเป้าหมาย ข้อได้เปรียบคือ ความทนทาน: โมดูลสามารถเสียบปลั๊กเข้ากับโครงสร้างหม้อแปลงที่มีอยู่แล้ว ซึ่งสามารถแลกเปลี่ยนหรือปรับปรุงได้ด้วยตนเอง。

RL และวงจรการตอบรับ การเรียนรู้จากสัญญาณ。ส่วนอื่น ๆ พนันได้เลยว่าสัญญาณที่มากมายที่สุด ของการเรียนรู้ภายหลังการดําเนินงาน มีอยู่แล้วในวงจรการใช้งานอยู่แล้ว แนว คิด หลัก คือ ว่า แบบ จําลอง ควร ถือ ว่า การ ติด ต่อ สัมพันธ์ แต่ ละ ครั้ง เป็น สัญญาณ ที่ อาจ เป็น สัญญาณ ฝึก อบรม ไม่ ใช่ แค่ ขอ การ หา เหตุ ผล. สิ่งนี้คล้ายกับวิธีที่มนุษย์ทํางานอย่างมาก: ทํางาน รับผลตอบรับภายใน ความท้าทายทางวิศวกรรมคือการแปลบางเสียงรบกวน และบางครั้งการตอบรับการเผชิญหน้า เป็นการกลับมาของน้ําหนักคงที่ แต่แบบจําลองที่เรียนรู้อย่างแท้จริงจากการใช้งาน สามารถให้มูลค่าประกอบ ในวิธีที่ระบบด้านล่างไม่สามารถทํา。

เพ่ง เล็ง ที่ ข้อมูล:。การพนันที่เกี่ยวข้องกันแต่แตกต่าง คือคอขวด ไม่ได้เรียนรู้อัลกอริทึม แต่กําลังฝึกข้อมูลและระบบประสาท ทีมเหล่านี้มุ่งเน้นไปที่การกรอง สร้างหรือสังเคราะห์ข้อมูลที่ถูกต้อง เพื่อขับเคลื่อนการปรับปรุงอย่างต่อเนื่อง: สมมุติฐานที่ว่าโมเดลที่มีคุณภาพสูง และสัญญาณการเรียนรู้ที่มีโครงสร้างดี สามารถปรับปรุงได้อย่างมีความหมาย นี่เป็นความสัมพันธ์ตามธรรมชาติของบริษัทผลสะท้อนกลับ แต่คําถามทางน้ําถูกเน้นว่า。

สถาปัตยกรรมใหม่ การเรียนรู้การแข่งขันจากด้านล่าง。การวางเดิมพันที่รุนแรงที่สุดก็คือ สถาปัตยกรรมของหม้อแปลงเอง คือคอขวด และการเรียนรู้อย่างต่อเนื่องนั้น ข้อโต้แย้งตรงนี้คือโครงสร้าง ถ้าคุณต้องการระบบการเรียนรู้ต่อเนื่อง คุณควรฝังกลไกการเรียนรู้ไว้ในโครงสร้างพื้นฐานด้านล่าง。

ตัวเลข: ธุรกิจเริ่มต้นสําหรับการเรียนรู้อย่างต่อเนื่อง

ห้อง ปฏิบัติ การ หลัก ๆ ทุก แห่ง ยัง ดําเนิน งาน อยู่ ใน ประเภท นี้ ด้วย. บางคนกําลังศึกษาการจัดการบริบทที่ดีกว่า และเหตุผลเรื่องลูกโซ่ความคิด บ้างก็ทดลองใช้โมดูลความจําภายนอก พื้นที่นี้เร็วพอที่จะเห็นว่าไม่มีวิธีการที่ได้รับรางวัลและตามความกว้างของกรณีที่ไม่ควรจะชนะเดียว。

ทําไมการสร้างใหม่ถึงล้มเหลว

การอัปเดตพารามิเตอร์ของโมเดลในสภาพแวดล้อมการผลิต อาจทําให้เกิดลําดับของแบบจําลองที่ล้มเหลว ซึ่งในปัจจุบันไม่สามารถแก้ไขได้ในระดับขนาดใหญ่。

ตัวเลข:

ปัญหาทางวิศวกรรม มีบันทึกไว้อย่างดี การถูกลืม หมายถึงแบบจําลองที่อ่อนไหวพอ ที่จะเรียนรู้จากข้อมูลใหม่ การย่อยสลายของเวลา หมายถึง ชุดน้ําหนักชุดเดียวกัน ถูกบีบโดยกฎคงที่ และสถานะตัวแปร การ ผนวก เข้า ด้วย กัน ตาม หลัก เหตุ ผล ไม่ ได้ ผล เนื่อง จาก การ ปรับ ปรุง ข้อ เท็จ จริง ไม่ ได้ แพร่ ไป สู่ การ คาด คะเน ว่า การ เปลี่ยน แปลง นั้น จํากัด อยู่ แค่ ลําดับ ของ สัญลักษณ์ ไม่ ใช่ แนว คิด แบบ เซ มาติก. ไม่ มี การ ผ่าตัด แบบ ไม่ มี การ ศึกษา ดัง นั้น จึง ไม่ มี โครงการ ผ่าตัด ที่ แม่นยํา สําหรับ ความ รู้ เท็จ หรือ พิษ。

ประเด็น ที่ สอง ได้ รับ การ เอา ใจ ใส่ น้อย กว่า. การ แยก ตัว ของ การ ฝึก อบรม และ การ ใช้ งาน ใน ปัจจุบัน ไม่ ใช่ เป็น เพียง โรง งาน ทาง วิศวกรรม แต่ เป็น เขต แดน แห่ง ความ มั่นคง, การ ตรวจ สอบ และ การ ปกครอง. เปิดขอบเขตนี้ และหลายสิ่งผิดพลาดในเวลาเดียวกัน การจัดตําแหน่งความปลอดภัยอาจเสื่อมโทรมอย่างไม่คาดคิด: แม้แต่ข้อมูลที่ละเอียดและซับซ้อน ก็อาจนําไปสู่ความผิดปกติที่แพร่หลายได้。

การ ปรับ ปรุง อย่าง ไม่ หยุด ยั้ง ได้ ก่อ ให้ เกิด การ เผชิญ หน้า ที่ น่า รังเกียจ ของ ข้อมูล ที่ เป็น พิษ — เป็น ผล แนะ ที่ ช้า และ ยั่งยืน แต่ มี น้ํา หนัก อยู่. การยุบตัวของความสามารถ เนื่องจากรุ่นที่ปรับปรุงอย่างต่อเนื่อง คือเป้าหมายเคลื่อนที่ ที่ไม่สามารถนําไปใช้ในการควบคุมรุ่น, การทดสอบความถดถอย หรือการตรวจสอบสิทธิ์แบบเดียวได้ เมื่อผู้ใช้ทําปฏิกิริยากับตัวแปร ความเสี่ยงความเป็นส่วนตัวจะเพิ่มขึ้น และข้อมูลสําคัญจะถูกปรับใช้ในรูปแบบ ทําให้การกรองยากขึ้น。

นี่คือประเด็นของการเปิด ไม่ใช่พื้นฐานที่เป็นไปไม่ได้ การ พูด ถึง สิ่ง เหล่า นี้ เช่น การ พูด ถึง ข้อ ท้าทาย สําคัญ ทาง สถาปัตยกรรม เป็น ส่วน หนึ่ง ของ โครงการ วิจัย ที่ กําลัง ดําเนิน อยู่。

จากเศษความทรงจําสู่ความทรงจําที่แท้จริง

โศกนาฏกรรมของเลนเนิร์ดในความทรงจํา ไม่ใช่ว่าเขาไม่สามารถดําเนินงานได้ เขาฉลาดและฉลาดแม้กระทั่งในสถานการณ์ใดๆ โศกนาฏกรรมของเขา คือเขาจะไม่มีวันหาย ประสบการณ์ แต่ ละ อย่าง คง อยู่ ภาย นอก — บันทึก ที่ ถูก หยิบ ขึ้น มา, รอย สัก, ลายมือ ของ คน อื่น. เขาสามารถค้นหา แต่เขาไม่สามารถบีบความรู้ใหม่。

เมื่อเลนเนิร์ดเดินผ่านเขาวงกต ที่สร้างตัวเอง เส้นระหว่างความจริงกับความมั่นใจ เริ่มเบลอ อาการของเขาไม่ใช่แค่การปฏิเสธความทรงจํามันบังคับให้เขาสร้างความหมายใหม่ให้เขาเป็นทั้งนักสืบและนักเล่าเรื่องที่เชื่อถือไม่ได้。

วันนี้ AI ทํางานภายใต้เงื่อนไขเดียวกัน เราสร้างระบบการกู้ข้อมูลที่มีประสิทธิภาพมาก หน้าต่างที่ยาวขึ้น ปลอกกระสุนที่ชาญฉลาดกว่า อย่าง ไร ก็ ตาม การ ค้น หา ไม่ เท่า กับ การ เรียน รู้. ระบบที่สามารถเปิดเผยข้อเท็จจริงใด ๆ ไม่ได้ถูกบังคับให้มองหาโครงสร้าง มันไม่ได้ถูกบังคับให้ใช้ทั่วไป ให้การฝึกซ้อมจํานวนมากได้รับความเสียหายอย่างหนัก เปลี่ยนข้อมูลดิบเป็นกลไกที่โอนถ่ายได้ -。

เส้นทางไปข้างหน้าไม่น่าจะเป็น การค้นพบเดียว แต่ค่อนข้างเป็นระบบชั้น การเรียนรู้โดยคอนเท็กซ์ จะยังคงเป็นบรรทัดแรกของการป้องกัน: มันเป็นต้นฉบับ ได้รับการยืนยันและปรับปรุงอย่างต่อเนื่อง กลไกของเครื่องควบคุมอากาศ สามารถอยู่บริเวณตรงกลางของ ส่วนบุคคลและการจัดระบบพิเศษในสาขานี้。

แต่ สําหรับ คน เหล่า นั้น ที่ ยาก จริง ๆ นั่น คือ ความ รู้ ที่ ซ่อน อยู่ ซึ่ง ค้น พบ, ปรับ ตัว, ไม่ สามารถ แสดง ออก ด้วย คํา พูด — เรา อาจ ต้อง ปล่อย ให้ ผู้ ที่ เป็น แบบ อย่าง เพิ่ม ประสบการณ์ เข้า กับ ตัวแปร ต่าง ๆ ต่อ ไป หลัง จาก การ ฝึก อบรม. นี่หมายถึงความก้าวหน้าในสถาปัตยกรรมบางๆ การศึกษาเป้าหมาย และวงจรการพัฒนาตนเอง นอกจากนี้ยังต้องการการทบทวนใหม่ของสิ่งที่ต้นแบบหมายถึง: ไม่ใช่ชุดของน้ําหนักคงที่ แต่เป็นระบบวิวัฒนาการที่รวมถึงหน่วยความจํา อัลกอริทึมการปรับปรุง และความสามารถเชิงนามธรรมจากประสบการณ์ของตัวเอง。

ตู้เอกสารกําลังเติบโต แต่ตู้ใหญ่คือตู้เก็บเอกสาร การค้นพบเป็นสิ่งที่ทําให้แบบจําลองแข็งแรง เมื่อถูกนําไปใช้และฝึกฝน เราอยู่ที่จุดเปลี่ยนจาก แบบจําลองสูญเสียความทรงจํา ไปเป็นแบบจําลอง กับประสบการณ์ ไม่งั้นเราจะติดอยู่ในความทรงจําของเรา。

ส่วนเชื่อมโยงดั้งเดิม
QQlink

Tiada pintu belakang kripto, tiada kompromi. Platform sosial dan kewangan terdesentralisasi berasaskan teknologi blockchain, mengembalikan privasi dan kebebasan kepada pengguna.

© 2024 Pasukan R&D QQlink. Hak Cipta Terpelihara.