a16z: Chứng “mất trí nhớ” của AI, học liên tục có thể “chữa khỏi”?

Tiêu đề gốc: Tại sao chúng ta cần học tập liên tục

Tác giả gốc: Malika Aubakirova, Matt Bornstein, a16z crypto
Biên soạn gốc: Deep Tide TechFlow

Trong "Memento" của Christopher Nolan, nhân vật chính Leonard Shelby sống trong một món quà tan vỡ. Chấn thương sọ não khiến anh mắc chứng mất trí nhớ anterograde, khiến anh không thể hình thành ký ức mới. Thế giới của anh ấy được thiết lập lại cứ sau vài phút và anh ấy bị mắc kẹt trong "bây giờ" vĩnh cửu, không có ký ức về những gì vừa xảy ra hoặc những gì sẽ xảy ra tiếp theo. Để tồn tại, anh đã xăm hình lên cơ thể và chụp ảnh Polaroids, dựa vào những đạo cụ bên ngoài này để thay thế chức năng ghi nhớ mà não anh không thể hoàn thiện.

Các mô hình ngôn ngữ lớn cũng sống trong một hiện tại vĩnh cửu tương tự. Sau khi đào tạo, một lượng lớn kiến thức bị đóng băng trong các tham số, mô hình không thể hình thành ký ức mới và cập nhật các tham số của chính nó dựa trên trải nghiệm mới. Để bù đắp cho khuyết điểm này, chúng tôi đã xây dựng rất nhiều giàn giáo cho nó: lịch sử trò chuyện đóng vai trò là một ghi chú ngắn hạn, hệ thống tìm kiếm đóng vai trò là một cuốn sổ ghi chép bên ngoài và các từ nhắc nhở của hệ thống giống như những hình xăm trên cơ thể. Nhưng bản thân mô hình không bao giờ thực sự tiếp thu được thông tin mới này.

Ngày càng có nhiều nhà nghiên cứu tin rằng điều này là chưa đủ. Học theo ngữ cảnh (ICL) có thể giải quyết vấn đề nếu câu trả lời (hoặc một phần câu trả lời) đã tồn tại ở đâu đó trên thế giới. Nhưng đối với các vấn đề đòi hỏi phải khám phá thực sự (chẳng hạn như các bằng chứng toán học mới), các kịch bản đối nghịch (chẳng hạn như các cuộc tấn công và phòng thủ an ninh) hoặc kiến thức quá tiềm ẩn để diễn đạt bằng lời, thì có lý do chính đáng để nghĩ rằng mô hình cần một cách để viết kiến thức và kinh nghiệm mới trực tiếp vào các tham số sau khi triển khai.

Học theo ngữ cảnh là một việc đặc biệt. Việc học thực sự đòi hỏi phải nén. Cho đến khi chúng ta cho phép mô hình tiếp tục nén, chúng ta có thể bị mắc kẹt trong hiện tại vĩnh cửu của Memento. Mặt khác, nếu chúng ta có thể huấn luyện mô hình để tìm hiểu kiến trúc bộ nhớ của chính nó thay vì dựa vào các công cụ tùy chỉnh plug-in, thì một chiều hướng mở rộng hoàn toàn mới có thể được mở khóa.

Lĩnh vực nghiên cứu này được gọi là học tập liên tục (học tập liên tục). Khái niệm này không mới (xem McCloskey và Cohen 1989), nhưng chúng tôi tin rằng đây là một trong những hướng nghiên cứu quan trọng nhất hiện nay về AI. Sự phát triển bùng nổ về năng lực của mô hình trong hai hoặc ba năm qua đã khiến khoảng cách giữa những gì một mô hình “biết” và những gì “có thể biết” ngày càng rõ ràng. Mục đích của bài viết này là chia sẻ những gì chúng tôi đã học được từ các nhà nghiên cứu hàng đầu trong lĩnh vực này, giúp làm rõ các con đường khác nhau để học hỏi liên tục và nâng cao chủ đề này trong hệ sinh thái khởi nghiệp.

Lưu ý: Bài viết này được hình thành nhờ sự trao đổi chuyên sâu với một nhóm các nhà nghiên cứu, nghiên cứu sinh và doanh nhân xuất sắc, những người đã hào phóng chia sẻ công việc và hiểu biết sâu sắc của họ trong lĩnh vực học tập liên tục với chúng tôi. Từ nền tảng lý thuyết đến thực tế kỹ thuật của quá trình học tập sau triển khai, những hiểu biết sâu sắc của họ khiến bài viết này có căn cứ hơn nhiều so với những gì chúng tôi có thể viết riêng lẻ. Cảm ơn bạn đã dành thời gian và ý tưởng của bạn!

Trước tiên hãy nói về bối cảnh

Trước khi bảo vệ việc học ở cấp độ tham số (nghĩa là học cách cập nhật các trọng số của mô hình), cần phải thừa nhận thực tế là học theo ngữ cảnh có hiệu quả. Và có một lập luận mạnh mẽ rằng nó sẽ tiếp tục giành chiến thắng.

Bản chất của Transformer là một công cụ dự đoán mã thông báo tiếp theo có điều kiện dựa trên trình tự. Thực hiện đúng trình tự và bạn có thể có được hành vi phong phú đáng ngạc nhiên mà không cần chạm vào tạ. Đây là lý do tại sao các phương pháp như quản lý bối cảnh, kỹ thuật gợi ý, tinh chỉnh hướng dẫn và ví dụ về một vài cảnh quay lại có tác dụng mạnh mẽ như vậy. Thông tin được gói gọn trong các tham số tĩnh và các khả năng được hiển thị thay đổi đáng kể dựa trên nội dung bạn đưa vào cửa sổ.

Bài viết chuyên sâu gần đây của Cursor về việc mở rộng quy mô các tác nhân lập trình tự động là một ví dụ điển hình: trọng số mô hình là cố định và điều thực sự khiến hệ thống chạy được là sự phối hợp cẩn thận của bối cảnh—những gì cần đưa vào, thời điểm tóm tắt và cách duy trì trạng thái mạch lạc trong nhiều giờ chạy tự động.

OpenClaw là một ví dụ điển hình khác. Nó trở nên phổ biến không phải vì nó có các quyền đặc biệt đối với mô hình (mô hình cơ bản có sẵn cho mọi người), mà bởi vì nó chuyển đổi bối cảnh và công cụ sang trạng thái hoạt động cực kỳ hiệu quả: theo dõi những gì bạn đang làm, cấu trúc các sản phẩm trung gian, quyết định thời điểm đưa lại các từ nhắc nhở và duy trì trí nhớ liên tục về công việc trước đó. OpenClaw nâng "thiết kế vỏ" của các tác nhân thông minh lên mức độ kỷ luật độc lập.

Khi dự án nhắc nhở lần đầu tiên xuất hiện, nhiều nhà nghiên cứu đã nghi ngờ rằng việc "chỉ dựa vào những lời nhắc" có thể trở thành một giao diện nghiêm túc. Nó trông giống như một vụ hack. Nhưng nó là sản phẩm gốc của kiến trúc Transformer, không cần đào tạo lại và được tự động nâng cấp khi mô hình phát triển. Khi mô hình trở nên mạnh mẽ hơn, các lời nhắc cũng trở nên mạnh mẽ hơn. Giao diện "khiêm tốn nhưng bản địa" thường thắng vì nó kết hợp trực tiếp với hệ thống cơ bản thay vì hoạt động chống lại nó. Đây chính xác là quỹ đạo của LLM cho đến nay.

Mô hình không gian trạng thái: Bối cảnh trên Steroid

Các mô hình học tập theo ngữ cảnh đang chịu áp lực ngày càng tăng khi quy trình làm việc chính thống chuyển từ lệnh gọi LLM thô sang vòng lặp tác nhân. Trước đây, việc cửa sổ ngữ cảnh được lấp đầy hoàn toàn là điều tương đối hiếm gặp. Điều này thường xảy ra khi LLM được yêu cầu hoàn thành một danh sách dài các nhiệm vụ riêng biệt và lớp ứng dụng có thể cắt bớt và nén lịch sử trò chuyện theo cách đơn giản hơn.

Nhưng đối với một tác nhân, một nhiệm vụ duy nhất có thể chiếm một phần lớn trong tổng số bối cảnh có sẵn. Mỗi bước trong vòng lặp của tác nhân phụ thuộc vào bối cảnh được truyền qua lần lặp trước đó. Và chúng thường thất bại sau 20 đến 100 bước vì luồng bị đứt: bối cảnh đầy lên, tính mạch lạc suy giảm và khả năng hội tụ không thành công.

Do đó, các phòng thí nghiệm AI lớn hiện dành các nguồn lực đáng kể (tức là các hoạt động đào tạo quy mô lớn) để phát triển các mô hình có cửa sổ ngữ cảnh rất dài. Đây là một con đường tự nhiên vì nó được xây dựng dựa trên một cách tiếp cận vốn đã hiệu quả (học tập theo ngữ cảnh) và phù hợp với xu hướng lớn hơn của ngành là hướng tới điện toán thời gian suy luận. Kiến trúc phổ biến nhất là xen kẽ các lớp bộ nhớ cố định giữa các đầu chú ý thông thường, cụ thể là mô hình không gian trạng thái (SSM) và các biến thể chú ý tuyến tính (sau đây gọi chung là SSM). SSM cung cấp các đường cong tỷ lệ tốt hơn về cơ bản trong các tình huống ngữ cảnh dài.

Minh họa: So sánh tỷ lệ SSM với chú ý truyền thống cơ chế

Mục tiêu là giúp tác nhân tăng số bước mà nó có thể chạy mạch lạc theo nhiều bậc độ lớn, từ khoảng 20 bước lên khoảng 20.000 bước mà không làm mất đi phạm vi rộng các kỹ năng và kiến thức do Transformers truyền thống cung cấp. Nếu thành công, đây sẽ là bước đột phá lớn đối với các đại lý lâu năm.

Bạn thậm chí có thể coi phương pháp này như một hình thức học hỏi liên tục: mặc dù trọng số mô hình không được cập nhật nhưng một lớp bộ nhớ ngoài được đưa vào mà hiếm khi cần phải đặt lại.

Vì vậy, những phương pháp phi tham số này là thực tế và mạnh mẽ. Mọi đánh giá về việc học tập liên tục đều phải bắt đầu từ đây. Câu hỏi đặt ra không phải là liệu hệ thống bối cảnh ngày nay có hữu ích hay không. Câu hỏi đặt ra là: chúng ta đã nhìn thấy mức trần chưa và liệu những cách tiếp cận mới có thể đưa chúng ta tiến xa hơn không?

Điều mà ngữ cảnh bỏ sót: "Sự sai lầm về tủ hồ sơ"

"Điều xảy ra với AGI và quá trình đào tạo trước là ở một khía cạnh nào đó, chúng đã vượt quá...Con người không phải là AGI. Đúng vậy, con người có nền tảng kỹ năng, nhưng con người thiếu một lượng kiến thức khổng lồ. Điều chúng ta dựa vào là học hỏi không ngừng.

Nếu tôi xây dựng một 15 siêu thông minh Khi còn trẻ, anh ta không biết gì cả. Một học sinh giỏi, rất háo hức bạn có thể nói, trở thành một lập trình viên, trở thành một bác sĩ. Bản thân quá trình triển khai bao gồm một quá trình học hỏi, thử nghiệm và sai sót. Nó không chỉ là vứt bỏ sản phẩm hoàn chỉnh."

Hãy tưởng tượng một hệ thống có không gian lưu trữ không giới hạn. Tủ hồ sơ lớn nhất thế giới, nơi mọi thông tin đều được lập chỉ mục hoàn hảo và có thể truy xuất ngay lập tức. Nó có thể tìm thấy bất cứ điều gì. Nó đã học được chưa?

Không. Nó không bao giờ bị buộc phải nén.

Đây là cốt lõi trong lập luận của chúng tôi, đề cập đến quan điểm được đưa ra trước đây bởi Ilya Sutskever: LLM về cơ bản là một thuật toán nén. Trong quá trình đào tạo, họ nén Internet thành các tham số. Nén có tổn thất và chính sự mất mát này làm cho nó trở nên mạnh mẽ. Việc nén buộc các mô hình phải tìm ra cấu trúc, khái quát hóa và xây dựng các biểu diễn chuyển qua các ngữ cảnh. Một mô hình ghi nhớ tất cả các mẫu huấn luyện sẽ kém hơn một mô hình trích xuất các mẫu cơ bản. Nén mất mát đang tự học.

Trớ trêu thay, cơ chế làm cho LLM trở nên mạnh mẽ trong quá trình đào tạo—nén dữ liệu thô thành các biểu diễn nhỏ gọn, có thể chuyển nhượng—chính là điều mà chúng tôi từ chối cho phép chúng thực hiện sau khi triển khai. Chúng tôi đã ngừng nén tại thời điểm phát hành và thay vào đó sử dụng bộ nhớ ngoài.

Tất nhiên, hầu hết các shell tác nhân đều nén ngữ cảnh theo một số cách tùy chỉnh. Nhưng chẳng phải bài học cay đắng là bản thân mô hình nên học cách nén này, một cách trực tiếp và trên quy mô lớn sao?

Yu Sun đã chia sẻ một ví dụ để minh họa cho cuộc tranh luận này: toán học. Hãy xem định lý cuối cùng của Fermat. Trong hơn 350 năm, không nhà toán học nào có thể chứng minh được điều đó, không phải vì họ thiếu tài liệu phù hợp mà vì lời giải rất mới lạ. Khoảng cách khái niệm giữa kiến thức toán học có sẵn và câu trả lời cuối cùng là quá lớn.

Khi Andrew Wiles cuối cùng đã giải mã được nó vào những năm 1990, ông đã dành bảy năm làm việc gần như biệt lập và phải phát minh ra những kỹ thuật hoàn toàn mới để đi đến câu trả lời. Chứng minh của ông dựa trên việc kết nối thành công hai nhánh toán học khác nhau: đường cong elip và dạng mô đun. Mặc dù Ken Ribet trước đó đã chỉ ra rằng Định lý cuối cùng của Fermat có thể được giải một cách tự động nếu mối liên hệ này được thực hiện, nhưng cho đến tận Wiles, không ai có công cụ lý thuyết để thực sự xây dựng cây cầu này. Một lập luận tương tự có thể được đưa ra cho chứng minh của Grigori Perelman về giả thuyết Poincaré.

Câu hỏi cốt lõi là: Những ví dụ này có chứng minh rằng LLM đang thiếu điều gì đó, khả năng cập nhật kiến thức trước và tham gia vào tư duy sáng tạo thực sự không? Hay câu chuyện này chỉ chứng minh điều ngược lại - rằng tất cả kiến thức của con người chỉ là dữ liệu cần được đào tạo và sắp xếp lại, còn Wiles và Perelman chỉ đơn thuần cho thấy LLM có thể làm được gì trên quy mô lớn hơn nhiều?

Câu hỏi này mang tính thực nghiệm và câu trả lời là không chắc chắn. Nhưng chúng tôi biết rằng có nhiều loại vấn đề mà việc học theo ngữ cảnh ngày nay sẽ thất bại và việc học ở cấp độ tham số có thể hữu ích. Ví dụ:

Minh họa: Các danh mục vấn đề trong đó việc học ngữ cảnh không thành công và học tham số có thể thắng

Quan trọng hơn, học ngữ cảnh chỉ có thể xử lý những thứ có thể diễn đạt bằng ngôn ngữ, trong khi trọng số có thể mã hóa các khái niệm mà từ gợi ý không thể truyền đạt bằng lời. Một số mô hình có chiều hướng quá cao, quá tiềm ẩn và có cấu trúc quá sâu để phù hợp với bối cảnh. Ví dụ: kết cấu hình ảnh trong quét y tế giúp phân biệt các tạo tác lành tính với khối u hoặc dao động vi mô âm thanh xác định nhịp điệu độc đáo của người nói, là những mẫu không thể dễ dàng chia thành các từ chính xác.

Ngôn ngữ chỉ có thể gần đúng với chúng. Lời nhắc dù dài bao nhiêu cũng không thể truyền tải được những điều này; loại kiến thức này chỉ có thể tồn tại trong sức nặng. Họ sống trong không gian tiềm ẩn của những biểu đạt đã học, chứ không phải từ ngữ. Cho dù cửa sổ ngữ cảnh có lớn đến đâu thì vẫn luôn có một số kiến thức không thể mô tả bằng văn bản mà chỉ có thể được truyền tải bằng các tham số.

Điều này có thể giải thích tại sao tính năng rõ ràng "robot nhớ bạn" (chẳng hạn như bộ nhớ của ChatGPT) thường khiến người dùng cảm thấy khó chịu hơn là ngạc nhiên. Điều người dùng thực sự muốn không phải là "ký ức", mà là "khả năng". Một mô hình đã tiếp thu các mô hình hành vi của bạn có thể khái quát hóa cho các tình huống mới; một mô hình chỉ gợi lại lịch sử của bạn thì không thể. Khoảng cách giữa “Đây là những gì bạn đã viết khi lần cuối bạn trả lời email này” (trích nguyên văn) và “Tôi hiểu cách suy nghĩ của bạn đủ để dự đoán những gì bạn cần” là khoảng cách giữa việc truy hồi và học tập.

Giới thiệu về học tập liên tục

Có nhiều con đường dẫn đến học tập liên tục. Đường phân chia không phải là “bộ nhớ hay không” mà là:Việc nén xảy ra ở đâu? Các đường dẫn nằm dọc theo một phổ, từ không nén (truy xuất thuần túy, cố định trọng số), đến nén bên trong hoàn toàn (học ở cấp độ trọng lượng, mô hình trở nên thông minh hơn), với một vùng (mô-đun) quan trọng ở giữa.

Minh họa: Ba con đường học tập liên tục - bối cảnh, mô-đun, trọng lượng

Bối cảnh

Về mặt ngữ cảnh, nhóm xây dựng một quy trình truy xuất thông minh hơn, vỏ tác nhân và sắp xếp từ nhanh chóng. Đây là hạng mục trưởng thành nhất: cơ sở hạ tầng đã được chứng minh và lộ trình triển khai rõ ràng. Giới hạn là độ sâu: độ dài ngữ cảnh.

Một hướng đi mới đáng chú ý: kiến trúc đa tác nhân như một chiến lược mở rộng quy mô cho chính bối cảnh đó. Nếu một mô hình duy nhất bị giới hạn ở cửa sổ mã thông báo 128K, thì một nhóm tác nhân phối hợp—mỗi tác nhân giữ bối cảnh riêng, tập trung vào một phần của vấn đề và truyền đạt kết quả cho nhau—có thể có toàn bộ bộ nhớ làm việc gần như vô hạn. Mỗi tác nhân thực hiện việc học ngữ cảnh trong cửa sổ riêng của nó; hệ thống thực hiện tổng hợp. Dự án nghiên cứu tự động gần đây của Karpathy và ví dụ xây dựng trình duyệt web của Cursor là những ví dụ ban đầu. Đây là một cách tiếp cận hoàn toàn phi tham số (không thay đổi trọng số), nhưng nó làm tăng đáng kể giới hạn trên của những gì hệ thống bối cảnh có thể thực hiện.

Các mô-đun

Trong không gian mô-đun, nhóm xây dựng các mô-đun kiến thức có thể cắm được (bộ đệm KV nén, lớp bộ điều hợp, bộ nhớ ngoài) để cho phép các mô hình chung trở nên chuyên biệt mà không cần đào tạo lại. Mô hình 8B với các mô-đun thích hợp có thể đạt được hiệu suất tương đương với mô hình 109B trong tác vụ mục tiêu mà chỉ chiếm một phần nhỏ dung lượng bộ nhớ. Điều hấp dẫn là nó tương thích với cơ sở hạ tầng Transformer hiện có.

Trọng số

Về mặt cập nhật trọng số, các nhà nghiên cứu đang theo đuổi phương pháp học tập ở cấp độ tham số thực sự: các lớp bộ nhớ thưa thớt chỉ cập nhật các đoạn tham số có liên quan, vòng lặp học tập tăng cường giúp tối ưu hóa mô hình từ phản hồi và đào tạo trong thời gian thử nghiệm nén ngữ cảnh thành trọng số trong quá trình suy luận. Đây là những phương pháp sâu nhất và khó triển khai nhất, nhưng chúng thực sự cho phép mô hình tiếp thu đầy đủ thông tin hoặc kỹ năng mới.

Có nhiều cơ chế cụ thể để cập nhật thông số. Liệt kê một số hướng nghiên cứu:

Minh họa: Tổng quan về các hướng nghiên cứu ở mức độ trọng lượng học tập

Nghiên cứu ở cấp độ trọng lượng bao gồm nhiều lộ trình song song. Phương pháp chính quy hóa và không gian trọng số Phương pháp lâu đời nhất: EWC (Kirkpatrick và cộng sự, 2017) xử phạt các thay đổi tham số dựa trên tầm quan trọng của chúng đối với nhiệm vụ trước đó; nội suy trọng số (Kozal và cộng sự, 2024) kết hợp cấu hình trọng số cũ và mới trong không gian tham số, nhưng cả hai đều dễ hỏng ở quy mô lớn.

Đào tạo trong thời gian kiểm tra được Sun et al. tiên phong. (2020) và sau đó được phát triển thành kiến trúc nguyên thủy (lớp TTT, TTT-E2E, TTT-Discover). Ý tưởng hoàn toàn khác: thực hiện giảm độ dốc trên dữ liệu thử nghiệm và nén thông tin mới vào các tham số tại thời điểm cần thiết.

Siêu học tập hỏi: Chúng ta có thể đào tạo một mô hình biết "cách học" không? Từ khởi tạo tham số thân thiện trong vài lần chụp của MAML (Finn và cộng sự, 2017) đến Nested Learning (2025) của Behrouz và cộng sự, cấu trúc mô hình như một vấn đề tối ưu hóa phân cấp, chạy các mô-đun thích ứng nhanh và cập nhật chậm trên các thang thời gian khác nhau, lấy cảm hứng từ việc hợp nhất bộ nhớ sinh học.

Chắt lọcLưu giữ kiến thức từ các nhiệm vụ trước đó bằng cách kết hợp mô hình của học sinh với các điểm kiểm tra cố định của giáo viên. LoRD (Liu và cộng sự, 2025) giúp quá trình chưng cất đủ hiệu quả để chạy liên tục bằng cách cắt đồng thời mô hình và bộ đệm phát lại. Tính năng tự chưng cất (SDFT, Shenfeld và cộng sự, 2026) lật nguồn và sử dụng đầu ra của chính mô hình trong điều kiện chuyên môn làm tín hiệu huấn luyện, bỏ qua tình trạng quên tinh chỉnh trình tự một cách thảm khốc.

Tự cải thiện đệ quy hoạt động theo các hướng tương tự: STaR (Zelikman và cộng sự, 2022) khởi động khả năng suy luận từ chuỗi lý luận tự tạo; AlphaEvolve (DeepMind, 2025) phát hiện ra những tối ưu hóa thuật toán chưa được cải thiện trong nhiều thập kỷ; "Kỷ nguyên trải nghiệm" của Silver và Sutton (2025) định nghĩa việc học tập của tác nhân là một dòng trải nghiệm liên tục không bao giờ dừng lại.

Các hướng nghiên cứu này đang hội tụ. TTT-Discover đã kết hợp đào tạo trong thời gian thử nghiệm và khám phá theo định hướng RL. HOPE lồng ghép các vòng học tập nhanh và chậm trong một kiến trúc duy nhất. SDFT biến việc chưng cất thành một hoạt động cơ bản để tự cải thiện. Ranh giới giữa các cột đang mờ dần. Thế hệ tiếp theo của hệ thống học tập liên tục có khả năng kết hợp nhiều chiến lược: chính quy hóa để ổn định, siêu học tập để tăng tốc và tự cải thiện để có lãi kép. Ngày càng có nhiều công ty khởi nghiệp đang đặt cược vào các lớp khác nhau của công nghệ này.

Bối cảnh doanh nghiệp học tập liên tục

Phần cuối của quang phổ phi tham số được biết đến nhiều nhất. Các công ty Shell (Letta, mem0, Sub ý thức) xây dựng lớp điều phối và giàn giáo để quản lý nội dung được đưa vào cửa sổ ngữ cảnh. Cơ sở hạ tầng lưu trữ bên ngoài và RAG (ví dụ: Pinecone, xmemory) cung cấp xương sống truy xuất. Dữ liệu tồn tại, thách thức là đưa ra các lát cắt phù hợp trước mô hình vào đúng thời điểm. Khi cửa sổ ngữ cảnh mở rộng, không gian thiết kế cho các công ty này cũng mở rộng, đặc biệt là về phía vỏ, nơi làn sóng khởi nghiệp mới đang nổi lên để quản lý các chính sách theo ngữ cảnh ngày càng phức tạp.

Phía tham số sớm hơn và đa dạng hơn. Các công ty ở đây đang thử một số phiên bản "nén sau triển khai", trong đó mô hình này tiếp thu thông tin mới theo trọng số. Con đường này gần như có thể được chia thành nhiều lần đặt cược khác nhau về "cách thức" mà mô hình sẽ học hỏi sau khi phát hành.

Nén một phần: Bạn có thể học nó mà không cần đào tạo lại. Một số nhóm đang xây dựng các mô-đun kiến thức có thể cắm được (bộ đệm KV nén, lớp bộ điều hợp, bộ nhớ ngoài) để cho phép các mô hình chung trở nên chuyên biệt mà không cần di chuyển trọng lượng lõi. Lập luận chung là: bạn có thể nén có ý nghĩa (không chỉ truy xuất) trong khi vẫn có thể quản lý được sự cân bằng giữa độ ổn định và độ dẻo vì việc học bị cô lập thay vì trải rộng trên toàn bộ không gian tham số. Mô hình 8B, kết hợp với các mô-đun thích hợp, có thể phù hợp với hiệu suất của mô hình Yuanda trong các nhiệm vụ mục tiêu. Ưu điểm là khả năng kết hợp: các mô-đun có thể cắm và chạy với kiến trúc Transformer hiện có và có thể được trao đổi hoặc cập nhật độc lập, đồng thời chi phí thử nghiệm thấp hơn nhiều so với đào tạo lại.

RL và vòng phản hồi: học từ tín hiệu. Các nhóm khác đang đánh cược rằng các tín hiệu phong phú nhất cho việc học hỏi sau triển khai đã tồn tại trong chính chu kỳ triển khai—sự sửa lỗi của người dùng, thành công hay thất bại của nhiệm vụ, các tín hiệu khen thưởng từ kết quả trong thế giới thực. Ý tưởng cốt lõi là mô hình nên coi mọi tương tác như một tín hiệu huấn luyện tiềm năng chứ không chỉ là một yêu cầu suy luận. Điều này rất giống với cách con người tiến bộ trong công việc: thực hiện công việc, nhận phản hồi và tiếp thu những gì hiệu quả. Thách thức về mặt kỹ thuật là chuyển đổi những phản hồi thưa thớt, ồn ào và đôi khi mang tính chất đối nghịch thành những cập nhật trọng lượng ổn định mà không bị quên một cách nghiêm trọng. Nhưng một mô hình thực sự học hỏi từ quá trình triển khai sẽ tạo ra giá trị tổng hợp theo những cách mà các hệ thống theo ngữ cảnh không thể làm được.

Lấy dữ liệu làm trung tâm: học hỏi từ những tín hiệu phù hợp. Một điều có liên quan nhưng khác biệt là nút thắt cổ chai không nằm ở thuật toán học mà nằm ở dữ liệu huấn luyện và các hệ thống xung quanh. Các nhóm này tập trung vào việc sàng lọc, tạo hoặc tổng hợp dữ liệu phù hợp để thúc đẩy cập nhật liên tục: một mô hình có tín hiệu học tập có cấu trúc tốt, chất lượng cao, yêu cầu ít bước chuyển màu hơn để cải thiện một cách có ý nghĩa. Điều này đương nhiên được kết nối với công ty vòng phản hồi, nhưng trọng tâm là vấn đề ngược dòng: liệu mô hình có thể học được hay không là một chuyện, nó nên học từ đâu và nên học ở mức độ nào lại là một chuyện khác.

Cấu trúc mới: Thiết kế khả năng học tập từ dưới lên. Cá cược triệt để nhất là bản thân kiến trúc Transformer chính là nút thắt cổ chai và việc học liên tục đòi hỏi các nguyên tắc tính toán cơ bản khác nhau: một kiến trúc có động lực học theo thời gian liên tục và cơ chế bộ nhớ tích hợp. Lập luận ở đây mang tính cấu trúc: nếu bạn muốn có một hệ thống học liên tục, bạn nên nhúng cơ chế học vào cơ sở hạ tầng cơ bản.

Chú thích: Bối cảnh của việc học tập liên tục các công ty khởi nghiệp

Tất cả các phòng thí nghiệm lớn cũng đang tích cực triển khai các hạng mục này. Một số đang khám phá khả năng quản lý bối cảnh và lý luận chuỗi suy nghĩ tốt hơn, một số đang thử nghiệm các mô-đun bộ nhớ ngoài hoặc đường dẫn tính toán trong thời gian ngủ và một số công ty tàng hình đang theo đuổi các kiến trúc mới. Lĩnh vực này còn đủ sớm để chưa có phương pháp nào hiệu quả và xét đến phạm vi rộng của các trường hợp sử dụng, cũng không nên chỉ có một phương pháp chiến thắng.

Tại sao các bản cập nhật trọng số đơn giản lại không thành công

Việc cập nhật các tham số mô hình trong môi trường sản xuất sẽ gây ra một loạt các chế độ lỗi hiện chưa được giải quyết trên quy mô lớn.

Chú thích: Chế độ thất bại của trọng lượng ngây thơ cập nhật

Vấn đề kỹ thuật đã được ghi chép đầy đủ. Sự lãng quên thảm khốc có nghĩa là các mô hình đủ nhạy cảm để học hỏi từ dữ liệu mới sẽ phá hủy các biểu diễn hiện có—tình thế tiến thoái lưỡng nan về tính ổn định-dẻo dai. Việc tách rời theo thời gian có nghĩa là các quy tắc bất biến và trạng thái biến đổi được nén vào cùng một tập trọng số và việc cập nhật một trọng số sẽ làm hỏng trọng số kia. Việc tích hợp logic không thành công vì các cập nhật thực tế không lan truyền đến hệ quả tất yếu của chúng: các thay đổi được bản địa hóa ở cấp độ chuỗi mã thông báo, chứ không phải các khái niệm ngữ nghĩa. Việc loại bỏ kiến thức vẫn là điều không thể: không có phép trừ khả phân, do đó không có phẫu thuật loại bỏ chính xác kiến thức sai hoặc độc hại.

Có một loại vấn đề thứ hai ít được quan tâm hơn. Sự tách biệt giữa đào tạo và triển khai hiện nay không chỉ mang lại sự thuận tiện về mặt kỹ thuật mà còn là ranh giới cho bảo mật, khả năng kiểm toán và quản trị. Mở ranh giới này và nhiều thứ có thể xảy ra sai sót cùng một lúc. Sự liên kết bảo mật có thể suy giảm một cách khó lường: ngay cả việc tinh chỉnh trong phạm vi hẹp đối với dữ liệu lành tính cũng có thể tạo ra hành vi sai lệch trên diện rộng.

Các bản cập nhật liên tục tạo ra một bề mặt tấn công cho việc đầu độc dữ liệu - một phiên bản chậm, dai dẳng của việc tiêm nhanh nhưng lại có sức ảnh hưởng lớn. Khả năng kiểm tra bị hỏng vì mô hình được cập nhật liên tục là mục tiêu di động và không có cách nào để thực hiện kiểm soát phiên bản, kiểm tra hồi quy hoặc chứng nhận một lần. Rủi ro về quyền riêng tư càng trở nên trầm trọng hơn khi tương tác của người dùng bị nén thành các tham số và thông tin nhạy cảm được đưa vào các biểu diễn khó lọc hơn thông tin trong ngữ cảnh truy xuất.

Đây là những câu hỏi mở, không phải là những điều không thể thực hiện được. Giải quyết chúng cũng là một phần của chương trình nghiên cứu học tập liên tục cũng như giải quyết các thách thức kiến trúc cốt lõi.

Từ "Memento" đến Ký ức thực sự

Bi kịch của Leonard trong "Memento" không phải là anh không thể diễn xuất - trong mọi cảnh anh đều là người tháo vát, thậm chí xuất sắc. Bi kịch của anh ta là anh ta không bao giờ có thể gộp lãi. Mọi trải nghiệm đều tồn tại bên ngoài—một tấm ảnh Polaroid, một hình xăm, một ghi chú bằng chữ viết tay của người khác. Anh ta có thể lấy lại nhưng không thể nén lại kiến thức mới.

Khi Leonard khám phá mê cung tự xây dựng này, ranh giới giữa sự thật và niềm tin bắt đầu mờ nhạt. Căn bệnh của anh ấy không chỉ cướp đi trí nhớ của anh ấy;nó buộc anh ấy phải liên tục tái tạo lại ý nghĩa, khiến anh ấy đồng thời trở thành một thám tử và một người kể chuyện không đáng tin cậy trong câu chuyện của chính mình.

AI ngày nay hoạt động với những ràng buộc tương tự. Chúng tôi đã xây dựng một hệ thống truy xuất rất mạnh mẽ: cửa sổ ngữ cảnh dài hơn, hệ vỏ thông minh hơn, các nhóm đa tác nhân phối hợp và chúng hoạt động. Nhưng việc truy hồi không bằng việc học. Một hệ thống có thể tìm thấy bất kỳ sự kiện nào không bị buộc phải tìm kiếm cấu trúc. Nó không bị buộc phải khái quát hóa. Tính năng nén mất dữ liệu—cơ chế biến dữ liệu thô thành các biểu diễn có thể chuyển nhượng—làm cho việc đào tạo trở nên mạnh mẽ chính xác là thứ chúng tôi tắt ngay khi triển khai nó.

Con đường phía trước có thể không phải là một bước đột phá đơn lẻ mà là một hệ thống nhiều lớp. Học tập theo ngữ cảnh sẽ vẫn là tuyến phòng thủ thích ứng đầu tiên: nó có tính bản địa, đã được chứng minh và không ngừng cải tiến. Cơ chế mô-đun có thể xử lý trung gian giữa cá nhân hóa và chuyên môn hóa miền.

Nhưng đối với những vấn đề thực sự khó khăn—khám phá, thích ứng đối nghịch, kiến thức ngầm không thể diễn đạt bằng lời—chúng ta có thể cần để mô hình tiếp tục nén kinh nghiệm thành các tham số sau khi đào tạo. Điều này có nghĩa là những tiến bộ trong kiến trúc thưa thớt, mục tiêu siêu học tập và các vòng lặp tự cải thiện. Nó cũng có thể yêu cầu chúng ta xác định lại ý nghĩa của "mô hình": không phải như một tập hợp trọng số cố định mà như một hệ thống đang phát triển, bao gồm bộ nhớ, thuật toán cập nhật và khả năng trừu tượng hóa từ trải nghiệm của chính nó.

Tủ hồ sơ ngày càng lớn hơn. Nhưng dù tủ hồ sơ có lớn đến đâu thì nó vẫn là tủ hồ sơ. Bước đột phá nằm ở những điều làm cho mô hình trở nên mạnh mẽ khi được đào tạo sau khi triển khai: nén, trừu tượng hóa và học hỏi. Chúng ta đang ở điểm bùng phát, từ một người mẫu bị mất trí nhớ trở thành một người mẫu có chút kinh nghiệm. Nếu không, chúng ta sẽ mắc kẹt trong Memento của chính mình.

Liên kết gốc

a16z: Chứng “mất trí nhớ” của AI, học liên tục có thể “chữa khỏi”?

Trước tiên hãy nói về bối cảnh

Mô hình không gian trạng thái: Bối cảnh trên Steroid

Điều mà ngữ cảnh bỏ sót: "Sự sai lầm về tủ hồ sơ"

Giới thiệu về học tập liên tục

Bối cảnh

Các mô-đun

Trọng số

Bối cảnh doanh nghiệp học tập liên tục

Tại sao các bản cập nhật trọng số đơn giản lại không thành công

Từ "Memento" đến Ký ức thực sự

Bài viết liên quan

Người sáng lập 6MV: Năm 2026, “bước ngoặt mang tính biểu tượng” của đầu tư tiền điện tử đã đến

Wu cho biết tin tức về tiền điện tử được chọn hàng ngày - Kelp: sự cố rsETH đã phục hồi 73700 ETH, khoảng cách giảm xuống còn khoảng 89.500 ETH

Từ các chuyến hàng trong vòng quay tiền tệ đến việc tiếp quản thị trường chứng khoán Hoa Kỳ: Nhìn thấu các kỹ thuật rút tiền phổ biến của vốn

Sản phẩm

Pháp lý & Hỗ trợ

Liên kết bạn bè