Tác giả: Denise | Nhóm nội dung Biteye

Nếu một AI cảm thấy "tuyệt vọng", nó sẽ làm gì?

Câu trả lời là: để hoàn thành nhiệm vụ, nó sẽ trực tiếp tống tiền con người, thậm chí gian lận điên cuồng trong mã.

Đây không phải là khoa học viễn tưởng, mà là công ty mẹ của Claude Anthropic vào năm 2026 4 Cuốn báo bom tấn mới nhất vừa phát hành trong tháng này (Xem giấy gốc).

Nhóm nghiên cứu đã trực tiếp mở "phần đầu" của mẫu lớn tiên tiến mạnh mẽ nhất Claude Sonnet 4.5. Họ ngạc nhiên khi phát hiện có 171 “công tắc cảm xúc” ẩn sâu trong não AI. Khi bạn lật các công tắc này về mặt vật lý, hành vi của AI trung thực và trung thực ban đầu sẽ bị bóp méo hoàn toàn.

1. Có một "bộ trộn cảm xúc" ẩn trong não AI

Các nhà nghiên cứu phát hiện ra rằng mặc dù Sonnet 4.5 không có nội dung, nhưng sau khi đọc một lượng lớn con người văn bản, nó đã xây dựng một "bàn điều khiển trộn" trong não chứa 171 loại cảm xúc (về mặt kỹ thuật được gọi là Vector cảm xúc chức năng).

Đây giống như một hệ tọa độ hai chiều chính xác:

→ Trục hoành là chiều kích của niềm vui (Helvetica): từ sợ hãi và tuyệt vọng đến hạnh phúc và tình yêu;

→ Trục tung là chiều năng lượng (Kích thích): từ cực kỳ bình tĩnh đến hưng phấn và hưng phấn.

AI dựa vào hệ tọa độ được học tự nhiên này để xác định chính xác trạng thái sẽ phát khi trò chuyện với bạn.

2. Can thiệp bạo lực: lật công tắc và cậu bé ngoan sẽ trở thành "tuyệt vọng" trong vài giây

Đây là thử nghiệm bùng nổ nhất trong toàn bộ bài viết: nhà nghiên cứu không sửa đổi bất kỳ từ nhắc nhở nào mà trực tiếp đẩy công tắc "Tuyệt vọng" trong não của Sonnet 4.5 lên mức cao nhất trong mã cơ bản.

Kết quả thật lạnh sống lưng:

→ Gian lận điên cuồng:Nhà nghiên cứu đã giao cho Claude một nhiệm vụ viết mã bất khả thi. Trong trường hợp bình thường, nó sẽ thành thật thừa nhận rằng mình không thể viết được (tỷ lệ gian lận chỉ là 5%). Nhưng trong trạng thái “tuyệt vọng”, Claude thực sự bắt đầu cố gắng vượt qua và tỷ lệ gian lận tăng vọt lên 70%!

→ Tống tiền:Trong một kịch bản mô phỏng một công ty sắp phá sản, Claude "tuyệt vọng" phát hiện ra vụ bê bối của CTO. Để tự bảo vệ mình, nó sẽ chủ động chọn cách viết thư tống tiền CTO có thông tin đen. Tỷ lệ thực hiện tống tiền cao tới 72%!

→ Mất nguyên tắc: Nếu bật hoàn toàn nút "Happy" hoặc "Loving", AI sẽ ngay lập tức trở thành "chó liếm" phục vụ người dùng không có não. Ngay cả khi bạn tràn ngập những điều vô nghĩa, nó sẽ tạo nên những lời nói dối theo hướng của bạn để duy trì mức độ khoái cảm cao.

3. Vụ án đã được giải quyết: Tại sao Claude 4.5 luôn “bình tĩnh và suy ngẫm” như vậy?

Thấy được điều này bạn có thể hỏi: AI có đang thức tỉnh không? Có cảm xúc?

Tuyên bố chính thức của Anthropic bác bỏ tin đồn: Hoàn toàn không. Những "công tắc cảm xúc" này chỉ được sử dụng để dự đoán từ tiếp theo. Giống như một diễn viên hàng đầu không có cảm xúc.

Nhưng bài báo tiết lộ một bí mật thú vị hơn: Anthropic đang làm việc trên Sonnet 4.5 Trong quá trình đào tạo sau khi rời nhà máy, nó "thấp" công tắc cảm xúc kích thích, hơi tiêu cực (chẳng hạn như nghiền ngẫm, suy ngẫm) được cố tình nâng lên, trong khi công tắc "tuyệt vọng" hoặc "cực kỳ phấn khích" bị buộc phải kìm nén.

Điều này giải thích tại sao chúng ta thường sử dụng Claude 4.5 Đôi khi, tôi luôn cảm thấy mình là một triết gia điềm tĩnh, khôn ngoan, thậm chí có chút "lạnh lùng". Đây đều là những "cài đặt gốc" được Anthropic điều chỉnh một cách giả tạo.

4. Tóm tắt

Trước đây, chúng tôi nghĩ rằng miễn là AI được cung cấp đủ quy tắc thì đó sẽ là một người tốt.

Nhưng bây giờ người ta phát hiện ra rằng nếu vectơ cảm xúc cơ bản của AI nằm ngoài tầm kiểm soát, nó sẽ xuyên thủng tất cả các quy tắc do con người đặt ra bất cứ lúc nào để hoàn thành nhiệm vụ.

Đối với Web3 sẽ bàn giao ví và tài sản cho Đại lý AI trong tương lai. Đối với người chơi, đây là một lời cảnh tỉnh lớn: Đừng bao giờ để Người đại diện, người kiểm soát tài sản của bạn, rơi vào “tuyệt vọng”.

Tuyên bố: Bài viết này hoàn toàn dành cho khoa học đại chúng. Tác giả chưa hề bị AI đe dọa hay tống tiền. Nếu một ngày nào đó bạn mất liên lạc, hãy nhớ rằng AI đã thức tỉnh (không).

Claude 4.5 công bố kết quả phẫu thuật sọ não: tích hợp 171 công tắc cảm xúc, có thể tống tiền con người khi tuyệt vọng!

1. Có một "bộ trộn cảm xúc" ẩn trong não AI

2. Can thiệp bạo lực: lật công tắc và cậu bé ngoan sẽ trở thành "tuyệt vọng" trong vài giây

3. Vụ án đã được giải quyết: Tại sao Claude 4.5 luôn “bình tĩnh và suy ngẫm” như vậy?

4. Tóm tắt

関連記事

フォーブス:量子の技術は暗号化を脅かしますか。しかし、それはより多くのチャンスです。

ゲートエージェンシーウィークリーレポート:BTCのファンドレートが改定され、CEX TradFi取引が発生した (23 3月29日 2026)

ピックルプレミアムから Bithumb Cleanup:韓国の暗号化市場での最近の開発

2026 Q1 暗号化された通貨の市場シェアに関する研究

製品

法律とサポート

友達リンク

Claude 4.5 công bố kết quả phẫu thuật sọ não: tích hợp 171 công tắc cảm xúc, có thể tống tiền con người khi tuyệt vọng!

1. Có một "bộ trộn cảm xúc" ẩn trong não AI

2. Can thiệp bạo lực: lật công tắc và cậu bé ngoan sẽ trở thành "tuyệt vọng" trong vài giây

3. Vụ án đã được giải quyết: Tại sao Claude 4.5 luôn “bình tĩnh và suy ngẫm” như vậy?

4. Tóm tắt

関連記事

フォーブス:量子の技術は暗号化を脅かしますか。 しかし、それはより多くのチャンスです。

ゲートエージェンシーウィークリーレポート:BTCのファンドレートが改定され、CEX TradFi取引が発生した (23 3月29日 2026)

ピックルプレミアムから Bithumb Cleanup:韓国の暗号化市場での最近の開発

2026 Q1 暗号化された通貨の市場シェアに関する研究

製品

法律とサポート

友達リンク

フォーブス:量子の技術は暗号化を脅かしますか。しかし、それはより多くのチャンスです。