Litecoin

Thử nghiệm thực tế Claude Opus 4.7: Liệu có xứng đáng là model mạnh nhất?

2026/04/18 03:22
🌐vi

Opus 4.7 là một bản phát hành hoàn toàn không nhằm mục đích trở thành "mô hình mạnh nhất". Đó là một phiên bản "kỹ năng dùng dao chính xác" với những lựa chọn rõ ràng.

Thử nghiệm thực tế Claude Opus 4.7: Liệu có xứng đáng là model mạnh nhất?
Tiêu đề gốc: "Opus 4.7 không muốn trở thành "model mạnh nhất" chút nào: mọi người không thể theo kịp tốc độ của Anthropic khi chơi Claude"
Nguồn gốc: Silicon Star Pro

Ngày 16 tháng 4 năm 2026, Anthropic chính thức phát hành Claude Opus 4.7, khác xa so với Opus 4.6 thế hệ trước Ra mắt chỉ hơn hai nhiều tháng trước.

Sau những đợt cập nhật mẫu mã và sản phẩm chuyên sâu và điên rồ gần đây, việc ra mắt các mẫu mã mới của Anthropic đương nhiên giống như một động thái khuếch đại. Chắc hẳn bạn đã từng thấy nhiều báo cáo mô hình lần đầu tiên được sắp xếp, mỗi báo cáo đều gọi Opus 4.7 là "mô hình mạnh nhất" và những "nhân loại đã kết thúc", "cảnh báo thất nghiệp", v.v., một lần nữa lại tràn ngập màn hình.

Nhưng bạn vẫn phải xem những gì Anthropic đã đăng.

Giọng điệu của bản phát hành này thực sự khác thường.

Anthropic đã viết trực tiếp trong thông báo: Opus 4.7 không có khả năng như Claude Mythos Preview - và Mythos chỉ mở cho một số đối tác như Apple, Google, Microsoft và Nvidia, đồng thời không khả dụng cho các nhà phát triển và người dùng thông thường.

Đồng thời, điều đáng chú ý hơn lời hùng biện của nó là nó không chỉ yếu hơn Mythos huyền thoại mà thực tế còn yếu hơn mẫu thế hệ trước ở một số khả năng chính.

Một con số bất thường trong điểm chuẩn của chính Opus 4.7: Điểm chuẩn ngữ cảnh dài MRCR v2 @1M đã giảm từ 78,3% trong Opus 4,6 xuống 32,2%, giảm 46 điểm phần trăm.

Rất ít mẫu máy hàng đầu có khả năng cắt giảm một nửa khả năng của con át chủ bài.

Và đây là sự lựa chọn được họ chủ động đưa ra.

Vì vậy, khi bạn tiếp tục khoe khoang rằng mỗi mẫu xe của mình là “mạnh nhất” mà không có chút quán tính nào thì thực tế là nó không còn theo kịp nhịp điệu của chính Anthropic nữa!

Nó thậm chí không quan tâm đến cải thiện vấn đề rửa xe

Opus 4.7 là bản phát hành không muốn trở thành "mẫu mạnh nhất" chút nào. Đó là một bản phát hành "kỹ thuật dùng dao chính xác" với sự đánh đổi rõ ràng. Nó khác với những ý tưởng phát hành khác nhau của các nhà sản xuất mô hình đầu trước đây. Đó cũng là hướng đi mới mà các nhà sản xuất mô hình hàng đầu ngày nay sẽ cùng nhau hướng tới sau khi họ cảm thấy rõ ràng rằng bản thân "Bước nhảy vọt vĩ đại" của mô hình này không còn bền vững nữa - Anthropic Ở một mức độ nào đó, nó đã tiến gần hơn đến chiến lược phát hành của các công ty như Apple và Microsoft trong giai đoạn thương mại hóa sản phẩm rất trưởng thành của họ.

Đây có thể là lúc 4.7 thực sự quan trọng.

1. Khả năng lập trình: sự cải thiện thực sự đằng sau những con số

Để hiểu rõ hơn về những thay đổi này, cách tốt nhất là xem xét kỹ hơn những gì nó đã đăng lần này.

Sau đây là thông tin đầy đủ về việc phát hành Opus 4.7 - những gì đã được cải thiện, những gì đã bị hỏng, phản hồi trực tiếp từ các nhà phát triển là gì và liệu nó có nên được di chuyển hay không.

Thông báo chính thức: https://www.anthropic.com/news/claude-opus-4-7

Những thành tựu lập trình của Opus 4.7 là trọng tâm chính của phiên bản này.

Đã xác minh băng ghế dự bị SWE (500 vấn đề thực sự trên GitHub, mô hình cần viết các bản vá có thể vượt qua bài kiểm tra) đã tăng từ 80,8% trong Opus 4,6 lên 87,6%, tăng gần 7 điểm phần trăm và hiện là mô hình đầu tiên trong số các mô hình có sẵn công khai. So với 80,6% của Gemini 3.1 Pro, khoảng cách là rõ ràng.

SWE-bench Pro là phiên bản khó hơn, bao gồm quy trình kỹ thuật hoàn chỉnh bằng bốn ngôn ngữ lập trình. Opus 4.7 tăng từ 53,4% lên 64,3%, tăng 11 điểm. So với 57,7% của GPT-5.4 và 54,2% của Gemini 3.1 Pro, Opus 4.7 rõ ràng dẫn đầu trong điểm chuẩn này.

CursorBench là một điểm chuẩn thực tế của Cursor nhằm đo lường cụ thể chất lượng hỗ trợ lập trình của mô hình trong môi trường IDE thực. Opus 4.6 ở mức 58% và Opus 4.7 tăng lên 70%, cải thiện 12 điểm. Người đồng sáng lập Cursor, Michael Truell, cho biết trong thông báo chính thức: "Đây là một bước nhảy vọt có ý nghĩa về khả năng, với khả năng suy luận sáng tạo mạnh mẽ hơn khi giải quyết các vấn đề khó khăn".

Dữ liệu đo lường của đối tác:

· Rakuten:Opus 4.7 giải quyết số lượng nhiệm vụ sản xuất gấp 3 lần so với Opus 4.6, với sự cải thiện hai chữ số về chất lượng mã và điểm chất lượng kiểm tra

· Factory:Tỷ lệ thành công của nhiệm vụ đã tăng lên giảm 10-15% và điểm dừng ở giữa của mô hình giảm đáng kể

· Cognition (công ty đứng sau Devin): Mô hình "có thể hoạt động hàng giờ mà không bị rớt offline"

· CodeRabbit:Tỷ lệ thu hồi đã tăng hơn 10%, "nhanh hơn một chút so với chế độ GPT-5.4 xhigh"

· Bolt:Đối với các nhiệm vụ xây dựng ứng dụng dài hơn, Opus 4.7 cung cấp "sự cải thiện tốt nhất 10% so với Opus 4.6 mà không gặp phải các vấn đề hồi quy trước đây"

· Terminal-Bench 2.0:Opus 4.7 giải quyết ba nhiệm vụ mà trước đây không có mô hình Claude (hoặc đối thủ cạnh tranh) nào có thể xử lý, một trong số đó là tình trạng chạy đua yêu cầu suy luận nhiều tệp trên các cơ sở mã phức tạp để khắc phục. condition)

Những dữ liệu này hợp thành một hướng: Opus 4.7 có những cải tiến đáng kể trong các tác vụ lập trình dài hạn, đa tệp và phức tạp đòi hỏi sự gắn kết theo ngữ cảnh. Đây chính xác là điều mà người dùng Opus 4.6 phàn nàn nhiều nhất trong hai tháng qua - các tác vụ tự động bỏ dở giữa chừng khi thực thi và bị mất khi gặp lỗi nhiều tệp.

2. Khả năng trực quan: Cải tiến bị đánh giá thấp nhất trong phiên bản này

Tiêu chuẩn độ chính xác hình ảnh XBOW đã tăng từ 54,5% lên 98,5%. Đây không phải là một cải tiến gia tăng, đây là một bước nhảy vọt trong việc xây dựng lại các cấp độ.

Thay đổi thông số kỹ thuật cụ thể:

· Độ phân giải hình ảnh tối đa được tăng từ khoảng 1,15 triệu pixel (1.568 pixel ở cạnh dài) lên khoảng 3,75 triệu pixel (2.576 pixel ở cạnh dài), gấp hơn ba lần so với thế hệ trước

· Tọa độ mô hình và các pixel thực tế đạt được tương ứng 1:1, trước đây máy tính sử dụng The nhiệm vụ yêu cầu chuyển đổi thủ công các hệ số tỷ lệ, giờ đây bước này biến mất

· Tiêu chuẩn suy luận trực quan CharXiv: 82,1% không có công cụ, 91,0% có công cụ

Điều này có tác động đáng kể đến những tình huống nào?

Đối với nhóm sản phẩm sử dụng máy tính, việc nâng cấp này có thể mang tính quyết định. Việc sử dụng máy tính thời Opus 4.6 rơi vào tình trạng “có thể làm demo nhưng không dám đưa vào sản xuất” - tỷ lệ lỗi quá cao và khó dự đoán. Độ chính xác hình ảnh 98,5% có nghĩa là lần đầu tiên tính năng này đã đạt đến ngưỡng triển khai đáng tin cậy. Một số blog công nghệ đã trực tiếp viết trong bài đánh giá của họ: Nếu bạn đã gác lại các gói sản phẩm hãy sử dụng máy tính của mình vì Opus 4.6 có tần suất sự cố quá cao, thì 4.7 sẽ xóa bỏ trở ngại này.

Phản hồi trực tiếp trên Reddit (r/ClaudeAI): Một người dùng đã đề cập: "Việc cải thiện khả năng thị giác là rất quan trọng. Tôi đã thực hiện nhiều dự án biên trước đây, cố gắng làm cho mô hình liên tục cải thiện kết quả đầu ra trong vòng phản hồi trực quan. Hiệu ứng rất khó hiểu. Tôi mong chờ cách 4.7 có thể giải quyết vấn đề này."

Ngoại trừ việc sử dụng máy tính. chi tiết), hiểu ảnh chụp màn hình, ứng dụng bảng điều khiển và xử lý PDF phức tạp.

Vấn đề chi phí cần lưu ý: Hình ảnh có độ phân giải cao hơn sẽ tiêu tốn nhiều mã thông báo hơn. Nếu kịch bản ứng dụng của bạn không có yêu cầu cao về chi tiết hình ảnh, bạn nên lấy mẫu xuống trước khi chuyển nó vào.

3. Trở ngại lớn nhất: sự sụp đổ của ngữ cảnh dài

MRCR v2 @1M (Kiểm tra bộ nhớ ngữ cảnh dài một triệu token):

· 4,6: 78,3%

· 4,7: 32,2%

Giảm 46 điểm phần trăm, từ gần 80% xuống chỉ còn 1/3.

Sự sụt giảm này hầu như chưa có tiền lệ trong lịch sử các mẫu máy hàng đầu. MRCR v2 là một khả năng mà chính Anthropic đã nêu bật trong kỷ nguyên Opus 4.6 - Lời ban đầu của Anthropic vào thời điểm đó là "một sự thay đổi về chất trong tầm quan trọng của bối cảnh mà một mô hình thực sự có thể được sử dụng." Đến phiên bản 4.7, “sự thay đổi về chất” này trực tiếp biến mất.

Tại sao lại thế này? Công cụ mã thông báo đã thay đổi.

Opus 4.7 sử dụng mã thông báo mới, cùng một văn bản đầu vào sẽ tạo ra số lượng mã thông báo khoảng 1,0-1,35 lần, bội số cụ thể thay đổi tùy thuộc vào loại nội dung.

Phản ứng dây chuyền trực tiếp là:

· Cửa sổ ngữ cảnh danh nghĩa 200K/1M vẫn còn đó, nhưng cùng một văn bản có thể được tải ít hơn

· Mức tiêu thụ mã thông báo thực tế của quy trình làm việc của tác nhân tác vụ dài đã tăng khoảng 35%

· Giá không thay đổi (đầu vào $5, đầu ra $25 mỗi triệu) mã thông báo), nhưng chi phí sử dụng thực tế thì có tăng

Tuyên bố chính thức của Anthropic là mã thông báo mới “cải thiện hiệu quả xử lý văn bản”, nhưng dữ liệu điểm chuẩn cho thấy sự suy thoái đáng kể trong các tình huống ngữ cảnh dài.

Khả năng tìm kiếm cũng đã giảm:

· BrowseComp (truy xuất thông tin sâu trên web): 83,7% của Opus 4.6 → 79,3% của Opus 4.7

· GPT-5.4 Pro đạt 89,3% trong danh mục này, Gemini 3.1 Pro đạt 85,9%, Opus 4.7 hiện đang ở vị trí cuối cùng trong các mô hình cạnh tranh chính

Tìm kiếm và văn bản dài chính xác là những kịch bản được sử dụng phổ biến nhất đối với nhiều người dùng doanh nghiệp.

Phản hồi trực tiếp từ các nhà phát triển trên Hacker News (bài 275 lượt thích, 215 bình luận, nguồn: thảo luận HN):

"Tắt tư duy thích ứng và tăng nỗ lực theo cách thủ công lên mức cao nhất để đưa tôi trở lại hiệu suất cơ bản. 'Đánh giá nội bộ của chúng tôi có vẻ ổn' không còn đủ nữa, mọi người đều đang nhìn thấy cùng một vấn đề." display: được tóm tắt theo yêu cầu lấy lại "

Đây là những vấn đề được người dùng thực tế báo cáo. Nhưng đây cũng là sự lựa chọn được Anthropic đưa ra theo sáng kiến ​​riêng của mình.

4. Các tính năng hành vi mới: tự xác minh và hướng dẫn trực tiếp hơn

Có một câu trong thông báo chính thức của Opus 4.7 đáng được đề cập riêng: Mô hình sẽ xác minh đầu ra của chính nó trước khi báo cáo kết quả.

Nhóm kỹ thuật của Hex đã đưa ra một trường hợp cụ thể trong quá trình thử nghiệm: khi dữ liệu bị thiếu, Opus 4.7 sẽ báo cáo trung thực "dữ liệu không tồn tại" thay vì đưa ra câu trả lời có vẻ hợp lý nhưng thực tế là bịa đặt - và câu trả lời sau chính xác là cạm bẫy mà Opus 4.6 sẽ mắc phải. Nền tảng công nghệ tài chính Block đã nhận xét về điều này: "Nó có thể phát hiện các lỗi logic của chính nó trong giai đoạn lập kế hoạch, tăng tốc độ thực thi, vượt trội đáng kể so với mô hình Claude trước đó."

Nhưng việc tự xác minh đã dẫn đến một thay đổi hành vi liên quan khác: Opus 4.7 diễn giải các hướng dẫn theo nghĩa đen hơn.

Đây là một rủi ro di cư quan trọng. Nếu bạn điều chỉnh cẩn thận lời nhắc cho Opus 4.6, 4.7 có thể không "đọc giữa các dòng" như 4.6, nhưng tuân thủ nghiêm ngặt nghĩa đen của những gì bạn đã viết. Anthropic đã đề cập rõ ràng điều này trong hướng dẫn di chuyển chính thức và bạn nên thực hiện kiểm tra hồi quy theo các lời nhắc chính trước khi chuyển sang phiên bản 4.7 trực tuyến.

Một số tham chiếu thực tế đến từ CTO của Hex:Hiệu suất của Opus 4.7 nỗ lực thấp xấp xỉ bằng hiệu suất của Opus 4.6 nỗ lực trung bình.

5. Cơ chế kiểm soát suy luận: xhigh, ngân sách nhiệm vụ và /ultrareview

Một sự cố ảnh hưởng đến niềm tin của người dùng đã xảy ra trong Opus 4.6: nó chuyển sang chế độ mặc định tư duy thích ứng vào ngày 9 tháng 2 và vào ngày 3 tháng 3, quan chức đã điều chỉnh độ sâu suy luận mặc định của Claude Code từ mức cao nhất đến trung bình, với lý do "đạt được sự cân bằng giữa trí thông minh, độ trễ và chi phí". Sự cố này được người dùng gọi là "Cổng trẻ em" và một bài đăng đặt câu hỏi trên GitHub của một giám đốc cấp cao của AMD đã được chuyển tiếp rộng rãi.

Opus 4.7 đáp ứng bằng cách trao quyền kiểm soát rõ ràng hơn về chiều sâu lý luận cho người dùng.

mức nỗ lực cao nhất: Mức cường độ suy luận mới, nằm giữa mức cao nhất và mức tối đa ban đầu. Claude Code hiện đã cập nhật trang bị mặc định cho tất cả các gói lên xhigh.

Nhưng cộng đồng nhà phát triển có câu hỏi trực tiếp về xhigh. Câu nói ban đầu của một người dùng Reddit là: "Opus 4.6 mặc định là trung bình và 4.7 mặc định là xhigh. Tôi muốn biết những cân nhắc đằng sau quyết định này vì việc tăng mức nỗ lực rõ ràng sẽ mang lại mức tiêu thụ mã thông báo nhiều hơn."

Nói cách khác: Những gì người dùng thấy là một bản sửa lỗi "trả lại quyền kiểm soát cho người dùng", nhưng trên thực tế, mức mặc định đã tăng lên, điều đó có nghĩa là nhiều mã thông báo hơn sẽ bị đốt cho cùng một tác vụ. Thêm vào đó, tokenizer thay đổi và chi phí tăng gấp đôi.

ngân sách nhiệm vụ (ở phiên bản beta công khai): Cơ chế kiểm soát ngân sách mã thông báo cho các nhiệm vụ dài hạn. Nhà phát triển đặt tổng ngân sách mã thông báo (tối thiểu 20K) và mô hình có thể thấy số dư còn lại trong thời gian thực trong quá trình thực thi và phân bổ tài nguyên phù hợp để tránh dừng giữa chừng do chi tiêu quá mức mã thông báo và lãng phí tính toán không cần thiết.

Claude Code đã thêm lệnh /ultrareview: Phiên đánh giá mã chuyên dụng, chạy đánh giá chuyên sâu tập trung vào khắc phục lỗi và các vấn đề về thiết kế, 3 lần miễn phí mỗi tháng cho người dùng Pro và Max.

Chế độ tự động khả dụng cho người dùng Max: Trước đây chỉ khả dụng trên gói Enterprise, giờ đây chế độ này cũng khả dụng cho người dùng Max. Ở chế độ tự động, Claude có thể đưa ra quyết định một cách độc lập và giảm số lượng câu hỏi cho người dùng giữa chừng. Câu nói ban đầu của trưởng nhóm Claude Code, Boris Cherny là: "Giao cho Claude một nhiệm vụ, để nó chạy và quay lại xem kết quả đã được xác minh."

6. Cái nhìn toàn cảnh về điểm số đang chạy: đội thắng và đội thua ở đâu

Sau đây là dữ liệu điểm chuẩn chính đã được công bố cho đến nay (nguồn: Thẻ hệ thống chính thức của Anthropic và đánh giá của đối tác).

Lập trình và Kỹ thuật (dẫn đầu Opus 4.7)

Trực quan và đa phương thức (Opus 4.7 đi trước đáng kể)

Công việc kiến thức (Opus 4.7) dẫn đầu)

Toàn diện đánh giá (Opus 4.7 rõ ràng là một bước tiến)

Lý do chung (ba công ty về cơ bản là gắn kết với nhau)

Tiêu chuẩn này đã trở nên bão hòa và không còn là bước ngoặt cạnh tranh hiệu quả nữa.

Nhiệm vụ nghiên cứu (GPT-5.4 dẫn đầu, Opus 4.7 tụt lại phía sau)

Ngữ cảnh dài (Opus 4.7 (quan trọng) hồi quy)

Tóm tắt về logic lựa chọn: Opus 4.7 có lợi thế rõ ràng trong bốn lĩnh vực: lập trình, tác nhân kỹ thuật, tầm nhìn, kiến thức tài chính và pháp lý; GPT-5.4 mạnh hơn đối với các nhiệm vụ nghiên cứu chuyên sâu và truy xuất mạng mở; Opus 4.7 kém hơn nhiều so với phiên bản tiền nhiệm trong các kịch bản ngữ cảnh dài, đây là điểm đáng báo động nhất

7. phát hành, nhưng đó là chìa khóa để hiểu chiến lược hiện tại của Anthropic

Vào ngày 7 tháng 4, Anthropic đã công bố Dự án Glasswing: Claude Mythos Preview, dành cho chín đối tác bao gồm Apple, Google, Microsoft, Nvidia, Amazon, Cisco, CrowdStrike, JPMorgan Chase và Broadcom, đặc biệt dành cho các tình huống phòng thủ an ninh mạng.

Mythos là mô hình mạnh nhất của Anthropic cho đến nay, nó có thể tự động phát hiện các lỗ hổng zero-day. hàng nghìn lỗ hổng chưa được biết trước đây trong các hệ điều hành và trình duyệt chính. Nhưng chính vì khả năng này nên nó cũng bị đánh giá là có nguy cơ bị lạm dụng đáng kể nên không được phát hành công khai.

Opus 4.7 là mẫu thử nghiệm đầu tiên trong dòng này Anthropic đã chủ động giảm khả năng tấn công an ninh mạng của mô hình trong giai đoạn đào tạo (trong khi vẫn duy trì khả năng phòng thủ ở mức tối đa có thể) và khởi chạy một hệ thống bảo vệ thời gian thực tự động phát hiện và chặn các yêu cầu bảo mật mạng có rủi ro cao. văn bản thông báo: "Chúng tôi sẽ tìm hiểu xem bộ rào chắn này có hiệu quả hay không thông qua việc triển khai thực tế Opus 4.7, sau đó quyết định xem có nên quảng bá nó lên các mô hình cấp Mythos hay không."

Nói cách khác, mọi nhà phát triển sử dụng Opus 4.7 đều đang giúp Anthropic hiệu chỉnh các ranh giới của các rào chắn an toàn

Đánh giá của Gizmodo: Bản phát hành này áp dụng một “chiến lược tiếp thị táo bạo—tích cực quảng bá mô hình mới của mình với tư cách là 'không phải như vậy'. linh hoạt như các tùy chọn khác'", điều này cực kỳ hiếm đối với các bản phát hành hàng đầu.

Những người thực hiện bảo mật cần sử dụng Opus 4.7 để kiểm tra thâm nhập hợp pháp, nghiên cứu lỗ hổng hoặc kiểm tra nhóm đỏ cần phải đăng ký tham gia Chương trình xác minh mạng.

8. Giá và di chuyển: Danh nghĩa không thay đổi, tăng thực tế

Giá cả: Nhập mã thông báo 5 USD/triệu USD, tạo ra mã thông báo 25 USD/triệu USD, giống như Opus 4.6. ID mô hình API là claude-opus-4-7. Các nền tảng có sẵn bao gồm Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry và GitHub Copilot cũng đã được ra mắt đồng thời

Nhưng như đã đề cập trước đó, thay đổi về trình mã thông báo cho phép cùng một đầu vào tạo ra số lượng mã thông báo khoảng 1,0-1,35, áp dụng các mã thông báo tư duy ở mức nỗ lực mặc định cao hơn Đối với tác nhân có nhiệm vụ dài hạn. quy trình công việc, chi phí thực tế có thể gấp 2-3 lần so với cài đặt tương tự trong Opus 4.6.

Anthropic cũng rút ngắn TTL bộ nhớ đệm của Claude Code từ một giờ xuống còn năm phút - điều này có nghĩa là nếu bạn rời khỏi máy tính hơn năm phút và quay lại, bộ nhớ đệm ngữ cảnh sẽ không hợp lệ và bạn sẽ phải tải lại, đồng thời nhiều người dùng trong cộng đồng Reddit đã phàn nàn rằng "hạn ngạch đang cháy nhanh hơn thác nước".

Danh sách các thay đổi có hại cho người dùng Opus 4.6 hiện tại:

1. Tham số Extended Thought Budgets đã bị xóa, lỗi 400 sẽ được trả về khi được chuyển vào và chế độ tư duy thích ứng cần được sử dụng thay thế

2. Các tham số lấy mẫu như nhiệt độ, top_p, top_k đã bị xóa và cần sử dụng lời nhắc để kiểm soát hành vi đầu ra

3. được điều chỉnh cho Opus 4.6 cần phải được kiểm tra lại và không thể thay đổi trực tiếp ID mẫu để đưa vào trực tuyến

4. Các thay đổi về mã thông báo dẫn đến thay đổi về số lượng mã thông báo, trước tiên bạn nên chạy mẫu trên lưu lượng truy cập thực, sau đó thực hiện di chuyển hoàn toàn

5. Đầu ra mặc định không còn chứa tóm tắt mã thông báo suy luận nữa và hiển thị: tóm tắt cần được đặt rõ ràng để lấy lại dữ liệu đó

Đề xuất thực tế: Anthropic Hướng dẫn di chuyển chính thức khuyên bạn nên sử dụng. lưu lượng sản xuất đại diện để chạy Opus 4.7 trước khi chính thức chuyển đổi và so sánh mức tiêu thụ mã thông báo và chất lượng nhiệm vụ trước khi đưa ra quyết định

Nó có thể phát hành các kỹ năng dùng dao chính xác, điều đáng sợ nhất

Opus 4.7 là một bản nâng cấp có mục tiêu rõ ràng và một bản nâng cấp có chi phí rõ ràng. Và tất cả đều do chính Anthropic thiết kế và ở mức độ lớn, bạn phải trả tiền cho nó

Mặt tiến bộ của việc này. mô hình:

· 87,6% SWE-bench Refed, 64,3% SWE-bench Pro, 70% CursorBench, gấp 3 lần nhiệm vụ sản xuất của Rakuten - đây là những cải tiến được nhận thấy về khả năng lập trình trong môi trường sản xuất

· Tái thiết khả năng thị giác (XBOW 54,5% → 98,5%, độ phân giải 3 lần, tương ứng pixel 1:1), cho phép sử dụng máy tính lần đầu tiên đáp ứng ngưỡng triển khai đáng tin cậy

· xhigh gear, ngân sách nhiệm vụ, /ultrareview, là phản hồi rõ ràng đối với "cổng thông minh"

· BigLaw 90,9%, Đại lý tài chính 64,4%, dẫn đầu rõ ràng trong công việc kiến thức chuyên môn như luật tài chính

Khía cạnh từ bỏ:

· MRCR v2 @1M giảm từ 78,3% xuống 32,2% và khả năng ngữ cảnh dài gần như giảm một nửa

· BrowseComp giảm từ 83,7% xuống 79,3% và khả năng tìm kiếm là GPT-5.4 và Gemini 3.1 Pro đều vượt qua

· thay đổi mã thông báo + tăng nỗ lực mặc định + rút ngắn TTL bộ đệm = tăng giá tiềm ẩn gấp ba lần

· Sự kiên trì của Mythos có nghĩa là Anthropic Tôi vẫn còn quân bài mạnh hơn trong tay nhưng tôi không thể lấy chúng ra

Phiên bản chân thực nhất của bản phát hành này không phải là "mô hình mạnh nhất" hay "mô hình đại chúng mạnh nhất", mà là: một sự lặp lại với sự đánh đổi rõ ràng

Tin tức mới nhất là doanh thu hàng năm của Claude Code đã đạt được. 2,5 tỷ USD vào tháng 2. Opus 4.7 là vụ đặt cược tiếp theo trên đường đó.

Lập trình và tầm nhìn là những phần bổ sung, bối cảnh dài và tìm kiếm là những khoản trừ, giá vẫn ở mức danh nghĩa nhưng chi phí đang tăng lên. Anthropic đang sử dụng Opus 4.7 để thực hiện một hành động cân bằng - không chỉ để sửa chữa những thiệt hại về lòng tin do Opus 4.6 để lại mà còn để thực hiện các biện pháp bảo vệ an toàn cho việc mở rộng hơn mô hình lớp Mythos trong tương lai. tận dụng tối đa vị trí dẫn đầu hiện nay, biến tình yêu của người dùng đối với sản phẩm của mình thành quán tính không thể tách rời khỏi các thế hệ sản phẩm ngay cả khi chúng có khuyết điểm, sau đó thiết lập kiểu gắn bó yêu-ghét của người dùng mà các công ty như Apple có khi họ bước vào giai đoạn trưởng thành và một hệ sinh thái có giá trị thương mại thực sự

Liên kết gốc

QQlink

暗号バックドアなし、妥協なし。ブロックチェーン技術に基づいた分散型ソーシャルおよび金融プラットフォームで、プライバシーと自由をユーザーの手に取り戻します。

© 2024 QQlink 研究開発チーム. 無断転載を禁じます。