原名:Opus 4.7 不想成為最強的模特兒:你跟不上Anthropic"

原始來源:硅星人Pro

2026年4月16日,Anthropic正式发布了克勞德·奧普斯4.7,距上一代奧普斯4.6只有兩個多月。

在最近一波密集而瘋狂的產品與模型更新後, 你們也看過很多第一次的模型報告都把Opus 4.7 稱為「最強大的模型」─「人死了」、「失业警告」等等。

但讓我們看看安特羅皮克給自己寄了什麼。

發行的語氣并不正常。

Anthropic直接在公告中寫道, Opus 4.7 的容量比克勞德·神話預覽(Claude Mythos Preview)要小, Mythos只向蘋果、谷歌、微软、Nvidia等數個合作伙伴开放。

同時更有趣的是,它不仅比傳說中的Mythos更弱,而且比上一代的模型更弱,而且在某些关键能力上更弱。

Opus 4.7,從他自己的排水量中一個不寻常的數字:MRCR v2@1M 從78.3%的Opus 4.6下降到32.2%46个百分点急速下降。

只有很少的旗舰模型能砍掉一半的王牌能力。

這就是它的選擇。

所以,當你繼續你無腦的惰性, 每個打它的模型是最強的, 它跟不上Anthropic自己的節奏

它甚至不在乎修理這輛洗車

Opus 4.7是一份沒有意識成為「最強大的模型」的刊物, 它的取舍、精密的刀法式發行方式都與前幾任模型厂商不同。

很可能是4.7真正重要的地方。

一. 方案拟订能力:数字背后的真正改善

更好的理解這些變化的最好方法自然是仔細看一看這次的實際行動。

Opus 4. 7 這次發表的完整資訊組合, 已取得進步, 已毀壞。

官方公告:https://www.antropic.com/news/claude-opus-4-7

Opus 4.7的編程成就是此版本的主轴。

已驗證在目前公開的模型中, 從80.8%的Opus 4.6到87.6%, 和雙子座3.1 Pro 80.6%相比,差距很大。

SWE-bench Pro它的版本更困難, Opus 4.7從53.4%跳到64.3%,11个百分点. 同GPT-54的57.7%、双子座3.1 Pro的54.2%相比,Opus 4.7明显高于此基准。

游戲席以 Cursor 為基準, 在真正的 IDE 環境下, 特意衡量模型的程式支援質量。 Opus 4.6是58%,Opus 4.7跳到70%,12个百分点. Cursor共同創辦人Michael Truell在官方公告中表示:「這是能力上有意义的跳跃

合伙人量度 :

拉庫滕:Opus 4.7 解決了比Opus 4.6多三倍的製作工作,增加了二位數的碼質量和測試質量

• 事實:工程成功率提高10-15%,模式停工次数大幅减少

• 管理(在公司后面): 模型"可以工作好幾小時而不失去線"

• 代碼Rabbit:"比GPT-5.4 x high快一點"

• Bolt:Opus 4.7是4.6

我不知道 終點- Bench 2.0 :Opus 4.7 解決了之前由 Claude Model (或參賽者) 無法管理的三个工作, 其中一個需要跨過複雜的程式碼文庫的多檔案推理來修復競爭條件( 种族條件)

這些資料集中在一個方向: Opus 4.7 在長期的、跨文件的和需要上下文一致性的複雜的編程工作上, 已明显改善。這正是使用者在過去兩個月中下降最多的地方, 當工作完成半程, 當他們遇到多個檔案, 當他們迷路的時候。

視覺化:最低估了發射的改善

視覺精度基准XBOW由54.5%跳到98.5%。這並不是逐步的改善。

特定规格變更 :

我不知道最大影像分辨率從大约 115萬像素( 長邊 1 568 像素) 增加到大约 375萬像素( 長邊 2 576 像素) , 是上一代的三倍以上

我不知道模型座標與實際像素已實現1:1 对口在工作需要手動轉換縮放因子之前, 此步關閉

我不知道CharXiv 視覺推理基准:沒有工具 82.1%,工具 91.0%

什麼樣的場景能真正影響到什麼

對產品團體來說,這次升級可能具有决定性作用. Opus 4.6時期的電腦使用處於"有能力但害怕產生"的狀態——太高的錯誤率無法預測. 視力精度98.5%,表示此功能首次有可靠部署的门槛值。許多技術部落客在評論中寫道:「如果你因為Opus 4.6錯誤的高頻率。

Reddit 的第一手回馈(r/ClaudeAI): 使用者提到「視覺能力的提高太過關鍵, 我之前也做了許多邊緣專案

除了電腦的使用外, 效益包括掃描文件分析(讀取更小的字型。

需要注意的成本:高分辨率影像消耗更多符號。若應用程式現場不需要詳細照片。

三. 最大的挫折:長期背景已崩塌

MRRR v2@ 1M(百萬令牌內存測試):

我不知道4.6:78.3%

我不知道4.7:32.2%

下降了46个百分点,从近80%下降到三分之一。

在旗舰模型的歷史上, MRCR v2是Anthropic本人在Opus 4.6時期被強調的能力, 到了4.7,這個"質量變化"就消失了。

為什麼? 切除器變了。

Opus 4.7 有了新的代碼器, 會產生相同的輸入文字1.01.35 雙倍符號數,其數據依內容的類型而不同。

直接鏈式反應是:

我不知道200K/1M 的上下文視窗仍然可以使用, 但相同的文字加載得更少

我不知道长期工作流程中

我不知道(5美元,每百万美元25美元)

Anthropic的官方版本是,新的代碼器"提高了文本處理效率",但基准數據顯示,在長長的上下文中,有显著的倒退。

搜尋能力也降低:

我不知道BrowneComp(深度網絡存取):83.7%的Opus 4.6

我不知道GPT-5.4 Pro得分89.3%,雙子座3.1 得分85.9%,目前為主賽型號

搜尋與長文字是許多商業使用者最常见的場景。

開發者在Hacker News上的第一手回應(貼文275,註解215,來源:HN討論):

"關閉攻擊性思考手動把努力拉到頂端讓我回到基线。「我們的內部評估看似良好」還不夠, 每個人都看到相同的問題。「4

這些問題由实际使用者反映。但這也是Anthropic自願做出的選擇。

四. 新的行為特征:自我驗證以及更字面的遵循指令

Opus 4.7 官方宣布包含一個值得接受的單一聲明:模型在報告結果前先檢查其輸出。

Hex的技術團隊在測試中提供了一個特定的案例:當數據缺失時, Opus 4.7 報告,仿佛數據不存在,而不是给出一個似乎合理但實際上是虛構的答案——后者是Opus 4.6踩到的坑. 金融技術平台Block將說:「它能在計劃阶段發現自己的邏輯錯誤

Opus 4.7對指令的解釋更實際。

這是重要的移民風險。如果你小心地抽取了4.7,對Opus 4.6, 它可能不是像4.6一樣的"讀出",而是完全按照你寫的做. Anthropic在官方移民指南中明确提到此事。

Hex 的 CTO 函數參考號碼 :低功率的Opus 4.7 中等功率的性能與Opus 4.6差不多。

五、消除控制机制:xheig、工作缺陷和/

Opus 4.6 3月3日官方以「智商平衡、延遲、成本」为由, 將克勞德代碼的預設推理深度從頂端轉至介质。這項問題被使用者稱為「騙局門」。

Opus 4.7回應。

十大努力: 推理力的新水平,介于原高和最大之間. 克勞德代碼已經更新了所有預設的空格。

但開發者社群對xheigh有直接的問題,Reddit使用者的原詞是:"Opus 4.6" 預設值為中度, 4.7 預設值為 xheigh 。我想知道這個決定背后發生了什麼

也就是說, 使用者看到一個「返回控制器給使用者」的修復, 但預設的檔案實際上被提出, 意思是同樣的工作被設置為燒錄更多符號。新增代碼器變更, 這是雙倍成本增加。

工作錯誤長期任務的預算控制机制開發者設置了總的代價預算(最少20K), 讓模型能在實施中实时看到剩下的數量。

Claude Code 新增/ 超級審查指令 :特別的程式碼評論會議。

自動模式對最大使用者開啟 :之前只有企業企業程序,現在最大使用者可以使用它. Claude可以自由做決定, Claude Code團隊領袖Boris Cherny說:"給Claude一個任務,讓他跑,回來看看做了什麼。"

六、奔跑:哪里贏,哪里輸

以下是目前的主要基准數據(资料来源:Anthropic Official System card and partner assessment)。

編程和工程(Opus 4.7铅)

視覺和多模( Opus 4. 7 遠方)

知识工作(Opus 4.7牵头)

全面评估(第4.7段)

一般推理(三套基本平房)

这一基准已饱和,不再是一个有效的有竞争力的分水岭。

研究工作( GPT-54 引領, Opus 4. 7 撤退)

長背景( Opus 4.7 实质性回归)

總結選擇邏輯:編程、工程代理、視覺、金融法學、Opus 4.7四方面都有明顯的優點; 研究密集的任務和開放網絡的GPT-5.4更強大。

七. 安全篱笆:神話中的石頭

這部分很容易被當作"安全例行聲明"。

4月7日, Anthropic 宣布了Glasswing專案:向蘋果、Google、微软、Nvidia、Amazon、Cisco、CrowdStrike、JP Morgan Chase和Broadcom等九個合作伙伴開放Claude Mythos預覽。

Mythos是目前最強大的Anthropic模型, 根據"黑客新聞", 然而,正因為有這種能力,它也被發現有被虐待的很大風險,而且不公开。

Opus 4.7是這條線的第一批試驗樣本。在訓練期間, Anthropic 率先減少模型的网络安全攻擊能力(盡最大可能保留其防衛能力), 公告的文字是:「我們將從奧普斯4.7的實際部署中學習圍牆的效能

也就是說,每個使用 Opus 4.7 的開發商都在幫助 Anthropic 划定安全圍牆。

Gizmodo的評估:發行時采用了"勇者銷售策略——积极主动地推广新的自雇模式",其一般能力不如其他選擇,在旗舰版中是少有的。

需要使用Opus 4.7做法律穿透測試、漏洞研究或紅色團體測試的安全實驗者。

八. 物价和移民:名义值不變,实际增加

定价 :輸入500萬令牌,輸出2500萬令牌,與Opus 4.6相同. API型號的ID是Claude -opus -4 -7 包括Claude API、Amazon Bedrock、Google Cloud Vertex AI、微软基金會、GitHub Copilot也上線。

但如前所述1.01.35加倍的符號取代了高點的預設想法Opus 4.6 中。

Anthropic 也把 Claude Code 的缓存從一小時減到五分鐘... 這意味著如果你離開電腦五分鐘再回來, 上下文快取會失敗, 你必須重新載入, 令牌會消耗得更快。 Reddit社群已經有很多使用者「燒得快於跌落」。

已存在的 Opus 4.6 使用者的破坏性變更列表 :

已移除、傳回400 個錯誤的延伸思考預算參數, 需要更改為高级思考模式

2. 采样參數, 如溫度( 溫度), top p, top k 已被移除, 需要用提示來控制輸出

Opus 4.6 的更嚴格的以文字为基础的命令 - 需要重新測試, 且不能直接取代線上的型號ID

4. tokenizer 變更會造成符號數值變更

預設輸出已不包含推理符號摘要, 並且需要視覺設定才能拿回它

实际建议:Anthropic官方移民指南建議。

這是最可怕的方法釋放精确的刀

Opus 4.7是具有明确目標方向的升級,以及成本明确的升級. 這些都是Anthony的設計你必須付出很大代價。

在這個模式的進步方面:

我不知道SWE-bench驗證的87.6%,SWE-bench Pro的64.3%,Cursor座椅的70%,是Rakuten的3倍——這些都是在製作環境中感受到的可編程改进

我不知道視覺再發射( XBOW 54.5% 98.5%, 分辨率 3 次, 像素 1: 1 ) , 第一次有可靠部署的阈值

我不知道高, tsk 按鈕, / 超級評論, 是對「破傷風」的明顯反應

我不知道BigLaw 90.9%,金融管理局 64.4%,在金融法等專業方面有明确的領導者

放棄這一邊:

我不知道MRCR v2@1M從78.3%到32.2%,其上下文能力接近一半

我不知道Brownecomp從83.7%下降至79.3%,搜索能力被GBT-54和雙子座3.1 Pro雙方反射

我不知道tokenizer 變更 + 預設工作高 + 快取 TTL 短 = 三相隱形增價

我不知道Mythos一直按,意思是Anthropic仍然有更大的牌,但做不到

這一次,真正的不是"最強的模型"或"最強的開放模型",而是:一個有明确的取舍。

最新消息是克勞德·科德2月的年化收入已達25億美元. Opus 4.7是本線的下一個賭注。

加上編程與視覺, Anthropic與Opus 4.7平衡, 更重要的是,它需要充分利用它今天的領導力, 將使用者對其產品的偏好轉變成一世代產品所不可或缺的惰性。

原始链接

Claude Opus 4.7:它是最強的模型嗎

一. 方案拟订能力:数字背后的真正改善

視覺化:最低估了發射的改善

三. 最大的挫折:長期背景已崩塌

四. 新的行為特征:自我驗證以及更字面的遵循指令

五、消除控制机制:xheig、工作缺陷和/

六、奔跑:哪里贏,哪里輸

七. 安全篱笆:神話中的石頭

八. 物价和移民:名义值不變,实际增加

関連記事

USSDD 2026 第1四半期におけるパフォーマンスの全体的な加速:収入と利益の重要な成長、総財務バランスは1億ドルに上昇

AIテーブルに戻ると、ZUCKERBERGの初動はレイオフですか

ヘッド暗号化されたVCグループスラン:a16z暗号化されたファンド管理が40%低下し、マルチコインは

フェーズIIIで立ち往生する予測市場への組織的アクセス

製品

法律とサポート

友達リンク