Litecoin

Claude Opus 4.7:它是最強的模型嗎

2026/04/18 03:20
🌐zh-Hant

Opus 4.7是一款根本不打算成為"最佳模式"的發行,它是一本具有明確取舍,"精密刀"風格的出版物。

Claude Opus 4.7:它是最強的模型嗎
原名:Opus 4.7 不想成為最強的模特兒:你跟不上Anthropic"
原始來源:硅星人Pro

2026年4月16日,Anthropic正式发布了克勞德·奧普斯4.7,距上一代奧普斯4.6只有兩個多月。

在最近一波密集而瘋狂的產品與模型更新後, 你們也看過很多第一次的模型報告 都把Opus 4.7 稱為「最強大的模型」─「人死了」、「失业警告」等等。

但讓我們看看安特羅皮克給自己寄了什麼。

發行的語氣并不正常。

Anthropic直接在公告中寫道, Opus 4.7 的容量比克勞德·神話預覽(Claude Mythos Preview)要小, Mythos只向蘋果、谷歌、微软、Nvidia等數個合作伙伴开放。

同時更有趣的是,它不仅比傳說中的Mythos更弱,而且比上一代的模型更弱,而且在某些关键能力上更弱。

Opus 4.7,從他自己的排水量中 一個不寻常的數字:MRCR v2@1M 從78.3%的Opus 4.6下降到32.2%46个百分点急速下降。

只有很少的旗舰模型能砍掉一半的王牌能力。

這就是它的選擇。

所以,當你繼續你無腦的惰性, 每個打它的模型是最強的, 它跟不上Anthropic自己的節奏

它甚至不在乎 修理這輛洗車

Opus 4.7是一份沒有意識成為「最強大的模型」的刊物, 它的取舍、精密的刀法式發行方式都與前幾任模型厂商不同。

很可能是4.7真正重要的地方。

一. 方案拟订能力:数字背后的真正改善

更好的理解這些變化的最好方法自然是 仔細看一看這次的實際行動。

Opus 4. 7 這次發表的完整資訊組合, 已取得進步, 已毀壞。

官方公告:https://www.antropic.com/news/claude-opus-4-7

Opus 4.7的編程成就是此版本的主轴。

已驗證在目前公開的模型中, 從80.8%的Opus 4.6到87.6%, 和雙子座3.1 Pro 80.6%相比,差距很大。

SWE-bench Pro它的版本更困難, Opus 4.7從53.4%跳到64.3%,11个百分点. 同GPT-54的57.7%、双子座3.1 Pro的54.2%相比,Opus 4.7明显高于此基准。

游戲席以 Cursor 為基準, 在真正的 IDE 環境下, 特意衡量模型的程式支援質量 。 Opus 4.6是58%,Opus 4.7跳到70%,12个百分点. Cursor共同創辦人Michael Truell在官方公告中表示:「這是能力上有意义的跳跃

合伙人量度 :

拉庫滕:Opus 4.7 解決了比Opus 4.6多三倍的製作工作,增加了二位數的碼質量和測試質量

• 事實:工程成功率提高10-15%,模式停工次数大幅减少

• 管理(在公司后面): 模型"可以工作好幾小時而不失去線"

• 代碼Rabbit:"比GPT-5.4 x high快一點"

• Bolt:Opus 4.7是4.6

我不知道 終點- Bench 2.0 :Opus 4.7 解決了之前由 Claude Model (或參賽者) 無法管理的三个工作, 其中一個需要跨過複雜的程式碼文庫的多檔案推理來修復競爭條件( 种族條件)

這些資料集中在一個方向: Opus 4.7 在長期的、跨文件的和需要上下文一致性的複雜的編程工作上, 已明显改善。 這正是使用者在過去兩個月中下降最多的地方, 當工作完成半程, 當他們遇到多個檔案, 當他們迷路的時候。

視覺化:最低估了發射的改善

視覺精度基准XBOW由54.5%跳到98.5%。這並不是逐步的改善。

特定规格變更 :

我不知道最大影像分辨率從大约 115萬像素( 長邊 1 568 像素) 增加到大约 375萬像素( 長邊 2 576 像素) , 是上一代的三倍以上

我不知道模型座標與實際像素已實現1:1 对口在工作需要手動轉換縮放因子之前, 此步關閉

我不知道CharXiv 視覺推理基准:沒有工具 82.1%,工具 91.0%

什麼樣的場景能真正影響到什麼

對產品團體來說,這次升級可能具有决定性作用. Opus 4.6時期的電腦使用處於"有能力但害怕產生"的狀態——太高的錯誤率無法預測. 視力精度98.5%,表示此功能首次有可靠部署的门槛值。 許多技術部落客在評論中寫道:「如果你因為Opus 4.6錯誤的高頻率。

Reddit 的第一手回馈(r/ClaudeAI): 使用者提到「視覺能力的提高太過關鍵, 我之前也做了許多邊緣專案

除了電腦的使用外, 效益包括掃描文件分析(讀取更小的字型。

需要注意的成本:高分辨率影像消耗更多符號 。 若應用程式現場不需要詳細照片。

三. 最大的挫折:長期背景已崩塌

MRRR v2@ 1M(百萬令牌內存測試):

我不知道4.6:78.3%

我不知道4.7:32.2%

下降了46个百分点,从近80%下降到三分之一。

在旗舰模型的歷史上, MRCR v2是Anthropic本人在Opus 4.6時期被強調的能力, 到了4.7,這個"質量變化"就消失了。

為什麼? 切除器變了。

Opus 4.7 有了新的代碼器, 會產生相同的輸入文字1.01.35 雙倍符號數,其數據依內容的類型而不同。

直接鏈式反應是:

我不知道200K/1M 的上下文視窗仍然可以使用, 但相同的文字加載得更少

我不知道长期工作流程中

我不知道(5美元,每百万美元25美元)

Anthropic的官方版本是,新的代碼器"提高了文本處理效率",但基准數據顯示,在長長的上下文中,有显著的倒退。

搜尋能力也降低:

我不知道BrowneComp(深度網絡存取):83.7%的Opus 4.6

我不知道GPT-5.4 Pro得分89.3%,雙子座3.1 得分85.9%,目前為主賽型號

搜尋與長文字是許多商業使用者最常见的場景。

開發者在Hacker News上的第一手回應(貼文275,註解215,來源:HN討論):

"關閉攻擊性思考 手動把努力拉到頂端 讓我回到基线。 「我們的內部評估看似良好」還不夠, 每個人都看到相同的問題。 「4

這些問題由实际使用者反映。 但這也是Anthropic自願做出的選擇。

四. 新的行為特征:自我驗證以及更字面的遵循指令

Opus 4.7 官方宣布包含一個值得接受的單一聲明:模型在報告結果前先檢查其輸出 。

Hex的技術團隊在測試中提供了一個特定的案例:當數據缺失時, Opus 4.7 報告,仿佛數據不存在,而不是给出一個似乎合理但實際上是虛構的答案——后者是Opus 4.6踩到的坑. 金融技術平台Block將說:「它能在計劃阶段發現自己的邏輯錯誤

Opus 4.7對指令的解釋更實際。

這是重要的移民風險。 如果你小心地抽取了4.7,對Opus 4.6, 它可能不是像4.6一樣的"讀出",而是完全按照你寫的做. Anthropic在官方移民指南中明确提到此事。

Hex 的 CTO 函數參考號碼 :低功率的Opus 4.7 中等功率的性能與Opus 4.6差不多。

五、消除控制机制:xheig、工作缺陷和/

Opus 4.6 3月3日官方以「智商平衡、延遲、成本」为由, 將克勞德代碼的預設推理深度從頂端轉至介质。 這項問題被使用者稱為「騙局門」。

Opus 4.7回應。

十大努力: 推理力的新水平,介于原高和最大之間. 克勞德代碼已經更新了所有預設的空格。

但開發者社群對xheigh有直接的問題,Reddit使用者的原詞是:"Opus 4.6" 預設值為中度, 4.7 預設值為 xheigh 。 我想知道這個決定背后發生了什麼

也就是說, 使用者看到一個「 返回控制器給使用者 」 的修復, 但預設的檔案實際上被提出, 意思是同樣的工作被設置為燒錄更多符號 。 新增代碼器變更, 這是雙倍成本增加 。

工作錯誤長期任務的預算控制机制 開發者設置了總的代價預算(最少20K), 讓模型能在實施中实时看到剩下的數量。

Claude Code 新增/ 超級審查指令 :特別的程式碼評論會議。

自動模式對最大使用者開啟 :之前只有企業企業程序,現在最大使用者可以使用它. Claude可以自由做決定, Claude Code團隊領袖Boris Cherny說:"給Claude一個任務,讓他跑,回來看看做了什麼。"

六、奔跑:哪里贏,哪里輸

以下是目前的主要基准數據(资料来源:Anthropic Official System card and partner assessment)。

編程和工程(Opus 4.7铅)

視覺和多模( Opus 4. 7 遠方)

知识工作(Opus 4.7牵头)

全面评估(第4.7段)

一般推理(三套基本平房)

这一基准已饱和,不再是一个有效的有竞争力的分水岭。

研究工作( GPT-54 引領, Opus 4. 7 撤退)

長背景( Opus 4.7 实质性回归)

總結選擇邏輯:編程、工程代理、視覺、金融法學、Opus 4.7四方面都有明顯的優點; 研究密集的任務和開放網絡的GPT-5.4更強大。

七. 安全篱笆:神話中的石頭

這部分很容易被當作"安全例行聲明"。

4月7日, Anthropic 宣布了Glasswing專案:向蘋果、Google、微软、Nvidia、Amazon、Cisco、CrowdStrike、JP Morgan Chase和Broadcom等九個合作伙伴開放Claude Mythos預覽。

Mythos是目前最強大的Anthropic模型, 根據"黑客新聞", 然而,正因為有這種能力,它也被發現有被虐待的很大風險,而且不公开。

Opus 4.7是這條線的第一批試驗樣本。在訓練期間, Anthropic 率先減少模型的网络安全攻擊能力(盡最大可能保留其防衛能力), 公告的文字是:「我們將從奧普斯4.7的實際部署中學習圍牆的效能

也就是說,每個使用 Opus 4.7 的開發商都在幫助 Anthropic 划定安全圍牆。

Gizmodo的評估:發行時采用了"勇者銷售策略——积极主动地推广新的自雇模式",其一般能力不如其他選擇,在旗舰版中是少有的。

需要使用Opus 4.7做法律穿透測試、漏洞研究或紅色團體測試的安全實驗者。

八. 物价和移民:名义值不變,实际增加

定价 :輸入500萬令牌,輸出2500萬令牌,與Opus 4.6相同. API型號的ID是Claude -opus -4 -7 包括Claude API、Amazon Bedrock、Google Cloud Vertex AI、微软基金會、GitHub Copilot也上線。

但如前所述1.01.35加倍的符號 取代了高點的預設想法Opus 4.6 中。

Anthropic 也把 Claude Code 的缓存從一小時減到五分鐘... 這意味著如果你離開電腦五分鐘再回來, 上下文快取會失敗, 你必須重新載入, 令牌會消耗得更快 。 Reddit社群已經有很多使用者「燒得快於跌落」。

已存在的 Opus 4.6 使用者的破坏性變更列表 :

已移除、 傳回400 個錯誤的延伸思考預算參數, 需要更改為高级思考模式

2. 采样參數, 如溫度( 溫度), top p, top k 已被移除, 需要用提示來控制輸出

Opus 4.6 的更嚴格的以文字为基础的命令 - 需要重新測試, 且不能直接取代線上的型號ID

4. tokenizer 變更會造成符號數值變更

預設輸出已不包含推理符號摘要, 並且需要視覺設定才能拿回它

实际建议:Anthropic官方移民指南建議。

這是最可怕的方法 釋放精确的刀

Opus 4.7是具有明确目標方向的升級,以及成本明确的升級. 這些都是Anthony的設計 你必須付出很大代價。

在這個模式的進步方面:

我不知道SWE-bench驗證的87.6%,SWE-bench Pro的64.3%,Cursor座椅的70%,是Rakuten的3倍——這些都是在製作環境中感受到的可編程改进

我不知道視覺再發射( XBOW 54.5% 98.5%, 分辨率 3 次, 像素 1: 1 ) , 第一次有可靠部署的阈值

我不知道高, tsk 按鈕, / 超級評論, 是對「 破傷風 」 的明顯反應

我不知道BigLaw 90.9%,金融管理局 64.4%,在金融法等專業方面有明确的領導者

放棄這一邊:

我不知道MRCR v2@1M從78.3%到32.2%,其上下文能力接近一半

我不知道Brownecomp從83.7%下降至79.3%,搜索能力被GBT-54和雙子座3.1 Pro雙方反射

我不知道tokenizer 變更 + 預設工作高 + 快取 TTL 短 = 三相隱形增價

我不知道Mythos一直按,意思是Anthropic仍然有更大的牌,但做不到

這一次,真正的不是"最強的模型"或"最強的開放模型",而是:一個有明确的取舍。

最新消息是克勞德·科德2月的年化收入已達25億美元. Opus 4.7是本線的下一個賭注。

加上編程與視覺, Anthropic與Opus 4.7平衡, 更重要的是,它需要充分利用它今天的領導力, 將使用者對其產品的偏好轉變成一世代產品所不可或缺的惰性。

原始链接

QQlink

Không có cửa hậu mã hóa, không thỏa hiệp. Một nền tảng xã hội và tài chính phi tập trung dựa trên công nghệ blockchain, trả lại quyền riêng tư và tự do cho người dùng.

© 2024 Đội ngũ R&D QQlink. Đã đăng ký Bản quyền.