Litecoin

クロード・オパス 4.7:最強のモデルですか

2026/04/18 03:14
🌐ja

Opus 4.7は「ベストモデル」ではなく、クリアトレードオフの「精密ナイフ」スタイルで出版されたリリースでした。

クロード・オパス 4.7:最強のモデルですか
原題:「Opus 4.7 は最も強いモデルになりたくない: Anthropic で維持できない」
元の源:シリコンスターマンプロ

2026年4月16日、AnthropicはOpus 4.6の最終生成から2ヶ月以上、Claude Opus 4.7を正式にリリースしました。

集中的でクレイジーな製品やモデルの更新の最近の波の後、新しいモデルを投げ出すアンソロピーは、自然に人々に認知感を与えます。 また、初めてのモデルレポートのコンベリングもたくさん見てきましたが、Opus 4.7 を「最も強力なモデル」と「人が死んでいる」と「失業警告」と呼んでいます。

しかし、Anthropicが自分を送ったものを見てみましょう。

このリリースのトーンは本当に正常ではありません。

Opus 4.7 が Claude Mythos プレビューよりも容量が少ないという弾丸で Anthropic は直接書いており、Mythos は Apple、Google、Microsoft、Nvidia などの少数のパートナーにのみ公開され、通常の開発者やユーザーには利用できません。

同時に、そのレジェンドとしてMythosよりも弱いだけでなく、以前の世代のモデルよりも弱いだけでなく、その重要な機能の一部でもあります。

Opus 4.7, 自分の実行から珍しい数:MRCR v2@1M から 78.3% Opus 4.6 まで 32.2%鋭い低下の46パーセントポイント。

非常に少ないフラッグシップモデルは、エースになる能力の半分を切断することができます。

そしてそれはその選択です。

つまり、脳の不整脈を続けていくと、それが最も強く吹くすべてのモデルは、アンソロフィック独自のリズムで追いつくことはありません

この洗車を修理しても気にしない

Opus 4.7は、以前のヘッドモデルメーカーのさまざまなアイデアと異なる「精密ナイフ」スタイルのリリースの明確なトレードオフであり、今日のヘッドメーカーは、モデル自体の「大きな飛躍」がもはやサステナブルでないと明確に感じたときに「最も強力なモデル」であることの意図がない出版物であり、新しい方向は、モデル自体の「大きな飛躍」がもはや持続可能ではないと明らかにして動きます - アントロープは、いくつかの程度に、Apple、Microsoft、およびその製品の成熟段階でのマーケティング戦略と並んでいます。

4.7が本当に重要だと思われるでしょう。

I. プログラミング能力:数字の背後にある本当の改善

これらの変更をよりよく理解するための最善の方法は、実際にこの時期に何をしているかを詳しく見てみることです。

ここでは、Opus 4.7 が今回リリースした完全な情報コンボです。その進捗は終了したところ、開発者からの最初のフィードバックがあったのは何かですか。

公式弾丸:https://www.antropic.com/news/claude-opus-4-7

Opus 4.7のプログラミングの成果は、このリリースの主な軸でした。

SWEベンチ検証(実際の GitHub の問題は、Opus 4.6 から 87.6% の 80.8% から、テストを渡すパッチを書く必要があります。このモデルは、現在公開されているモデルの最初です。 Gemini 3.1 Pro 80.6% と比較して、ギャップは重要である。

SWEベンチプロ4つのプログラミング言語で完全な工学の流れラインをカバーするより難しいバージョンです。 Opus 4.7 が 53.4% から 64.3% にジャンプし、11 パーセント ポイント. GPT-54、Gemini 3.1 Proの1セントあたり54.2パーセントあたり57.7と比較して、Opus 4.7は、このベンチマークの先にはっきりしています。

カーソルのベンチCursorのフィールドベースベンチマークで、実際のIDE環境でモデルのプログラミングサポート品質を具体的に測定します。 Opus 4.6 は 58%、Opus 4.7 は 70% に、 12 のパーセンテージ ポイント跳ね上がります。 マイケル・トゥルールのカーサーの共同創設者であるマイケル・トゥルーは、彼の公式の弾丸で発言した。「これは、困難な問題の解決においてより創造的な推論を持つ能力の有意義な飛躍である」

パートナーの測定:

楽天:Opus 4.7はコードの質およびテスト質の倍数の増加のOpus 4.6として多くの生産の仕事を、解決しました

• 事実:ミッションの成功率は10〜15パーセント増加し、モデルの停止回数は大幅に減少しました

• 規則(会社の背後にある) 「線を失わない時間の仕事」モデル

•CodeRabbit:「GPT-5.4 xhighより少し速い」10%以上増加したリコール率

•ボルト:より長いアプリケーションビルダーミッションでは、Opus 4.7は4.6です

お問い合わせ ターミナルベンチ2.0:Opus 4.7は、以前はClaude Model(または競合他社)が管理できない3つのタスクを解決しました。その1つは、複雑なコードライブラリ全体で複数のファイル推論が必要で、競争力のある条件(追跡条件)を修復しました

これらのデータは1つの方向に集中しています。Opus 4.7は、長期的、横断的、コンテキスト一貫性を必要とする複雑なプログラミングタスクで明確に改善しました。 つまり、ユーザーが最後の2ヶ月で一番下がったところが正確にポイントです。ジョブが途中で実行されると、複数のファイルが発生したときに、失われたとき。

視覚化:起動の最も評価される改善

視覚的精度のベンチマークXBOWは54.5%から98.5%にジャンプしました。これは段階的な改善ではありませんが、再構築のレベルを飛躍的に進めます。

特定の指定の変更:

お問い合わせ最大解像度は、前世代3回以上、約1.15万画素(長辺1,568ピクセル)から約3,75万画素(長辺2,576ピクセル)に増加しました

お問い合わせモデル座標および実際のピクセル達成1:1 カウンターパートタスクの前に、スケーリング係数の手動変換が必要です。このステップは消えます

お問い合わせCharXiv ビジュアル推論ベンチマーク: ツール 82.1%、ツール 91.0%

どのようなシーンに影響がありますか

製品チームにとって、このアップグレードは決定的である可能性があります。 Opus 4.6-era コンピューターの使用は "キャパシブルが、生成を恐れる" の状態にある - 予測するエラー率が高すぎます。 1セントあたり98.5の視覚的精度は、この機能が信頼できる展開のためのしきい値を持っている初めてのことです。 評価では、技術的なブロガーの数が書いています。 「Opus 4.6エラーの高周波のためにコンピュータ使用製品プログラムを脇に置いた場合は、4.7はこの障壁を削除しました。

Redditのファーストハンドフィードバック(r/ClaudeAI): ユーザーは、「視覚能力の改善が重要すぎる」と述べた。そして、以前は多くのマージンプロジェクトを行ってきました。モデルを視覚フィードバックサイクルで出力を改善しようとしています。これは混乱し、4.7がどのように対処できるかを予測しています。」

コンピュータの使用に加えて、スキャン文書の分析(より小さいフォントを読み、より洗練されたチャートの詳細を識別)、増幅理解、ダッシュボードの種類アプリケーション、複雑なPDF処理が含まれます。

注意が必要な費用問題:高解像度画像はより多くのトークンを消費します。 応募シーンが詳細画像を必要としない場合、アップロード前にサンプルを撮影することをお勧めします。

3。 最大のセットバック:長いコンテキストが崩壊しました

MRRR V2@1Mの特長(トークンコンテキストメモリテストのミリオン):

お問い合わせ4.6:78.3%(税抜き)

お問い合わせ4.7:32.2パーセント

1セントあたり80パーセントから3分の46ポイントの崩壊。

このドロップは、フラッグシップモデルの歴史に少し優先されます。 MRCR v2は、Anthropic自身がOpus 4.6時代に強調される能力であり、Anthropicが「モデルが実際に動作するコンテクスト・マス・スケールの定性変化」と呼びました。 4.7で、この「マス変換」は消えました。

なぜ? Tokenizer が変更されました。

オパス 4.7 新しいトークナイザーでは、同じ入力テキストが生成されます1.0~1.35 ダブルトークンの数、コンテンツの種類に応じて異なるトークンの数。

直鎖の反作用はあります:

お問い合わせ200K/1Mのコンテクストウィンドウはまだわずかな条件で利用できますが、同じテキストは読み込まれません

お問い合わせ長時間の割り当ての緊急ワークフローのために、実際のトークン消費量が約35パーセント増加

お問い合わせ価格変更なし ($5, 出力 $25 百万トークン) 実際の使用コストが増加

Anthropicの公式バージョンは、新しいトークナイザーが「テキスト処理の効率性を向上する」ということですが、ベンチマークデータは長いコンテキストのコンテキストでマークされた回帰を示します。

検索機能もダウンします

お問い合わせBrowneComp(ウェブの詳細なアクセス):Opus 4.6の83.7%

お問い合わせGPT-5.4 プロスコア 89.3%, ジェミニ 3.1 プロスコア 85.9%、Opus 4.7 現在メインの競争モデルの底

多くのビジネスユーザーにとって、検索と長いテキストは最も一般的なシーンです。

ハッカーニュース(投稿者275、コメント215、ソース:HNディスカッション)の開発者からのファーストハンドフィードバック:

「攻撃的な思考をオフにし、ベースラインに戻るために、トップに手動で努力を引っ張る」。 「当社の内部評価は十分ではない」と誰もが同じ問題を見ています。 「4.7 デフォルトでは、人間の読みやすい推論トークンが出力で消化されず、リガ表示を要求することによって返される必要があります。」

実際の利用者が反映する問題です。 しかし、これはまた、自分のイニシアチブで作られたAnthropicの選択肢です。

IV。 新しい行動特性:自己検証と指示に従って文字通り

オパス 4.7 正式な発表には、服用する価値のある単一の声明が含まれています結果が報告される前に出力をモデル化します。

ヘックスのテクニカルチームは、データが欠落しているとき、Opus 4.7 は、データが存在しなかったかのように、妥当であるが、実際にフィクションであるという答えを与えるのではなく、特定のケースを報告しました。後者は Opus 4.6 がステップアップしたピットです。 金融技術プラットフォームであるBlockは、「計画段階に独自の論理的なエラーを検出し、実装をスピードアップし、古いClaudeモデルを上回ることができます」と言います

しかし、自己認証は、それに伴う行動変化をもたらします:Opus 4.7のコマンドの解釈は、より文字通りです。

これは重要な移行リスクです。 Opus 4.6 の 4.7 を慎重に描画している場合は、4.6 のように "read out" ではなく、書いたものに従って厳密に行います。 Anthropicは公式マイグレーションガイドでこれを明示的に言及しました。これは、オンラインで4.7に行く前に、キープロンプトが回帰のためにテストされることを示唆しています。

六角形のCTOからの機能参照数:Opus 4.7 は、低労力でパフォーマンスは Opus 4.6 とほぼ同じです。

v. 排除制御メカニクス:xheigh、タスクバグと/ultrareview

オパス 4.6 ユーザーの信頼に影響を与えたイベントがありました。 2月9日、適応思考のデフォルトモデルに、3月3日、公式は「インテリジェンス、遅延、コストのバランス」の地上のトップから媒体までのクロードコードのデフォルトの推論深さをシフトしました。 この問題は、利用者が「受容ゲート」と呼ばれ、GitHubのシニアディレクターからの質問は広く発信されました。

Opus 4.7 は、ユーザーにより視覚的に推論の深さをコントロールすることで応答しました。

xhighの努力: 元の高と最大の間の推論力の新しいレベル。 Claudeコードは、すべての計画されたデフォルトスロットをxheighに更新しました。

しかし、開発者コミュニティはxheighに関する直接的な質問を持ち、Redditユーザーの元の言葉は「Opus 4.6」です。 デフォルトは媒体、4.7 デフォルトはxheighです。 努力ファイルの増加がより多くのトークン消費につながることが明らかであるため、私は、この決定の背後にあるものを知っているしたいと思います

言い換えると、ユーザは「ユーザへのリターン制御」の修正を見ましたが、デフォルトファイルは実際に上げられました。つまり、同じタスクがより多くのトークンを焼くように設定されていました。 トークナイザーの変更を加えると、コストが増加します。

タスクのバグ長いミッションのためのトークン予算管理メカニズム。 開発者は、実装中にモデルが残量をリアルタイムで確認できる合計トークン予算(20Kの最小限)を設定し、リソースを割り当て、トークンが過剰にし、不要なコンピューティング廃棄物を防ぐため、半分に停止することを避けます。

Claude コードは /ultrareview コマンドを追加します特別なコードレビューセッションは、バグの検索と設計の問題に焦点を当てた詳細なレビューを実行し、ProとMaxのユーザーは1ヶ月に3回無料を与える。

自動モードは最高のユーザーに開きます:以前はエンタープライズプログラムでしか使用できません。 クロードは、決定を下し、ユーザーへの問い合わせの数を減らすために自由です。 クロード・コード・チーム・リーダー、ボリス・チェロニー氏は、「ミッションを明らかにし、彼は実行し、戻って何をやっているかを見ていきましょう。」と述べた

VI. RUN: 勝つ場所, 失う場所

以下は、現在入手可能な主要なベースラインデータ(ソース:アンソロピー公式システムカードとパートナー評価)です。

プログラミングとエンジニアリング(Opus 4.7鉛)

ビジュアルとマルチモジュラー(Opus 4.7 まで)

ナレッジワーク(Opus 4.7鉛)

総合評価(Opus 4.7 はステップ上)

一般的な推論(基本平面の3つ)

このベンチマークは飽和し、もはや効果的な競争力のある水面はありません。

研究タスク(GPT-54リード、Opus 4.7リトリート)

ロングコンテクスト(Opus 4.7 物質回帰)

選択論理を損なう:プログラミング、エンジニアリングエージェント、ビジュアル、金融法的なリテラシーの4つの領域、Opus 4.7は明確な利点を持っています。研究集中的なミッションとオープンWeb検索GPT-5.4はより強く、コンテキストのコンテキストでは、Opus 4.7は、その前任者よりもはるかに少ない、最も驚くべきポイントです。

VII。 セキュリティフェンス:Mythosの舗装石

この部分は、リリース中の「セキュリティルーチンステートメント」として簡単に使用できますが、Anthropicの現在の戦略を理解するための鍵です。

4 月 7 日、Anthropic はプロジェクト ガラスウィングを発表しました: クローデ Mythos プレビューを Apple、Google、Microsoft、Nvidia、Amazon、Cisco、クラウド ストライク、JP Morgan Chase、Broadcom の9つのパートナーに開き、防御的なサイバーセキュリティシナリオに専念しました。

Mythosは、これまでAnthropicの最も強力なモデルであり、ハッカーニュースによると、それは独自のゼロデイホールを検出し、主要なオペレーティングシステムとブラウザで数千年前に未知の穴を見つけることができる。 しかし、この能力のせいで、悪用の危険性が著しく、公に利用できないことが判明しました。

Opus 4.7 は、この行の最初のテストサンプルでした。トレーニングステージでは、Anthropic は、モデルの ' s サイバーセキュリティ攻撃能力を削減するイニシアチブを取った(可能に防衛能力の多くを保持している間)。リアルタイムのガードシステムでオンラインで行って、リスクの高いネットワークセキュリティ要求を自動的に検出し、傍受する。 「フェンスの有効性についてOpus 4.7の実際の展開から学び、Mythosに拡張するかどうかを決定します。」

言い換えると、Opus 4.7 を使用したすべての開発者は、Anthropic がセキュリティフェンスをデマートできるように支援しています。

Gizmodoの評価:ローン・マーケティング・ストラテジー(Bold Marketing Strategy)は、他のオプションよりも一般的な機能が少ない「自己雇用の新しいモデルの積極的なプロモーション」を採用しました。

Opus 4.7 を法的な貫通テスト、ギャップの調査、または赤いチーム テストに使用する必要がある安全実務者は、サイバー検証プログラムを適用する必要があります。

VIII. 価格と移行:わずかな条件で変更なし、実際の増加

価格:Opus 4.6 と同じ $25/million トークンを出力する $5,000,000 トークンを入力します。 API モデル ID は claude-opus-4-7 です。 利用可能なプラットフォームには、Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundation、GitHub Copilot などが含まれます。

しかし、先に述べたように、トークナイザーは同じ入力を近似させます1.0~1.35トークンの数を倍増し、努力スロットトークンの下により高いデフォルト思考を重ね、Opus 4.6 で同じ設定を 2 〜 3 回、長いミッション エージェント ワークストリームの実際のコスト。

Anthropic は、Claude Code のキャッシュを 1 時間から 5 分まで削減しました。 つまり、コンピュータを5分以上残して戻ってくると、コンテキストキャッシュが失敗し、リロードしなければ、トークンはより速く消費されます。 Redditコミュニティは、すでに「秋よりも早く焼ける」という多くのユーザーを持っています。

既存のOpus 4.6ユーザーに対する破壊的な変更のリスト:

拡張予算パラメータを削除し、400エラーを送信し、高度な思考モードに変更する必要があります

2. 温度(温度)、上のp、上のkが取除かれ、出力の制御はプロンプトによって要求されます

Opus 4.6 の修正されたプロンプトが再テストされ、ライン上のモデル ID に直接置換することはできません

4. tokenizer はトークンカウントの変更の結果を変え、完全な移行の前に実トラフィックでサンプルを実行することを推薦します

デフォルト出力には、推論トークンの要約が含まれず、可視設定で返す必要があります

実用的な勧告:Anthropic公式マイグレーションガイドは、トークン消費とミッションの品質を決定する前に、公式スイッチがOpus 4.7を実行することを推奨しています。

精密なナイフを解放する最も怖い方法です

Opus 4.7 は明確なターゲット方向および明確な費用のアップグレードと改善です。 これらはすべてアンソニーのデザインであり、それらに大きな範囲で支払う必要があります。

このモデルの進歩的な側面:

お問い合わせSWE-benchの87.6%、SWE-bench Proの64.3%、Cursor Benchの70%、楽天のタスク3回 - これらは、生産環境で感じたプログラム可能な改善です

お問い合わせ視覚再開発(XBOW 54.5% 98.5%、解像度3回、ピクセル 1:1)、信頼性の高い展開のためのしきい値が初めて利用可能

お問い合わせxhigh, tsk ボタン, /ultrareview は "tructure" に対する可視応答です

お問い合わせBigLaw 90.9/cent, 財務局 64.4/cent, 金融法などの専門知識の明確なリード

側面をあげて下さい:

お問い合わせMRCR v2@1M から 78.3% から 32.2%, ほぼ半分の文脈能力

お問い合わせBrownecomp は 83.7% から 79.3% に低下し、GPT-54 と Gemini 3.1 Pro の検索機能が二重交差しました

お問い合わせトークナイザー変更 + デフォルトの努力高 + キャッシュTTLショート = トリプル見えない価格増加

お問い合わせMythosは、Anthropicがまだ大きなカードを持っていることを意味しますが、それをすることはできません

今回は「最強モデル」や「最強モデル」ではなく、明確なトレードオフを持つもの。

最近のニュースは、2月のクロードコードの年間所得が2.5億ドルに達したことです。 Opus 4.7 はこの行の次のベットです。

プログラミングとビジュアライゼーションが加えられ、長いコンテキストと検索が減り、価格がわずかなままですが、課金が上昇しています。 AnthropicはOpus 4.7でバランスをとっています - Opus 4.6から残っている信頼の損傷を修復し、Mythos-classモデルの将来のセキュリティフェンスのフィールドエクササイズを実行します。 そして、より重要なのは、それが今日にある鉛のフル活用を取る必要があります、彼らは欠陥である場合でも、製品の世代に不可欠である慣性にユーザーの好みを回し、その後、アップルのような愛情と憎悪のユーザーvisceralityを構築し、真に商業的に価値のあるエコロジーに不可欠です。

オリジナルリンク

QQlink

Không có cửa hậu mã hóa, không thỏa hiệp. Một nền tảng xã hội và tài chính phi tập trung dựa trên công nghệ blockchain, trả lại quyền riêng tư và tự do cho người dùng.

© 2024 Đội ngũ R&D QQlink. Đã đăng ký Bản quyền.