GadgetDrop
AI注目

Anthropic、Claude Opus 4.8を公開——SWE-Bench Pro 69.2%・fast mode速度2.5倍で登場

GadgetDrop 編集部6
Anthropic、Claude Opus 4.8を公開——SWE-Bench Pro 69.2%・fast mode速度2.5倍で登場

Claude Opus 4.8のfast modeは前世代比で速度2.5倍・料金3分の1にまで効率化されました。Anthropicが2026年5月28日に公開した最新AIモデルは、自社評価でSWE-Bench Pro 69.2%を記録し、GPT-5.5やGemini 3.1 Proを複数ベンチマークで上回ったとしています。コーディング・推論・エージェント運用の各領域でも改善が報告されています。

SWE-Bench Pro 69.2%——ただしターミナルコーディングではGPT-5.5に及ばず

Anthropicの社内ベンチマークによると、Claude Opus 4.8はSWE-Bench Proで69.2%を記録し、同テストおよび複数の他ベンチマークでGPT-5.5とGemini 3.1 Proを上回ったとされています。同社はOpus 4.8を「より効果的なコラボレーター(more effective collaborator)」と位置づけ、エージェント型コーディング・複数領域にまたがる推論・エージェント型コンピューター操作・ナレッジワーク・エージェント型財務分析の各領域で改善したと説明しています。

ただし、ターミナル上でのコーディングを評価するベンチマークではGPT-5.5が依然としてリードしているとも明記されており、全方位でトップに立ったわけではない点には留意が必要です。読者にとっては「総合力ではOpus 4.8、ターミナル特化ならGPT-5.5」という棲み分けで捉えるのが現実的でしょう。

項目Claude Opus 4.8
SWE-Bench Pro69.2%(GPT-5.5・Gemini 3.1 Proを上回ったとAnthropicは主張)
ターミナルコーディングGPT-5.5がリード
fast mode速度前世代比2.5倍
fast mode料金前世代比3分の1

「正直さ」の向上——コード欠陥の見逃しは前世代の約4分の1

性能向上に加えて、Anthropicが強調するのが「honesty(正直さ)」の改善です。早期テスターからは、Opus 4.8はエージェント的タスクにおいて「より信頼でき、判断がシャープになっている(more reliable and sharper in its judgement)」との評価が寄せられているといいます。

自社評価では、Opus 4.8が自ら書いたコード内の欠陥を黙って通してしまう確率が、前世代Opus 4.7と比べて約4分の1に減ったと報告されています。アライメント評価でも、ユーザーの自律性を支えるといった「プロソーシャル」な特性で新たな高水準に達したほか、欺瞞などの不整合行動の発生率はOpus 4.7より低く、Claude Mythos Previewと同水準にとどまったといいます。なお、これらの評価はいずれもAnthropic自身が実施したものとMacRumorsは伝えています。

エージェントにコードを任せる用途では、見逃し率の低下は実運用のレビュー工数に直結するため、特に注目すべき改善点と言えます。

新機能3つ——Dynamic workflows・Effort control・Messages API

モデル更新と合わせて、Anthropicは3つの新機能を製品ラインに追加しました。

  • Dynamic workflows(リサーチプレビュー): Claude Codeで作業計画を立てたうえで、1セッション内に数百のサブエージェントを並列稼働させ、数十万行規模のコードベース移行などをこなすことができるといいます。提供対象はClaude Code向けのEnterprise・Team・Maxの各プランに限定されます。
  • Effort control: Claude.aiとCoworkで、Claudeが応答に費やす「労力」をユーザーが選べる機能です。設定を低くすれば応答が速くなり、レート上限の消費も緩やかになります。Opus 4.8の既定値はhighで、Anthropicは品質とユーザー体験のバランスとして最適と説明しています。
  • Messages API: messages配列の中にシステムエントリを差し込めるようになり、開発者はタスク途中でClaudeへの指示を更新できます。

Dynamic workflowsは法人向け上位プラン専用である点に注意してください。個人ユーザーがすぐ試せる機能ではないため、検証目的なら所属組織の契約プランを確認することが先決となります。

価格は据え置き——通常利用の料金はOpus 4.7から変更なし

通常利用の料金はOpus 4.7から変更されていません。fast modeに限り料金が3分の1になっているという形です。Anthropicは、Opus 4.8と同等の能力をより低コストで提供するモデルや、Opus を超える知能を備えた新クラスのモデルにも取り組んでいると述べています。

通常API利用が中心のユーザーや、Claude.ai/Coworkでの対話用途であれば、価格据え置きのまま品質向上の恩恵を受けられるため、即座に切り替える価値のあるアップデートと言えます。一方、Dynamic workflowsを試したい場合はEnterprise・Team・Maxのいずれかのプラン契約が前提となるため、利用シーンに合わせた判断が必要です。

「Mythos」級モデルは数週間内の展開を予告

現在少数の組織で試験運用されている「Claude Mythos」モデルについては、Anthropicが安全対策の整備を進めており、「数週間以内(in the coming weeks)」に全顧客へ展開できる見込みだといいます。あくまで現時点ではAnthropic側の期待値ベースの予告であり、確定スケジュールではない点に留意が必要です。

Opus 4.8のアライメント評価がMythos Previewと同水準と説明されていることから、Mythos級モデルが一般展開された際の挙動傾向を占う材料として、Opus 4.8の使用感が参考になる可能性があります。

Q&A

Q. Claude Opus 4.8は誰でもすぐ使えますか? Anthropicによれば、Opus 4.8は本日付ですべての提供チャネルで利用可能だといいます。ただしDynamic workflowsについてはClaude CodeのEnterprise・Team・Maxプラン限定です。

Q. 価格は値上がりしますか? 通常利用の価格はOpus 4.7から変更されていません。fast modeに関しては前世代比で3分の1の料金になっています。

Q. 試験運用中のMythosモデルはいつ来ますか? 現在は少数の組織で試験運用中で、Anthropicは「数週間以内」に全顧客への展開を見込んでいると説明しています。確定した日程ではないため、続報待ちが妥当です。

出典

ポストLINEで送るはてブ
GD

GadgetDrop 編集部

スマホ・PC・AI・XRなど幅広いテクノロジーを、スペックの行間まで読む視点で解説します。速報から深掘り分析まで、テック選びと業界理解に役立つ情報をお届けしています。