世界のAIコミュニティが既に1万件以上のベンチマークを生み出してきた「Kaggle Benchmarks」が、ついにローカル開発環境へ降りてきます。GoogleはKaggleブログで、AIモデルの評価セットを構築できるこの仕組みをVSCode・Cursor・Antigravityといった普段の開発環境とAIコーディングエージェントから直接扱えるようにすると発表しました。Webノートブックエディタへの切り替えなしに、手元のエディタで評価タスクの作成から実行までが完結します。
| 項目 | 内容 |
|---|---|
| 公開日 | 2026年6月4日 |
| 担当 | Nicholas Kang(Product Manager, Kaggle)、Andrew Wang(Software Engineer, Kaggle) |
| 主要新機能 | Kaggle BenchmarksのローカルCLI対応、write-kaggle-benchmarks skill |
| 対応環境(例示) | Antigravity、VSCode、Cursor、各種AIコーディングエージェント |
| 累計評価タスク数 | 1万件以上(Kaggle Benchmarks公開以降) |
WebエディタからVSCode/Cursorへ——ベンチマーク作成が手元で完結
今回のアップデートにより、Kaggle CLIとAIコーディングエージェントを併用することで、評価タスクの「作成・検証・プッシュ・実行・ダウンロード」までを開発者のローカル環境で実行できます。これまではKaggleが提供するブラウザベースのノートブックエディタで作業する必要がありましたが、対応する開発環境としてAntigravity・VSCode・Cursorなどが挙げられています。
Googleは、Kaggle Benchmarksの公開以降にコミュニティから1万件以上のテストケースが生み出されたと報告しています。今回のローカル開発対応によって、評価セット作成のハードルがさらに下がり、構想から実行までの距離が縮まります。
自然言語で「タスクを作って」と頼むだけ——write-kaggle-benchmarks skillの威力
ローカル開発対応が解放する新しいワークフローの目玉が、AIコーディングエージェントへの自然言語指示でベンチマークを生成する仕組みです。これを担うのが新たに用意された「write-kaggle-benchmarks skill」で、エージェントにkaggle-benchmarks SDKとKaggle CLIを使ったタスク構築方法を構造化された指示として渡します。
利用手順は次の通りです。
- エージェントに対し「Install the write-kaggle-benchmarks skill: https://github.com/Kaggle/kaggle-skills」と依頼してスキルを導入する
- スキル導入後、評価したい内容を自然言語で指示する(例: 「
300+140=460 is correct?をモデルに問うタスクを作って」) - エージェントがKaggle上で動作するタスクを生成する
つまり開発者は評価設計の言語化に集中すればよく、テンプレートやAPIの細部はエージェントが処理します。発表動画は以下で公開されています。
コミュニティ駆動の評価が、AIラボの改善競争を加速する
GoogleはKaggle Benchmarksを立ち上げた背景として、AIモデルが単なるチャットボットから、コードを書きツールを使い複雑な問題を解く「推論エージェント」へと進化していることを挙げています。そのうえで「従来のベンチマークではもはや十分ではない」とし、実世界でモデルを使う人々が作る動的で厳格な評価が必要だと説明しています。
Googleは「測れる能力があれば、各AIラボはそれを改善する競争に向かう」との考えを示し、信頼できる客観的なシグナルを提供することで、現実世界の多様な課題を反映した評価セットを世界中の人々が作れる状態を目指すとしています。
開発者にとっての意味——どう使うべきか
普段からVSCodeやCursorで作業している開発者にとって、Webエディタへ切り替える必要がなくなるのは大きな利便性向上です。コンテキストスイッチの摩擦が消えるため、思いついた評価アイデアをその場で形にできます。
さらに、AIコーディングエージェントとの組み合わせによって、ベンチマーク設計は「コード書き」よりも「要件記述」に近づきます。これにより、SDKやAPIの作法を知らないドメインエキスパート——例えば法務・医療・教育・カスタマーサポートといった分野の実務担当者——でも、自然言語で評価セットを起こせる余地が広がります。
LLMの実用域が広がるなかで、自社・自プロジェクトのユースケースに合った評価をどれだけ早く・正確に作れるかは、モデル選定や微調整の精度に直結します。社内の評価データを整備したいチームは、まずwrite-kaggle-benchmarks skillを手元のエージェントに導入し、簡単なテストケースを1本作ってワークフローを体験するのが妥当な第一歩です。
Q&A
Q. Kaggle Benchmarksをローカルから使うには何が必要ですか?
Kaggle CLIと、AntigravityやVSCode、Cursorなどの対応する開発環境、そしてAIコーディングエージェントが必要です。エージェントにはwrite-kaggle-benchmarks skillを導入することで、自然言語からベンチマークを作成できます。
Q. write-kaggle-benchmarks skillはどこから入手できますか?
スキルはGitHubのhttps://github.com/Kaggle/kaggle-skillsで公開されており、エージェントに「Install the write-kaggle-benchmarks skill」と依頼する形で導入できます。
Q. 自然言語からタスクを作る具体例はありますか?
Googleの発表では、「300+140=460 is correct?をモデルに問うタスクを作って」とエージェントに指示するだけで、Kaggle上で動作する評価タスクが生成されるという例が示されています。
Q. Kaggle Benchmarksにはこれまでどれくらいのテストケースが集まっていますか? Googleの発表によれば、Kaggle Benchmarks公開以降に世界のAIコミュニティから1万件以上の評価タスクが作成されています。
出典
- Google Blog — Kaggle is making AI benchmark creation effortless