「Googleが本気を出してきた」と業界が騒いでいる理由
「ARC-AGI-2で77%」「人間の推論能力に迫るスコア」——こんな見出しをSNSや技術ブログで見かけた方も多いかもしれません。しかし、数字だけ見ても「それが何を意味するのか」はよくわからないですよね。
2026年2月19日、GoogleはGemini 3.1 Proを発表しました。前世代のGemini 3.0 Proと比べてARC-AGI-2スコアが31.1%から77.1%へと2倍以上に跳ね上がり、推論能力でGPT-5.4を上回ったとして大きな話題になっています。
ただ、「ベンチマークの数字が上がった」だけでなく、Thinking Levels(推論深度コントロール)という新機能が実用面でも注目されています。
本記事では、Gemini 3.1 Proが何者で、何がすごくて、どうやって使えばいいのかを初心者にもわかるよう丁寧に解説します。
ARC-AGI-2とは何か:なぜ77%が話題なのか
ARC-AGI-2を知らないと数字の意味がわからない
まず前提として、ARC-AGI-2というベンチマークについて説明します。
ARC(Abstraction and Reasoning Corpus)はAI研究者フランソワ・ショレ氏が設計した、AIの「本物の推論能力」を測るテストです。
通常のAIベンチマークの多くは、「過去のデータを記憶・再現する能力」を測ります。つまりトレーニングデータに含まれる問題をどれだけ正確に解けるかです。一方、ARC-AGI-2は「まったく新しいパターンを初見で解く能力」を測ります。これはほぼ暗記では対応できず、真の意味でのパターン認識・推論・抽象化が必要です。
| ベンチマーク | 何を測るか |
|---|---|
| MMLU | 知識の広さ・記憶 |
| MATH / GSM8K | 数学的推論 |
| SWE-Bench | コード修正能力 |
| ARC-AGI-2 | 初見パターンへの適応・純粋な推論 |
77%という数字の文脈
ARC-AGI-2での各モデルのスコアを比較します。
| モデル | ARC-AGI-2スコア |
|---|---|
| 人間(平均) | 約85〜90% |
| Gemini 3.1 Pro | 77.1% |
| GPT-5.4 | 73.3% |
| Gemini 3.0 Pro | 31.1% |
| 従来のトップモデル(2024年末) | 約30〜40% |
Gemini 3.0 Proから77.1%へという数字は、「前世代と比べて2倍以上」というだけでなく、「GPT-5.4を上回り、人間の能力に迫りつつある」という意味で業界に衝撃を与えました。また、GPQA Diamond(大学院レベルの科学的推論)でも94.3%を記録し、GPT-5.4の92.8%を上回っています。
Gemini 3.1 Proの主な特徴
Thinking Levels:推論の深さをコントロールできる
Gemini 3.1 Proの最も注目すべき新機能がThinking Levelsです。
APIの thinking_level パラメータで、AIの推論の深さを3段階で制御できます。
| レベル | 特性 | 適した用途 |
|---|---|---|
| Low | 速い・安い・浅い推論 | 簡単な質問、チャット、翻訳 |
| Medium | バランス型 | 一般的なコーディング、文章作成 |
| High | 遅い・高い・深い推論 | 複雑な数学、高度なコーディング、長期計画 |
これはOpenAIのo3/o4-miniで採用されている「thinking tokens」概念に似ていますが、Googleは開発者が明示的に制御できるAPIパラメータとして提供しています。
実用面でのメリットは明確です。「チャットの応答」には素早いLowで対応し、「技術的な設計レビュー」にはHighで時間をかける——というコスト最適化が可能になります。
1Mトークンのコンテキストウィンドウ
Gemini 3.1 Proは100万トークンのコンテキストウィンドウを持ちます。これは実用上どういう意味があるのでしょうか。
| コンテキストサイズ | 処理できる量の目安 |
|---|---|
| 4,000トークン | 一般的なチャット1回分 |
| 8,000トークン | 短い技術文書1本 |
| 128,000トークン | 書籍1冊分 |
| 1,000,000トークン | コード30,000行 / 動画1時間分 |
特にエンジニアやリサーチャーにとって、「大規模なコードベースを丸ごと読み込んで質問できる」「長時間の動画トランスクリプトを一度に分析できる」という点は実用上の大きな強みです。
マルチモーダル対応
Gemini 3.1 Proはテキストだけでなく、以下のすべてをネイティブに処理できます。
- テキスト(多言語対応)
- 画像(複数枚同時)
- 動画(最大1時間)
- 音声(録音の文字起こし・分析)
- PDF(100万トークン以内で直接読み込み)
- コード(コーディング・デバッグ・説明)
動画ネイティブ対応は、他のモデルと比較したときのGeminiシリーズの強みのひとつです。
料金・プランの詳細
API料金
Gemini 3.1 ProはGoogle AI StudioおよびVertex AI経由でAPIとして利用できます。
| トークン種別 | 200k以内のプロンプト | 200k超えのプロンプト |
|---|---|---|
| 入力 | $2.00 / 1Mトークン | $4.00 / 1Mトークン |
| 出力 | $12.00 / 1Mトークン | $18.00 / 1Mトークン |
| キャッシュ(入力) | $0.20〜$0.40 / 1Mトークン | 同左 |
| キャッシュ(保存) | $4.50 / 1Mトークン・時 | 同左 |
Gemini 3 Proと同価格帯で提供されており、前世代から価格を上げずに大幅な性能向上を実現しています。
無料プラン(Google AI Studio)
Google AI Studioでは、一定の利用制限内でGemini 3.1 Proを無料で試せます。開発者がAPIを試験的に使う場合や、個人ユーザーが触ってみる場合に適しています。
コンシューマー向けプラン(Gemini Advanced)
月額約$19.99(日本では約2,900円/月)のGemini Advancedプランに加入すると、Webブラウザ・スマートフォンアプリからGemini 3.1 Proを使えます。
Google Workspaceとの連携(GmailやDriveの内容を直接参照しながら質問)も利用可能です。
使い方:どこで使えるか
Web・アプリからの利用
- gemini.google.com にアクセス
- Googleアカウントでログイン
- Gemini Advancedプランに加入(月額約2,900円)
- モデル選択でGemini 3.1 Proを選択
Google AI Studio(開発者向け・無料)
- aistudio.google.com にアクセス
- Googleアカウントでログイン
- 「New prompt」から試用開始
- モデル選択でgemini-3.1-proを指定
Thinking Levelsの使い方(API)
import google.generativeai as genai
model = genai.GenerativeModel('gemini-3.1-pro')
# Highレベルで複雑な問題を解く
response = model.generate_content(
"この数学の証明を検証してください:...",
generation_config=genai.GenerationConfig(
thinking_level="HIGH"
)
)
GPT-5.4との比較
Gemini 3.1 ProとGPT-5.4(2026年3月5日リリース)を主要指標で比較します。
| 比較項目 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|
| ARC-AGI-2 | 77.1% | 73.3% |
| GPQA Diamond | 94.3% | 92.8% |
| SWE-Bench | 約80.6% | 約80.6%(同等) |
| コンピューターユース | 非対応 | 対応(OSWorld 75%) |
| 入力料金(1Mトークン) | $2.00 | $5.00 |
| 出力料金(1Mトークン) | $12.00 | $20.00 |
| コンテキストウィンドウ | 1Mトークン | 128Kトークン |
| 動画入力 | ネイティブ対応 | 非対応 |
| Thinking Levels | あり(3段階) | なし(別モデル) |
Geminiが優位な場面:
– 推論・科学的タスク(ARC-AGI-2・GPQA Diamond)
– コスト効率(特に出力トークンで$12 vs $20)
– 長文書・動画の処理(1Mトークン、動画ネイティブ)
– Thinking Levelsによるコスト最適化
GPT-5.4が優位な場面:
– コンピューターユース(ブラウザ・デスクトップ操作)
– OpenAIエコシステムとの統合(ChatGPT Plugins、Operatorなど)
– ドキュメント・サポートの充実度
実際の活用シナリオ
研究・学習
- 英語の論文(PDF)を丸ごと読み込んで「日本語で要約して重要な発見を説明して」
- 複雑な数学の証明をHigh Thinking Levelで検証
- 長時間の講義動画を直接入力して「重要ポイントをまとめて」
開発・エンジニアリング
- 大規模コードベース(30,000行規模)を丸ごと読み込んでバグ調査
- アーキテクチャ設計のレビューをHigh Thinking Levelで実施
- 複雑なアルゴリズムの設計・最適化
ビジネス・分析
- 長い契約書・仕様書を一度に読み込んでリスク抽出
- 音声会議の録音を文字起こしして議事録作成
- 競合分析のためのウェブサイト・レポートの一括分析
Devil’s Advocate:Gemini 3.1 Proへの批判的な視点
ベンチマークと実用は別物
ARC-AGI-2で77.1%というスコアは印象的ですが、「ベンチマーク上の推論能力が高い=実際の仕事でGPT-5.4より役に立つ」とは限りません。現実のビジネスタスクでは、モデルの指示追従精度・日本語の自然さ・ツール連携の安定性なども重要で、これらは個人の体感によって評価が分かれます。
コンピューターユースが使えない
GPT-5.4がOSWorldで75%を記録し、ブラウザやデスクトップを自律操作できる「コンピューターユース」機能を持つ一方、Gemini 3.1 ProはこのAIエージェント機能を持っていません。AIエージェント・業務自動化の観点では、GPT-5.4に対して劣位にあります。
出力料金は決して安くない
入力料金では$2.00/1Mトークンと比較的安価ですが、出力料金は$12.00/1Mトークンと高額です。文章生成や長い回答を大量に出力するシステムを作る場合、コスト計算に注意が必要です。ちなみに、GPT-5.4 miniは出力$4.50/1Mと大幅に安く、品質要件によってはminiで十分なケースも多いです。
Googleサービスへの依存
Gemini 3.1 ProはGoogle WorkspaceやVertex AIとの連携が強みですが、裏を返せばGoogleのエコシステム外では使いにくい側面もあります。Microsoft製品を主に使う企業や、Azure/AWS環境に統合したい場合は、OpenAIまたはAnthropicのモデルのほうが選択肢が広い場合があります。
よくある質問(FAQ)
Q. Gemini 3.1 ProはGemini 2.5 Proと何が違いますか?
Gemini 3.1 Proは2025年のGemini 2.5 Proの後継にあたる最新世代モデルです。ARC-AGI-2スコアが大幅に向上し、Thinking Levels機能が追加されています。コンテキストウィンドウはGemini 2.5 Proの100万トークンから継続されています。
Q. 日本語での品質はどうですか?
Gemini 3.1 Proは日本語を含む多言語に対応しています。日本語の読解・生成品質は高く、ビジネス文書や技術翻訳にも対応できます。ただし、日本語特有の表現や文化的ニュアンスの精度は、実際のタスクで確認することを推奨します。
Q. Thinking Levelsは料金に影響しますか?
高いThinking Levelを使うほど、内部の推論処理に多くのトークンが使われます。そのため、High Levelは回答が長くなる傾向があり、出力トークン料金が増加します。コスト管理のためにも、タスクの複雑さに応じてレベルを選ぶことが重要です。
Q. Google Workspaceとの連携はどう使いますか?
Gemini Advancedプランに加入後、GmailやGoogle DriveとGeminiを連携すると、「このドキュメントを要約して」「先週届いたメールの概要を教えて」といった指示がそのまま使えます。設定はGeminiの設定画面から連携するGoogleアカウントを選択するだけです。
Q. APIをすぐに試せますか?
Google AI Studio(aistudio.google.com)では無料でAPIキーを取得でき、一定の利用量までGemini 3.1 Proを試せます。クレジットカード登録なしで始められるため、まず試してみたい方に最適です。
関連記事
- Gemini 2.5 Proとは?無料で使える思考AIの使い方・料金を徹底解説
- Gemini Deep Researchの使い方|自動調査レポートを作る方法
- ChatGPT vs Claude vs Gemini 徹底比較|用途別おすすめモデル
- Gemini 3.1 Flash Lite完全ガイド|Proの1/8のコストで何ができるか
まとめ
Gemini 3.1 Proについて、重要なポイントを整理します。
- 2026年2月19日リリース。ARC-AGI-2で77.1%を達成し、GPT-5.4の73.3%を上回る
- 前世代(Gemini 3.0 Pro)の31.1%から2倍以上の性能向上を実現
- Thinking Levels(Low/Medium/High)で推論深度を制御でき、コスト最適化が可能
- 100万トークンのコンテキストウィンドウで、書籍1冊・動画1時間・コード30,000行を一括処理
- 料金はGemini 3 Proと同価格帯(入力$2/1M、出力$12/1M)
- GPT-5.4と比べて推論・コスト・動画処理で優位。コンピューターユースではGPT-5.4に劣る
- Google Workspaceとの統合でメール・ドキュメント管理が大幅に効率化
次のアクション:
– まず無料で試したい方はGoogle AI StudioでAPIキーを取得してみましょう
– 日常的にGmailやGoogle Driveを使っている方はGemini Advanced(月額約2,900円)でWorkspace連携を体験してみましょう
– すでにGemini 2.5 ProのAPIを使っている開発者は、モデル名を gemini-3.1-pro に変更して thinking_level パラメータを試してみましょう


コメント