
Google のLLM「Gemini 2.0 Flash Thinking」を試してみる

2024年12月、Googleから「Gemini 2.0 Flash」が発表され、同月に「Gemini 2.0 Flash Thinking」も発表されました。※「Gemini 2.0 Flash」に関する投稿はこちら
このThinkingモデルは通常モデルよりも推論能力が強化されており、特に科学と数学などの分野において、複雑な問題を解決するための思考力を発揮するとされています。
本記事では、この「Gemini 2.0 Flash Thinking」にいくつかの質問を提示し、同社の他モデルとの違いを比較していきます。
Gemini 2.0 Flash Thinkingの概要
GeminiのThinkingモデルは、現在(2025/3/9 時点)は試験運用版としての「Gemini 2.0 Flash Thinking Experimental 01-21」が公開されており、Google AI StudioおよびVertex
AIのGemini APIを介して提供されています。
Thinkingモデルは、通常モデルよりも高い推論能力を持ち、特に数学や科学の分野での
問題解決を得意とします。
加えて、Google AI Studio から利用する場合は、モデルの「思考プロセス」も出力させる
ことが可能で、複数回の戦略策定や反復的な解決を必要とする複雑なタスクに最適化されています。
また、音声や画像によるマルチモーダルな入出力もサポートされていますが、本記事では
言語処理に焦点を当てて紹介します。
Gemini 2.0 Flash Thinking Experimentalの性能評価
Thinkingモデルは、数学・科学・マルチモーダル推論についての処理能力が向上されており、Googleが公開しているGeminiファミリーの性能評価の結果は、以下(表1)のように
なっています。
(表1)ベンチマークによる Gemini ファミリーの性能評価
https://deepmind.google/technologies/gemini/flash-thinking/ より引用[1]
(表1) にあるベンチマークは、それぞれ以下のような内容です。
・AIME2024:American Invitational Mathematics Examination 2024
アメリカの高校生を対象とした数学コンテストの 2024年版
・GPQA:Graduate-Level Google-Proof Q&A Benchmark
生物学・物理学・化学の専門家が作成した448問の選択式問題
GPQA Diamond は、448問のから特に難易度の高い198問のサブセット
・MMMU:Massive Multi-discipline Multimodal Understanding
大学レベルの専門知識と推論能力を評価するために設計されたベンチマーク
様々な分野における11,500の画像問題で構成されている
(表1) に示されるように、Thinkingモデルは、他のモデルよりも数学・科学・画像問題に
対して高い能力を発揮していることがわかります。
参考として、Open-AIが公開したLLMについて同じベンチマークでの評価結果は、以下の(表2)のようになっており、GeminiのThinkingモデルはGPTに匹敵する性能であることがわかります。
(表2)各ベンチマークによる Open-AIのLLMの性能評価
https://openai.com/ja-JP/index/introducing-gpt-4-5/より抜粋して引用[2]
Gemini 2.0 Flash Thinking Experimentalの使い方
以前の「Gemini 2.0 Flash」についての記事 [3] で紹介した方法と同様に、Thinkingモデルは APIキーを取得して利用することができます。
しかし、Thinkingモデルの思考プロセスを確認するためには、Google AI Studio[4] 上で使用する必要があるため、今回はこちらの方法を紹介します。
まず、Google AI Studioにアクセスし、Google アカウントでログインすると、
以下(図1)の画面となります。
(図1)Google AI Studio の画面
※一部画面を隠しています
この画面右に赤字で ① と示している部分で使用するモデルを選択します。
今回使用するThinking モデルは「Gemini 2.0 Flash Thinking Experimental 01-21」という名称になっています。(2025/3/9 時点)
次に、画面下に赤字で ② と示しているチャット欄に文章を入力することで、 Geminiとの
応答を行えます。Thinkingモデルの場合のみ、ユーザーの入力とGeminiの出力の間に「Thought」という思考プロセスが追加で出力されます。
また、チャット欄の右端にある+ボタンを押すことで、文書・画像・音声・動画・コード
などのファイルをアップロードして入力することができます。
Google AI Studio の利用は基本無料ですが、Thinking モデルでのトークン数の上限は以下のようになっています。
入力トークンの上限 | 1,048,576 |
出力トークンの上限 | 65,536 |
https://deepmind.google/technologies/gemini/flash-thinking/ より引用[1]
Gemini 2.0 Flash Thinking Experimentalに質問してみる
いくつかの質問を Gemini 2.0 Flash Thinking Experimental に行い、得られる応答と思考
プロセスを確認してみます。
今回は、文脈理解と長文要約の2つの質問にどのように回答するかを試してみました。
・文脈理解
まずは、マラソンの順位の変化について質問をして文脈理解の能力を試します。
ここでは正解と不正解の両方の出力結果とその思考プロセスを見てみます。
以下のプロンプトを実行します。
マラソンで、ある選手が懸命においあげています。今、3位の人を抜きました。何位になったでしょう? |
こちらの質問の正解は “3位” となります。
Gemini 2.0 Flash Thinking Experimental の応答について、正解の出力例は以下のように
なりました。
3位です。 マラソンなどの順位を競うレースでは、前の人を追い抜くと、その人の順位になります。 3位の人を追い抜いたということは、追い抜いた選手は3位のポジションに入ったということです。 |
正解の思考プロセスは以下のようになりました。
ユーザーはマラソンレースの順位に関する質問をしています。 状況は、選手が3位の人を追い抜いたというものです。 質問は、追い抜いた選手が何位になったかを聞いています。 状況の理解: マラソンレースで、選手が順位を上げています。 追い抜きの意味: 追い抜くとは、自分より上位の順位の人を前に出るということです。 3位の人を抜いた: これは、追い抜いた選手が元々3位よりも下の順位にいたことを意味します。 順位変動: 3位の人を抜いた場合、追い抜いた選手は3位のポジションに移動します。 質問への回答: したがって、追い抜いた選手は3位になります。 回答: 3位。 確認: もし4位の選手が3位の選手を追い抜いたら、その選手は3位になる。これは論理的に正しい。 |
一方で、不正解の出力例は以下のようになりました。
2位です。3位の選手を抜いたので、その選手がいた3位の位置に入り、結果として2位になります。 |
不正解の思考プロセスは以下のようになりました。
(今回の思考プロセスの出力が英語であったためgoogle翻訳を使用しています)
核となる動作を理解する: ここでのキーとなる動詞は 「抜きました」(ぬきました)である。これは「追い越した」「通り過ぎた」という意味である。 ターゲットを特定する: 質問では「3位の人を」と指定されている。これは誰が追い抜かれたかを示している。 シナリオを視覚化する:マラソンレースを想像してください。ランナーの順位は 1位、2位、3位、4位...。私たちが考えているランナーは3位のランナーの後ろにいて、追いつこうとしています。 追い越す動作について考えてみましょう: 走者が誰かを追い越すと、その人より先に進む。もし私たちの走者が3位の走者を抜いたら、その走者は3位の走者の前にいることになります。 新しい順位を決める: レースの順位を考えてみよう: 1位がトップ。 2位は1位の次。 3位は2位の次。 4位は3位の次。 3位の人を抜いた場合、順位は3位の直前の順位になります。3位の直前は2位です。 不正確な可能性を排除する 3位 ランナーは3位の人を抜いた。まだ3位にいるはずがない。 4位以下: 4位以下:前を行く人を追い越すと、常に順位が上がる。3位を抜いて4位以下になることはありえない。 |
1位 1位になるには、2位と1位の両方をオーバーテイクする必要がある(または、すでに2位にいて1位をオーバーテイクする)。質問には3位の人を抜いたとしか書かれていない。以前は4位以下だった可能性もあり、3位をオーバーテイクすれば2位になれる。 答えを確認する: 3位を抜いたということは、その人の真正面にいるということです。3位の真正面は2位です。したがって、ランナーは現在2位です。 日本語で答えなさい: 答えは 「2位です」です。 理由を説明する: 「3位の人を抜いたということは、その人の前に出たということです、したがって、あなたは3位よりも上の順位、つまり2位になります。下がって、あなたは3位より上の順で、つまり2位になります。」これは直訳すると 「3位の人を抜いたということは、その人より先に進んだということです。したがって、あなたは3位より上のポジション、つまり2位にいるのです」。 このように、「行動」「目標」「レースの順位をイメージする」というステップを踏むことで、2位という正解が論理的に導き出されるのである。 |
Gemini 2.0 Flash Thinking Experimental の生成結果について、思考プロセスから正解ではプロンプトの状況を解析し、適切な回答を導けています。
一方、不正解では「3位の人を抜く」という意味や状況の解析までは正しかったものの、
「3位の人の前に出る → 3位になる」とはならず、「3位の人の前にいる → 2位である」というような誤った解釈をしていることがわかります。
Model | 正答率( /10) | 平均文字数( /10) |
Gemini 2.0 Flash Experimental | 0.5 | 43.0 |
Gemini 2.0 Flash Thinking Experimental 01-21 | 0.9 | 91.3 |
(表3)マラソンの順位の変化についての質問の正答率と平均文字数
(表3)を見ると、正答率はThinkingモデルの方がかなり高く、実際に推論能力が強化されていることが考えられます。また、平均文字数については倍以上となっており、より丁寧な説明がなされやすいようです。
・長文要約
次に、長文の要約タスクを試してみます。
今回は『「新しい資本主義」についての政策』[5] について要約してみます。
「Gemini 2.0 Flash Thinking Experimentalの使い方」で説明した方法で、pdfファイルを
アップロードして要約を行います。以下のプロンプトで実行してみます。
以下の文章を300字程度に要約してください。 |
生成結果の例は、以下のようになりました。
この文書は、政府が推進する「新しい資本主義」の改訂版計画であり、成長と分配の好循環を目指し、社会課題を成長のエンジンに転換することを目指しています。 主要な柱として、人への投資、科学技術・イノベーション、スタートアップ育成、GX・DX投資の重点投資を掲げ、構造的な賃上げや企業の生産性向上、サプライチェーン強靭化、経済安全保障の徹底を重視。 また、資産所得倍増プランを通じた国民の資産形成促進、地方創生、中小企業支援、社会的課題解決システムの構築、インバウンド促進など、多岐にわたる政策が盛り込まれています。 全体として、官民連携による持続可能で包摂的な経済社会の実現を目指す、包括的な政策パッケージと言えるでしょう。 (306文字) |
ここでの思考プロセスは以下のようになりました。
ユーザーは、提供された文書を要約してほしいと要求しています。 この文書のタイトルは「新しい資本主義のグランドデザイン及び計画実行2023改訂版」で、日本政府の政策文書のようです。 この文書の要点を特定し、それを 300 文字程度の簡潔な要約にまとめる必要があります。 この文書は、次のような幅広いトピックをカバーしています。 ・資本主義のアップグレード 中心となるテーマは、人的資本、GX/DX、スタートアップなどの主要投資分野に焦点を当て、国民の持続的な成長と幸福を実現するために資本主義をアップグレードすることを中心に展開されているようです。また、官民連携による社会課題への取り組み、より公平な富の分配の促進、経済的安全保障の強化も強調されています。 要約のために最も重要な側面を抽出してみましょう。 |
また、 Gemini 2.0 Flash Thinking Experimental の出力文字数について、Gemini 2.0 Flash Experimental と比較すると、以下(表4)のようになりました。
出力例の文字数 | 平均出力長( /5) | |
Gemini 2.0 Flash Experimental | 444(+144) | 458.2(+158.2) |
Gemini 2.0 Flash Thinking Experimental 01-21 | 306(+6) | 31.6(+17.6) |
「300字程度で要約する」というプロンプトの指示に100文字以上も超過していたGemini 2.0 Flash Experimental に対して、Thinkingモデルの出力例では +6文字、試行回数=5 での平均出力長では +17.6文字となりました。Thinkingモデルは要約の用途でも有効であり、
より適切な文字数でまとめられやすいようです。
ただし、 Thinkingモデルの出力では、文字数が200文字以下とかなり短くされるケースも
あり、文字数調整のためか、体言止めを使用している箇所もありました。
思考プロセスを見ると、入力に追加されたファイルの内容を分析し、要点を抽出してから
まとめるというように適切な処理が行えていることがわかります。
また、別パターンの思考プロセスで「入力された画像からテキストを抽出して内容をまとめると~」とpdfファイルが画像処理される場合がありました。
こちらについて、Thinkingモデルの高いマルチモーダル推論能力によって、pdfファイル内の図表も含めても適切に解析されていることが考えられます。使用する場合には「資料にある図表の内容も含めて」のように、画像処理を行えるようにプロンプトを工夫する必要があるかもしれません。
まとめ
本記事では「Gemini 2.0 Flash Thinking」についてご紹介しました。
今回試してみた2つの質問を通して、実際に同じGeminiファミリーでも、Thinkingモデルはより推論能力が優れているという結果を確認することができました。
特に Thinkingモデルの特徴である思考プロセスの出力について、マラソンの順位の質問のように「どのように考えているか」確認できることで、LLMとの対話におけるユーザーとの齟齬を解消し、修正や再生成をより行いやすくなるという点で非常に優れていると考えました。
また、 pdfファイルの要約について、出力は十分に行えましたが、その過程でテキストデータを処理しているのか画像で処理しているのか不確実な部分がありました。今回は検証のためにシンプルなプロンプトにしましたが、利用する際には、ユーザーの意図に合うように思考プロセスを確認しながらプロンプトを調整すると良いでしょう。
【参考文献】
[1] https://deepmind.google/technologies/gemini/flash-thinking/
[2] https://openai.com/ja-JP/index/introducing-gpt-4-5
[3] https://www.chowagiken.co.jp/blog/google_llm_gemini_2_flash_2502
[4] https://aistudio.google.com
[5] https://www.cas.go.jp/jp/seisaku/atarashii_sihonsyugi/pdf/ap2023.pdf

理工学専攻の大学院生です。自然言語処理・生成AIを活用した教育でのレポート評価について研究しています。