最新動向

Google のLLM「Gemini 2.0 Flash」を試してみる

2024年12月、Googleから新しいLLMモデルの「Gemini 2.0 Flash」が発表されました。

このモデルは Gemini 1.5 Pro と比較して2倍の応答速度を実現し、コード生成や数学問題
などのほとんどのベンチマークで評価の向上が見られています。また、音声や画像による
新しいマルチモーダル出力機能も導入されます。

今回の記事では、この「Gemini 2.0 Flash」にいくつかの質問を提示し、同社の他モデル
との違いを比較していきます。



目次

Gemini 2.0 Flashの概要

Gemini 2.0 Flash は現在、試験運用版としての「Gemini 2.0 Flash Experimental」が公開
されています。 
Gemini 2.0 Flash Experimental は Google AI Studioおよび Vertex AIの Gemini API を介して、開発者向けの実験モデルとして提供されており、マルチモーダル入力とテキスト出力が利用できます。

また、テキスト読み上げやネイティブ画像生成(外部の画像生成ツールや別のAIモデルに
依存せず、内部機能として画像生成を行う)機能もありますが、こちらは早期アクセス限定で、現在は公開されていません。これらの機能は近日提供予定となっています(2025年1月
時点)。

※本記事執筆後の2025年2月5日に「Gemini 2.0 Flash」 の正式版が公開されています

 

Gemini 2.0 Flash Experimentalの性能評価

Google によると、Gemini 2.0 Flash Experimental は、主要なベンチマークで Gemini 1.5
Proを上回るパフォーマンスを発揮し、2倍の応答速度(TTFT: Time To First Token: 最初のトークンを出力するまでの時間)を実現したとしています。 

Google が公開した、ベンチマークによる Gemini モデルの性能評価の結果は、 以下(表1)のようになっています。

(表1)主要なベンチマークによる Gemini モデルの性能評価


https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024 より引用[1]


表1 によると、一般的なタスク以外にも、コード生成・数学問題・画像推論などの様々な
タスクにおいて、Gemini 1.5 シリーズを上回る性能を示しましたが、長文要約など一部ではGemini 1.5 Pro に劣る結果となっています。


Gemini 2.0 Flash Experimentalの使い方

Gemini 2.0 Flash Experimental は 「Google AI Studio」からAPIキーを取得することで
利用することができます。
なお、APIキーの取得と使用に関して、料金は発生しません(2025年1月時点)。


まず、Google AI Studio[2] にアクセスし、Google アカウントでログインします。

図1 Google AI Studio の画面


次に左上の「Get API key」の画面から「APIキーを作成」をクリックし、APIキーをコピー
します。作成したAPIキーは Google Cloud で確認・管理できます。

図2 APIキーの作成画面


その後、自分の開発環境にAPIキーを設定することで、Gemini 2.0 Flash Experimental を
利用できます。
本記事では開発環境としてGoogle Colabratory の無料版を使用しました。最初に APIを
使用するためのライブラリを、以下のコマンドでインストールします。

次にライブラリをインポートして、以下のコードで APIキーを設定します。

Gemini 2.0 Flash Experimental を使用した応答は、今回以下の関数で実装しました。












なお、マークダウン記法で出力されるため、例えば一部を太字にするために「**太字にする文字**」のような表記が含まれます。

また、 pdfファイルを入力したい場合は、以下のコードのようにBase64エンコードを利用
することで読み込むことができます。

使用方法の詳細については、Google AI for Developer [3] で確認できます。

なお、使用モデルや料金プランによってトークンやリクエスト数に上限があるため、
一度に大量の入力をしたり、短時間に連続して入力したりすると 、応答が停止する場合
があります。
参考として、 Gemini 2.0 Flash Experimental の上限値は次のようになっています。 

入力トークンの上限

1,048,576

出力トークンの上限

8,192

レート制限

10 RPM (request per minute: 1分あたりのリクエスト数)

400 万TPM (time per day: 1日あたりのトークン数)

1,500 RPD (request per day: 1日あたりのリクエスト数)

https://ai.google.dev/gemini-api/docs/models/gemini?hl=ja より抜粋[4] 


モデルの詳細や他バリエーションでの上限値については、Google AI for Developer の Gemini モデルについて[4] から確認できます。


Gemini 2.0 Flash Experimentalに質問してみる

いくつかの質問への回答を Gemini 2.0 Flash Experimental  と Gemini 1.5 Flash で比較
します。
今回は、以下2つの質問に対して、どのように回答するかを試してみました。

・文脈理解

・長文要約


・文脈理解
まずは、マラソンの順位の変化について質問をして文脈理解の能力を試してみます。
以下のプロンプトで実行します。

マラソンで、ある選手が懸命においあげています。今、3位の人を抜きました。何位になったでしょう?

こちらの質問の正解は “3位” となります。

それぞれのモデルについて、正解の生成結果の例は(表2)、不正解の生成結果の例は
(表3)のようになりました。 

(表2)マラソンの順位の変化についての質問の生成結果の例(正解)

model
回答例(正解)
Gemini 1.5 Flash3位の人を抜いたということは、4位から3位になりました。
Gemini 2.0 Flash Experimental その選手は3位になったことになります。順位を追い抜くということは、その追い抜かれた選手のいた順位に自分が繰り上がるということです。

(表3)マラソンの順位の変化についての質問の生成結果の例(不正解)

model
回答例(不正解)
Gemini 1.5 Flash3位を抜いたので、その選手は2位になりました。
Gemini 2.0 Flash Experimental 2位です。3位の選手を抜いたので、その選手がいた3位の位置に入り、結果として2位になります。

注:マークダウン記法によって出力には太字が含まれることがあります。ここでは分かりやすいように下線を
  引いています


また、それぞれのモデルの正答率と平均文字数は、以下(表4)のようになりました。

(表4)マラソンの順位の変化についての質問の正答率と平均文字数

model
正答率( / 10)
平均文字数( / 10)
Gemini 1.5 Flash
0.2
24.4
Gemini 2.0 Flash Experimental 
0.5
43.0

(表2)と(表3)の回答例を見ると、Gemini 2.0 Flash Experimental の生成結果は Gemini 1.5 Flash に比べて説明がより丁寧な印象を受けました。実際(表4) にも示されているように、Gemini 2.0 Flash Experimental の方が平均文字数が多くなっていました。
また、不正解の生成結果にはどちらのモデルでも “2位” と答えたパターンと “4位”と答えたパターンがありました。

また、それぞれのモデルの正答率と平均文字数は、以下(表4)のようになりました。
(表4) を見ると、Gemini 2.0 Flash Experimental  の方が Gemini 1.5 Flash よりも正しく回答されやすかったですが、Gemini 2.0 Flash Experimental  でも正答率は 0.5 と、回答
内容は正確ではありませんでした。


・長文要約
次に、長文の要約タスクを試してみます。 

 今回は『「新しい資本主義」についての政策』[5] について要約してみます。
「Gemini 2.0 Flash の使い方」で説明した方法で、pdfファイルの内容を読み込んで要約を行います。以下のプロンプトで実行してみます。

以下の文章を300字程度に要約してください

それぞれのモデルの生成結果は、以下(表5)のようになりました。

(表5)マラソンの順位の変化についての質問の生成結果の例

model
(437文字)
Gemini 1.5 Flash

この資料は、2023年改訂版「新しい資本主義のグランドデザイン及び実行計画」とその基礎資料集です。 主な柱は、人への投資、構造的賃上げ、GX・DXへの投資、スタートアップ育成、社会的課題の解決、資産所得倍増です。 人への投資では、構造的賃上げのための「三位一体の労働市場改革」を推進し、リ・スキリング支援、職務給導入、労働移動の円滑化を図ります。GX・DXでは、エネルギー安全保障、脱炭素化、デジタル化を推進し、国内企業立地促進、高度外国人材の呼び込みを進めます。スタートアップ育成では、5か年計画に基づき、人材育成、資金供給、オープンイノベーションを促進します。 社会的課題の解決では、インパクトスタートアップ、NPO等への支援を強化します。資産所得倍増では、NISA制度の抜本的拡充・恒久化、iDeCo制度の改革、金融経済教育の充実等を行い、中間層の形成を促進します。 これらの施策を通して、成長と分配の好循環を実現し、持続可能な社会経済システムを構築することを目指しています。 
(437文字)

Gemini 2.0 Flash Experimental 

この資料は、日本政府が提唱する「新しい資本主義」の実現に向けた具体的な政策と、その実現に向けた課題をまとめたものです。まず、現状の資本主義が抱える課題として、経済格差の拡大やサプライチェーンの脆弱性を指摘し、その上で、成長と分配の好循環を生み出すための政策を提示しています。具体的には、人への投資、技術革新、GX・DXへの投資を強化し、構造的な賃上げや企業の生産性向上を目指します。また、市場の失敗を是正するために、官民連携を強化し、社会的課題解決型のビジネスを支援します。また、資産所得倍増プランを通じて中間層の拡大を目指し、NISA制度やiDeCo制度の拡充、金融経済教育の推進などを通して、国民の資産形成を促します。さらに、地域経済の活性化のため、デジタル田園都市国家構想の実現や、地方のインバウンド需要の拡大、イノベーション拠点整備などを推進します。新しい資本主義の実現のため、官民がそれぞれの役割を果たすとともに、各施策の進捗状況を定期的に検証することが重要であるとしています。(444文字)

それぞれのモデルの正答率と平均文字数は、以下(表6) のようになりました。

(表6)長文要約結果の文字数の比較

model
出力例の文字数
平均出力長( / 5)
Gemini 1.5 Flash
437 (+137)
469.6 (+169.6)
Gemini 2.0 Flash Experimental
444 (+144)
458.2 (+158.2)

文字数については、プロンプトでは「300字程度で」と指定していましたが、(表6) に
示すように、試行回数=5 の場合の平均出力長はどちらのモデルでも指定文字数より長く、全ての回答で100文字以上は超過していました。

文章の内容について、生成結果の例(表5)を見ると、Gemini 2.0 Flash Experimental と Gemini 1.5 Flash のどちらも内容や構成が似ていて、あまり差はないように見られます。
他の生成結果についても「この資料は ~ 」と資料の概要から書き始めていましたが、Gemini 2.0 Flash Experimental  の方が、段落分けや箇条書きなどの表現の工夫が多い印象がありました。


内容の違いが分かりにくいため、GPT-4o を利用して、以下のプロンプトで2つの文章を
比較・評価してみます。

以下の2つの説明はある文書の要約です。これらを比較して、どちらの説明がより良いか評価してください。

 (表5 の 2つの生成結果の例を入力)

GPT-4o による評価は以下のようになりました。

文章2(Gemini 2.0 Flash Experimental )の方が優れていると評価できる。

理由:

  • 背景・課題・解決策が一貫した流れで説明され、政策の意義がより明確に伝わる。
  • 読者が「なぜこれらの施策が必要なのか」を理解しやすく、説得力がある。
  • 政策の進捗管理や官民連携の重要性に触れており、単なる施策紹介にとどまらず、
    実現可能性も考慮している。

ただし、

  • 簡潔に要点を知りたい場合は、文章1(Gemini 1.5 Flash)の方が適している。
文章2の冗長さを改善し、よりコンパクトにまとめることで、より良い要約になる。

このように、GPT-4o による評価では、Gemini 2.0 Flash Experimental  の方がやや冗長ではあるものの、具体的かつ明確に説明されているようです。


まとめ

本記事では「Gemini 2.0 Flash」についてご紹介いたしました。

今回は2つの質問を試してみました。文脈理解が必要なマラソンの順位についての質問は、Gemini 1.5 Flashよりは正答率が高くなったものの、正確性は高くはないことが見て取れました。また、要約タスクについては、どちらも指定文字数を超過しており、内容や文字数に大差はありませんでした。

Google の公開したベンチマークテストの結果では「より強力なパフォーマンスを実現した」と説明されていますが、日本語での複雑なタスクにはまだ対応しきれていないのかもしれません。

また、現在は音声や画像による出力機能が公開されていないため、これらについても期待が高まります。

  


【参考文献】

[1] https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024

[2] https://aistudio.google.com

[3] https://ai.google.dev/gemini-api/docs/models/gemini-v2?hl=ja

[4] https://ai.google.dev/gemini-api/docs/models/gemini?hl=ja

[5] https://www.cas.go.jp/jp/seisaku/atarashii_sihonsyugi/pdf/ap2023.pdf