了解 Gemini 模型

Gemini 系列模型被视为多模态,因为它们能够处理多种模态(包括图片、视频和文本)的信息。例如,你可以向 Gemini 模型发送一张一盘饼干的照片,让模型为你提供这些饼干的食谱。

提示 回答

告诉我这些 Cookie 的配方。

几块巧克力碎饼干的照片
**INGREDIENTS**
- 1 c. (2 枚)无盐黄油、软化
- 3/4 c 细粒糖
- 3/4 c 棕色糖,包装
- 1 匙。香草提取物
- 2 颗大鸡蛋
- 2 1/4 c. 通用面粉
- 1 茶匙小苏打
- 1 茶匙盐
...

您可以使用 Google Cloud 上的 Vertex AI 提供的 Gemini API 与 Gemini 系列模型进行交互。对于移动应用和 Web 应用,您可以使用 Vertex AI for Firebase SDK 直接从应用中调用 Gemini API 并与 Gemini 模型进行交互。

本页提供了有关 Gemini 模型的以下信息

  • 各种 Gemini 模型的用例简要比较,包括它们支持的输入类型。

  • 每个模型的详细信息的对比,例如输入令牌数量上限或视频时长上限。

  • 说明 Gemini 模型的版本控制方式,具体而言是其稳定版本自动更新版本预览版版本。

  • 要在初始化期间添加到代码中的可用模型名称的列表。

  • Gemini 模型支持的语言列表。

可用型号

您可以将以下任一 Gemini 模型与 Vertex AI for Firebase 搭配使用:

  • Gemini 1.5 Flash
    多模态模型,其输入和输出类型与 1.5 Pro 相同(以及总词元数),但 1.5 Flash 专为高用量、高性价比的应用而设计。

  • Gemini 1.5 Pro
    多模态模型,支持在文本或聊天提示中添加图片、音频、视频和 PDF 文件,以得到文本或代码回答。 此外,它支持多达 100 万个词元的长上下文理解。

  • Gemini 1.0 Pro Vision
    多模态模型,旨在处理文本、图片和视频,以生成文本或代码响应。无法用于聊天。

  • Gemini 1.0 Pro
    旨在处理自然语言任务、使用文本和代码的多轮聊天以及代码生成的模型。

跳转到要添加到代码中的型号名称

每种模型的使用场景和功能

每种 Gemini 模型都有不同的功能,可支持各种应用场景。 如需了解详情,请参阅 Google Cloud 文档,详细了解每个 Gemini 模型

每种模型支持的输入和输出

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
输入类型
文本
代码
映像
PDF
视频(仅限帧)
视频(帧和音频)
音频
输出类型
文本
代码

如需了解支持的文件类型,请参阅 Vertex AI Gemini API 支持的输入文件和要求

每个模型支持的功能和一般特性

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
根据纯文本提示生成文本
根据多模态提示生成文本
JSON 输出(受限架构模式)
(即将在 Vertex AI for Firebase SDK 中推出)
多轮聊天
函数调用
基本函数调用
并行函数调用
函数调用模式
统计令牌和可计费字符数
系统指令

每种模型的详细信息

属性 Gemini 1.5 Flash /
Gemini 1.5 Pro
Gemini 1.0 Pro Vision Gemini 1.0 Pro
词元总数上限(输入和输出组合)* 100 万个词元 16384 个词元 32760 个令牌
输出词元限制 * 8192 个词元 2048 个词元 8192 个词元
每个请求的图片数量上限 3,000 张图片 16 张图片 不适用
Base64 编码的图片大小上限 7 MB 7 MB 不适用
PDF 大小上限 30 MB 30 MB 不适用
每个请求的视频文件数量上限 10 个视频文件 1 个视频文件 不适用
视频时长上限(仅限帧) 60 分钟的视频 2 分钟 不适用
视频时长上限(帧和音频) 视频时长约 45 分钟 不适用 不适用
每个请求的音频文件数量上限 1 个音频文件 不适用 不适用
音频时长上限 大约 8.4 小时的音频 不适用 不适用

* 对于所有 Gemini 模型,一个词元大约相当于 4 个字符,因此 100 个词元大约相当于 60-80 个英语单词。您可以使用 countTokens 确定请求中的令牌总数。

您可以在以下位置找到有关模型和输入文件的更多详细信息

模型的版本控制

Gemini 模型提供稳定版自动更新预览版

  • 稳定版本被视为已推出正式版。

    • 稳定版的型号名称会附加一个特定的三位数版本号,例如 gemini-1.0-pro-001
  • 自动更新版本始终指向该模型的最新稳定版本;如果发布了新的稳定版本,自动更新版本会自动开始指向新的稳定版本。

    • 自动更新的版本具有没有附加的模型名称,例如 gemini-1.0-pro
  • 预览版具有新功能,被视为不稳定。请注意,预览版本始终指向该模型的最新预览版版本;如果发布了新的预览版本,任何现有的预览版本都会自动开始指向新的预览版本。

    • 预览版的模型名称会附加 -preview 以及模型的初始发布日期 (-MMDD),例如 gemini-1.5-pro-preview-0409(发布日期:2024 年 4 月 9 日)。

如需详细了解可用的 Gemini 模型版本及其生命周期,请参阅 Google Cloud 文档。

可用的型号名称

模型名称是您在初始化生成模型(调用 Gemini API 的必要步骤)期间在代码中包含的明确值。如需查看适用于您的语言的初始化示例,请参阅入门指南

Gemini 1.5 Flash 型号名称

模型名称 说明 发布阶段 首次发布日期 终止日期
稳定版
gemini-1.5-flash-001 最新的稳定版 Gemini 1.5 Flash 正式版 2024-05-24 不早于 2025-05-24
自动更新版本
gemini-1.5-flash 指向最新稳定版本的 1.5 Flash
(当前为 gemini-1.5-flash-001
正式版 2024-05-24 ---
预览版
gemini-1.5-flash-preview-0514 Gemini 1.5 Flash 的最新预览版 公开预览版 2024-05-14 2024-06-24

Gemini 1.5 Pro 型号名称

模型名称 说明 发布阶段 首次发布日期 终止日期
稳定版
gemini-1.5-pro-001 Gemini 1.5 Pro 最新稳定版 正式版 2024-05-24 不早于 2025-05-24
自动更新版本
gemini-1.5-pro 指向最新稳定版本的 1.5 Pro
(当前为 gemini-1.5-pro-001
正式版 2024-05-24 ---
预览版
gemini-1.5-pro-preview-0514 Gemini 1.5 Pro 的最新预览版 公开预览版 2024-05-14 2024-06-24
gemini-1.5-pro-preview-0409 指向 gemini-1.5-pro-preview-0514
(这是最新预览版本)
公开预览版 2024-04-09 2024-06-14

Gemini 1.0 Pro Vision 模型名称

模型名称 说明 发布阶段 首次发布日期 终止日期
稳定版
gemini-1.0-pro-vision-001 最新稳定版 Gemini 1.0 Pro Vision 正式版 2024-02-15 不早于 2025-02-15
自动更新版本
gemini-1.0-pro-vision 指向最新稳定版的 1.5 Pro Vision
(当前为 gemini-1.5-pro-vision-001
正式版 2024-01-04 ---

Gemini 1.0 Pro 模型名称

模型名称 说明 发布阶段 首次发布日期 终止日期
稳定版
gemini-1.0-pro-002 最新稳定版 Gemini 1.0 Pro 正式版 2024-04-09 不早于 2025-04-09
gemini-1.0-pro-001 Gemini 1.0 Pro 稳定版 正式版 2024-02-15 不早于 2025-02-15
自动更新版本
gemini-1.0-pro 指向最新稳定版本的 1.0 Pro
(当前为 gemini-1.0-pro-002
正式版 2024-02-15 ---

支持的语言

Gemini 模型支持以下语言:

阿拉伯语 (ar)、孟加拉语 (bn)、 保加利亚语 (S 瑞典语 (bg)、 拉丁语 (S 瑞典语 、 瑞典语 (S v l

后续步骤

试用 Gemini API 的功能