Esta página foi traduzida pela API Cloud Translation.

Saiba mais sobre os modelos do Gemini

A família de modelos Gemini é considerada multimodal porque é capaz de processar informações de várias modalidades, incluindo imagens, vídeos e texto. Por exemplo, você pode enviar a um modelo do Gemini a foto de um prato de biscoitos e pedir que ele mostre uma receita para você.

Comando	Resposta
Mostre um roteiro para esses cookies.	INGREDIENTES - 1 c. (2 palitos) manteiga sem sal e suave - 3/4 de xícara de açúcar granulado - 3/4 de xícara de açúcar mascavo, embalado - 1 colher de chá. extrato de baunilha - 2 ovos grandes - 2 1/4 de xícara de farinha de trigo - 1 colher de chá de bicarbonato de sódio - 1 colher de chá de sal ...

É possível interagir com a família de modelos Gemini usando a API Gemini fornecida pela Vertex AI no Google Cloud. Em apps para dispositivos móveis e da Web, você pode usar os SDKs da Vertex AI para Firebase para chamar a API Gemini e interagir com os modelos do Gemini diretamente do seu app.

Esta página traz as seguintes informações sobre os modelos Gemini:

Comparação de alto nível dos casos de uso dos vários modelos do Gemini, incluindo os tipos de entrada com suporte.
Comparação dos detalhes de cada modelo, por exemplo, máximo de tokens de entrada ou duração máxima do vídeo.
Descrição de como os modelos do Gemini têm controle de versões, especificamente as versões estáveis, atualizadas automaticamente e de pré-lançamento.
Listas de nomes de modelos disponíveis para incluir no código durante a inicialização.
Lista de idiomas compatíveis com os modelos do Gemini.

Modelos disponíveis

É possível usar qualquer um dos modelos do Gemini a seguir com a Vertex AI para Firebase:

Gemini 1.5 Flash
Modelo multimodal que oferece suporte aos mesmos tipos de entrada e saída do 1.5 Pro (além da contagem total de tokens), mas o 1.5 Flash foi projetado especificamente para aplicativos econômicos e de alto volume.
Gemini 1.5 Pro
Modelo multimodal que oferece suporte à adição de arquivos de imagem, áudio, vídeo e PDF em comandos de texto ou chat para uma resposta de texto ou código. Além disso, ele é compatível com a compreensão de contexto longo, com até 1 milhão de tokens.
Gemini 1.0 Pro Vision
Modelo multimodal projetado para processar texto, imagens e vídeos para uma resposta de texto ou código. Não pode ser usado para chat.
Gemini 1.0 Pro
Modelo projetado para processar tarefas de linguagem natural, chat com várias interações com texto e código e geração de código.

Acesse os nomes dos modelos para incluir no seu código

Casos de uso e recursos para cada modelo

Cada modelo do Gemini tem recursos diferentes para oferecer suporte a vários casos de uso. Saiba mais sobre cada um dos modelos do Gemini na documentação do Google Cloud.

Entrada e saída compatíveis com cada modelo

	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision	Gemini 1.0 Pro
Tipos de entrada
Textos
Código
Imagem
PDF
Vídeo (somente frames)
Vídeo (frames e áudio)
Áudio
Tipos de saída
Textos
Código

Para saber mais sobre os tipos de arquivos compatíveis, consulte Arquivos de entrada compatíveis e requisitos da API Gemini da Vertex AI.

Recursos compatíveis e recursos gerais de cada modelo

		Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision	Gemini 1.0 Pro
Geração de texto usando comandos somente de texto
Geração de texto usando comandos multimodais
Saída JSON (modo de esquema restrito) (em breve nos SDKs da Vertex AI para Firebase)
Chat multiturno
Chamadas de função
	Chamada de função básica
	Chamada de função paralela
	Modo da chamada de função
Contar tokens e caracteres faturáveis
Instruções do sistema

Informações detalhadas sobre cada modelo

Propriedade	Gemini 1.5 Flash / Gemini 1.5 Pro	Gemini 1.0 Pro Vision	Gemini 1.0 Pro
Limite total de tokens (entrada e saída combinadas) *	1 milhão de tokens	16.384 tokens	32.760 tokens
Limite de tokens de saída *	8.192 tokens	2.048 tokens	8.192 tokens
Número máximo de imagens por solicitação	3.000 imagens	16 imagens	N/A
Tamanho máximo da imagem codificada em base64	7 MB	7 MB	N/A
Tamanho máximo do PDF	30 MB	30 MB	N/A
Número máximo de arquivos de vídeo por solicitação	10 arquivos de vídeo	1 arquivo de vídeo	N/A
Duração máxima do vídeo (somente frames)	60 minutos de vídeo	2 minutos	N/A
Duração máxima do vídeo (frames e áudio)	Aprox. 45 minutos de vídeo	N/A	N/A
Número máximo de arquivos de áudio por solicitação	1 arquivo de áudio	N/A	N/A
Duração máxima do áudio	Cerca de 8,4 horas de áudio	N/A	N/A

^{* Para todos os modelos do Gemini, um token equivale a cerca de 4 caracteres. Portanto, 100 tokens equivalem a cerca de 60 a 80 palavras em inglês. É possível determinar a contagem total de tokens nas solicitações usando countTokens.}

Aqui você encontra informações ainda mais detalhadas sobre os modelos e arquivos de entrada:

Saiba mais sobre as diferenças entre os modelos multimodais na documentação do Google Cloud.
Saiba mais sobre os tipos de arquivo com suporte, como especificar o tipo MIME e como garantir que seus arquivos e solicitações multimodais atendam aos requisitos e sigam as práticas recomendadas em Arquivos de entrada compatíveis e requisitos para a API Gemini da Vertex AI.

Controle de versões dos modelos

Os modelos do Gemini são oferecidos nas versões estáveis, atualizados automaticamente e de pré-lançamento.

As versões estáveis são consideradas com disponibilidade geral.
- As versões estáveis têm nomes de modelo anexados a um número de versão específico de três dígitos, por exemplo, gemini-1.0-pro-001.
As versões atualizadas automaticamente sempre apontam para a versão estável mais recente desse modelo. Se uma nova versão estável for lançada, a versão atualizada automaticamente passará a apontar automaticamente para essa nova versão estável.
- As versões atualizadas automaticamente têm nomes de modelo sem anexo, por exemplo, gemini-1.0-pro.
As versões de pré-lançamento têm novos recursos e são consideradas não estáveis. As versões de pré-lançamento sempre apontam para a prévia mais recente desse modelo. Se uma nova versão de pré-lançamento for lançada, qualquer outra atual passará a apontar automaticamente para ela.
- As versões de pré-lançamento têm nomes de modelos anexados com -preview e a data de lançamento inicial do modelo (-MMDD), por exemplo, gemini-1.5-pro-preview-0409 (lançado em 9 de abril de 2024).

Saiba mais sobre as versões disponíveis do modelo do Gemini e o ciclo de vida delas na documentação do Google Cloud.

Nomes de modelos disponíveis

Os nomes dos modelos são os valores explícitos que você inclui no código durante a inicialização do modelo generativo, que é uma etapa necessária para chamar a API Gemini. Para exemplos de inicialização para sua linguagem, consulte o Guia explicativo.

Nomes dos modelos de Flash do Gemini 1.5

Nome do modelo	Descrição	Fase de lançamento	Data de lançamento inicial	Data de desativação
Versões estáveis
`gemini-1.5-flash-001`	Versão estável mais recente do Gemini 1.5 Flash	Disponibilidade geral	2024-05-24	Até 24/05/2025
Versão atualizada automaticamente
`gemini-1.5-flash`	Aponta para a versão estável mais recente do Flash 1.5 (atualmente `gemini-1.5-flash-001`).	Disponibilidade geral	2024-05-24	---
Visualizar versões
`gemini-1.5-flash-preview-0514`	Versão de pré-lançamento mais recente do Gemini 1.5 Flash	Prévia pública	2024-05-14	2024-06-24

Nomes dos modelos Gemini 1.5 Pro

Nome do modelo	Descrição	Fase de lançamento	Data de lançamento inicial	Data de desativação
Versões estáveis
`gemini-1.5-pro-001`	Versão estável mais recente do Gemini 1.5 Pro	Disponibilidade geral	2024-05-24	Até 24/05/2025
Versão atualizada automaticamente
`gemini-1.5-pro`	Aponta para a versão estável mais recente do 1.5 Pro (atualmente `gemini-1.5-pro-001`).	Disponibilidade geral	2024-05-24	---
Visualizar versões
`gemini-1.5-pro-preview-0514`	Versão de pré-lançamento mais recente do Gemini 1.5 Pro	Prévia pública	2024-05-14	2024-06-24
`gemini-1.5-pro-preview-0409`	Aponta para `gemini-1.5-pro-preview-0514` (que é a versão de pré-lançamento mais recente)	Prévia pública	2024-04-09	2024-06-14

Nomes dos modelos Gemini 1.0 Pro Vision

Nome do modelo	Descrição	Fase de lançamento	Data de lançamento inicial	Data de desativação
Versões estáveis
`gemini-1.0-pro-vision-001`	Versão estável mais recente do Gemini 1.0 Pro Vision	Disponibilidade geral	2024-02-15	Até 15/02/2025
Versão atualizada automaticamente
`gemini-1.0-pro-vision`	Aponta para a versão estável mais recente do 1.5 Pro Vision (atualmente `gemini-1.5-pro-vision-001`)	Disponibilidade geral	2024-01-04	---

Nomes dos modelos Gemini 1.0 Pro

Nome do modelo	Descrição	Fase de lançamento	Data de lançamento inicial	Data de desativação
Versões estáveis
`gemini-1.0-pro-002`	Versão estável mais recente do Gemini 1.0 Pro	Disponibilidade geral	2024-04-09	Até 09/04/2025
`gemini-1.0-pro-001`	Versão estável do Gemini 1.0 Pro	Disponibilidade geral	2024-02-15	Até 15/02/2025
Versão atualizada automaticamente
`gemini-1.0-pro`	Aponta para a versão estável mais recente do 1.0 Pro (atualmente `gemini-1.0-pro-002`).	Disponibilidade geral	2024-02-15	---

Idiomas disponíveis

Os modelos do Gemini oferecem suporte aos seguintes idiomas:

Árabe (ar), bengali (bn), búlgaro (bg), chinês simplificado e tradicional (zh), croata (hr), tcheco (cs), dinamarquês (da), holandês (nl), inglês (en), estoniano (et), finlandês (fi), francês (fr), alemão (de), grego (el), hebraico (iw), hindi (hi), húngaro (hu), indonésio (id),

Próximas etapas

Teste os recursos da API Gemini

Criar conversas de várias interações (chat).
Gerar texto com base em comandos somente de texto.
Gerar texto com base em comandos multimodais (incluindo texto, imagens, PDFs, vídeo e áudio).
Use a chamada de função para conectar modelos generativos a informações e sistemas externos.