Halaman ini diterjemahkan oleh Cloud Translation API.

Pelajari model Gemini

Kelompok model Gemini dianggap sebagai multimodal karena mampu memproses informasi dari berbagai modalitas, termasuk gambar, video, dan teks. Misalnya, Anda dapat mengirim foto sepiring kue ke model Gemini dan memintanya untuk memberi Anda resep kue tersebut.

Perintah	Respons
Kasih resep kue ini.	BAHAN - 1 c. (2 batang) mentega tanpa garam, dilunakkan - 3/4 c. gula pasir - 3/4 c. gula merah, kemasan - 1 sdt . ekstrak vanila - 2 telur besar - 2 1/4 c. tepung serbaguna - 1 sdt. soda kue - 1 sdt. garam ...

Anda dapat berinteraksi dengan lini model Gemini menggunakan Gemini API yang disediakan oleh Vertex AI di Google Cloud. Untuk aplikasi seluler dan web, Anda dapat menggunakan Vertex AI for Firebase SDK untuk memanggil Gemini API dan berinteraksi dengan model Gemini langsung dari aplikasi.

Halaman ini memberikan informasi berikut tentang model Gemini:

Perbandingan tingkat tinggi kasus penggunaan untuk berbagai model Gemini, termasuk jenis inputnya yang didukung.
Perbandingan detail untuk setiap model, misalnya token input maksimum atau durasi video maksimum.
Deskripsi cara membuat versi model Gemini, khususnya versi stabil, diupdate otomatis, dan pratinjau.
Daftar nama model yang tersedia untuk disertakan dalam kode Anda selama inisialisasi.
Daftar bahasa yang didukung untuk model Gemini.

Model yang tersedia

Anda dapat menggunakan salah satu model Gemini berikut dengan Vertex AI for Firebase:

Gemini 1.5 Flash
Model multimodal yang mendukung jenis input dan output yang sama seperti 1.5 Pro (serta total jumlah token), tetapi 1.5 Flash dirancang khusus untuk aplikasi bervolume tinggi dan hemat biaya.
Gemini 1.5 Pro
Model multimodal yang mendukung penambahan file gambar, audio, video, dan PDF dalam prompt teks atau chat untuk respons teks atau kode. Selain itu, ia mendukung pemahaman konteks panjang hingga dengan 1 juta token.
Gemini 1.0 Pro Vision
Model multimodal yang dirancang untuk menangani teks, gambar, dan video untuk respons teks atau kode. Tidak bisa digunakan untuk chat.
Gemini 1.0 Pro
Model yang dirancang untuk menangani tugas natural language, chat multiturn dengan teks dan kode, serta pembuatan kode.

Langsung ke nama model untuk disertakan dalam kode Anda

Kasus penggunaan dan kemampuan untuk setiap model

Setiap model Gemini memiliki kemampuan yang berbeda untuk mendukung berbagai kasus penggunaan. Anda dapat mempelajari lebih lanjut di dokumentasi Google Cloud tentang setiap model Gemini.

Input dan output yang didukung untuk setiap model

	Flash Gemini 1.5	Gemini 1.5 Pro	Gemini 1.0 Pro Vision	Gemini 1.0 Pro
Jenis input
Teks
Kode
Gambar
PDF
Video (hanya frame)
Video (frame dan audio)
Audio
Jenis output
Teks
Kode

Untuk mempelajari jenis file yang didukung, lihat File input yang didukung dan persyaratan untuk Vertex AI Gemini API.

Kemampuan dan fitur umum yang didukung untuk setiap model

		Flash Gemini 1.5	Gemini 1.5 Pro	Gemini 1.0 Pro Vision	Gemini 1.0 Pro
Pembuatan teks dari prompt hanya teks
Pembuatan teks dari perintah multimodal
Output JSON (mode skema terbatas) (segera hadir di Vertex AI for Firebase SDK)
Chat multi-giliran
Panggilan fungsi
	Panggilan fungsi dasar
	Panggilan fungsi paralel
	Mode panggilan fungsi
Menghitung token dan karakter yang dapat ditagih
Petunjuk sistem

Informasi mendetail tentang setiap model

Properti	Gemini 1.5 Flash / Gemini 1.5 Pro	Gemini 1.0 Pro Vision	Gemini 1.0 Pro
Batas token total (kombinasi input dan output) *	1 juta token	16.384 token	32.760 token
Batas token output *	8.192 token	2.048 token	8.192 token
Jumlah maksimum gambar per permintaan	3.000 gambar	16 gambar	T/A
Ukuran gambar berenkode base64 maksimum	7 MB	7 MB	T/A
Ukuran PDF maksimum	30 MB	30 MB	T/A
Jumlah maksimum file video per permintaan	10 file video	1 file video	T/A
Durasi video maksimum (hanya frame)	Video berdurasi 60 menit	2 menit	T/A
Durasi video maksimum (frame dan audio)	~45 menit video	T/A	T/A
Jumlah maksimum file audio per permintaan	1 file audio	T/A	T/A
Durasi audio maksimum	~8,4 jam audio	T/A	T/A

^{* Untuk semua model Gemini, satu token setara dengan sekitar 4 karakter,
jadi 100 token terdiri dari 60-80 kata dalam bahasa Inggris. Anda dapat menentukan jumlah total token dalam permintaan menggunakan countTokens.}

Di sini Anda dapat menemukan informasi yang lebih mendetail tentang file model dan input:

Pelajari perbedaan antara model multimodal dalam dokumentasi Google Cloud.
Pelajari jenis file yang didukung, cara menentukan jenis MIME, dan cara memastikan bahwa file dan permintaan multimodal Anda memenuhi persyaratan dan ikuti praktik terbaik di File input yang didukung dan persyaratan untuk Vertex AI Gemini API.

Pembuatan versi model

Model Gemini ditawarkan dalam versi stabil, diupdate otomatis, dan pratinjau.

Versi Stabil dianggap Tersedia Secara Umum.
- Versi stabil memiliki nama model yang ditambahkan dengan nomor versi tiga digit tertentu, misalnya gemini-1.0-pro-001.
Versi Diperbarui otomatis selalu mengarah ke versi stabil terbaru dari model tersebut; jika versi stabil baru dirilis, versi yang diupdate otomatis akan otomatis mulai mengarah ke versi stabil baru tersebut.
- Versi yang diperbarui otomatis memiliki nama model tanpa penambahan, misalnya gemini-1.0-pro.
Versi Pratinjau memiliki kemampuan baru dan dianggap tidak stabil. Perhatikan bahwa versi pratinjau selalu mengarah ke versi pratinjau terbaru dari model tersebut; jika versi pratinjau baru dirilis, semua versi pratinjau yang ada akan otomatis mulai mengarah ke versi pratinjau baru tersebut.
- Versi pratinjau memiliki nama model yang ditambahkan dengan -preview bersama dengan tanggal rilis awal model (-MMDD), misalnya gemini-1.5-pro-preview-0409 (dirilis pada 9 April 2024).

Pelajari lebih lanjut versi model Gemini yang tersedia dan siklus prosesnya di dokumentasi Google Cloud.

Nama model yang tersedia

Nama model adalah nilai eksplisit yang Anda sertakan dalam kode Anda selama inisialisasi model generatif (yang merupakan langkah yang diperlukan untuk memanggil Gemini API). Untuk mengetahui contoh inisialisasi bahasa Anda, lihat panduan memulai.

Nama model Flash Gemini 1.5

Nama model	Deskripsi	Tahap rilis	Tanggal rilis awal	Tanggal penghentian
Versi stabil
`gemini-1.5-flash-001`	Versi stabil terbaru Gemini 1.5 Flash	Ketersediaan Umum	2024-05-24	Mulai 24-05-2025
Versi yang diupdate otomatis
`gemini-1.5-flash`	Mengarah ke versi stabil terbaru 1.5 Flash (saat ini `gemini-1.5-flash-001`)	Ketersediaan Umum	2024-05-24	---
Versi pratinjau
`gemini-1.5-flash-preview-0514`	Versi pratinjau terbaru Gemini 1.5 Flash	Pratinjau Publik	2024-05-14	2024-06-24

Nama model Gemini 1.5 Pro

Nama model	Deskripsi	Tahap rilis	Tanggal rilis awal	Tanggal penghentian
Versi stabil
`gemini-1.5-pro-001`	Gemini 1.5 Pro versi stabil terbaru	Ketersediaan Umum	2024-05-24	Mulai 24-05-2025
Versi yang diupdate otomatis
`gemini-1.5-pro`	Mengarah ke versi stabil terbaru 1.5 Pro (saat ini `gemini-1.5-pro-001`)	Ketersediaan Umum	2024-05-24	---
Versi pratinjau
`gemini-1.5-pro-preview-0514`	Versi pratinjau terbaru Gemini 1.5 Pro	Pratinjau Publik	2024-05-14	2024-06-24
`gemini-1.5-pro-preview-0409`	Mengarah ke `gemini-1.5-pro-preview-0514` (yang merupakan versi pratinjau terbaru)	Pratinjau Publik	2024-04-09	2024-06-14

Nama model Gemini 1.0 Pro Vision

Nama model	Deskripsi	Tahap rilis	Tanggal rilis awal	Tanggal penghentian
Versi stabil
`gemini-1.0-pro-vision-001`	Gemini 1.0 Pro Vision versi stabil terbaru	Ketersediaan Umum	2024-02-15	Mulai 15-02-2025
Versi yang diupdate otomatis
`gemini-1.0-pro-vision`	Mengarah ke versi stabil terbaru 1.5 Pro Vision (saat ini `gemini-1.5-pro-vision-001`)	Ketersediaan Umum	2024-01-04	---

Nama model Gemini 1.0 Pro

Nama model	Deskripsi	Tahap rilis	Tanggal rilis awal	Tanggal penghentian
Versi stabil
`gemini-1.0-pro-002`	Gemini 1.0 Pro versi stabil terbaru	Ketersediaan Umum	2024-04-09	Mulai 09-04-2025
`gemini-1.0-pro-001`	Versi stabil Gemini 1.0 Pro	Ketersediaan Umum	2024-02-15	Mulai 15-02-2025
Versi yang diupdate otomatis
`gemini-1.0-pro`	Mengarah ke versi 1.0 Pro stabil terbaru (saat ini `gemini-1.0-pro-002`)	Ketersediaan Umum	2024-02-15	---

Bahasa yang didukung

Model Gemini mendukung bahasa berikut:

Arab (ar), Bengali (bn), Bulgaria (bg), China Aksara Sederhana dan tradisional (zh), Kroasia (hr), Ceko (cs), Denmark (da), Belanda (nl), Inggris (en), Estonia (et), Finlandia (fi), Prancis (fr), Jerman (de), Yunani (el), Ibrani (iw), Hindi (hi), Hungaria (hu), Indonesia (id), Italia (hi), Hungaria (hu), Indonesia (id), Italia (hi), Hungaria (hu), Indonesia (id), Italia (it), Polandia.

Langkah berikutnya

Coba kemampuan Gemini API

Membuat percakapan multi-giliran (chat).
Buat teks dari prompt khusus teks.
Buat teks dari perintah multimodal (termasuk teks, gambar, PDF, video, dan audio).
Gunakan panggilan fungsi untuk menghubungkan model generatif ke sistem dan informasi eksternal.