Ta strona została przetłumaczona przez Cloud Translation API.

Informacje o modelach Gemini

Modele z rodziny Gemini są uważane za multimodalne, ponieważ są w stanie przetwarzać informacje z różnych modalności, w tym obrazy, filmy i tekst. Możesz na przykład wysłać modelowi Gemini zdjęcie talerzyka ciasteczek i poprosić go o podanie przepisu na te ciasteczka.

Prompt	Odpowiedź
Podaj mi przepis na te ciasteczka.	Składniki – 1 c. (2 pałeczki) niesolonego masła, zmiękczonego – 3/4 c granulowanego cukru – 3/4 c brązowego cukru zapakowane – 1 łyżeczka ekstrakt waniliowy – 2 duże jajka – 2 1/4 mąki uniwersalnej – 1 łyżeczka sody oczyszczonej – 1 łyżeczka soli ...

Możesz korzystać z modeli z rodziny Gemini za pomocą Gemini API udostępnianego przez Vertex AI w Google Cloud. W przypadku aplikacji mobilnych i internetowych możesz używać pakietów SDK Vertex AI dla Firebase, aby wywoływać interfejs Gemini API i wchodzić w interakcję z modelami Gemini bezpośrednio w aplikacji.

Ta strona zawiera te informacje o modelach Gemini:

Ogólne porównanie przypadków użycia różnych modeli Gemini z uwzględnieniem ich obsługiwanych typów wejściowych.
Porównanie szczegółów każdego modelu, na przykład maksymalnej liczby tokenów wejściowych lub maksymalnej długości filmu.
Opis wersji modeli Gemini, w szczególności ich wersji stabilnej, automatycznej i podglądu.
Listy dostępnych nazw modeli do uwzględnienia w kodzie podczas inicjowania.
Lista języków obsługiwanych w przypadku modeli Gemini.

Dostępne modele

W Vertex AI dla Firebase możesz używać dowolnych z tych modeli Gemini:

Gemini 1.5 Flash
Model multimodalny, który obsługuje te same dane wejściowe i wyjściowe co w wersji 1.5 Pro (oraz łączną liczbę tokenów), ale model 1.5 Flash został zaprojektowany z myślą o dużej ilości i ekonomicznych aplikacjach.
Gemini 1.5 Pro
Model multimodalny, który obsługuje dodawanie plików graficznych, audio, wideo i PDF w promptach tekstowych lub na czacie w odpowiedziach tekstowych lub kodach. Obsługuje również zrozumienie długiego kontekstu z obsługą do 1 miliona tokenów.
Gemini 1.0 Pro Vision
Wielomodalny model do obsługi tekstu, obrazów i filmów w odpowiedzi na tekst lub kod. Nie można użyć do czatu.
Gemini 1.0 Pro
Model zaprojektowany do obsługi zadań związanych z językiem naturalnym, wieloetapowego czatu z tekstem i kodem oraz generowania kodu.

Przejdź do nazw modeli, które chcesz uwzględnić w kodzie

Przypadki użycia i możliwości każdego modelu

Każdy model Gemini ma inne możliwości dostosowane do różnych przypadków użycia. Więcej informacji na temat każdego z modeli Gemini znajdziesz w dokumentacji Google Cloud.

Obsługiwane dane wejściowe i wyjściowe dla każdego modelu

	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision	Gemini 1.0 Pro
Typy danych wejściowych
Tekst
Kod
Obraz
PDF.
Wideo (tylko klatki)
Wideo (klatki i dźwięk)
Dźwięk
Typy danych wyjściowych
Tekst
Kod

Informacje o obsługiwanych typach plików znajdziesz w artykule Obsługiwane pliki wejściowe i wymagania interfejsu Vertex AI Gemini API.

Obsługiwane możliwości i ogólne funkcje każdego modelu

		Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 1.0 Pro Vision	Gemini 1.0 Pro
Generowanie tekstu na podstawie promptów tekstowych
Generowanie tekstu na podstawie promptów multimodalnych
Dane wyjściowe JSON (tryb ograniczonego schematu) (wkrótce w pakietach SDK Vertex AI dla Firebase)
Czat wieloetapowy
Wywoływanie funkcji
	Wywoływanie funkcji podstawowych
	Wywoływanie funkcji równoległej
	Tryb wywoływania funkcji
Zliczanie tokenów i znaków podlegających rozliczeniu
Instrukcje systemowe

szczegółowe informacje o każdym modelu.

Właściwość	Gemini 1.5 Flash / Gemini 1.5 Pro	Gemini 1.0 Pro Vision	Gemini 1.0 Pro
Łączny limit tokenów (połączone dane wejściowe i wyjściowe)*	1 milion tokenów	16 384 tokeny	32 760 tokenów
Limit tokenów wyjściowych*	8192 tokeny	2048 tokenów	8192 tokeny
Maksymalna liczba obrazów na żądanie	3000 obrazów	16 obrazów	Nie dotyczy
Maksymalny rozmiar obrazu w kodowaniu base64	7 MB	7 MB	Nie dotyczy
Maksymalny rozmiar pliku PDF	30 MB	30 MB	Nie dotyczy
Maksymalna liczba plików wideo na żądanie	10 plików wideo.	1 plik wideo	Nie dotyczy
Maksymalna długość filmu (tylko klatki)	60 minut filmu	2 minuty	Nie dotyczy
Maksymalna długość filmu (klatki i dźwięk)	Ok. 45 minut filmu	Nie dotyczy	Nie dotyczy
Maksymalna liczba plików audio na żądanie	1 plik audio	Nie dotyczy	Nie dotyczy
Maksymalna długość ścieżki dźwiękowej	Ok.8,4 godziny audio	Nie dotyczy	Nie dotyczy

^{* We wszystkich modelach Gemini token odpowiada około 4 znakom, więc 100 tokenów to około 60–80 angielskich słów. Możesz określić łączną liczbę tokenów w żądaniach za pomocą usługi countTokens.}

Tutaj znajdziesz jeszcze bardziej szczegółowe informacje o modelach i plikach wejściowych:

Więcej informacji o różnicach między modelami multimodalnymi znajdziesz w dokumentacji Google Cloud.
Dowiedz się więcej o obsługiwanych typach plików oraz o tym, jak określić typ MIME i upewnić się, że pliki i żądania multimodalne spełniają wymagania. Zapoznaj się też ze sprawdzonymi metodami opisanymi w artykule Obsługiwane pliki wejściowe i wymagania interfejsu Vertex AI Gemini API.

Obsługa wersji modeli

Modele Gemini są dostępne w wersji stabilnej, automatycznej i podglądu.

Wersje stabilne są uważane za ogólnodostępne.
- Wersje stabilne mają nazwy modeli z 3-cyfrowym numerem wersji, na przykład gemini-1.0-pro-001.
Wersje automatycznie aktualizowane zawsze wskazują najnowszą najnowszą wersję stabilną danego modelu. Jeśli zostanie opublikowana nowa wersja stabilna, wersja aktualizowana automatycznie automatycznie zacznie wskazywać tę wersję.
- Wersje zaktualizowane automatycznie mają nazwy modeli bez dołączania, np. gemini-1.0-pro.
Wersje wersje przedpremierowe mają nowe możliwości i są uważane za niestabilne. Pamiętaj, że wersje przedpremierowe zawsze wskazują na najnowszą wersję podglądu danego modelu. Jeśli zostanie opublikowana nowa wersja przedpremierowa, istniejąca wersja przedpremierowa zacznie automatycznie wskazywać nową wersję przedpremierową.
- Wersje przedpremierowe mają nazwy modeli uzupełnione znakiem -preview oraz datą początkową premiery modelu (-MMDD), na przykład gemini-1.5-pro-preview-0409 (opublikowano 9 kwietnia 2024 r.).

Więcej informacji o dostępnych wersjach modelu Gemini i ich cyklu życia znajdziesz w dokumentacji Google Cloud.

Dostępne nazwy modeli

Nazwy modeli to jawne wartości, które umieszczasz w kodzie podczas inicjowania modelu generatywnego (co jest wymaganym krokiem do wywołania interfejsu Gemini API). Przykłady inicjowania w Twoim języku znajdziesz w przewodniku dla początkujących.

Gemini 1.5 Flash – nazwy modeli

Nazwa modelu	Opis	Etap wersji	Data pierwszego wydania	Data wycofania
Wersje stabilne
`gemini-1.5-flash-001`	Najnowsza stabilna wersja Gemini 1.5 Flash	Ogólna dostępność	2024-05-24	Nie wcześniej niż 24.05.2025
Wersja automatycznie zaktualizowana
`gemini-1.5-flash`	Wskazuje najnowszą stabilną wersję Flasha 1.5 (obecnie `gemini-1.5-flash-001`)	Ogólna dostępność	2024-05-24	---
Wersja testowa
`gemini-1.5-flash-preview-0514`	Najnowsza wersja testowa Gemini 1.5 Flash	Publiczna wersja przedpremierowa	2024-05-14	2024-06-24

Nazwy modeli Gemini 1.5 Pro

Nazwa modelu	Opis	Etap wersji	Data pierwszego wydania	Data wycofania
Wersje stabilne
`gemini-1.5-pro-001`	Najnowsza stabilna wersja Gemini 1.5 Pro	Ogólna dostępność	2024-05-24	Nie wcześniej niż 24.05.2025
Wersja automatycznie zaktualizowana
`gemini-1.5-pro`	Wskazuje najnowszą stabilną wersję 1.5 Pro (obecnie `gemini-1.5-pro-001`)	Ogólna dostępność	2024-05-24	---
Wersja testowa
`gemini-1.5-pro-preview-0514`	Najnowsza wersja testowa Gemini 1.5 Pro	Publiczna wersja przedpremierowa	2024-05-14	2024-06-24
`gemini-1.5-pro-preview-0409`	Wskazuje na `gemini-1.5-pro-preview-0514` (czyli najnowszą wersję przedpremierową)	Publiczna wersja przedpremierowa	2024-04-09	2024-06-14

Nazwy modeli Gemini 1.0 Pro Vision

Nazwa modelu	Opis	Etap wersji	Data pierwszego wydania	Data wycofania
Wersje stabilne
`gemini-1.0-pro-vision-001`	Najnowsza stabilna wersja Gemini 1.0 Pro Vision	Ogólna dostępność	2024-02-15	Nie wcześniej niż 15.02.2025 r.
Wersja automatycznie zaktualizowana
`gemini-1.0-pro-vision`	Wskazuje najnowszą stabilną wersję systemu 1.5 Pro Vision (obecnie `gemini-1.5-pro-vision-001`)	Ogólna dostępność	2024-01-04	---

Nazwy modeli Gemini 1.0 Pro

Nazwa modelu	Opis	Etap wersji	Data pierwszego wydania	Data wycofania
Wersje stabilne
`gemini-1.0-pro-002`	Najnowsza stabilna wersja Gemini 1.0 Pro	Ogólna dostępność	2024-04-09	Nie wcześniej niż 9.04.2025
`gemini-1.0-pro-001`	Wersja stabilna Gemini 1.0 Pro	Ogólna dostępność	2024-02-15	Nie wcześniej niż 15.02.2025 r.
Wersja automatycznie zaktualizowana
`gemini-1.0-pro`	Wskazuje najnowszą stabilną wersję wersji 1.0 Pro (obecnie `gemini-1.0-pro-002`)	Ogólna dostępność	2024-02-15	---

Obsługiwane języki

Modele Gemini obsługują te języki:

arabskie (ar), bengalski (bn), bułgarski (bg), chiński uproszczony (zh), chorwacki (hr), czeski (cs), duński (da), niderlandzki (nl), angielski (en), estoński (et), fiński (fi), francuski (fr), niemiecki (de), grecki (el), hebrajski (iw), hindi (hi), węgierski (hu), niderlandzki (izraelski), chiński (uproszczony i tradycyjny (zh )

Dalsze kroki

Wypróbuj możliwości interfejsu Gemini API

tworzyć rozmowy wieloetapowe (czat),
Generuj tekst na podstawie promptów tekstowych.
Generuj tekst na podstawie promptów multimodalnych (w tym tekstu, obrazów, plików PDF, filmów i plików audio).
Używaj wywołania funkcji, aby łączyć modele generatywne z zewnętrznymi systemami i informacjami.