Modele z rodziny Gemini są uważane za multimodalne, ponieważ są w stanie przetwarzać informacje z różnych modalności, w tym obrazy, filmy i tekst. Możesz na przykład wysłać modelowi Gemini zdjęcie talerzyka ciasteczek i poprosić go o podanie przepisu na te ciasteczka.
Prompt | Odpowiedź |
Podaj mi przepis na te ciasteczka. ![]() |
**Składniki** – 1 c. (2 pałeczki) niesolonego masła, zmiękczonego – 3/4 c granulowanego cukru – 3/4 c brązowego cukru zapakowane – 1 łyżeczka ekstrakt waniliowy – 2 duże jajka – 2 1/4 mąki uniwersalnej – 1 łyżeczka sody oczyszczonej – 1 łyżeczka soli ... |
Możesz korzystać z modeli z rodziny Gemini za pomocą Gemini API udostępnianego przez Vertex AI w Google Cloud. W przypadku aplikacji mobilnych i internetowych możesz używać pakietów SDK Vertex AI dla Firebase, aby wywoływać interfejs Gemini API i wchodzić w interakcję z modelami Gemini bezpośrednio w aplikacji.
Ta strona zawiera te informacje o modelach Gemini:
Ogólne porównanie przypadków użycia różnych modeli Gemini z uwzględnieniem ich obsługiwanych typów wejściowych.
Porównanie szczegółów każdego modelu, na przykład maksymalnej liczby tokenów wejściowych lub maksymalnej długości filmu.
Opis wersji modeli Gemini, w szczególności ich wersji stabilnej, automatycznej i podglądu.
Listy dostępnych nazw modeli do uwzględnienia w kodzie podczas inicjowania.
Lista języków obsługiwanych w przypadku modeli Gemini.
Dostępne modele
W Vertex AI dla Firebase możesz używać dowolnych z tych modeli Gemini:
Gemini 1.5 Flash
Model multimodalny, który obsługuje te same dane wejściowe i wyjściowe co w wersji 1.5 Pro (oraz łączną liczbę tokenów), ale model 1.5 Flash został zaprojektowany z myślą o dużej ilości i ekonomicznych aplikacjach.Gemini 1.5 Pro
Model multimodalny, który obsługuje dodawanie plików graficznych, audio, wideo i PDF w promptach tekstowych lub na czacie w odpowiedziach tekstowych lub kodach. Obsługuje również zrozumienie długiego kontekstu z obsługą do 1 miliona tokenów.Gemini 1.0 Pro Vision
Wielomodalny model do obsługi tekstu, obrazów i filmów w odpowiedzi na tekst lub kod. Nie można użyć do czatu.Gemini 1.0 Pro
Model zaprojektowany do obsługi zadań związanych z językiem naturalnym, wieloetapowego czatu z tekstem i kodem oraz generowania kodu.
Przejdź do nazw modeli, które chcesz uwzględnić w kodzie
Przypadki użycia i możliwości każdego modelu
Każdy model Gemini ma inne możliwości dostosowane do różnych przypadków użycia. Więcej informacji na temat każdego z modeli Gemini znajdziesz w dokumentacji Google Cloud.
Obsługiwane dane wejściowe i wyjściowe dla każdego modelu
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
Typy danych wejściowych | ||||
Tekst | ||||
Kod | ||||
Obraz | ||||
PDF. | ||||
Wideo (tylko klatki) | ||||
Wideo (klatki i dźwięk) | ||||
Dźwięk | ||||
Typy danych wyjściowych | ||||
Tekst | ||||
Kod |
Informacje o obsługiwanych typach plików znajdziesz w artykule Obsługiwane pliki wejściowe i wymagania interfejsu Vertex AI Gemini API.
Obsługiwane możliwości i ogólne funkcje każdego modelu
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
Generowanie tekstu na podstawie promptów tekstowych | |||||
Generowanie tekstu na podstawie promptów multimodalnych | |||||
Dane wyjściowe JSON (tryb ograniczonego schematu) (wkrótce w pakietach SDK Vertex AI dla Firebase) |
|||||
Czat wieloetapowy | |||||
Wywoływanie funkcji | |||||
Wywoływanie funkcji podstawowych | |||||
Wywoływanie funkcji równoległej | |||||
Tryb wywoływania funkcji | |||||
Zliczanie tokenów i znaków podlegających rozliczeniu | |||||
Instrukcje systemowe |
szczegółowe informacje o każdym modelu.
Właściwość |
Gemini 1.5 Flash / Gemini 1.5 Pro |
Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|
Łączny limit tokenów (połączone dane wejściowe i wyjściowe)* | 1 milion tokenów | 16 384 tokeny | 32 760 tokenów |
Limit tokenów wyjściowych* | 8192 tokeny | 2048 tokenów | 8192 tokeny |
Maksymalna liczba obrazów na żądanie | 3000 obrazów | 16 obrazów | Nie dotyczy |
Maksymalny rozmiar obrazu w kodowaniu base64 | 7 MB | 7 MB | Nie dotyczy |
Maksymalny rozmiar pliku PDF | 30 MB | 30 MB | Nie dotyczy |
Maksymalna liczba plików wideo na żądanie | 10 plików wideo. | 1 plik wideo | Nie dotyczy |
Maksymalna długość filmu (tylko klatki) | 60 minut filmu | 2 minuty | Nie dotyczy |
Maksymalna długość filmu (klatki i dźwięk) | Ok. 45 minut filmu | Nie dotyczy | Nie dotyczy |
Maksymalna liczba plików audio na żądanie | 1 plik audio | Nie dotyczy | Nie dotyczy |
Maksymalna długość ścieżki dźwiękowej | Ok.8,4 godziny audio | Nie dotyczy | Nie dotyczy |
* We wszystkich modelach Gemini token odpowiada około 4 znakom, więc 100 tokenów to około 60–80 angielskich słów. Możesz określić łączną liczbę tokenów w żądaniach za pomocą usługi countTokens
.
Tutaj znajdziesz jeszcze bardziej szczegółowe informacje o modelach i plikach wejściowych:
Więcej informacji o różnicach między modelami multimodalnymi znajdziesz w dokumentacji Google Cloud.
Dowiedz się więcej o obsługiwanych typach plików oraz o tym, jak określić typ MIME i upewnić się, że pliki i żądania multimodalne spełniają wymagania. Zapoznaj się też ze sprawdzonymi metodami opisanymi w artykule Obsługiwane pliki wejściowe i wymagania interfejsu Vertex AI Gemini API.
Obsługa wersji modeli
Modele Gemini są dostępne w wersji stabilnej, automatycznej i podglądu.
Wersje stabilne są uważane za ogólnodostępne.
- Wersje stabilne mają nazwy modeli z 3-cyfrowym numerem wersji, na przykład
.gemini-1.0-pro-001
- Wersje stabilne mają nazwy modeli z 3-cyfrowym numerem wersji, na przykład
Wersje automatycznie aktualizowane zawsze wskazują najnowszą najnowszą wersję stabilną danego modelu. Jeśli zostanie opublikowana nowa wersja stabilna, wersja aktualizowana automatycznie automatycznie zacznie wskazywać tę wersję.
- Wersje zaktualizowane automatycznie mają nazwy modeli bez dołączania, np.
.gemini-1.0-pro
- Wersje zaktualizowane automatycznie mają nazwy modeli bez dołączania, np.
Wersje wersje przedpremierowe mają nowe możliwości i są uważane za niestabilne. Pamiętaj, że wersje przedpremierowe zawsze wskazują na najnowszą wersję podglądu danego modelu. Jeśli zostanie opublikowana nowa wersja przedpremierowa, istniejąca wersja przedpremierowa zacznie automatycznie wskazywać nową wersję przedpremierową.
- Wersje przedpremierowe mają nazwy modeli uzupełnione znakiem
oraz datą początkową premiery modelu (-preview
), na przykład-MMDD
(opublikowano 9 kwietnia 2024 r.).gemini-1.5-pro-preview-0409
- Wersje przedpremierowe mają nazwy modeli uzupełnione znakiem
Więcej informacji o dostępnych wersjach modelu Gemini i ich cyklu życia znajdziesz w dokumentacji Google Cloud.
Dostępne nazwy modeli
Nazwy modeli to jawne wartości, które umieszczasz w kodzie podczas inicjowania modelu generatywnego (co jest wymaganym krokiem do wywołania interfejsu Gemini API). Przykłady inicjowania w Twoim języku znajdziesz w przewodniku dla początkujących.
Gemini 1.5 Flash – nazwy modeli
Nazwa modelu | Opis | Etap wersji | Data pierwszego wydania | Data wycofania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.5-flash-001 |
Najnowsza stabilna wersja Gemini 1.5 Flash | Ogólna dostępność | 2024-05-24 | Nie wcześniej niż 24.05.2025 |
Wersja automatycznie zaktualizowana | ||||
gemini-1.5-flash |
Wskazuje najnowszą stabilną wersję Flasha 1.5 (obecnie gemini-1.5-flash-001 |
Ogólna dostępność | 2024-05-24 | --- |
Wersja testowa | ||||
gemini-1.5-flash-preview-0514 |
Najnowsza wersja testowa Gemini 1.5 Flash | Publiczna wersja przedpremierowa | 2024-05-14 | 2024-06-24 |
Nazwy modeli Gemini 1.5 Pro
Nazwa modelu | Opis | Etap wersji | Data pierwszego wydania | Data wycofania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.5-pro-001 |
Najnowsza stabilna wersja Gemini 1.5 Pro | Ogólna dostępność | 2024-05-24 | Nie wcześniej niż 24.05.2025 |
Wersja automatycznie zaktualizowana | ||||
gemini-1.5-pro |
Wskazuje najnowszą stabilną wersję 1.5 Pro (obecnie gemini-1.5-pro-001 |
Ogólna dostępność | 2024-05-24 | --- |
Wersja testowa | ||||
gemini-1.5-pro-preview-0514 |
Najnowsza wersja testowa Gemini 1.5 Pro | Publiczna wersja przedpremierowa | 2024-05-14 | 2024-06-24 |
gemini-1.5-pro-preview-0409 |
Wskazuje na gemini-1.5-pro-preview-0514 (czyli najnowszą wersję przedpremierową) |
Publiczna wersja przedpremierowa | 2024-04-09 | 2024-06-14 |
Nazwy modeli Gemini 1.0 Pro Vision
Nazwa modelu | Opis | Etap wersji | Data pierwszego wydania | Data wycofania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.0-pro-vision-001 |
Najnowsza stabilna wersja Gemini 1.0 Pro Vision | Ogólna dostępność | 2024-02-15 | Nie wcześniej niż 15.02.2025 r. |
Wersja automatycznie zaktualizowana | ||||
gemini-1.0-pro-vision |
Wskazuje najnowszą stabilną wersję systemu 1.5 Pro Vision (obecnie gemini-1.5-pro-vision-001 |
Ogólna dostępność | 2024-01-04 | --- |
Nazwy modeli Gemini 1.0 Pro
Nazwa modelu | Opis | Etap wersji | Data pierwszego wydania | Data wycofania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.0-pro-002 |
Najnowsza stabilna wersja Gemini 1.0 Pro | Ogólna dostępność | 2024-04-09 | Nie wcześniej niż 9.04.2025 |
gemini-1.0-pro-001 |
Wersja stabilna Gemini 1.0 Pro | Ogólna dostępność | 2024-02-15 | Nie wcześniej niż 15.02.2025 r. |
Wersja automatycznie zaktualizowana | ||||
gemini-1.0-pro |
Wskazuje najnowszą stabilną wersję wersji 1.0 Pro (obecnie gemini-1.0-pro-002 |
Ogólna dostępność | 2024-02-15 | --- |
Obsługiwane języki
Modele Gemini obsługują te języki:
arabskie (ar), bengalski (bn), bułgarski (bg), chiński uproszczony (zh), chorwacki (hr), czeski (cs), duński (da), niderlandzki (nl), angielski (en), estoński (et), fiński (fi), francuski (fr), niemiecki (de), grecki (el), hebrajski (iw), hindi (hi), węgierski (hu), niderlandzki (izraelski), chiński (uproszczony i tradycyjny (zh )
Dalsze kroki
Wypróbuj możliwości interfejsu Gemini API
- tworzyć rozmowy wieloetapowe (czat),
- Generuj tekst na podstawie promptów tekstowych.
- Generuj tekst na podstawie promptów multimodalnych (w tym tekstu, obrazów, plików PDF, filmów i plików audio).
- Używaj wywołania funkcji, aby łączyć modele generatywne z zewnętrznymi systemami i informacjami.