Informacje o modelach Gemini

Modele z rodziny Gemini są uważane za multimodalne, ponieważ są w stanie przetwarzać informacje z różnych modalności, w tym obrazy, filmy i tekst. Możesz na przykład wysłać modelowi Gemini zdjęcie talerzyka ciasteczek i poprosić go o podanie przepisu na te ciasteczka.

Prompt Odpowiedź

Podaj mi przepis na te ciasteczka.

Zdjęcie kilku ciasteczek z kawałkami czekolady
**Składniki**
– 1 c. (2 pałeczki) niesolonego masła, zmiękczonego
– 3/4 c granulowanego cukru
– 3/4 c brązowego cukru zapakowane
– 1 łyżeczka ekstrakt waniliowy
– 2 duże jajka
– 2 1/4 mąki uniwersalnej
– 1 łyżeczka sody oczyszczonej
– 1 łyżeczka soli
...

Możesz korzystać z modeli z rodziny Gemini za pomocą Gemini API udostępnianego przez Vertex AI w Google Cloud. W przypadku aplikacji mobilnych i internetowych możesz używać pakietów SDK Vertex AI dla Firebase, aby wywoływać interfejs Gemini API i wchodzić w interakcję z modelami Gemini bezpośrednio w aplikacji.

Ta strona zawiera te informacje o modelach Gemini:

Dostępne modele

W Vertex AI dla Firebase możesz używać dowolnych z tych modeli Gemini:

  • Gemini 1.5 Flash
    Model multimodalny, który obsługuje te same dane wejściowe i wyjściowe co w wersji 1.5 Pro (oraz łączną liczbę tokenów), ale model 1.5 Flash został zaprojektowany z myślą o dużej ilości i ekonomicznych aplikacjach.

  • Gemini 1.5 Pro
    Model multimodalny, który obsługuje dodawanie plików graficznych, audio, wideo i PDF w promptach tekstowych lub na czacie w odpowiedziach tekstowych lub kodach. Obsługuje również zrozumienie długiego kontekstu z obsługą do 1 miliona tokenów.

  • Gemini 1.0 Pro Vision
    Wielomodalny model do obsługi tekstu, obrazów i filmów w odpowiedzi na tekst lub kod. Nie można użyć do czatu.

  • Gemini 1.0 Pro
    Model zaprojektowany do obsługi zadań związanych z językiem naturalnym, wieloetapowego czatu z tekstem i kodem oraz generowania kodu.

Przejdź do nazw modeli, które chcesz uwzględnić w kodzie

Przypadki użycia i możliwości każdego modelu

Każdy model Gemini ma inne możliwości dostosowane do różnych przypadków użycia. Więcej informacji na temat każdego z modeli Gemini znajdziesz w dokumentacji Google Cloud.

Obsługiwane dane wejściowe i wyjściowe dla każdego modelu

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
Typy danych wejściowych
Tekst
Kod
Obraz
PDF.
Wideo (tylko klatki)
Wideo (klatki i dźwięk)
Dźwięk
Typy danych wyjściowych
Tekst
Kod

Informacje o obsługiwanych typach plików znajdziesz w artykule Obsługiwane pliki wejściowe i wymagania interfejsu Vertex AI Gemini API.

Obsługiwane możliwości i ogólne funkcje każdego modelu

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
Generowanie tekstu na podstawie promptów tekstowych
Generowanie tekstu na podstawie promptów multimodalnych
Dane wyjściowe JSON (tryb ograniczonego schematu)
(wkrótce w pakietach SDK Vertex AI dla Firebase)
Czat wieloetapowy
Wywoływanie funkcji
Wywoływanie funkcji podstawowych
Wywoływanie funkcji równoległej
Tryb wywoływania funkcji
Zliczanie tokenów i znaków podlegających rozliczeniu
Instrukcje systemowe

szczegółowe informacje o każdym modelu.

Właściwość Gemini 1.5 Flash /
Gemini 1.5 Pro
Gemini 1.0 Pro Vision Gemini 1.0 Pro
Łączny limit tokenów (połączone dane wejściowe i wyjściowe)* 1 milion tokenów 16 384 tokeny 32 760 tokenów
Limit tokenów wyjściowych* 8192 tokeny 2048 tokenów 8192 tokeny
Maksymalna liczba obrazów na żądanie 3000 obrazów 16 obrazów Nie dotyczy
Maksymalny rozmiar obrazu w kodowaniu base64 7 MB 7 MB Nie dotyczy
Maksymalny rozmiar pliku PDF 30 MB 30 MB Nie dotyczy
Maksymalna liczba plików wideo na żądanie 10 plików wideo. 1 plik wideo Nie dotyczy
Maksymalna długość filmu (tylko klatki) 60 minut filmu 2 minuty Nie dotyczy
Maksymalna długość filmu (klatki i dźwięk) Ok. 45 minut filmu Nie dotyczy Nie dotyczy
Maksymalna liczba plików audio na żądanie 1 plik audio Nie dotyczy Nie dotyczy
Maksymalna długość ścieżki dźwiękowej Ok.8,4 godziny audio Nie dotyczy Nie dotyczy

* We wszystkich modelach Gemini token odpowiada około 4 znakom, więc 100 tokenów to około 60–80 angielskich słów. Możesz określić łączną liczbę tokenów w żądaniach za pomocą usługi countTokens.

Tutaj znajdziesz jeszcze bardziej szczegółowe informacje o modelach i plikach wejściowych:

Obsługa wersji modeli

Modele Gemini są dostępne w wersji stabilnej, automatycznej i podglądu.

  • Wersje stabilne są uważane za ogólnodostępne.

    • Wersje stabilne mają nazwy modeli z 3-cyfrowym numerem wersji, na przykład gemini-1.0-pro-001.
  • Wersje automatycznie aktualizowane zawsze wskazują najnowszą najnowszą wersję stabilną danego modelu. Jeśli zostanie opublikowana nowa wersja stabilna, wersja aktualizowana automatycznie automatycznie zacznie wskazywać tę wersję.

    • Wersje zaktualizowane automatycznie mają nazwy modeli bez dołączania, np. gemini-1.0-pro.
  • Wersje wersje przedpremierowe mają nowe możliwości i są uważane za niestabilne. Pamiętaj, że wersje przedpremierowe zawsze wskazują na najnowszą wersję podglądu danego modelu. Jeśli zostanie opublikowana nowa wersja przedpremierowa, istniejąca wersja przedpremierowa zacznie automatycznie wskazywać nową wersję przedpremierową.

    • Wersje przedpremierowe mają nazwy modeli uzupełnione znakiem -preview oraz datą początkową premiery modelu (-MMDD), na przykład gemini-1.5-pro-preview-0409 (opublikowano 9 kwietnia 2024 r.).

Więcej informacji o dostępnych wersjach modelu Gemini i ich cyklu życia znajdziesz w dokumentacji Google Cloud.

Dostępne nazwy modeli

Nazwy modeli to jawne wartości, które umieszczasz w kodzie podczas inicjowania modelu generatywnego (co jest wymaganym krokiem do wywołania interfejsu Gemini API). Przykłady inicjowania w Twoim języku znajdziesz w przewodniku dla początkujących.

Gemini 1.5 Flash – nazwy modeli

Nazwa modelu Opis Etap wersji Data pierwszego wydania Data wycofania
Wersje stabilne
gemini-1.5-flash-001 Najnowsza stabilna wersja Gemini 1.5 Flash Ogólna dostępność 2024-05-24 Nie wcześniej niż 24.05.2025
Wersja automatycznie zaktualizowana
gemini-1.5-flash Wskazuje najnowszą stabilną wersję Flasha 1.5
(obecnie gemini-1.5-flash-001)
Ogólna dostępność 2024-05-24 ---
Wersja testowa
gemini-1.5-flash-preview-0514 Najnowsza wersja testowa Gemini 1.5 Flash Publiczna wersja przedpremierowa 2024-05-14 2024-06-24

Nazwy modeli Gemini 1.5 Pro

Nazwa modelu Opis Etap wersji Data pierwszego wydania Data wycofania
Wersje stabilne
gemini-1.5-pro-001 Najnowsza stabilna wersja Gemini 1.5 Pro Ogólna dostępność 2024-05-24 Nie wcześniej niż 24.05.2025
Wersja automatycznie zaktualizowana
gemini-1.5-pro Wskazuje najnowszą stabilną wersję 1.5 Pro
(obecnie gemini-1.5-pro-001)
Ogólna dostępność 2024-05-24 ---
Wersja testowa
gemini-1.5-pro-preview-0514 Najnowsza wersja testowa Gemini 1.5 Pro Publiczna wersja przedpremierowa 2024-05-14 2024-06-24
gemini-1.5-pro-preview-0409 Wskazuje na gemini-1.5-pro-preview-0514
(czyli najnowszą wersję przedpremierową)
Publiczna wersja przedpremierowa 2024-04-09 2024-06-14

Nazwy modeli Gemini 1.0 Pro Vision

Nazwa modelu Opis Etap wersji Data pierwszego wydania Data wycofania
Wersje stabilne
gemini-1.0-pro-vision-001 Najnowsza stabilna wersja Gemini 1.0 Pro Vision Ogólna dostępność 2024-02-15 Nie wcześniej niż 15.02.2025 r.
Wersja automatycznie zaktualizowana
gemini-1.0-pro-vision Wskazuje najnowszą stabilną wersję systemu 1.5 Pro Vision
(obecnie gemini-1.5-pro-vision-001)
Ogólna dostępność 2024-01-04 ---

Nazwy modeli Gemini 1.0 Pro

Nazwa modelu Opis Etap wersji Data pierwszego wydania Data wycofania
Wersje stabilne
gemini-1.0-pro-002 Najnowsza stabilna wersja Gemini 1.0 Pro Ogólna dostępność 2024-04-09 Nie wcześniej niż 9.04.2025
gemini-1.0-pro-001 Wersja stabilna Gemini 1.0 Pro Ogólna dostępność 2024-02-15 Nie wcześniej niż 15.02.2025 r.
Wersja automatycznie zaktualizowana
gemini-1.0-pro Wskazuje najnowszą stabilną wersję wersji 1.0 Pro
(obecnie gemini-1.0-pro-002)
Ogólna dostępność 2024-02-15 ---

Obsługiwane języki

Modele Gemini obsługują te języki:

arabskie (ar), bengalski (bn), bułgarski (bg), chiński uproszczony (zh), chorwacki (hr), czeski (cs), duński (da), niderlandzki (nl), angielski (en), estoński (et), fiński (fi), francuski (fr), niemiecki (de), grecki (el), hebrajski (iw), hindi (hi), węgierski (hu), niderlandzki (izraelski), chiński (uproszczony i tradycyjny (zh )

Dalsze kroki

Wypróbuj możliwości interfejsu Gemini API