PaliGemma

תוכלו לעיין במאגר של Gemma Cookbook לקבלת דוגמאות ליצירה ולכוונון! מידע נוסף

דף זה תורגם על ידי Cloud Translation API.

PaliGemma הוא מודל שפה פתוח וקליל ופתוח (VLM) בהשראת PaLI-3, ועל סמך רכיבים פתוחים כמו SigLIP של מודל ראייה מעובדת ושפת Gemma מודל. PaliGemma לוקחת גם תמונות וגם טקסט כקלט, ויכולה לענות על שאלות של תמונות עם פירוט והקשר. כלומר, PaliGemma יכולה לבצע ניתוח מעמיק יותר של תמונות ולספק תובנות מועילות, כמו הוספת כיתוב לתמונות ולסרטונים קצרים, זיהוי אובייקטים וקריאת טקסט שמוטמע בתוך תמונות.

יש שתי קבוצות של מודלים של PaliGemma, קבוצה של שימוש כללי וקבוצה מוכוונת מחקר:

PaliGemma – מודלים שאומנו מראש לשימוש כללי, שאפשר לכוונן אותם לביצוע מגוון משימות.
PaliGemma-FT – מודלים מוכווני מחקר שכווננו במיוחד למערכי נתונים ספציפיים של מחקר.

חשוב: רוב דגמי PaliGemma נדרשים כוונון לפי הסדר כדי להפיק תוצאות מועילות, מלבד הווריאנט paligemma-3b-mix. הקפידו לבצע כוונון עדין במודלים האלה ולבדוק את הפלט לפני שפורסים אותם למשתמשי קצה.

בין היתרונות המרכזיים:

הבנה מרובת מצבים

בו-זמנית מבין תמונות וטקסט.
דגם בסיס רב-תכליתי

ניתן לבצע כוונון עדין למגוון רחב של משימות בשפות ראייה.
ניתוח בשטח

מגיע עם נקודת ביקורת שמעוטרת בתערובת של משימות לשימוש מיידי במחקר.

PaliGemma

הבנה מרובת מצבים

דגם בסיס רב-תכליתי

ניתוח בשטח

מידע נוסף

הצגת כרטיס המודל

הצגה ב-Kaggle

הפעלה ב-Colab