PaliGemma
PaliGemma הוא מודל שפה פתוח וקליל ופתוח (VLM) בהשראת PaLI-3, ועל סמך רכיבים פתוחים כמו SigLIP של מודל ראייה מעובדת ושפת Gemma מודל. PaliGemma לוקחת גם תמונות וגם טקסט כקלט, ויכולה לענות על שאלות של תמונות עם פירוט והקשר. כלומר, PaliGemma יכולה לבצע ניתוח מעמיק יותר של תמונות ולספק תובנות מועילות, כמו הוספת כיתוב לתמונות ולסרטונים קצרים, זיהוי אובייקטים וקריאת טקסט שמוטמע בתוך תמונות.
יש שתי קבוצות של מודלים של PaliGemma, קבוצה של שימוש כללי וקבוצה מוכוונת מחקר:
- PaliGemma – מודלים שאומנו מראש לשימוש כללי, שאפשר לכוונן אותם לביצוע מגוון משימות.
- PaliGemma-FT – מודלים מוכווני מחקר שכווננו במיוחד למערכי נתונים ספציפיים של מחקר.
בין היתרונות המרכזיים:
-
הבנה מרובת מצבים
בו-זמנית מבין תמונות וטקסט. -
דגם בסיס רב-תכליתי
ניתן לבצע כוונון עדין למגוון רחב של משימות בשפות ראייה. -
ניתוח בשטח
מגיע עם נקודת ביקורת שמעוטרת בתערובת של משימות לשימוש מיידי במחקר.