Adobe Firefly
Vývojář | Adobe |
---|---|
Typ softwaru | generativní umělá inteligence a artificial intelligence model |
Některá data mohou pocházet z datové položky. |
Adobe Firefly je sada generativních AI modelů zaměřených na tvorbu digitálního obsahu, vyvinutých společností Adobe. Firefly využívá pokročilé techniky strojového učení a hlubokých neuronových sítí k tvorbě a úpravě vizuálních a multimediálních materiálů.[1]
Za první rok od vydání (březen 2023) prvního veřejného pojetí generativní umělé inteligence (GAI) od Adobe – Firefly Image 2 bylo skrz tuto službu vygenerováno přes 6,5 miliardy obrázků ve více než 100 světových jazycích.[2][3]
Rozsah a možnosti výstupů
[editovat | editovat zdroj]Generování obrazu
[editovat | editovat zdroj]Firefly dokáže na základě textových zadání nebo referenčních obrazových vstupů generovat rozmanitou škálu statických obrazů. To zahrnuje různé styly, textury a kompozice, které mohou být použity pro vysoce personalizovaný grafický design, ilustrace, marketingové materiály a další.
Možnosti referenčních obrazů
[editovat | editovat zdroj]Sada modelů umožňuje využití referenčních obrazů pro přesnější zadání. Využívá „Scene composer“ se sémantickou syntézou obrazu na několika stupních.[4]
- Text to image (Text → obraz) – různě podrobná textová zadání, jednoslovné pokyny ani nevyhodnotí.
- Segmentation to image (Segmentace → obraz) – tvorba obrázků na základě segmentačních map, scéna je rozdělena na různé oblasti, které mají být jednotné celky nebo mít společné vlastnosti (např. konkrétní objekty, pozadí, světelný zdroj).
- Scene-based Text to Image (Text → obraz založený na scéně) – kombinace obou zmíněných metod, rozvržení generované kompozice je doplněno o textové instrukce blíže popisující charakter objektů a celkovou atmosféru scény.[4]
Tyto metody se dají kombinovat a referenčních obrázků lze zadat více, např. jeden pro hrubé rozmístění tvarů nebo textu a druhý pro jejich texturu nebo styl.[4]
Integrace v rámci Adobe Creative Cloud
[editovat | editovat zdroj]Adobe Firefly je implementován i přímo v rozhraní rodiny aplikací Adobe, zpřístupňuje generativní možnosti jako rozšíření obrazu, odstranění nebo přidání prvků a objektů (Adobe Photoshop).[5] Podobně lze pracovat s výtvory autentické a editovatelné vektorové grafiky (Adobe Illustrator).
Momentálně je ve vývoji i rozšíření pro Adobe Premiere Pro. Video model by měl být schopen vytvářet chytré masky pro sledování (trackování) objektů a přidávat nebo odstraňovat potřebné prvky i v rámci sekvence snímků.[6]
V rámci výzkumu částečně fundovaného Adobe vznikají i metody na pokročilou práci s generativním zvukem. Např. metody pro tvorbu hudby na základě syntézy textového zadání (žánr, nástroje…) a analýzy referenčního videa (podobnost videa pro které je hudba generována s již vyhodnocenými videi v databázi).[7]
Na druhé straně Adobe buduje ve spolupráci s americkou Stanford University velké data sety zvuků reálných objektů (počasí, citoslovce, zvuky přírody, aut…) a snaží se o jejich přesvědčivé doplnění do videa (nejen generovaného).[8]
B2B implementace
[editovat | editovat zdroj]Adobe rozšířili Firefly i jako B2B produkt a nabízí implementaci a ohýbání modelů pro potřeby komerční a sériové produkce. Data set lze rozšířit o interní data nebo požadavky na konsistenci / firemní identitu.[9][10]
Technické specifikace
[editovat | editovat zdroj]Architektura a technologie hlubokého učení
[editovat | editovat zdroj]Firefly Image 3 je postaven na základech pokročilých generativních předtrénovaných transformátorů (GPT). Modely jsou „předtrénovány“ na velkých datových sadách a pomocí metod jako je samořízené učení a generativní modelování se učí hledat spojitosti a podobnosti na těchto datech.[11][1]
Firefly staví na populárních frameworcích pro „hluboké učení“ (deep learning) TensorFlow (Google)[12] a PyTorch (Facebook AI Research).[13]
Výpočetně náročný proces trénování vizuálních modelů Firefly se opírá o výkonné GPU clustery (soustava výpočetních jednotek, více GPU „spřažených“ dohromady) a cloudové služby, jako jsou AWS (Amazon) a Azure (Microsoft).[14]
Pro korekci biasu a optimalizaci v průběhu učení jsou tvořeny adaptivní momentové odhady (Adam). Přesněji Firefly pracuje s algoritmy upravujícími rychlost učení pro každý parametr modelu na základě historie gradientů (spekulace na chybovost a její minimalizace). Model se tak učí z vlastních chyb a v čase efektivněji.[15]
Trénovací datová sada
[editovat | editovat zdroj]Samotná datová sada pro Adobe Firefly je tvořena z portfolia řádově stamilionů obrazových materiálů. Konkrétně z dat ze služby Adobe Stock, kde všichni přispěvatelé v rámci obchodních podmínek Adobe poskytují licenci mimo jiné právě pro trénink AI modelů.[16][17] Data jsou nejrůznějšího typu (texty, fonty, vektorová, bitmapová grafika, fotografie, animace, audiovizuální díla). A jsou navíc rozšířena o díla veřejných licencí (public domain).[1][18]
Generativní modely
[editovat | editovat zdroj]Firefly z podstaty generativních modelů vytváří nové datové instance – na základě datových sad a výše popsaného učení vytváří unikátní nové výtvory (byť inspirované / ovlivněné rozsahem a povahou tréninkových dat).[2] Adobe pro svou GAI využívá primárně 2 modely:
- Variational Autoencoders (VAEs), model analyzuje a reprezentuje data v nižší dimenzi a na tomto základu generuje nové datové instance z této reprezentace (kritérium četnosti, vlastností dat, statistika atd.).[19]
- Generative Adversarial Networks (GANs), principově představují neustálý boj (konkurenci) generátoru, který tvoří nové datové instance a diskriminátoru, který je kritériem věrnosti generovaných výstupů v porovnání s ukázkovým data setem nebo již evaluovanými AI výtvory. Generátor se neustále zlepšuje ve vytváření nových instancí dat, které jsou čím dál blíže těm skutečným, zatímco diskriminátor se zlepšuje v jejich rozpoznávání.[20]
Srovnání s dalšími běžnými visual modely
[editovat | editovat zdroj]Kromě Adobe Firefly jsou na trhu další GAI, svou povahou a rozšířeností jsou např. srovnatelné modely DALL-E 3 (OpenAI) nebo Midjourney (nezávislý vývoj).[21]
Je nutné říci, že objektivně komparovat modely je velice složité. Vždy záleží na konkrétním zadání pro GAI a kritériu srovnání. Nějaké trendy a obecnější závěry stejně pozorovat můžeme, např. podle testů AI Specialisty Chase Leana pro žurnál Shotkit, které srovnávaly právě 3 výše zmíněné GAI modely a jejich výkon pro různé případy užití.[22]
Se stejnými prompty Adobe Firefly překonávalo oba dříve zmíněné modely v oblasti realistických obrazů (největší detail, lepší rozlišení, realističtější světla a stíny). Naopak s textovými, kaligrafickými a jinými výstupy, které mají obsahovat typografii Firefly neobstál (písmena, tedy čitelnost, nebyla zachována), jediné DALL-E 3 v rámci testu, zapracovalo text v jeho původní podobě. Co se generování produktových fotografií a fotografií krajiny týče byl rozdíl v kvalitě menší.[22]
Midjourney může být uživatelsky méně přívětivé vzhledem k tomu, že jako hlavní rozhraní využívá aplikaci Discord, se kterou nejsou všichni uživatelé seznámeni.[23]
Firefly má díky velké platformě Adobe zapracovanou komplexnější integraci a provázanost mezi různými AI nástroji. Na druhé straně je Firefly vyčítáno, že i předplatitelé celého Creative Cloudu mají omezený počet „Generativních kreditů“ (promptů), byť na výstupech není vodoznak (varianta zdarma).[24][25]
Ukázky Firefly generovaného obsahu
[editovat | editovat zdroj]Ukázky generované Adobe Firefly Image 3, Text to image zadání.[26] Obrázky jsou výhradně pro ukázku různých výstupů generovaných Adobe Firefly, nijak nehodnotí kvalitu zpracování. Ani se stejným promptem nevznikne stejný obrázek.
Prompt 1: „Hyperrealistic young woman, holding dog with detailed fur, during golden hour, as realistic highlights and shadows as possible“ | Nejnižší hodnota vizuální intenzity, foto-realistický režim.
Prompt 2: „Artistic handwritten-like typography logo with exact letter by letter text "Adobe Firefly" | Vizuální intenzita 50%, umělecký režim (grafiky, ilustrace).
Prompt 3: „Paradise looking, but believable mountain landscape from drone perspective, sun is shining right over the edge of the highest mountain with snow on top“ | Vizuální intenzita 30%, foto-realistický režim.
Reference
[editovat | editovat zdroj]- ↑ a b c Adobe Research is helping shape the future of generative AI for creative expression with Firefly. Adobe Research [online]. [cit. 2024-06-15]. Dostupné online. (anglicky)
- ↑ a b COSTIN, Alexandru. Firefly at one: Enhancing experimentation, ideation, and exploration for creators of all levels | Adobe Blog. blog.adobe.com [online]. [cit. 2024-06-15]. Dostupné online.
- ↑ Umělá inteligence od Adobe. www.adobe.com [online]. [cit. 2024-06-15]. Dostupné online.
- ↑ a b c ZENG, Yu; LIN, Zhe; ZHANG, Jianming. SceneComposer: Any-Level Semantic Image Synthesis. In: [s.l.]: IEEE, 2023-06. Dostupné online. ISBN 979-8-3503-0129-8. DOI 10.1109/CVPR52729.2023.02152. S. 22468–22478.
- ↑ A Value-Oriented Investigation of Photoshop’s Generative Fill. arxiv.org [online]. [cit. 2024-06-15]. Dostupné online. (anglicky)
- ↑ FRANKIE, Tobin. Adobe Previews Breakthrough AI Innovations to Advance Professional Video Workflows Within Adobe Premiere Pro. Adobe News [online]. Adobe Inc., 2024-04-15 [cit. 2024-06-15]. Dostupné online.
- ↑ MCKEE, Daniel; SALAMON, Justin; SIVIC, Josef. Language-Guided Music Recommendation for Video via Prompt Analogies. In: [s.l.]: IEEE, 2023-06. Dostupné online. ISBN 979-8-3503-0129-8. DOI 10.1109/CVPR52729.2023.01420. S. 14784–14793.
- ↑ CLARKE, Samuel; GAO, Ruohan; WANG, Mason. REALIMPACT: A Dataset of Impact Sound Fields for Real Objects. In: [s.l.]: IEEE, 2023-06. Dostupné online. ISBN 979-8-3503-0129-8. DOI 10.1109/CVPR52729.2023.00152. S. 1516–1525.
- ↑ Firefly pro podniky – Adobe. www.adobe.com [online]. [cit. 2024-06-15]. Dostupné online.
- ↑ NELLIS, Stephen. Adobe pushes Firefly AI into big business, with financial cover. Reuters [online]. 2023-06-08 [cit. 2024-06-15]. Dostupné online.
- ↑ CARVALKO, Joseph. GPT -- A Paradigm Shift for the Twenty-First Century - TechRxiv. www.techrxiv.org [online]. [cit. 2024-06-15]. Dostupné online. DOI 10.36227/techrxiv.23690874.v1.
- ↑ TensorFlow: A system for large-scale machine learning. research.google [online]. [cit. 2024-06-15]. Dostupné online.
- ↑ CHINTALA, Soumith; LERER, Adam; STEINER, Benoit, et. al. PyTorch: An Imperative Style, High-Performance Deep Learning Library. Research paper [online]. Meta, FAIR, NeurIPS, 2019-12-02 [cit. 2024-06-15]. Dostupné online.
- ↑ KUMAR, Yogesh; KAUL, Surabhi; SOOD, Kanika. Effective Use of the Machine Learning Approaches on Different Clouds. SSRN Electronic Journal. 2019. Dostupné online [cit. 2024-06-15]. ISSN 1556-5068. DOI 10.2139/ssrn.3355203. (anglicky)
- ↑ KINGMA, Diederik P.; LEI BA, Jimmy. Adam: A Method for Stochastic Optimization. Conference paper at ICLR 2015 [online]. International Conference on Learning Representations, 2015-03-09 [cit. 2024-06-15]. Dostupné online.
- ↑ PH.D, Karthik Karunakaran. The Ethical Dilemma of Adobe Firefly: AI Training on Adobe Stock Images Raises Concerns [online]. 2023-06-23 [cit. 2024-06-15]. Dostupné online. (anglicky)
- ↑ Firefly FAQ for Adobe Stock Contributors. Adobe Support FAQ [online]. Adobe Inc., 2023-10-04 [cit. 2024-06-15]. Dostupné online.
- ↑ Adobe CEO on new era of generative AI and tackling misinformation. Washington Post. 2024-03-05. Dostupné online [cit. 2024-06-15]. ISSN 0190-8286. (anglicky)
- ↑ WIPF, David; BIN, Dai. Diagnosing and Enhancing VAE Models. arxiv.org [online]. Institute for Advanced Study Tsinghua University Beijing, China, Microsoft research, 2019-03-14 [cit. 2024-06-15]. Dostupné online.
- ↑ BENGESI, Staphord; EL-SAYED, Hoda; SARKER, MD Kamruzzaman. Advancements in Generative AI: A Comprehensive Review of GANs, GPT, Autoencoders, Diffusion Model, and Transformers. IEEE Access. 2024, roč. 12, s. 69812–69837. Dostupné online [cit. 2024-06-15]. ISSN 2169-3536. DOI 10.1109/ACCESS.2024.3397775.
- ↑ The Best AI Image Generators: DALL-E vs Midjourney vs Others. AltexSoft [online]. [cit. 2024-06-15]. Dostupné online. (anglicky)
- ↑ a b GUPTA, Yatharth. Adobe FireFly vs Midjourney vs DALL-E for AI Image Generation. Shotkit [online]. 2024-01-22 [cit. 2024-06-15]. Dostupné online. (anglicky)
- ↑ Discord Interface. Midjourney Documentation [online]. Midjourney [cit. 2024-06-15]. Dostupné online.
- ↑ S.R.O, oXy Online. Nadlimitní užívání generativní AI Adobe Firefly se bude platit: 4,99 USD/100 snímků. Digimanie.cz [online]. [cit. 2024-06-15]. Dostupné online.
- ↑ Generativní kredity. Adobe Support [online]. Adobe Inc. [cit. 2024-06-15]. Dostupné online.
- ↑ Adobe Firefly. firefly.adobe.com [online]. [cit. 2024-06-15]. Dostupné online.
Externí odkazy
[editovat | editovat zdroj]- Obrázky, zvuky či videa k tématu Adobe Firefly na Wikimedia Commons