Vissza a Blogra

Generatív AI képgenerálás: Midjourney, DALL-E, Stable Diffusion

8
 perc

Vendégszerző: Bereczki Nóra

Az utóbbi hónapokban előtérbe kerültek az úgynevezett text-to-image generatív AI megoldások, amelyek a felhasználó által megadott promtok (azaz utasítások) alapján generálnak képeket. A text-to-image, azaz szövegből kép egy olyan gépi tanulási módszer, amely képes létrehozni képeket szöveges utasítások azaz promptok alapján. Egy másik blog cikkünkben bővebben is mesélünk a prompt engineering témakörről. A text-to-image kombinálja a Computer Vision (CV) és a Natural Language Processing (NLP) technológiákat. Az ilyen típusú rendszerek általában olyan mély neurális hálózatokat használnak, amelyek képesek megtanulni a bemeneti szöveg és a kimeneti kép közötti kapcsolatokat. 

Az elmúlt hónapokban több generatív AI megoldás is előtérbe került a felhasználók számára ezen a területen, a legismertebbek ezek közül a Midjourney, a  DALL-E és a nyílt forráskódú Stable Diffusion. A Midjourney, a DALL-E2 és a Stable Diffusion mind generatív AI modellek, amelyek képesek szöveges leírások alapján képeket létrehozni. Kipróbáltuk mindegyiket, összehasonlítottuk őket, lássátok a tapasztalatainkat alább.

Midjourney:

A Midjourney egy interneten elérhető, mesterséges intelligencia program és szolgáltatás, amelyet egy San Francisco-i székhelyű független kutatólaboratórium, a Midjourney, Inc. hozott létre 2022-ben, alapítója David Holz. A felhasználók online, a Discord nevű csevegőalkalmazással kommunikálhatnak a bottal, promtokon keresztül. Jellegzetes artisztikus stílusával hamar népszerűvé vált a felhasználók körében.

Midjourney előnyei:

  • Ingyenesen ki lehet próbálni
  • Hamar sikerélményt ad - már az első alkalommal el tudunk érni egy szép végeredményt
  • Láthatjuk mások miket alkottak, milyen promptok alapján, így tanulhatóvá válik a promptolás módja 
  • Vannak beépített paraméterek, amikkel tovább tudjuk befolyásolni a végeredményt (pl. felbontás, képarány, stílus, stb.)

Midjourney hátrányai:

  • Telepíteni kell először a Discordot, csak ezt követően tudjuk használni
  • Az ingyenes megoldás kaotikus a Discord felületén, nehezen követhető hova kerülnek a képek amiket alkottunk
  • Az áttekinthetőségért már fizetnünk kell (saját privát chat szobába generálódnak a képeink amiket csak mi látunk)
  • Személyreszabás lehetősége alacsony
  • Nehéz realisztikus képeket létrehozni

Midjourney példa kép az alábbi prompt-al (első hozott megoldás, további szerkesztés nélkül): Playful illustration of a group of happy monkeys, created in a contemporary children's book style, isolated on a white backdrop

Midjourney AI generált teszt kép majmok xLabs

DALL-E2

A DALL-E a San Francisco-i székhelyű Open AI képgeneráló generatív AI modellje, amelyet a GPT-3 nyelvi segítségével építettek és mutattak be 2021 januárjában. Egy évvel később vezették be a DALL-E2-es modellt ami az elsőhöz képest nagy fejlődést mutatott, például már 4x jobb felbontást tudott adni. Felülete könnyen elérhető az OpenAI központi oldaláról. Fun fact: a DALL-E név a Pixar WALL-E animált robotfigurájából és az elismert spanyol szürrealista művészből, Salvador Dalìból merített ihletet.

DALL-E2 előnyei:

  • Van saját grafikus felülete, ami könnyen elérhető a felhasználóknak
  • A Midjourney-hez és Stable Diffusion-höz képes könnyebb elkezdeni használni
  • Fotórealisztikus vonala erősebb a Midjourney-hez képest
  • Fel tudunk tölteni saját képet is további képszerkesztési/manipulálási lehetőségekért
  • Minden hónap elején kapunk ingyen kreditet, ha lejárt, következő hónapban kapunk újat (ellentétben a Midjourney-vel, ahol ha felhasználtuk az első alkalommal kapott ingyenes képgenerálási lehetőségeket, utána már csak a fizetős szolgáltatást tudjuk használni). 

DALL-E2 hátrányai: 

  • Az ingyenes teszt verziót hamar kimerítjük, utána fizetőssé válik 
  • A generált képek gyakran tartalmaznak logikai hibákat

DALL-E2 példa kép az alábbi prompt-al (első hozott megoldás, további szerkesztés nélkül): Playful illustration of a group of happy monkeys, created in a contemporary children's book style, isolated on a white backdrop

DALL-E AI képgenerálás majmok xLabs

Stable Diffusion:

A Stable Diffusion 2022-ben kiadott ingyenes, open-source, azaz nyílt forráskódú text-to-image mesterséges intelligencia modell. 

Stable Diffusion előnyei:

  • A Midjourney és DALL-E2 programokhoz képest szabadabban lehet szerkeszteni, nagyobb az alkotó beleszólása a végeredménybe
  • Ingyenes a használata
  • Nyílt forráskódú, ezért felhasználása és tanítása sokrétű lehet (ha értünk hozzá)

Stable Diffusion hátrányai:

  • Futtatása bonyolult egy kevésbé technikai embernek, webes grafikus felhasználói felület (pl. Automatic 1111) telepítése szükséges hozzá. 
  • A felület amin futtatjuk a programot nem letisztult, elsőre nem egyértelmű mi mire való, emiatt időt kell szánni a tanulásra
  • Képalkotás sebessége lassabb (ez persze a számítógépünk erősségétől is függ)

Stable Diffusion v1.5 példa kép az alábbi prompt-al (első hozott megoldás, további szerkesztés nélkül): Playful illustration of a group of happy monkeys, created in a contemporary children's book style, isolated on a white backdrop

Stable Diffusion AI képgenerálás majmok xLabs

Összességében nem lehet általánosan kijelenteni, hogy melyik a legjobb program ezek közül, hiszen attól is függ ki és mire akarja használni. Akarjuk -e tovább alakítani az első verziós képet vagy sem? Akarunk -e esetleg valami nagyon specifikus végeredményt? Elmondhatjuk, hogy mind a három magasan képzett modell, amely képes lenyűgöző végeredményt adni ha megfelelően használjuk.

Reméljük hasznosnak találtad ezt az összehasonlítást. Ha mélyebben is emerülnél a Generatív AI világában, jelentkezz hamarosan induló 6 hetes online Generative AI Bootcamp képzésünkre. Bővebb információt ITT találsz a képzésről.

AI szótár - kifejezések és definíciók kezdőknek

Töltsd le AI szótárunkat

Ismerd meg a AI (Artifiial Intelligence), azaz a mesterséges intelligencia technológia alapvető terminológiáját!
Add meg alább az adataidat és az email címedre elküldjük a szótárt!

AI szótár
🙌
Köszönjük, hamarosan küldjük az anyagot
Hiba történt a küldés során, kérjük ellenőrizd a beírt adataidat és próbáld újra