Képzeld el és megrajzolom! – A DALL-E 3 és ChatGPT kreatív kombinációja
A mesterséges intelligencia (AI) az utóbbi egy évben hatalmas fejlődésen ment keresztül, ez az AI alapú képgenerálásban is jól látható. Október óta a ChatGPT-n belül is tudunk már képet generálni, ezt a DALL-E 3 technológia hajta. Most azt mutatjuk be, miért is ez a megoldás az egyik kedvencünk jelenleg, ha AI alapú képgenerálásról van szó.
Text-to-image, avagy Mit jelent a szöveg képpé alakítása?
A "text-to-image" megoldás az AI képgenerálásban egy olyan technológia, amely lehetővé teszi a mesterséges intelligencia rendszerek számára, hogy írott szöveg leírások (prompt) alapján képeket hozzanak létre. Ez a folyamat általában úgy történik, hogy a felhasználók szöveges leírást adnak egy kívánt képről, például egy tájkép, egy tárgy, vagy egy jelenet részleteiről. A mesterséges intelligencia rendszer ezt a leírást elemzi, és a benne szereplő információk alapján generál egy képet.
Mi az a Dall-e 3 és hogyan integrálódik a Chat GPT-be?
A Dall-e 3 az Open AI megoldása, egy fejlett AI képgeneráló rendszer, amely a GPT-3 szövegfeldolgozó algoritmusa alapján működik. A DALL-E 3 október óta érhető el a ChatGPT Plus és Enterprise előfizetők számára a chat felületen belül is. Csakúgy, mint a ChatGPT, a DALL-E 3 is megérti a természetes beszédmintákat. Ügyes abban hogy részletes, de akár kevésbé részletek kérésekből is képet generáljon.
De miért is szeretjük annyira?
1. Könnyen használható:
A felhasználók elérhetik a DALL-E 3-at az OpenAI programcsomagon, a ChatGPT-n keresztül vagy közvetlenül a DALL-E 3 saját webhelyéről. Nem kell programokat telepíteni, bonyolult installációkat elvégezni a használathoz.
2. Gyors:
A DALL-E 3 viszonylag gyorsan készít képeket, gyakran három-négyszer gyorsabban, mint más eszközök azonos körülmények között.
3. Szöveg megjelenítése a képen:
A DALL-E esetében akár olyat is kérhetünk hogy egy adott szöveget helyezzen a képre. Ez azért még időnként hibázik:
De rövidebb szavaknál jobban működik:
4. Kérések értelmezésében a legügyesebb
A Chat GPT képgeneráló megoldásának egyik legnagyobb előnye, hogy kiemelkedik a promptok megértésében és a bonyolult kérések értelmezésében a többi megoldás közül. A felhasználók részletes, összetett utasításokat adhatnak, és a rendszer pontosan értelmezi ezeket. Miért is érdekes ez? A többi elérhető megoldásnál sok időt kell szánni a prompt engineering-re, hogy elérjük azt a végeredményt, amire várunk. Az Open AI nem titkolt célja, hogy akár komolyabb prompt engineering nélkül is tudjanak a felhasználók olyan képeket alkotni, amire szükségük van, egyszerű párbeszéddel. Mivel a A DALL·E 3 a ChatGPT-re épül, lehetővé teszi, hogy a ChatGPT-t asszisztensként használja a felhasználó, akivel folyamatosan beszélgetve tudja a képet finom hangolni, mint ahogy a lenti példán is látható ez:
A piacon elérhető megoldások közül jelenleg a DALL-E 3 az egyik legerősebb abban, hogy pontosan megértse a felhasználói kérést és a lehető legközelebbi megoldást hozza. Mit is jelent hogy összetett kérés? Például arra a parancsra, hogy “Kérlek adj egy vízfesték illusztrációt arra, hogy egy bagoly és egy mókus egy fán ülnek egymás mellett és mogyorót esznek” pontosan megkapjuk amit kértünk:
Sok más AI képgeneráló esetében ilyen jellegű komplex kéréseket nem tudnak a programok értelmezni. Már ott megbuktak volna, hogy két különböző élőlényt vizualizáljanak egy képen belül.
Melyik AI képgenerálót használjuk?
Erre leginkább az a válaszunk, hogy attól függ kicsoda és mire szeretné használni. Egyik korábbi cikkünkben már mi is tettünk kísérletet több megoldás összehasonlítására. Nálunk a két befutó jelenleg a Midjourney és a DALL-E3.
Mindkét megoldás lehetővé teszi a felhasználók számára, hogy különféle művészeti stílusokban készítsenek képeket. A Midjourney képek jellemzően “szebbek”, vizuálisan kiemelkedőbbek mint a DALL-E 3 képei, de a DALL-E 3 könnyebben használható – különösen a kezdők számára. Ezenkívül jobban megérti és értelmezi a felszólításokat, és így is nagyon valósághű képeket készíthet.
Ha élénk AI-művészetre vágyik a felhasználó, a Midjourney valószínűleg a legjobb képgenerátor.Ha azonban olyan eszközre van szükségd, amely könnyen használható és következetesen jól értelmezi a szöveges leírásokat, akkor a DALL-E 3 egy nagyon erős lehetőség.
Addig is ha érdekel a generatív AI világa, jelentkezz bootcamp képzésünkre, ahol 6 héten keresztül, minden héten egy adott témában merülünk el a termékfejlesztéstől kezdve a marketingen át a filmes tartalomgyártásig, oktatásig, érintve a jogi és etikai környezetet is. Jelentkezz ITT!