A banánt evő kék majom esete - Avagy kipróbáltuk hogyan teljesít az új DALL-E 3
A hétvégén elérhetővé vált a DALL-E 3, az OpenAI képalkotójának frissített verziója a Microsoft Bing Chatben és Image Creatorban. De lépjünk is vissza egyet és tisztázzuk mi micsoda.
A Bing Chat a Microsoft mesterséges intelligencia alapú chatbot megoldása, amely az OpenAI népszerű ChatGPT 4 nyelvi modelljére épül. De miben különbözik mégis? Bár a ChatGPT központi eleme a platformnak, a Microsoft egy Prometheus névre keresztelt technológiát is kifejlesztett. Ez a technológia lehetővé teszi a chatbot számára, hogy kapcsolódjon a Bing keresőmotorhoz, így gyorsabb és pontosabb válaszokat tud adni. Ezáltal lehetővé válik a Bing Chaten belül a naprakész internetes keresés is, melyet hivatkozás linkek tesznek visszakövethetővé.
A Bing Chat azonban nem korlátozódik a szöveges válaszokra, az OpenAI DALL-E modelljével is integrálódik, így képeket is létre tud hozni a chaten belül. Ezt a funkciót a Microsoft "Image Creator"-nak nevezi, és egy külön linkről is elérhető.
De vajon miért is fonódik össze az OpenAI chat illetve képszerkesztő megoldása a Microsoft Bing Chat-el? Hiszen a Bing Chat riválisa a ChatGPT-nek, így nem túl logikus a felállás. Nem titkos információ azonban, hogy a Microsoft befektetőként áll az OpenAI mögött, így már érthetőbb a partneri viszony.
A múlt hét egyik nagy AI híre volt, amiről mi is írtunk, hogy októberben elérhetővé válik a DALL-E frissített hármas verziója. Sokan izgatottan vártuk, hogy kipróbáljuk mit is tud. A hétvége óta a DALL-E 3 már elérhető és kipróbálható mind a Bing Chat-en, mind pedig az Image Creatoron belül.
Szeretünk minden újdonságot kipróbálni, ezért ma ezt meg is tettük. Mivel a Bing Chat rendkívül leterhelt volt, ezért az Image Creator-on belül teszteltük az frissített DALL-E megoldást. Az Image Creatornál is érzékelhető volt a lassúság, jelzi is a rendszer a várakozási időt (akár 10-30 perc!!) de azért sikerült 1-2 képet legenerálni. Lássuk mik is a tapasztalatok!
Akár több állat egy képen:
A többi képalkotó megoldással szemben itt már lehetőség van arra, hogy egy képen belül több karaktert (pl. állatot) is megjelenítsünk, nagyobb hibák nélkül. Egy projekt kapcsán korábban sokat küzdöttünk ezzel a Midjourney-ben, jó végeredmény nélkül. Ezt a problémát a DALL-E 3 elsőre megugrotta, ami alább látható is. Azt alábbi parancsot adtuk neki: “Illusztráció egy mókusról és egy bagolyról akik mogyorós sütit sütnek”. Erre az alábbi 4 verziót kaptuk:
A képek között elsőre találunk olyat, ami teljesen megfelel a kérésünknek, jól látható mind a mókus mind pedig a bagoly karaktere akik mogyorós sütit sütnek. A kérés egészen komplex és jól lehozta a program. Ezzel szemben a Midjourney sajnos még mindig küzd a több karakter megjelenítésének problematikájával. Ugyanerre a parancsra ezt kaptuk:
Sajnos látható hogy a Midjourney még mindig nem tud megjeleníteni pontosan 2 előre definiált karaktert.
Komplex kérések értelmezése:
A DALL-E 3 nagyon jó abban, hogy akár komplex kéréseket is értelmezve, jó eredményeket hozzon. Lássuk az alábbi utasítást: “watercolor illustration of a blue monkey sitting on a tree, eating banana”. Ezt a megoldást kaptuk, ami rendkívül pontos:
Ezzel szemben a Midjourney sajnos belebukott a komplex kérésbe, annak ellenére hogy a vízfesték tulajdonságot nagyon szépen megjelenítette, a banán, ami egy fontos része volt a kérésnek, valahogy már túl sok volt neki és lemaradt, az alábbi eredményt hozva:
Szövegek, feliratok
A DALL-E 3 másik újítása, hogy már konkrét szöveget is tudunk kérni a képekre. Lássunk erre is egy példát. Az alábbi promptot fogalmaztuk meg: “Kérlek mutass egy illusztrációt egy robotról, aki egy táblát tart a kezében rajta az alábbi felirattal: xLabs”
Itt már nagyon terhelt volt a rendszer, 1 órás várakozási időt írt ki nekünk…
Végül az alábbi eredményeket kaptuk:
A mai napon ennyi tesztelés fért bele a program túlterheltsége miatt, de még sok kérdés maradt bennünk. Például már nagyon várjuk, hogy megnézzük, hogyan bír el a DALL-E 3 a fotórealisztikus vonallal, illetve hogy hogyan tudjuk majd a chat-en keresztül (akár Bing chat akár ChatGPT) a képeket tovább alakítani, finonmítani, elérve akár azt is, hogy egy adott karaktert több helyzetben tudjuk megjeleníteni úgy, hogy közben a karakter kinézete változatlan marad. Ezen tesztek eredményéről majd egy újabb blog cikkben jelentkezünk!
Addig is ha érdekel a generatív AI világa, jelentkezz bootcamp képzésünkre, ahol 6 héten keresztül, minden héten egy adott témában merülünk el a termékfejlesztéstől kezdve a marketingen át a filmes tartalomgyártásig, oktatásig, érintve a jogi és etikai környezetet is. Jelentkezz ITT!