A banánt evő kék majom esete - Avagy kipróbáltuk hogyan teljesít az új DALL-E 3

perc

2024

A hétvégén elérhetővé vált a DALL-E 3, az OpenAI képalkotójának frissített verziója a Microsoft Bing Chatben és Image Creatorban. De lépjünk is vissza egyet és tisztázzuk mi micsoda.

A Bing Chat a Microsoft mesterséges intelligencia alapú chatbot megoldása, amely az OpenAI népszerű ChatGPT 4 nyelvi modelljére épül. De miben különbözik mégis? Bár a ChatGPT központi eleme a platformnak, a Microsoft egy Prometheus névre keresztelt technológiát is kifejlesztett. Ez a technológia lehetővé teszi a chatbot számára, hogy kapcsolódjon a Bing keresőmotorhoz, így gyorsabb és pontosabb válaszokat tud adni. Ezáltal lehetővé válik a Bing Chaten belül a naprakész internetes keresés is, melyet hivatkozás linkek tesznek visszakövethetővé.

A Bing Chat azonban nem korlátozódik a szöveges válaszokra, az OpenAI DALL-E modelljével is integrálódik, így képeket is létre tud hozni a chaten belül. Ezt a funkciót a Microsoft "Image Creator"-nak nevezi, és egy külön linkről is elérhető.

De vajon miért is fonódik össze az OpenAI chat illetve képszerkesztő megoldása a Microsoft Bing Chat-el? Hiszen a Bing Chat riválisa a ChatGPT-nek, így nem túl logikus a felállás. Nem titkos információ azonban, hogy a Microsoft befektetőként áll az OpenAI mögött, így már érthetőbb a partneri viszony.

A múlt hét egyik nagy AI híre volt, amiről mi is írtunk, hogy októberben elérhetővé válik a DALL-E frissített hármas verziója. Sokan izgatottan vártuk, hogy kipróbáljuk mit is tud. A hétvége óta a DALL-E 3 már elérhető és kipróbálható mind a Bing Chat-en, mind pedig az Image Creatoron belül.

Szeretünk minden újdonságot kipróbálni, ezért ma ezt meg is tettük. Mivel a Bing Chat rendkívül leterhelt volt, ezért az Image Creator-on belül teszteltük az frissített DALL-E megoldást. Az Image Creatornál is érzékelhető volt a lassúság, jelzi is a rendszer a várakozási időt (akár 10-30 perc!!) de azért sikerült 1-2 képet legenerálni. Lássuk mik is a tapasztalatok!

‍

Akár több állat egy képen:

A többi képalkotó megoldással szemben itt már lehetőség van arra, hogy egy képen belül több karaktert (pl. állatot) is megjelenítsünk, nagyobb hibák nélkül. Egy projekt kapcsán korábban sokat küzdöttünk ezzel a Midjourney-ben, jó végeredmény nélkül. Ezt a problémát a DALL-E 3 elsőre megugrotta, ami alább látható is. Azt alábbi parancsot adtuk neki: “Illusztráció egy mókusról és egy bagolyról akik mogyorós sütit sütnek”. Erre az alábbi 4 verziót kaptuk:

‍

‍

A képek között elsőre találunk olyat, ami teljesen megfelel a kérésünknek, jól látható mind a mókus mind pedig a bagoly karaktere akik mogyorós sütit sütnek. A kérés egészen komplex és jól lehozta a program. Ezzel szemben a Midjourney sajnos még mindig küzd a több karakter megjelenítésének problematikájával. Ugyanerre a parancsra ezt kaptuk:

‍

‍

Sajnos látható hogy a Midjourney még mindig nem tud megjeleníteni pontosan 2 előre definiált karaktert.

‍

Komplex kérések értelmezése:

A DALL-E 3 nagyon jó abban, hogy akár komplex kéréseket is értelmezve, jó eredményeket hozzon. Lássuk az alábbi utasítást: “watercolor illustration of a blue monkey sitting on a tree, eating banana”. Ezt a megoldást kaptuk, ami rendkívül pontos:

‍

A banánt evő kék majom esete Image Creator-al

‍

Ezzel szemben a Midjourney sajnos belebukott a komplex kérésbe, annak ellenére hogy a vízfesték tulajdonságot nagyon szépen megjelenítette, a banán, ami egy fontos része volt a kérésnek, valahogy már túl sok volt neki és lemaradt, az alábbi eredményt hozva:

A banánt evő kék majom esete a Midjourney-vel

‍

Szövegek, feliratok

A DALL-E 3 másik újítása, hogy már konkrét szöveget is tudunk kérni a képekre. Lássunk erre is egy példát. Az alábbi promptot fogalmaztuk meg: “Kérlek mutass egy illusztrációt egy robotról, aki egy táblát tart a kezében rajta az alábbi felirattal: xLabs”

Itt már nagyon terhelt volt a rendszer, 1 órás várakozási időt írt ki nekünk…

‍

Hosszú várakozási idő jelzése - Image Creator

‍

Végül az alábbi eredményeket kaptuk:

‍

Szöveg megjelenítése képen Image Creatorral - megoldás 1.

‍

Szöveg megjelenítése képen Image Creatorral - megoldás 2.

‍

A mai napon ennyi tesztelés fért bele a program túlterheltsége miatt, de még sok kérdés maradt bennünk. Például már nagyon várjuk, hogy megnézzük, hogyan bír el a DALL-E 3 a fotórealisztikus vonallal, illetve hogy hogyan tudjuk majd a chat-en keresztül (akár Bing chat akár ChatGPT) a képeket tovább alakítani, finonmítani, elérve akár azt is, hogy egy adott karaktert több helyzetben tudjuk megjeleníteni úgy, hogy közben a karakter kinézete változatlan marad. Ezen tesztek eredményéről majd egy újabb blog cikkben jelentkezünk!

‍

Addig is ha érdekel a generatív AI világa, jelentkezz bootcamp képzésünkre, ahol 6 héten keresztül, minden héten egy adott témában merülünk el a termékfejlesztéstől kezdve a marketingen át a filmes tartalomgyártásig, oktatásig, érintve a jogi és etikai környezetet is. Jelentkezz ITT!

‍