Vissza a Blogra

A 48 órás Runway AI rövidfilm verseny kulisszái mögött

15
 perc

A hétvégén zajlott le a Runway Gen:48 AI rövidfilm alkotó versenye ahol én is elindultam. Az alábbi cikkben szeretném megosztani veletek, milyen is volt a verseny, hogyan készítettem el a kisfilmemet, mi volt a munkafolyamat, milyen eszközöket használtam és mik az általános tapasztalataim AI generált videós tartalom készítése során. Fontos kiemelnem, hogy az általam megosztott gondolatok a kreatív munkafolyamat egy lehetséges útját mutatják be. Számos más módja is lehetséges annak, ahogy a feladatot meg lehet közelíteni.

Addig is az általam leadott anyagot itt találjátok, jó szórakozást hozzá! :) https://www.youtube.com/watch?v=d3Hk7S3rD08 

Mi is az a Runway:

A Runway egy webalapú videószerkesztő, ahol különböző módokon AI generált videókat tudunk létrehozni. A Runway megoldása egy generatív AI eszköz, amivel videókat generálhatunk szövegből (text-to-video), képből (image-to-video) vagy akár meglévő videókat is tudunk vele alakítani (video-to-video). A videó generálását részben promptok, azaz utasítások segítségével érhetjük el. 

A versenyről:

A Runway október 20-21 hétvégéjén rendezte meg a 48 órás rövidfilm alkotó versenyét, ahol az alábbiak szerint kellett alkotni: 

  • 48 óra áll rendelkezésre
  • Egyénileg vagy csapatban lehetett nevezni
  • Globál verseny
  • A film legalább 75%-át generative AI eszközzel kellett készíteni, ezen belül is minden ami a videós tartalomgenerálásra vontatkozott, ahhoz Runway-t kellett használni. Az input képekhez vagy videókhoz lehetett külső eszközt használni (pl. Saját fotó, saját videó, Midjourney, Stable Diffusion, stb.)
  • A film hossza minimum 1, maximum 4 perc lehetett
  • A zsűri 3 nap alatt végignézi az összes leadott anyagot, amikből október 27-én közzétesz egy shortlistet, amiből közönségszavazatok alapján állítják fel a végső sorrendet.

Előkészületek:

A versenyre előzetesen kellett regisztrálni (1800-an tették ezt meg). Ehhez szükséges volt a program telepítése azoknak, akik ezt korábban még nem tették meg. A verseny kezdete előtt több mint 16 órányi kreditet írtak jóvá minden versenyző számára. Ez a mennyiség bőven elegendőnek bizonyult a verseny alatt.  

A brief:

Előzetesen nem adtak briefet,a verseny kezdetekor az alábbiakat határozták meg: 

  • A történetben fel kellett használni legalább egyet az alábbi karakterek közül: űrlény, titkos időutazó, magányos harcos, elbűvölő előadóművész, gonosz politikus, különc művész, megsértett szerető, szökevény, bűnöző főnök, fiatal lázadó
  • A történetben fel kellett használni legalább egyet az alábbi helyszínek közül: üres színház, metróállomás, elhagyott medence, egy nagyváros üres utcái éjjel, elhagyott épület, élelmiszerbolt, open office boxokkal, autópálya éjjel, nyilvános mosdó, ködös tengerpart
  • A történetben fel kellett használni legalább egyez az alábbi eszközök közül: tükörkép, régi fénykép, égő autó, régi vezetékes telefon, közlekedési lámpa, kijárat ajtó

A verseny:

A verseny New York (EST) idő szerint reggel 9-kor (magyar idő szerint) délután 3-kor kezdődött szombaton és 48 órán keresztül tartott. Tulajdonképpen egy hackaton jellegű esemény volt. Mivel nekem van egy 1 éves és egy 3 éves gyermekem, ezért én azzal terveztem, hogy fektetés után este/hajnalban fogok tudni ténylegesen elmélyedni a feladatban. Ezért a verseny első felét, napközben arra használtam, hogy átgondoljam mi is legyen a videó alaptörténete, illetve hogyan struktúráljam a feladatokat leghatékonyabban, hogy behozzam azt a kiesett időt, amit a 48 órás időkeret adott. Nettó 8-9 óra volt az, amit valóban tudtam a filmmel foglalkozni, így fontos volt, hogy egy tiszta munakterv álljon elő. A munkafolyamatnak az alábbi lépéseket határoztam meg:

  1. Történet/koncepció kialakítás
  2. Eszközök kiválasztása
  3. Storyboard összerakás képekkel
  4. Zene kiválasztása 
  5. Képek fényelése
  6. Videógenerálás
  7. Történet összefűzése, hiányzó elemek (pl. hangeffektusok, feliratok) beillesztése
  8. Utómunka (ez sajnos nagyrészt kimaradt, ennek okáról később)

Történet/koncepció kialakítása:

Egy ilyen tipusú verseny során ha nincs az embernek egy instant erős ötlete azonnal, akkor sok időt vehet az el, hogy kitaláljuk mi is a story amit át akarunk adni. Legyen történet, legyen a történetnek íve, és esetleg még egy csattanó is a végén. Mivel kevés aktív idő állt rendelkezésemre, amikor nyugalomban, megzavarás nélkül az alkotásra tudok koncentrálni, ezért átgondoltam, van -e esetleg olyan történet a tarsolyomban korábbról, amit fel tudok használni/át tudok alakítani? Még évekkel ezelőtt készítettem egy kis videós anyagot, ahol New York random pillanatait emeltem ki. Szürreális, mégis valós helyzetek a nagyvárosból, egy kis electro swing zenével fűszerezve. Valahogy elkapott ez a hangulat, ezért azt gondoltam, ezt jól fel tudnám használni a versenyhez. A kötelező elemek közül az alábbiakat választottam: űrlény, metróállomás, régi fénykép. 

Ez alapján kezdtem el felépíteni a sztorit a fejemben, ami valahogy így alakult:

Egy messzi-messzi galaxisban egy űrlény felfedez egy régi fényképet New York ikonikus városképéről. Mély, megmagyarázhatatlan kapcsolat vonzza őt kék bolygónkra. A nagyváros nyüzsgő utcáin haladva lenyűgözik a sokszínű egyének, amelyek benépesítik a várost, a világot0. A történet előrehaladtával főhősünk ráeszmél mi is a fénykép vonzerejének titka: az otthon valójában soha nem volt fényévekre. Egy olyan univerzumban, ahol elhalványul a különbség az idegen és az ismerős között, egy üzenet visszhangzik: az otthon mindig is itt volt.

A kicsit absztrakt sztori jól komponálható a generative AI jelenleg elérhető technikai adottságaival.

Eszközök kiválasztása

A verseny során az alábbi eszközöket használtam fel:

  • Képalkotáshoz: Midjourney, DALL-E 3 (text-to-image)
  • Szövegíráshoz részben: ChatGPT
  • Fényelés: Adobe Lightroom
  • Animációk/videók elkészítéséhez: Runway text-to-video, image-to-video megoldása
  • Zene: Epidemic Sound gyűjteményéből, Jules Gaia - Just Playing
  • Narráció: Elevenlabs text to speech megoldása
  • Videó vágáshoz: Adobe Premier Pro

Képgenerálás és storyboard összeállítás

Az input képeket, azaz azokat a képeket, amiket később a Runway segítségével animáltam, két programmal, a DALL-E 3-mal és Midjourney-vel hoztam létre. A DALL-E 3 képgenerálója pár hete érhető el ChatGPT-n belül és előnye hogy a megadott utasításokat sokkal pontosabban le tudja követni mint a Midjourney. Hátránya viszont, hogy a generált képek minőségben a Midjourney-hez képest elmaradnak. Lássunk erre egy példát! Szükségem volt egy olyan képi elemre ahol egy lila kezű űrlény egy régi fotót tart a kezében New Yorkról. Fotórealisztikus megoldást kértem. Az alábbi promptot használtam: purple alien hand holds an old photo of new york, photorealistic --ar 16:9

Midjourney-ben generált kép a lila űrlény kézről, aki egy régi fotót tart a kezében New Yorkról

A Midjourney a fotórealisztikus vonalat szépen hozza, viszont a többi kérésemet tekintve teljesen összezavarodott, és nem azt hozta amit kértem… Ez több próbálkozás, prompt módosítás ellenére sem sikerült. Ezzel szemben a DALL-E 3 az alábbi megoldásokat adta, ami ugyan kevésbé volt fotórealisztikus, viszont a többi rész amit kértem, azt pontosan le tudta hozni:


DALL-E 3-ban generáét kép a lila űrlény kézről, aki egy régi fotót tart a kezében New Yorkról

Ezt a fajta pontosságot prompt értelmezést tekitnve már korábbi munkák során is tapasztaltam DALL-E3 3 tekintetében, összevetve a Midjoruney-vel, a DALL-E 3 ügyesebb az utasítások értelmezésében, feltételezem ez a nyelvi modell rendelkezésre álló szöveges adatmennyisége miatt van. 

A kevésbé bonyolult kéréseknél viszont a Midjourney képminősége jelenleg magasan veri a DALL-E 3 megoldását. Erre is hadd mutassak egy példát az alábbi prompra: “a photo of policeman eating a huge huge huge pink donut in new york”. A Midjourney megoldása:

Midjourney-ben generált kép egy óriás fánkot evő New York-i rendőrről

Ezzel szemben a DALL-E 3 megoldása kevésbé hozza a fotórealisztikus vonalat, kevésbé kidolgozott:

DALL-E 3-ban generált kép egy óriás fánkot evő New York-i rendőrről

Összességében tehát az a tapasztalatom, hogy komplex kérések értelmezésében erősebb a DALL-E 3, viszont a képi anyag minőségében a Midjourney megoldása van előrébb. 

A videós anyag összeállításának alapját egy sztoryboard képezte, ahol képi elemeken keresztül vázoltam fel az egyes frame-eket:

Storyboard készítés folyamatban a Runway Gen:48 AI rövidfilm versenyre

Ez nagyon sokat segített abban, hogy tudjam a fókuszt tartani a történetben és gyorsabban haladjak. Miután megvolt a storyboard, a munka sokkal lendületesebben tudott haladni. 

Zene (és egyéb hangeffektusok) kiválasztása:

Minden videós anyag készítése során nagyon fontos helye van a zenének, a kész anyag hangulatát erősen meghatározza. A versenyen az Epidemic Sound szponzorként lépett fel, gyűjteményéből szabadon lehetett válogatni a verseny során. Hamar rátaláltam a megfelelő elektro swing zenére, ami illeszkedett ahhoz a hangulathoz amit el akartam érni. Az egyéb hangeffektusokhoz (a narrációt leszámítva) szintén az Epidemic Sound gyűjteményéből szemezgettem.

Képek fényelése

Mivel a Runway során legtöbbet az image-to-video funkciót használtam, azaz generált képeket alakítottam tovább videóvá, fontos volt, hogy az alapképek megfelelően legyenek fényelve, hiszen ez sokat segíthet abban, hogy egy egységes megjelenése legyen a végeredménynek. A jelenlegi generative AI megoldásoknál még nehezen hozható az létre, hogy az egymás után illesztett képek illetve videók stílusban egységesek legyenek, ezért az ilyen tipusú hozzáadott munkának nagy jelentősége van. A képek fényeléséhez az Adobe Lightroom-ot használtam.

Videógenerálás 

A videógenerálást több oldalról is meg lehetett közelíteni. Egyik megoldás az, ha a Runway-en belül promptok alapján generálunk szövegből videót (text-to-video). Előnye, hogy nem kell más programot használni és gyorsan kaphatunk egy megoldást. Hátránya, hogy a generált video sokszor nem részletgazdag, esetleg pontatlan. Így én egy másik utat választottam. Előre generáltam képeket Midjoruney, illetve DALL-E 3 segítségével (text-to-image). Majd ezeket használtam inputként és generáltam a videókat (image-to-video). Így sokkal részletgazdagabb videókat tudtam létrehozni. A jelenlegi verseny során általában 3-5 próbálkozással jutottam el animálást tekintve ahhoz a végeredményhez, amit végül felhasználtam. Azt gondolom, itt ha több időt és próbálkozást hagyok rá, akkor még konzisztensebb és szebb végeredményt kaphattam volna, viszont a korlátozott idő ami rendelkezésemre állt, ezt engedte meg jelenleg. 

Történet összefűzése, hiányzó elemek (pl. Hangeffektusok, feliratok) beillesztése

A történet egybefűzéséhez használhattam volna a Runway videóvágóját, viszont én korábban már sokat dolgoztam Adobe Premier Pro-val, így most azt a programot választottam, amiben több tapasztalatom volt. A videóvágás viszonylag gyorsan ment. A végső anyaghoz a hiányzó hangeffektusokat Epidemic Sound-ról mentettem le. 

Utómunka

Ez az a terület, amire legközelebb sokkal több időt szeretnék szánni. Egy alap utómunkát végeztem Adobe Premier Pro-val, de szerettem volna még használni az Adobe After Effect-et is. Sajnos kevés tapasztalatom (nullához közelít) van Adobe After Effects-el, és most nem volt időm, hogy megtanuljam az alapokat a programmal kapcsolatban. Ugyanakkor azt gondolom, megfelelő utómunkával fényévekkel jobb végeredmény érhető el az AI videókészítés során. Nagyon sajnálom, hogy erre a részre nem tudtam kellő időt szánni. Ez egy olyan terület amit mindenképpen fejleszteni szeretnék.

Tapasztalatok a versennyel kapcsolatban

Amit máshogy csinálnék legközelebb:

  • Mivel az AI tartalomgenerálásban, főleg a videó és képi vonalon van egy erős random faktor, azaz nem kiszámítható pontosan milyen végeredményt kapunk - sok esetben szükséges nagyon sok verziót legenerálni, mire eljutunk a kívánt végeredményhez. Nekem időhiány miatt, 3-5 körös verziógenerálások fértek bele, de azt gondolom itt akár szükséges lehet 10-20-30 verzió generálás (vagy akár még több) és akkor sokkal sokkal több opció közül találhatjuk meg azt a tökéletes képi anyagot, amit keresünk
  • Utómunka - korábban már említettem, erre szeretnék sokkal jobban ráfeküdni
  • Tesztelés - érdemes lehet menet közben, amikor már van egy alap sztorink megmutatni az anyagunkat egy külső szemeknek, hogy leteszteljük, mennyire jön át a koncepció. Ezzel azért óvatosan kell bánni, nem szabad megsértődni, vagy félre érteni a visszajelzéseket, hanem ügyesen ki kell szűrni, hogy mi az, ami valós kritika, hol hibázik a történet íve, hol van elcsúszás/nem értés stb. Mivel én jórészt késő este/hajnalban jutottam el arra a pontra, amit már mutatni lehetett volna külső szemnek, sajnos ez a rész most kimaradt. Viszont fontosnak érzem ezt beépíteni a folyamatba, mert sokat segíthet pár külső, “friss” vélemény, észrevétel.

Összességében egy nagyon jó élmény volt a verseny. Hajnal 3-ra sikerült befejeznem a filmet. Összesen nettó 8-9 órát ölelhetett fel az alkotás aktív része.  

A szervezés profi volt. Email-ben pont annyi információt kaptunk, ami kellett, nem voltunk elárasztva felesleges email-ekkel. Ugyanakkor a Runway nagyon erős Discord közösség építésben, és egy külön csatornát dedikáltak a versenynek, ahol folyamatos volt a kommunikáció résztvevők és szervezők között. Ez nagyon hasznos volt és sokat segített abban, hogy a remote verseny ellenére azt érezzük, hogy valóban egy éles hackaton folyik ahol a részvevők a világ minden részéről érkeztek. Sajnos a megmaradt krediteket nem tarthattuk meg, pedig nagyon örültem volna neki 🙂. A héten, október 27-én érkeznek a shortlistes filmek, kíváncsian várom, miket választanak majd ki, hol tart jelenleg ez az egész AI filmkészítés globál szinten. Figyeljétek ti is a bejelentést majd ezen az oldalon: https://gen48.runwayml.com/ 

Ha téged is érdekel az AI alapú videós tartalomgyártás, jelentkezz hamarosan induló képzésünkre ITT!

🙌
Köszönjük, hamarosan küldjük az anyagot
Hiba történt a küldés során, kérjük ellenőrizd a beírt adataidat és próbáld újra