A 48 órás Runway AI rövidfilm verseny kulisszái mögött

Vendégszerző: Bereczki Nóra

perc

2024

A hétvégén zajlott le a Runway Gen:48 AI rövidfilm alkotó versenye ahol én is elindultam. Az alábbi cikkben szeretném megosztani veletek, milyen is volt a verseny, hogyan készítettem el a kisfilmemet, mi volt a munkafolyamat, milyen eszközöket használtam és mik az általános tapasztalataim AI generált videós tartalom készítése során. Fontos kiemelnem, hogy az általam megosztott gondolatok a kreatív munkafolyamat egy lehetséges útját mutatják be. Számos más módja is lehetséges annak, ahogy a feladatot meg lehet közelíteni.

Addig is az általam leadott anyagot itt találjátok, jó szórakozást hozzá! :) https://www.youtube.com/watch?v=d3Hk7S3rD08

‍

Mi is az a Runway:

A Runway egy webalapú videószerkesztő, ahol különböző módokon AI generált videókat tudunk létrehozni. A Runway megoldása egy generatív AI eszköz, amivel videókat generálhatunk szövegből (text-to-video), képből (image-to-video) vagy akár meglévő videókat is tudunk vele alakítani (video-to-video). A videó generálását részben promptok, azaz utasítások segítségével érhetjük el.

‍

A versenyről:

A Runway október 20-21 hétvégéjén rendezte meg a 48 órás rövidfilm alkotó versenyét, ahol az alábbiak szerint kellett alkotni:

48 óra áll rendelkezésre
Egyénileg vagy csapatban lehetett nevezni
Globál verseny
A film legalább 75%-át generative AI eszközzel kellett készíteni, ezen belül is minden ami a videós tartalomgenerálásra vontatkozott, ahhoz Runway-t kellett használni. Az input képekhez vagy videókhoz lehetett külső eszközt használni (pl. Saját fotó, saját videó, Midjourney, Stable Diffusion, stb.)
A film hossza minimum 1, maximum 4 perc lehetett
A zsűri 3 nap alatt végignézi az összes leadott anyagot, amikből október 27-én közzétesz egy shortlistet, amiből közönségszavazatok alapján állítják fel a végső sorrendet.

‍

Előkészületek:

A versenyre előzetesen kellett regisztrálni (1800-an tették ezt meg). Ehhez szükséges volt a program telepítése azoknak, akik ezt korábban még nem tették meg. A verseny kezdete előtt több mint 16 órányi kreditet írtak jóvá minden versenyző számára. Ez a mennyiség bőven elegendőnek bizonyult a verseny alatt.

‍

A brief:

Előzetesen nem adtak briefet,a verseny kezdetekor az alábbiakat határozták meg:

A történetben fel kellett használni legalább egyet az alábbi karakterek közül: űrlény, titkos időutazó, magányos harcos, elbűvölő előadóművész, gonosz politikus, különc művész, megsértett szerető, szökevény, bűnöző főnök, fiatal lázadó
A történetben fel kellett használni legalább egyet az alábbi helyszínek közül: üres színház, metróállomás, elhagyott medence, egy nagyváros üres utcái éjjel, elhagyott épület, élelmiszerbolt, open office boxokkal, autópálya éjjel, nyilvános mosdó, ködös tengerpart
A történetben fel kellett használni legalább egyez az alábbi eszközök közül: tükörkép, régi fénykép, égő autó, régi vezetékes telefon, közlekedési lámpa, kijárat ajtó

‍

A verseny:

A verseny New York (EST) idő szerint reggel 9-kor (magyar idő szerint) délután 3-kor kezdődött szombaton és 48 órán keresztül tartott. Tulajdonképpen egy hackaton jellegű esemény volt. Mivel nekem van egy 1 éves és egy 3 éves gyermekem, ezért én azzal terveztem, hogy fektetés után este/hajnalban fogok tudni ténylegesen elmélyedni a feladatban. Ezért a verseny első felét, napközben arra használtam, hogy átgondoljam mi is legyen a videó alaptörténete, illetve hogyan struktúráljam a feladatokat leghatékonyabban, hogy behozzam azt a kiesett időt, amit a 48 órás időkeret adott. Nettó 8-9 óra volt az, amit valóban tudtam a filmmel foglalkozni, így fontos volt, hogy egy tiszta munakterv álljon elő. A munkafolyamatnak az alábbi lépéseket határoztam meg:

‍

Történet/koncepció kialakítás
Eszközök kiválasztása
Storyboard összerakás képekkel
Zene kiválasztása
Képek fényelése
Videógenerálás
Történet összefűzése, hiányzó elemek (pl. hangeffektusok, feliratok) beillesztése
Utómunka (ez sajnos nagyrészt kimaradt, ennek okáról később)

‍‍

Történet/koncepció kialakítása:

Egy ilyen tipusú verseny során ha nincs az embernek egy instant erős ötlete azonnal, akkor sok időt vehet az el, hogy kitaláljuk mi is a story amit át akarunk adni. Legyen történet, legyen a történetnek íve, és esetleg még egy csattanó is a végén. Mivel kevés aktív idő állt rendelkezésemre, amikor nyugalomban, megzavarás nélkül az alkotásra tudok koncentrálni, ezért átgondoltam, van -e esetleg olyan történet a tarsolyomban korábbról, amit fel tudok használni/át tudok alakítani? Még évekkel ezelőtt készítettem egy kis videós anyagot, ahol New York random pillanatait emeltem ki. Szürreális, mégis valós helyzetek a nagyvárosból, egy kis electro swing zenével fűszerezve. Valahogy elkapott ez a hangulat, ezért azt gondoltam, ezt jól fel tudnám használni a versenyhez. A kötelező elemek közül az alábbiakat választottam: űrlény, metróállomás, régi fénykép.

Ez alapján kezdtem el felépíteni a sztorit a fejemben, ami valahogy így alakult:

Egy messzi-messzi galaxisban egy űrlény felfedez egy régi fényképet New York ikonikus városképéről. Mély, megmagyarázhatatlan kapcsolat vonzza őt kék bolygónkra. A nagyváros nyüzsgő utcáin haladva lenyűgözik a sokszínű egyének, amelyek benépesítik a várost, a világot0. A történet előrehaladtával főhősünk ráeszmél mi is a fénykép vonzerejének titka: az otthon valójában soha nem volt fényévekre. Egy olyan univerzumban, ahol elhalványul a különbség az idegen és az ismerős között, egy üzenet visszhangzik: az otthon mindig is itt volt.

A kicsit absztrakt sztori jól komponálható a generative AI jelenleg elérhető technikai adottságaival.

‍

Eszközök kiválasztása

A verseny során az alábbi eszközöket használtam fel:

Képalkotáshoz: Midjourney, DALL-E 3 (text-to-image)
Szövegíráshoz részben: ChatGPT
Fényelés: Adobe Lightroom
Animációk/videók elkészítéséhez: Runway text-to-video, image-to-video megoldása
Zene: Epidemic Sound gyűjteményéből, Jules Gaia - Just Playing
Narráció: Elevenlabs text to speech megoldása
Videó vágáshoz: Adobe Premier Pro

‍

Képgenerálás és storyboard összeállítás

Az input képeket, azaz azokat a képeket, amiket később a Runway segítségével animáltam, két programmal, a DALL-E 3-mal és Midjourney-vel hoztam létre. A DALL-E 3 képgenerálója pár hete érhető el ChatGPT-n belül és előnye hogy a megadott utasításokat sokkal pontosabban le tudja követni mint a Midjourney. Hátránya viszont, hogy a generált képek minőségben a Midjourney-hez képest elmaradnak. Lássunk erre egy példát! Szükségem volt egy olyan képi elemre ahol egy lila kezű űrlény egy régi fotót tart a kezében New Yorkról. Fotórealisztikus megoldást kértem. Az alábbi promptot használtam: purple alien hand holds an old photo of new york, photorealistic --ar 16:9

‍

Midjourney-ben generált kép a lila űrlény kézről, aki egy régi fotót tart a kezében New Yorkról

‍

A Midjourney a fotórealisztikus vonalat szépen hozza, viszont a többi kérésemet tekintve teljesen összezavarodott, és nem azt hozta amit kértem… Ez több próbálkozás, prompt módosítás ellenére sem sikerült. Ezzel szemben a DALL-E 3 az alábbi megoldásokat adta, ami ugyan kevésbé volt fotórealisztikus, viszont a többi rész amit kértem, azt pontosan le tudta hozni:

DALL-E 3-ban generáét kép a lila űrlény kézről, aki egy régi fotót tart a kezében New Yorkról

‍

Ezt a fajta pontosságot prompt értelmezést tekitnve már korábbi munkák során is tapasztaltam DALL-E3 3 tekintetében, összevetve a Midjoruney-vel, a DALL-E 3 ügyesebb az utasítások értelmezésében, feltételezem ez a nyelvi modell rendelkezésre álló szöveges adatmennyisége miatt van.

A kevésbé bonyolult kéréseknél viszont a Midjourney képminősége jelenleg magasan veri a DALL-E 3 megoldását. Erre is hadd mutassak egy példát az alábbi prompra: “a photo of policeman eating a huge huge huge pink donut in new york”. A Midjourney megoldása:

‍

Midjourney-ben generált kép egy óriás fánkot evő New York-i rendőrről

‍

Ezzel szemben a DALL-E 3 megoldása kevésbé hozza a fotórealisztikus vonalat, kevésbé kidolgozott:

‍

DALL-E 3-ban generált kép egy óriás fánkot evő New York-i rendőrről

‍

Összességében tehát az a tapasztalatom, hogy komplex kérések értelmezésében erősebb a DALL-E 3, viszont a képi anyag minőségében a Midjourney megoldása van előrébb.

‍

A videós anyag összeállításának alapját egy sztoryboard képezte, ahol képi elemeken keresztül vázoltam fel az egyes frame-eket:

‍

Storyboard készítés folyamatban a Runway Gen:48 AI rövidfilm versenyre

‍

Ez nagyon sokat segített abban, hogy tudjam a fókuszt tartani a történetben és gyorsabban haladjak. Miután megvolt a storyboard, a munka sokkal lendületesebben tudott haladni.

‍

Zene (és egyéb hangeffektusok) kiválasztása:

Minden videós anyag készítése során nagyon fontos helye van a zenének, a kész anyag hangulatát erősen meghatározza. A versenyen az Epidemic Sound szponzorként lépett fel, gyűjteményéből szabadon lehetett válogatni a verseny során. Hamar rátaláltam a megfelelő elektro swing zenére, ami illeszkedett ahhoz a hangulathoz amit el akartam érni. Az egyéb hangeffektusokhoz (a narrációt leszámítva) szintén az Epidemic Sound gyűjteményéből szemezgettem.

‍‍

Képek fényelése

Mivel a Runway során legtöbbet az image-to-video funkciót használtam, azaz generált képeket alakítottam tovább videóvá, fontos volt, hogy az alapképek megfelelően legyenek fényelve, hiszen ez sokat segíthet abban, hogy egy egységes megjelenése legyen a végeredménynek. A jelenlegi generative AI megoldásoknál még nehezen hozható az létre, hogy az egymás után illesztett képek illetve videók stílusban egységesek legyenek, ezért az ilyen tipusú hozzáadott munkának nagy jelentősége van. A képek fényeléséhez az Adobe Lightroom-ot használtam.

‍

‍

Videógenerálás

A videógenerálást több oldalról is meg lehetett közelíteni. Egyik megoldás az, ha a Runway-en belül promptok alapján generálunk szövegből videót (text-to-video). Előnye, hogy nem kell más programot használni és gyorsan kaphatunk egy megoldást. Hátránya, hogy a generált video sokszor nem részletgazdag, esetleg pontatlan. Így én egy másik utat választottam. Előre generáltam képeket Midjoruney, illetve DALL-E 3 segítségével (text-to-image). Majd ezeket használtam inputként és generáltam a videókat (image-to-video). Így sokkal részletgazdagabb videókat tudtam létrehozni. A jelenlegi verseny során általában 3-5 próbálkozással jutottam el animálást tekintve ahhoz a végeredményhez, amit végül felhasználtam. Azt gondolom, itt ha több időt és próbálkozást hagyok rá, akkor még konzisztensebb és szebb végeredményt kaphattam volna, viszont a korlátozott idő ami rendelkezésemre állt, ezt engedte meg jelenleg.

‍

Történet összefűzése, hiányzó elemek (pl. Hangeffektusok, feliratok) beillesztése

A történet egybefűzéséhez használhattam volna a Runway videóvágóját, viszont én korábban már sokat dolgoztam Adobe Premier Pro-val, így most azt a programot választottam, amiben több tapasztalatom volt. A videóvágás viszonylag gyorsan ment. A végső anyaghoz a hiányzó hangeffektusokat Epidemic Sound-ról mentettem le.

‍

Utómunka

Ez az a terület, amire legközelebb sokkal több időt szeretnék szánni. Egy alap utómunkát végeztem Adobe Premier Pro-val, de szerettem volna még használni az Adobe After Effect-et is. Sajnos kevés tapasztalatom (nullához közelít) van Adobe After Effects-el, és most nem volt időm, hogy megtanuljam az alapokat a programmal kapcsolatban. Ugyanakkor azt gondolom, megfelelő utómunkával fényévekkel jobb végeredmény érhető el az AI videókészítés során. Nagyon sajnálom, hogy erre a részre nem tudtam kellő időt szánni. Ez egy olyan terület amit mindenképpen fejleszteni szeretnék.

‍

Tapasztalatok a versennyel kapcsolatban

Amit máshogy csinálnék legközelebb:

Mivel az AI tartalomgenerálásban, főleg a videó és képi vonalon van egy erős random faktor, azaz nem kiszámítható pontosan milyen végeredményt kapunk - sok esetben szükséges nagyon sok verziót legenerálni, mire eljutunk a kívánt végeredményhez. Nekem időhiány miatt, 3-5 körös verziógenerálások fértek bele, de azt gondolom itt akár szükséges lehet 10-20-30 verzió generálás (vagy akár még több) és akkor sokkal sokkal több opció közül találhatjuk meg azt a tökéletes képi anyagot, amit keresünk
Utómunka - korábban már említettem, erre szeretnék sokkal jobban ráfeküdni
Tesztelés - érdemes lehet menet közben, amikor már van egy alap sztorink megmutatni az anyagunkat egy külső szemeknek, hogy leteszteljük, mennyire jön át a koncepció. Ezzel azért óvatosan kell bánni, nem szabad megsértődni, vagy félre érteni a visszajelzéseket, hanem ügyesen ki kell szűrni, hogy mi az, ami valós kritika, hol hibázik a történet íve, hol van elcsúszás/nem értés stb. Mivel én jórészt késő este/hajnalban jutottam el arra a pontra, amit már mutatni lehetett volna külső szemnek, sajnos ez a rész most kimaradt. Viszont fontosnak érzem ezt beépíteni a folyamatba, mert sokat segíthet pár külső, “friss” vélemény, észrevétel.

‍

Összességében egy nagyon jó élmény volt a verseny. Hajnal 3-ra sikerült befejeznem a filmet. Összesen nettó 8-9 órát ölelhetett fel az alkotás aktív része.

A szervezés profi volt. Email-ben pont annyi információt kaptunk, ami kellett, nem voltunk elárasztva felesleges email-ekkel. Ugyanakkor a Runway nagyon erős Discord közösség építésben, és egy külön csatornát dedikáltak a versenynek, ahol folyamatos volt a kommunikáció résztvevők és szervezők között. Ez nagyon hasznos volt és sokat segített abban, hogy a remote verseny ellenére azt érezzük, hogy valóban egy éles hackaton folyik ahol a részvevők a világ minden részéről érkeztek. Sajnos a megmaradt krediteket nem tarthattuk meg, pedig nagyon örültem volna neki 🙂. A héten, október 27-én érkeznek a shortlistes filmek, kíváncsian várom, miket választanak majd ki, hol tart jelenleg ez az egész AI filmkészítés globál szinten. Figyeljétek ti is a bejelentést majd ezen az oldalon: https://gen48.runwayml.com/

‍

Ha téged is érdekel az AI alapú videós tartalomgyártás, jelentkezz hamarosan induló képzésünkre ITT!