Creatorul ChatGPT, OpenAI, a lansat Sora, care poate genera videoclipuri cu o simplă comandă de text. Ce spun specialiștii
Curând va fi greu să facem diferența între ce este real și ce este virtual. Inteligența artificială poate genera acum videoclipuri de până la un minut lungime cu o simplă comandă text.
Rezultatul arată ca o filmare realizată cu o cameră.
Producătorul ChatGPT are în lucru un nou model lingvistic, care poate genera clipuri video pe baza comenzilor scrise. Noul model lingvistic text-to-video al companiei se numeşte Sora şi promite creaţii video realiste de până la 60 de secunde pe baza instrucţiunilor textuale.
Sora poate crea „scene complexe cu mai multe personaje, tipuri specifice de mişcare şi detalii exacte ale subiectului şi fundalului”, conform companiei americane, citată de News.ro.
Acesta poate înţelege modul în care obiectele „există în lumea fizică" şi generează personaje care exprimă ”emoţii convingătoare".
Pe lângă comenzile scrise, Sora mai poate genera video pornind de la o imagine statică şi poate, de asemenea, să completeze cadre pentru a extinde un video existent.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
În studioul iLikeIT a fost invitat Adrian Posteucă, pentru a comenta aceste noutăți din tehnologie.
”Mi se pare foarte interesant faptul că îți permite să recreezi cu ajutorul unor texte niște imagini care teoretic nu există, care nu pot fi făcute. Adică se compun imagini noi din imagini deja existente. Această clădire de aici nu seamănă unu la unu cu o clădire reală, cu o clădire din viața reală. Există diferențe. Nu știu. Dacă te uiți care este această bazilică lângă mare, o să-ți dai seama că turnul nu este la fel, că intrarea nu este la fel. Numai că inteligența artificială reușește să facă aceste clădiri plauzibile. Ce mi se pare foarte interesant dacă ne uităm la fundal, adică ne uităm că și-a imaginat sau creează și lucruri de background, unde stau oamenii, cum urcă pe scări, cum se lovește marea de zonele astea de stânci, adică nu numai centrul, focusul, ci și lucrurile care țin de context.” - spune Adrian.
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
”Din punct de vedere tehnic, lucrul ăsta într-un studio de televiziune, într-un studio de producție cinematografică, cred că durează cel puțin o săptămână, dacă nu mai mult, și costă probabil enorm de mulți bani.”
Marian Andrei: Care este scopul acestei tehnologii, adică de ce avem nevoie de ea?
Adrian Posteucă: ”Mi se pare interesant că realitatea asta virtuală, generată de calculator, de făcută de inteligența artificială, pare acum să înțeleagă ceea ce ar trebui să vedem noi, oamenii. Adică dacă până acum a înțeles ceea ce vorbim și reușește să creeze fotografii, să înțeleagă ce scriem, să ne răspundă, de data asta reușește să și înțeleagă cum am percepe noi realitatea.”
Marian Andrei: Sora nu este lansată încă, nu?
Adrian Posteucă: ”Nu, nu este. Este lansată, să zicem așa, pentru publicitate. Sunt puțini care își pot care intră în această versiune de test. Este doar o modalitate de a ca openAI-ul să arate, uite banii investiți de la de la toți, de la toate fonduri de investiții. Uite ce reușim să facem.”
Marian Andrei: Crezi că va costa mult în momentul în care o să-l avem disponibil?
Adrian Posteucă: ”Întrebarea este foarte interesantă, pentru că dacă ne uităm cât costă în momentul de față ChatGPT-ul și este construită pe același model de ChatGPT, nu mai folosește Large Language Model, se numește acuma Large Visual Model.”