Het nieuwe AI-model van Google voor het genereren van video's Lumière A wordt gebruikt Er wordt een nieuw diffusiemodel genoemd Space-Time-U-Net, of STUNet, dat bepaalt waar objecten in de video zich bevinden (ruimte) en hoe ze tegelijkertijd bewegen en veranderen (tijd). Ars Technica Met deze methode kan Lumiere de video in één proces maken in plaats van kleinere stilstaande beelden aan elkaar te plakken, merkt deze methode op.
Lumiere begint met het maken van een basisframe van de vector. Vervolgens gebruikt het het STUNet-framework om te beginnen te schatten waar objecten binnen dat frame zullen bewegen om meer frames te creëren die in elkaar overvloeien, waardoor de indruk van vloeiende bewegingen ontstaat. Lumiere maakt ook 80 frames vergeleken met 25 frames van Stable Video Diffusion.
Toegegeven, ik ben meer een tekstreporter dan een videopersoon, maar het persbericht van Google, samen met een voorgedrukt wetenschappelijk artikel, laat zien dat AI-tools voor het maken en bewerken van video's in slechts een paar jaar van de griezelige vallei naar bijna echt zijn gegaan. . Het vestigt ook de technologie van Google in een ruimte die al wordt ingenomen door concurrenten als Runway, Stable Video Diffusion of Meta's Emu. Runway, een van de eerste in massa geproduceerde tekst-naar-videoplatforms, lanceerde in maart vorig jaar Runway Gen-2 en begon realistischere video's aan te bieden. Runway-video's hebben ook moeite met het vastleggen van actie.
Google was zo vriendelijk om de clips en prompts op de Lumiere-site te plaatsen, zodat ik ter vergelijking dezelfde prompts op Runway kon plaatsen. Hier zijn de resultaten:
Ja, sommige van de gepresenteerde clips hebben een industrieel tintje, vooral als je goed naar de textuur van de huid kijkt of als de scène sfeervoller is. Maar Kijk naar die schildpad! Ze beweegt zich als een schildpad in het water! Het lijkt wel een echte schildpad! Ik heb de Lumiere-introductievideo naar een vriend gestuurd die een professionele video-editor is. Hoewel ze opmerkte dat “je duidelijk kunt zien dat dit niet helemaal echt is”, vond ze het indrukwekkend dat als ik haar niet vertelde dat het AI was, ze zou denken dat het CGI was. (Ze zei ook: “Dat zou mijn baan in beslag nemen, nietwaar?”)
Andere modellen voegen videoclips samen van keyframes die zijn gegenereerd op de plek waar de actie daadwerkelijk plaatsvond (denk aan tekeningen in een papieren boek), terwijl STUNet Lumiere in staat stelt zich te concentreren op de actie zelf op basis van waar de gegenereerde inhoud zich zou moeten bevinden op het specifieke tijdstip van de video.
Google is geen grote speler geweest in de tekst-naar-video-categorie, maar heeft langzaamaan meer geavanceerde AI-modellen uitgebracht en is overgegaan op een multimediale focus. Zijn Gemini Grand Language Model zal uiteindelijk de beeldgeneratie naar de bard brengen. Lumiere is nog niet beschikbaar om te testen, maar het toont het vermogen van Google aan om een AI-videoplatform te ontwikkelen dat vergelijkbaar is met – en aantoonbaar iets beter – dan algemeen verkrijgbare AI-videogeneratoren zoals Runway en Pika. En even voor de goede orde: dit is waar Google een paar jaar geleden stond met AI-video.
Naast het creëren van tekst-naar-video-conversie, zal Lumiere ook het creëren van beeld-naar-video-conversie, gestileerde creatie mogelijk maken, waardoor gebruikers video's in een specifieke stijl kunnen maken, filmische graphics die slechts een deel van de video animeren, en tekenen naar maskeer een deel van de video om de kleur of stijl te wijzigen.
In het onderzoek van Google Lumiere werd echter opgemerkt dat “er een risico bestaat op misbruik bij het maken van nep- of kwaadaardige inhoud met behulp van onze technologie, en wij zijn van mening dat het essentieel is om tools te ontwikkelen en te implementeren om vooroordelen en gevallen van kwaadwillig gebruik te detecteren om een veilige en eerlijke ervaring te garanderen .” wordt gebruikt.” De auteurs van het artikel legden niet uit hoe dit kon worden bereikt.
“Hipster-Friendly Explorer. Award-Winning Coffee Fanatic. Analyst. Problem Solver. Troublemaker.”
More Stories
Apple kondigt uitbreiding van Vision Pro naar nog twee landen aan
Hoe u de Apple Gehoortest doet met AirPods Pro 2
Apple kondigt MacBook Pro-modellen aan met M4 Pro- en M4 Max-chips, Thunderbolt 5-ondersteuning en meer