Dat maakte Google dinsdag bekend op Google I/O 2024 Weergave, een nieuw AI-videosynthesemodel dat video’s met hoge resolutie kan maken van tekst, afbeeldingen of videoprompts, vergelijkbaar met Sora van OpenAI. Het kan 1080p-video’s maken die langer dan een minuut duren en video’s bewerken op basis van schriftelijke instructies, maar het is nog niet vrijgegeven voor wijdverbreid gebruik.
Veo bevat naar verluidt de mogelijkheid om bestaande video’s te bewerken met behulp van tekstopdrachten, de visuele consistentie tussen frames te behouden, videosequenties van maximaal 60 seconden lang te maken en meer dan één prompt of reeks prompts die een verhaal vormen. Het bedrijf zegt dat het gedetailleerde scènes kan creëren en filmische effecten kan toepassen, zoals time-lapses, luchtfoto’s en verschillende visuele stijlen
Sinds de lancering van DALL-E 2 in april 2022 hebben we een showcase gezien van nieuwe fotomontages en videomontages waarmee iedereen die een schriftelijke beschrijving kan schrijven, een gedetailleerde foto of video kan maken. Hoewel geen van beide technologieën volledig is geoptimaliseerd, worden AI-beeld- en videogeneratoren gestaag steeds capabeler.
In februari hebben we een preview gegeven van de Sora-videogenerator van OpenAI, waarvan velen destijds geloofden dat het de beste door AI aangedreven videocompositie was die de industrie te bieden had. Het maakte zoveel indruk op Tyler Perry dat hij de uitbreidingen van zijn filmstudio stopzette. Tot op heden heeft OpenAI echter geen publieke toegang tot de tool geboden, maar het gebruik ervan beperkt tot een selecte groep testers.
Nu lijkt Google’s Veo op het eerste gezicht in staat video’s te produceren die vergelijkbaar zijn met wat Sora heeft bereikt. We hebben het zelf niet geprobeerd, dus we kunnen alleen geselecteerde demovideo’s bekijken die door het bedrijf zijn geleverd Op zijn website. Dit betekent dat iedereen die het bekijkt de beweringen van Google met een korreltje zout moet nemen, omdat de creatieresultaten misschien niet typisch zijn.
Typische video’s van Veo zijn onder meer een cowboy te paard, een snelle opname in een straat in een buitenwijk, een kebab gegrild op de grill, een time-lapse van de opening van een zonnebloem en meer. Er is duidelijk geen sprake van een gedetailleerde weergave van mensen, wat historisch gezien moeilijk was voor AI-aangedreven beeld- en videomodellen om te creëren zonder duidelijke vervormingen.
Google zegt dat Veo voortbouwt op de eerdere modellen voor het maken van video’s van het bedrijf, waaronder Generative Query Network (GQN), DVD-GAN en Imagen-Video. VinakiWalt, VideoPoet en Lumière. Om de kwaliteit en efficiëntie te verbeteren, bevatten Veo-trainingsgegevens meer gedetailleerde videofeedback en worden gecomprimeerde “latente” videorepresentaties gebruikt. Om de kwaliteit van Veo’s videocreatie te verbeteren, heeft Google gedetailleerdere ondertitels toegevoegd aan de video’s die worden gebruikt om Veo te trainen, waardoor de AI aanwijzingen nauwkeuriger kan interpreteren.
Veo lijkt ook opmerkelijk omdat het opdrachten voor het maken van films ondersteunt: “Gegeven een video-invoeropdracht en een bewerkingsopdracht, zoals het toevoegen van een kajak aan een luchtfoto van een kustlijn, kan Veo die opdracht toepassen op de onbewerkte video en een nieuwe bewerkte video maken. zegt het bedrijf.
Hoewel de demo’s er op het eerste gezicht indrukwekkend uitzien (vooral vergeleken met Will Smith die spaghetti eet), erkent Google de moeilijkheid van het maken van een AI-video. “Het behouden van visuele consistentie kan een uitdaging zijn voor modellen voor het maken van video’s”, schreef het bedrijf. “Karakters, objecten of zelfs hele scènes kunnen onverwacht tussen frames flikkeren, springen of verschuiven, waardoor uw kijkervaring wordt verstoord.”
Google heeft geprobeerd deze nadelen te verzachten met ‘geavanceerde latente propagatieconverters’, wat in feite zinloze marketingpraat is zonder details. Maar het bedrijf heeft voldoende vertrouwen in het model dat het is Werken met acteur Donald Glover en zijn studio, Gilga, om een door AI gegenereerde uitlegfilm te maken die binnenkort in première gaat.
In eerste instantie zal Veo via Veo beschikbaar zijn voor geselecteerde makers VideoFX, een nieuwe experimentele tool die beschikbaar is op Google’s AI Test Kitchen, labs.google. Creators kunnen zich op de VideoFX-wachtlijst plaatsen om de komende weken toegang te krijgen tot Veo-functies. Google is van plan om in de toekomst een aantal mogelijkheden van Veo te integreren in YouTube Shorts en andere producten.
Er is nog geen informatie over waar Google de trainingsgegevens van Veo heeft verkregen (als we moesten raden, is YouTube er waarschijnlijk bij betrokken). Maar Google zegt dat het met Veo een “verantwoorde” aanpak hanteert. Volgens het bedrijf zijn “Video’s gemaakt door Veo voorzien van een watermerk Synthide-IDonze geavanceerde tool voor het watermerken en identificeren van door AI gegenereerde inhoud, het doorgeven ervan door beveiligingsfilters en conserveringscontroles die de risico’s op het gebied van privacy, auteursrecht en vooringenomenheid helpen beperken.”
More Stories
Apple kondigt uitbreiding van Vision Pro naar nog twee landen aan
Hoe u de Apple Gehoortest doet met AirPods Pro 2
Apple kondigt MacBook Pro-modellen aan met M4 Pro- en M4 Max-chips, Thunderbolt 5-ondersteuning en meer