Toen de eerste door AI gegenereerde video werd uitgebracht, had niemand kunnen vermoeden dat videogenererende AI-tools in zo’n korte tijd zo ver zouden komen. Tegenwoordig hebben we echter talloze platforms waarmee gebruikers hoogwaardige, ongelooflijk gedetailleerde video’s kunnen genereren, zoals Synthesia en Luma AI’s Dream Machine. Dat gezegd hebbende, zijn er nog steeds een paar uitdagingen die voorkomen dat deze tools mainstream worden.
En de grootste is misschien wel het proces voor het genereren van audio. Hoewel de meeste videogenererende platforms video’s van goede kwaliteit kunnen produceren, zijn het meestal stille video’s zonder enige audio. Zelfs als er audio is, wordt deze meestal afzonderlijk toegevoegd en voldoet deze niet aan de verwachtingen van de gebruiker.
Als u bijvoorbeeld de Dream Machine-pagina van Luma AI bezoekt, ziet u een aantal zeer indrukwekkende video’s, maar het geluid dat daarbij hoort is vrij generiek en van lage kwaliteit. Maar dat kan binnenkort veranderen met de nieuwe video-to-audio (V2A)-technologie van Google.
Hiermee wordt audio van goede kwaliteit voor video’s voor het grote publiek beschikbaar. Dat betekent dat je eindelijk door AI gegenereerde films kunt produceren met de juiste soundtracks en audio. Daarmee overtreft het alle door AI gegenereerde video’s die momenteel worden geproduceerd.
https://www.youtube.com/watch?v=VYjZlF6m3nQ
Wat is het video-naar-audio-onderzoek van Google DeepMind?
Video-to-Audio (V2A)-technologie, ontwikkeld door Google’s DeepMind, is ontworpen om soundtracks te maken voor AI-gegenereerde video’s. Deze technologie maakt het mogelijk om video’s en audio tegelijkertijd te genereren door natuurlijke taalprompts te combineren met videopixels om geluiden te genereren voor welke acties er ook plaatsvinden in de video.
Deze technologie kan worden gecombineerd met AI-modellen die worden gebruikt om video’s te genereren, zoals Veo, en kan helpen realistische dialogen en geluidseffecten te creëren, samen met dramatische partituren die passen bij de video. Belangrijker nog is dat de nieuwe V2A-technologie niet alleen beperkt is tot video’s die zijn gegenereerd met behulp van AI, maar ook kan worden gebruikt om soundtracks te genereren voor video’s die op de traditionele manier zijn geproduceerd. Je kunt het dus gebruiken voor stomme films, archiefmateriaal en meer.
Met de V2A-technologie kunnen gebruikers onbeperkte soundtracks voor video’s genereren en zelfs positieve en negatieve aanwijzingen gebruiken om het geluidsgeneratieproces te begeleiden en gemakkelijk de vereiste geluiden te verkrijgen. Dit biedt ook meer flexibiliteit, zodat u met verschillende uitgangen kunt experimenteren en kunt ontdekken wat het beste is voor een bepaalde video.
https://www.youtube.com/watch?v=9Q0-t8D9XFI
Hoe werkt de V2A-technologie?
Volgens Google experimenteerde het bedrijf met diffusie-gebaseerde en autoregressieve technieken en vond de eerste het meest geschikt voor geluidsproductie. Het resulteert in zeer realistische geluiden en werkt door de video te coderen in een gecomprimeerd formaat.
Daarna wordt het diffusiemodel gebruikt om willekeurige ruis van de video te scheiden door te vertrouwen op aanwijzingen in natuurlijke taal en de video. De aanwijzingen helpen bij het genereren van realistische audio die perfect gesynchroniseerd is met de video. Dit wordt gevolgd door het decoderen van de audio, waarna deze wordt omgezet in een audiogolfvorm en wordt samengevoegd met de video.
Google’s DeepMind leverde meer informatie om de AI te trainen, waardoor gebruikers het audiogeneratieproces naar de vereiste geluiden kunnen leiden en het platform audio van hogere kwaliteit kan produceren. Dergelijke informatie omvatte transcripties van gesproken dialogen en gedetailleerde geluidsbeschrijvingen met door AI gegenereerde annotaties.
Door deze informatie te gebruiken, kan de V2A-technologie verschillende visuele scènes koppelen aan specifieke audiogebeurtenissen.
Wat staat ons te wachten?
De V2A-technologie van DeepMind presteert veel beter dan andere V2A-oplossingen, omdat er niet altijd een tekstprompt voor nodig is en videopixels kunnen worden begrepen. Ook hoeft de geluidsuitvoer niet handmatig op de video te worden afgestemd. Er zijn echter nog steeds bepaalde beperkingen van de technologie, die Google met verder onderzoek wil overwinnen.
De kwaliteit van de gegenereerde audio hangt bijvoorbeeld af van de kwaliteit van de video die als input wordt gebruikt. Als er vervormingen of artefacten in de video zitten, begrijpt het AI-model deze niet, omdat ze niet in de training zijn opgenomen, wat uiteindelijk resulteert in een verminderde audiokwaliteit.
Bovendien werkt het bedrijf aan het verbeteren van lipsynchronisatie voor video’s met menselijke spraak. De V2A-technologie probeert spraak te genereren met behulp van de invoertranscripties en deze vervolgens af te stemmen op de lipbewegingen van de personages in de video. Als de video echter niet op transcripten vertrouwt, is er een mismatch tussen de audio en de lipbewegingen.
Met betere mogelijkheden voor het genereren van audio kunnen AI-modellen video’s genereren die er niet alleen indrukwekkend uitzien, maar ook geweldig klinken. Google integreert ook zijn V2A-technologie met SynthID, dat alle inhoud die met behulp van AI is gegenereerd, van een watermerk voorziet. Dit kan misbruik helpen voorkomen, waardoor volledige veiligheid wordt gegarandeerd.
Bovendien zegt het bedrijf dat het zijn V2A-technologie rigoureus zal testen voordat het aan het publiek wordt vrijgegeven. Tot nu toe, van wat Google heeft laten zien en beloofd voor de toekomst, wordt deze technologie een grote vooruitgang in de audiogeneratie voor door AI gegenereerde video’s.
Geef een reactie