Google lanceert Gemini Live, het antwoord van het bedrijf op de geavanceerde spraakmodus van ChatGPT

Het Made by Google-evenement van Google is officieel afgelopen, waar het bedrijf de nieuwste line-up voor hun vlaggenschip Pixel-serie smartphones lanceerde. De geruchtenmolen is de afgelopen weken hard aan het werk geweest over dat ene en veel geruchten zijn eindelijk werkelijkheid geworden. Bovendien, zoals verwacht, werd er op het evenement ook meer dan een paar – nou ja, eigenlijk best veel – melding gemaakt van AI.

Naast andere AI is de belangrijkste aankondiging de lancering van Gemini Live. Google kondigde Gemini Live eerder dit jaar aan op hun I/O-conferentie. Het rolt eindelijk uit naar Gemini Advanced-abonnees op Android in het Engels, met een uitrol naar meer talen en iOS (via de Google-app) die binnenkort beschikbaar is.

Met Gemini Live is Gemini nu in staat om meer natuurlijke, tweerichtingsgesprekken te voeren. Je kunt het ook midden in een antwoord onderbreken, net als in elk natuurlijk gesprek. Je kunt naar de Gemini-app op Android gaan om met de chatbot te converseren.

Dit is vergelijkbaar met de Advanced Voice Mode-ervaring in de ChatGPT-app die nu in een beperkte alfaversie wordt uitgerold naar ChatGPT Plus-gebruikers. Voor het eerst heeft Google zichzelf voor OpenAI gezet in de releasetijdlijn door een bredere uitrol te starten.

Gemini Live is ook handsfree beschikbaar, zodat u op de achtergrond met Gemini kunt praten of zelfs wanneer uw telefoon is vergrendeld. U kunt gesprekken ook halverwege verlaten en er later op terugkomen.

Google rolt Gemini Live uit met 10 nieuwe stemmen, zodat uw gesprekken met de AI nog authentieker aanvoelen. U kunt de stem en toon kiezen die bij u past.

Opvallend is dat Gemini Live geen andere stem kan simuleren dan de 10 stemmen die beschikbaar zijn in de app, mogelijk om problemen met auteursrechten te voorkomen. ChatGPT-4o volgt hetzelfde beleid. Er is één gebied waar Gemini Live niet hetzelfde is als ChatGPT-4o’s Voice Mode. De eerste kan je emoties niet uit je toon halen, iets dat OpenAI demonstreerde dat hun chatbot kon doen.

Bovendien is er ook een mogelijkheid van Gemini Live die Google demonstreerde op de I/O-conferentie die niet beschikbaar zal zijn bij de lancering. Ja, we hebben het over multimodale inputs. Als je niet weet wat dat was, geen zorgen. Hier is een samenvatting: Met multimodale inputs kan Gemini Live inputs van de camera van je telefoon (zowel foto’s als video’s) in realtime gebruiken en alle vragen beantwoorden of je helpen objecten te identificeren waarnaar je wijst. Je kunt het bijvoorbeeld op wat DJ-apparatuur richten en het vragen de naam van een onderdeel te identificeren of je kunt het op je scherm richten en vragen wat een bepaald onderdeel van een code doet.

Maar multimodale mogelijkheden zijn voorlopig uitgesteld en Google heeft alleen gezegd dat ze later dit jaar zullen arriveren, zonder specifieke details. Interessant genoeg zou ChatGPT-4o’s Advanced Voice Mode ook soortgelijke mogelijkheden moeten hebben, maar die zijn ook niet gelanceerd met de beperkte alpha-uitrol.

Gemini Live is een belangrijke stap op weg naar de realisatie van Project Astra door Google.

Praten met een chatbot is soms veel handiger dan iets uittypen, vooral als je ergens over wilt brainstormen. En met Gemini Live kan het gesprek veel soepeler verlopen. Of, als de live demo’s van het Made by Google-evenement een indicatie zijn, soepel genoeg. (De chatbot heeft blijkbaar hallucinaties gehad tijdens de live demo en er is wat wrijving bij het testen van de functie “interrupt Gemini in the middle”). Laten we eens kijken hoe het in de echte wereld gaat, hè? Maak je klaar om Gemini Live de komende weken te testen op je Pixel, Samsung of andere Android-apparaten, vanaf vandaag.