In mei boeide de demonstratie van OpenAI’s Advanced Voice Mode het publiek en zorgde voor een golf van enthousiasme. Die eerste opwinding sloeg echter al snel om in teleurstelling toen werd onthuld dat de functie pas later dit jaar beschikbaar zou zijn.
Een paar maanden later heeft OpenAI de Advanced Voice Mode uitgerold voor alle gebruikers van ChatGPT, inclusief zowel gratis als betaalde abonnees. Nu de technologie beschikbaar is voor breder gebruik, is het tijd om de prestaties ervan te evalueren en te kijken of het voldoet aan de hoge verwachtingen die de eerste showcase heeft gewekt.
Beoordelen van mogelijkheden en beperkingen
Een tastbaar gevoel van teleurstelling ontstond bij gebruikers die verwachtten dat Advanced Voice Mode de indrukwekkende functionaliteiten zou weerspiegelen die in de eerdere demo werden getoond. Belangrijke functies zoals multimodaliteit, internetconnectiviteit en bestandsuploadmogelijkheden ontbreken opvallend. Ondanks de uitrol van ChatGPT Search, mist de spraakmodus nog steeds realtime internettoegang en updates.
Bovendien beperkt het onvermogen om spraakgesprekken van eerdere tekstgebaseerde interacties voort te zetten de bruikbaarheid ervan. Deze tekortkoming contrasteert sterk met de veelbelovende mogelijkheden die tijdens de demo werden benadrukt, waardoor gebruikers functies wensen die niet zijn gerealiseerd.
Verbeteringen in de conversatiestroom
Ondanks de beperkingen, toont de Advanced Voice Mode duidelijke verbeteringen ten opzichte van zijn voorganger. Gesprekken voelen organischer aan en gebruikers kunnen onderbreken zonder te wachten tot de AI “nadenkt”, wat een boeiendere ervaring creëert.
Terwijl sommigen speculeren over de backend-processen van de nieuwe spraakmodus, suggereert mijn ervaring dat er minimale vertraging is tussen het spreken en het ontvangen van een antwoord. Deze onmiddellijkheid bevordert een gevoel van dialoog dat lijkt op een menselijk gesprek.
De mogelijkheid om te schakelen tussen talen, waaronder Hindi, Punjabi, Engels en Frans, is ook prijzenswaardig. Soms heeft het echter moeite om onderscheid te maken tussen Hindi en Punjabi, en de stemmodus zou baat kunnen hebben bij een live transcriptiefunctie voor taalonderwijs.
Diverse en boeiende spraakopties
De selectie van stemmen van ChatGPT verbetert de gebruikerservaring. Momenteel biedt het de volgende stemmen:
- Arbor (M) – Gemakkelijk en veelzijdig
- Vale (F) – Vrolijk en nieuwsgierig
- Breeze (M) – Geanimeerd en oprecht
- Sol (F) – Slim en ontspannen
- Maple (V) – Vrolijk en openhartig
- Cove (M) – Gecomponeerd en direct
- Ember (M) – Zelfverzekerd en optimistisch
- Juniper (F) – Open en opgewekt
- Spar (M) – Kalm en bevestigend
Het levendige karakter van deze stemmen zorgt ervoor dat de interacties veel leuker zijn dan bij de stemmen van concurrenten als Gemini Live en Copilot, die een dergelijke vloeiende conversatie missen.
Uitdagingen met beperkingen
Hoewel de stemmodus emotionele nuances voor storytelling effectief kan overbrengen, schiet deze tekort vanwege te strikte beperkingen. In de eerdere demo ervoeren gebruikers een breder scala aan mogelijkheden, waaronder de mogelijkheid om te zingen, die is verwijderd om mogelijke schendingen van het auteursrecht te voorkomen.
Helaas doen deze beperkingen afbreuk aan de algehele ervaring. Gebruikers kunnen te maken krijgen met weigeringen op redelijke verzoeken, zoals het genereren van dialogen voor acteeroefeningen, wat frustratie veroorzaakt. Advanced Voice Mode kan af en toe creatieve verzoeken vervullen met een beetje aanmoediging, maar vindt vaak dat inconsistentie de bruikbaarheid ervan belemmert.
Geheugencapaciteiten en contextbewustzijn
Een opvallende eigenschap van de Advanced Voice Mode is het vermogen om informatie op te roepen. Het staat echter niet toe om spraakgesprekken op te volgen binnen bestaande chats die tekst of afbeeldingen bevatten, een significante beperking.
Gemini Live ondersteunt daarentegen een doorlopende dialoog, ongeacht eerdere chatcontexten. Dit benadrukt een gebied waarop OpenAI mogelijk verbeteringen moet doorvoeren om effectief te kunnen concurreren.
Snelle reactietijden
Hoewel snelle reacties de dynamiek van conversaties verbeteren, kunnen ze soms de dialoogstroom verstoren. De AI interpreteert pauzes vaak verkeerd als een uitnodiging om te reageren, wat leidt tot onderbrekingen die de gedachtegang van de gebruiker kunnen verstoren.
Een functie waarmee gebruikers langere pauzes kunnen aangeven, vergelijkbaar met een “Hold”-knop, zou de natuurlijkheid van deze interacties aanzienlijk verbeteren.
Af en toe kleine storingen
De meeste interacties met de Advanced Voice Mode verlopen soepel, maar gebruikers kunnen af en toe kleine storingen tegenkomen, zoals korte ruis of onverwachte stemveranderingen. Hoewel deze problemen over het algemeen klein zijn, kunnen ze af en toe de gebruikerservaring verstoren.
Kosten- en toegankelijkheidsoverwegingen
Advanced Voice Mode is toegankelijk op het gratis ChatGPT-abonnement voor ongeveer 15 minuten per maand, maar voor volledige toegang is een abonnement vereist. Dit staat in contrast met concurrenten als Copilot en Gemini Live, die hun spraakfunctionaliteiten gratis aanbieden aan gebruikers.
De abonnementskosten, gecombineerd met het ontbreken van functies zoals internettoegang die je in andere modellen wel hebt, roepen vragen op over de waarde van de dienst, vooral voor gebruikers die alleen geïnteresseerd zijn in spraakmogelijkheden.
Eindevaluatie
Hoewel Advanced Voice Mode onmiskenbaar indrukwekkende technologische vooruitgang biedt, schiet het momenteel tekort in het leveren van alles wat in de demo werd beloofd. De praktische toepassingen zijn beperkt en zonder significante verbeteringen dient het meer als een nieuwigheid dan als een noodzakelijk hulpmiddel.
Voor degenen die al geabonneerd zijn op ChatGPT voor functies zoals Canvas, Search of het redeneringsmodel, kan de Advanced Voice Mode dienen als een heerlijke add-on. Het rechtvaardigt echter mogelijk geen abonnement op zichzelf.
Geef een reactie