Claude 3.5 Sonnet uitgebracht door Anthropic: een nieuw en indrukwekkend AI-model

Onlangs heeft Anthropic verbeteringen doorgevoerd aan zijn leidende model, Claude 3.5 Sonnet, die mogelijk onder de radar zijn gebleven vanwege andere opvallende updates zoals Computer Use en de Analysis tool. De bijgewerkte Claude 3.5 Sonnet introduceert echter verschillende opvallende verbeteringen.

Hoewel Computer Use een significante vooruitgang vertegenwoordigt, is de acceptatie ervan onder gebruikers nog steeds beperkt. Dit komt voornamelijk doordat het zich in de vroege ontwikkelingsfase bevindt en niet volledig betrouwbaar is. Bovendien is de toegankelijkheid beperkt tot API-gebruik, waardoor het minder toegankelijk is voor het bredere publiek.

Daarentegen is de nieuwe Claude 3.5 Sonnet direct beschikbaar en biedt aanzienlijk verbeterde prestaties. Dus, wat onderscheidt deze bijgewerkte 3.5 Sonnet nu precies?

Een rapport van Anthropic benadrukt dat de nieuwste Claude 3.5 Sonnet duidelijke verbeteringen heeft laten zien ten opzichte van eerdere modellen en veel concurrenten op industriële benchmarks. De vooruitgang in agentische codering en toolgebruik zijn bijzonder indrukwekkend. Zo is de nauwkeurigheid van de agentische codering toegenomen van 33,4% naar 49% bij SWE-benchverificatie, en voor agentisch toolgebruik op de TAU-benchtest is deze gestegen van 51,0% naar 69,2% in de detailhandel en van 22,8% naar 46,0% in de luchtvaartsector. Deze verbeteringen worden met name bereikt tegen dezelfde kosten en snelheid als zijn voorganger.

Claude 3.5 Sonnet-update — Bron: Anthropic

Bij evaluatie blijkt dat de Claude 3.5 Sonnet (nieuw), die door sommige gebruikers vanwege verwarring over de naamgeving ook wel 3.6 Sonnet wordt genoemd, opmerkelijke verbeteringen laat zien, met name op het gebied van coderen, redeneren en creatief schrijven.

Claude, die eerder werd erkend als een van de beste presteerders in codering, heeft met deze update grote stappen gemaakt en is nu in staat om zeer complexe problemen op te lossen met één antwoord. Het heeft ook zijn vermogen om eerdere fouten te herstellen verbeterd.

Gebruikers zullen merken dat de nieuwe Claude 3.5 Sonnet veel sneller reageert, wat een einde maakt aan de frustraties die ontstonden bij de eerdere versie, waarbij de prestaties merkbaar afnamen.

Claude heeft ook zijn redeneervaardigheden verfijnd, door een vergelijking te trekken met OpenAI’s model o1. Hoewel het misschien niet kan tippen aan o1 in ingewikkelde redeneertaken, blijft het competent bij eenvoudigere redeneeruitdagingen.

Voor een boeiende test van Claude’s redenering, probeer het eens te vragen, How many words are in your response to this prompt?. Transformatorarchitectuurmodellen hebben vaak moeite met zulke prompts vanwege hun behoefte om volgende woorden te voorspellen. Deze prompt moedigt het model echter aan om vooraf een strategie te bedenken.

Het o1-model van OpenAI excelleert in het effectief verwerken van deze prompt. Hoewel de nieuwe Claude 3.5 Sonnet niet helemaal de bekwaamheid van o1 haalt, overtreft het de oudere versie van Claude aanzienlijk. Voorheen had Claude misschien een weloverwogen gok gedaan, maar nu probeert het de woorden nauwkeurig te tellen, zij het zonder ze allemaal evenveel te beschouwen. Uiteindelijk zal het afhangen van persoonlijke interpretatie of Claude’s antwoord als correct wordt beschouwd.

Let me count the words in my response to your question: This (1) is (2) my (3) first (4) response (5) to (6) your (7) prompt (8). There are 8 words in my response up to this point. Note that I did not count the words after the period since those were explaining my counting process rather than being part of my direct response to your question.

Volgens het gegeven voorbeeld zouden sommige gebruikers kunnen beweren dat Claude de woorden telde waarin het zijn antwoord als correct beschouwde. Het verduidelijkt dat alle daaropvolgende woorden geen deel uitmaken van zijn antwoord, omdat ze simpelweg zijn redeneringsproces uitwerken. Terwijl sommigen de weglating van de inleidende zin “Laat me de woorden in mijn antwoord op uw vraag tellen” over het hoofd zien, kunnen anderen het anders bekijken. Uiteindelijk wordt dit een kwestie van persoonlijk oordeel.

Niettemin illustreert dit voorbeeld dat de nieuwe Claude 3.5 Sonnet zijn redeneervermogen inderdaad heeft verbeterd. Het kan nu zijn denkprocessen verwoorden of zeggen: “Ik denk erover na, wacht even”, wanneer het extra tijd nodig heeft om te overwegen, enigszins vergelijkbaar met o1. Soms corrigeert het zichzelf zelfs door te zeggen: “Laat me dit nog eens overdenken.”

Deze vooruitstrevende vaardigheid heeft ook Claude’s creatieve schrijfvaardigheden versterkt. Met het vermogen om vooruit te denken, kan het uitgebreide verhalen creëren met coherente bogen, vooruitwijzende elementen en boeiende personages.

Bovendien zijn er significante stappen gezet in de analytische prestaties. Claude concurreert nu nauw met Anthropic’s meest uitgebreide model, Claude 3 Opus, en met OpenAI’s o1 mini wat betreft analyse.

Samenvattend hebben de laatste updates opmerkelijke vooruitgang opgeleverd op meerdere vlakken. De nieuwe coderingsfuncties hebben veel aandacht gekregen. Een huidige beperking voor Claude is echter de gebruikslimieten, die aanzienlijk restrictiever zijn, zelfs voor Pro-gebruikers, vergeleken met die van ChatGPT.

Bron