Key Performance Indicators noeten natuurlijk wel kloppen. Dat iets klopt, vindt iedereen de normaalste zaak van de wereld. Niemand wil ontdekken dat 35% van het vlees bij de slager bedorven is, af en toe geen salaris ontvangen, of dat de kinderen een paar willekeurige dagen per week onverwacht terugkomen van school omdat er die dag opeens geen les was.
Natuurlijk kan er iets fout gaan, maar dat hoort een uitzondering te zijn.
Maar, het maken van fouten is bij AI juist heel gewoon.
Gezien de enorme hype rondom AI en ChatGPT zou je dat niet verwachten. Maar dat zijn nu eenmaal de feiten.
Microsoft Build 2023: Het Vinden van de Juiste Slaapzak
Op de Microsoft Build Conference wordt er alles aan gedaan om ontwikkelaars wereldwijd te overtuigen van de uitmuntendheid van hun producten. Het evenement maakt daartoe gebruik van voorbeelden. Deze voorbeelden zijn van tevoren zeer zorgvuldig geselecteerd, ze moeten immers als ondersteunend bewijs dienen voor het idee van eenvoud, betrouwbaarheid en onmiddellijke toegankelijkheid van de technologie.
Dit jaar draaide alles om generatieve AI, met de nadruk op ChatGPT. En Microsoft had hiervoor een schitterend voorbeeld geselecteerd.
Wat was dit voorbeeld?
Iemand wilde een slaapzak kopen op een website en stelde de AI-machine de vraag: ‘Welke slaapzak heb ik nodig als ik naar Chili ga?’. En de AI-machine gaf een lijstje met slaapzakken.
Het idee achter dit voorbeeld was dat de machine wist dat het in Chili koud zou kunnen zijn, en op grond daarvan de juiste slaapzakken selecteerde.
35% van de Antwoorden was Fout
Helaas klopte dit lijstje niet, een spreker van Microsoft liet zich ontvallen dat maar liefst 35% van de antwoorden fout was: je kreeg de verkeerde slaapzak.
Leuk, als je ’s nachts ligt te rillen van de kou in je tentje
En dit was een zorgvuldig van tevoren geselecteerd voorbeeld.
Microsoft is daar overigens heel eerlijk en duidelijk in: ze leggen, bijna tot vervelens toe, de nadruk op “Grounding”: de noodzaak om altijd te controleren of een AI-antwoord klopt, voordat je het gaat gebruiken.
Maar geldt dit ook voor ChatKPI?
Onze lessen uit deze ervaring maakten ons duidelijk: het is niet verstandig om AI te gebruiken voor het automatiseren van iets dat feitelijk mensenwerk is, zoals het selecteren van artikelen in een webshop.
En eerlijk gezegd zou het ons – met 30 jaar ervaring in het bouwen van AI-software, zeer verbaasd hebben als het wel goed zou hebben gewerkt. Met ervaring krijg je van tevoren een redelijk inzicht in wat wel en niet haalbaar is.
Daarom waren we met ChatKPI veel minder ambitieus: we beperkten ons tot het produceren van computercode. Dit is veel makkelijker voor een machine, omdat computertaal kunstmatig is en heel strak is geformaliseerd.
En ChatKPI leek goed te werken, zie hierover ons vorige artikel waarin precies wordt weergegeven we dat gedaan hebben.
Maar zou het altijd werken? Hoe betrouwbaar is generatieve AI voor het produceren van computer code? Wat kan daar fout gaan?
Het antwoord is: heel erg veel.
De Wetenschap: Stanford University Constateerde 52% Fouten
Stanford University onderzocht in hoeverre ChatGPT een standaardverzameling van eenvoudige programmeringsproblemen kon oplossen.
Stanford ontdekte dat maar liefst de helft van de antwoorden simpelweg fout was.
ChatGPT gets code questions wrong 52% of the time • The Register
Dat was een flinke tegenvaller.
De Harde Praktijk: Stack Overflow Verbiedt Generatieve AI
We lieten ons niet uit het veld slaan, en onderzochten verder. Als je naar de Stanford vragen kijkt, zijn het wel eenvoudige programmeringsproblemen, maar ze doen kunstmatig aan. Geen echte praktijkproblemen, en daar gaat het ons natuurlijk om.
Waar vind je echte praktijkproblemen?
Voor dit antwoord kom je als eerste bij Stack Overflow terecht. Meer prestigieus dan dit platform kun je in de wereld niet vinden. Op dit platform stellen professionele programmeurs elkaar allerlei technische vragen over programmeerproblemen. Om de kwaliteit te garanderen hanteren ze een streng beoordelingssysteem van zowel de antwoorden als elkaar.
En wat blijkt, Stack Overflow heeft het gebruik van AI – na wat ervaring – snel en strikt verboden. En gaat daarin heel ver: als je je toch aan het gebruik van ChatGPT waagt, loop je het risico levenslang van het platform verwijderd te worden.
Stack Overflow bans ChatGPT as ‘substantially harmful’ • The Register’
“High error rates mean thousands of AI answers need checking by humans”
“The average rate of getting correct answers from ChatGPT is too low”
AI is Gebaseerd op Statistiek, en daar gaat het fout.
Als je er dieper over nadenkt, is het logisch dat AI vaak niet betrouwbaar is. Het is immers in wezen een statistische analyse. En om Mark Twain te parafraseren met zijn “There are three kinds of lies: lies, damned lies, and statistics“: ‘Je hebt leugens, grote leugens en Kunstmatige Intelligentie’.
Hoe Gaan We Verder met ChatKPI?
Voor onze projecten gebruiken we altijd deze curve. Horizontaal zie je de tijd, verticaal het vertrouwen, het enthousiasme van het project. Zelden gaat een project volgens de groene curve, bijna altijd volgt het de blauwe curve. En ook hier, bij ChatKPI 1 en 2 waren we potentieel nog op de groene curve, maar nu zitten we opeens op de blauwe curve.
Onze conclusie: Het is onverantwoord nu AI in te bouwen in onze software.
We wachten een jaartje af voordat we verder gaan met kunstmatige intelligentie. Misschien gebeurt er een wonder, maar onze 30 jaar ervaring met AI vertelt ons dat dit niet zal gebeuren. Op een gegeen moment bereik je een plateau, en het kost heel erg veel werk om dat te verbeteren. Als het al mogelijik is.
Dus ook over een jaar is AI niet betrouwbaar genoeg. Echter, wellicht dringt het besef door dat AI niet betrouwbaar is, en weten onze gebruikers dat ze voorzichtig moeten zijn bij het gebruik ervan.
(Disclaimer: Microsoft is sponsor van Actoren)