Aanhoudend foutief gebruik algoritmes door overheden vraagt om bindende discriminatietoets

Verdieping

Sinds de kinderopvangtoeslagaffaire ligt gebruik van algoritme- en risicoprofilering door de overheid onder een vergrootglas. Toch verschenen afgelopen tijd berichten in de media over verschillende overheidsinstanties die nog steeds gemankeerde algoritmische systemen inzetten bij fraudeopsporing of de uitvoering van andere overheidstaken. Dit soort systemen kunnen discrimineren of bevatten hoge risico’s daarop. De fouten kwamen niet aan het licht vanuit de overheidsinstanties zelf, maar zijn het resultaat van onderzoeksjournalistiek of het werk van controlerende, onafhankelijke partijen. Daarom roept het College op tot de ontwikkeling van een bindende discriminatietoets voor het gebruik van – bestaande én nieuwe – algoritmische systemen die de overheid wil inzetten.

Korte Voorhout in Den Haag met skyline in de avonduren

Utrechtse gemeenten gebruikten discriminerende fraudescorekaarten

Onlangs berichtte de NRC over vier Utrechtse gemeenten die aan de hand van een omstreden ‘fraudescorekaart’ inwoners bleken te controleren op bijstandsfraude. Dankzij een beroep op de Wet openbaarheid van bestuur (Wob) van de onderzoeksjournalisten kwam de praktijk bij de gemeenten aan het licht. Volgens het onderzoek van journalistencollectief Lighthouse Report, radioprogramma Argos en NRC, stond het frauderisico-systeem ‘vol vooroordelen’. Zo zouden woonwagenbewoners standaard een hoge risicoscore krijgen, evenals bouwvakkers, taxichauffeurs, mensen in de schoonmaak en alleenstaanden woonachtig in risicowijken. Ook zouden vrouwelijke kappers een groter risico op fraude hebben dan mannelijke kappers.

De scorekaart was gebaseerd op historische data en literatuuronderzoek, maar een wetenschappelijke validatie hiervan ontbrak. Bovendien was het instrument bijna twintig jaar geleden al ontwikkeld op basis van data uit 2001 en 2003.

Toch hebben 158 gemeenten gebruik gemaakt van de software, waarvan de meesten na een oproep van onder meer de VNG in 2020 hiermee stopten. Desondanks was een systeem dat op deze fraudescorekaart gebaseerd was tot voor kort nog steeds in gebruik bij de vier Utrechtse gemeenten. Na de bekendmaking in de media hebben inmiddels zij ook laten weten de software in de ban te doen.

Gemeenten vaker beticht van gemankeerde digitale systemen

De onthullingen over de Utrechtse gemeenten zijn opvallend, omdat gemeenten al vaker nadrukkelijk op de vingers zijn getikt vanwege het gebruik van omstreden digitale middelen voor fraudeopsporing. Zo oordeelde de rechter begin 2020 dat het fraudeopsporingsinstrument Systeem Risico Indicatie (SyRI) dat door meerdere gemeenten werd gebruikt strijdig was met mensenrechten, mede doordat dit systeem moeilijk te doorgronden bleek voor zowel burgers als de gemeente zelf.

Een daarop volgend systeem voor bijstandsfraudebestrijding voldeed volgens een rapport van de lokale Rekenkamer van Rotterdam uit 2021 eveneens niet, vanwege onder meer gebrekkige transparantie en eerlijkheid van het algoritme. Een Wob-verzoek van Argos en Lighthouse Report later dat jaar legde hierbij bloot hoe kenmerken als leeftijd, geslacht, woonwijk en taal werden meegenomen in frauderisico-voorspellingen.

Ook de gemeente Nissewaard stopte vorig jaar met een bijstandsfraude-algoritme, nadat na aanhoudende onduidelijkheid op vragen uit de gemeenteraad en een aangespannen rechtszaak door de FNV een onderzoek door TNO werd ingesteld om het systeem door te lichten. Hieruit bleek dat dit algoritme, dat de gemeente bij een externe partij had ingekocht, tot onbetrouwbare uitkomsten leidde.

Ook andere overheidsinstanties gebruik(t)en mogelijk discriminerende systemen

Problemen met algoritmes beperken zich niet tot gemeenten. Lighthouse Reports, Argos en NRC berichtten begin mei nog dat de Immigratie- en Naturalisatiedienst (IND) zich schuldig maakte aan etnisch profileren. Om fraude met verblijfsvergunningen te bestrijden, gebruikte de IND een risicomodel waardoor bedrijven met bestuurders met een geboorteplaats buiten Nederland extra (streng) werden gecontroleerd.

Bedrijven werden automatisch beoordeeld op basis van een aantal objectieve bedrijfskenmerken, maar uit een Wob-verzoek kwam naar voren dat de IND ook nog handmatig variabelen kon toevoegen aan dit risicomodel. De IND registreerde hier de geboorteplaats van bestuurders vanuit de database van de Kamer van Koophandel, om het bedrijfsbestuur in te delen op afkomst.

Naast deze discriminatoire redenatie kampte het model ook met een zwakke statistische onderbouwing, vanwege gebrek aan voldoende data over frauderende bedrijven. Ondanks interne waarschuwingen voor etnisch profileren in 2017, haalde de IND het model na een tijdelijke stop in 2021 pas begin 2022 definitief uit de lucht. In beantwoording van Kamervragen wordt gesteld dat de IND de gegevens niet daadwerkelijk gebruikte voor de afwijzing van aanvragen.

Ook uit een recent rapport van de Algemene Rekenkamer bleek dat van negen getoetste algoritmes die overheidsinstanties gebruiken, er in drie een risico op ‘vooringenomenheid’ of discriminatie kon huizen. Zo schat de Rekenkamer een kans op ‘onwenselijke systematische afwijkingen’ hoog in bij het lerende algoritme van het Criminaliteits Anticipatie Systeem (CAS) dat de Politie gebruikt om plaatsen en tijdstippen van criminaliteit te voorspellen. Dit omdat het model gebruik maakt van historische data waarin mogelijke bias is ontstaan, doordat bijvoorbeeld in het verleden bepaalde wijken intensiever zijn gecontroleerd. Uit de beantwoording van Kamervragen blijkt overigens dat de Rekenkamer niet zelf heeft vastgesteld dat er sprake was van discriminatie, maar dat de minister van Justitie en Veiligheid desalniettemin de politie heeft verzocht om extra inspanningen te verrichten om het gehanteerde criminaliteitsvoorspellingssysteem te controleren.

Gemeenten worstelen met verantwoord algoritmegebruik

De vraag is hoe het kan dat, ondanks de maatschappelijke schijnwerpers, dergelijke signalen zich blijven aandienen. Uit eerder onderzoek door Hooghiemstra & Partners van vorig jaar in opdracht van het College voor de Rechten van de Mens, bleek dat gemeenten die algoritmes inzetten welwillend zijn om het gebruik van digitale systemen in lijn te krijgen met mensenrechten, maar nog niet goed weten hoe zij dit moeten doen. Zo zitten organisatorische knelpunten tussen afdelingen en partijen een goede samenwerking soms in de weg.

Daarnaast bleek dat de bescherming van persoonsgegevens dankzij de wettelijk verplichte Data Protection Impact Assessment (DPIA) bij gemeenten doorgaans goed op de radar staat, maar het voorkomen van discriminatie en toetsen van impact op andere mensenrechten nog niet structureel is ingericht.

Desondanks zijn er gemeenten die hier wel nadrukkelijk mee aan de slag zijn gegaan. Verschillende gemeenten, zoals de gemeente Amsterdam, hanteren een algoritmeregister om aan inwoners uit te leggen hoe bepaalde algoritmes van de gemeente werken die als mogelijk risicovol te beschouwen zijn. De gemeente Rotterdam richtte zich naast het hanteren van een algoritmeregister tot het ‘Impact Assessment Mensenrechten en Algoritmes’ (IAMA), een instrument dat aanspoort om, met een brede organisatiesamenstelling, op een verantwoorde manier algoritmes af te wegen en in te zetten.

De gemeente Rotterdam is niet de enige, maar niet bekend is hoeveel gemeenten en andere overheden een beroep doen op instrumenten als het IAMA en de Handreiking Non-discriminatie by design, die beiden in opdracht van het ministerie van Binnenlandse Zaken en Koninkrijkrelaties zijn ontwikkeld.

De onthullingen zoals die over de Utrechtse gemeenten zijn in dat licht extra teleurstellend, omdat zowel de luide maatschappelijke kritiek op overheden die dergelijke fouten begaan, als de feitelijke beschikbaarheid van deze instrumenten, onvoldoende blijken te zijn voor overheidsinstanties om uit eigen beweging afscheid te nemen van al langer als omstreden bestempelde fraudebestrijdingssoftware.

Het huidige aanbod van bestaande instrumenten is zeker te waarderen, maar de effectiviteit hiervan is door de omvang in zowel aantal als inhoud, in combinatie met een vrijblijvend karakter, vooralsnog in twijfel te trekken. Hierdoor vreest het College dat de onthullingen over de Utrechtse gemeenten niet de laatste zullen zijn. Het volgt dan ook met belangstelling de ontwikkelingen rondom de moties die een mensenrechtenimpact assessment en het gebruik van algoritmeregisters verplicht stellen.

Stel een verplichte discriminatietoets in

In aanvulling daarop, mede naar aanleiding van de aanhoudende signalen, vindt het College het noodzakelijk om een bindende, effectieve discriminatietoets voor het gebruik van digitale systemen door de overheid in te stellen.

Vorig jaar publiceerde het College al een toetsingskader voor risicoprofielen om etnisch profileren in de praktijk te helpen voorkomen. Dit toetsingskader biedt handvatten voor overheidsinstanties voor het doorlichten en beoordelen van een risicoprofiel op discriminatie specifiek op grond van ras en nationaliteit. Zo zou het beleid van de Utrechtse gemeenten en de IND niet door deze toetsing heen zijn gekomen.

Een brede, verplichte discriminatietoets voor het gebruik van digitale systemen – dus ook voor andere toepassingen dan risicoprofilering en voor andere discriminatiegronden – moeten dergelijke praktijken voorkomen. Een discriminatietoets dient niet alleen gebruikt te worden voor kwaliteitsanalyses van gebruikte data en algoritmische modellen. Ook moet het toegepast worden op (motivaties van) het achterliggende beleid én op wat voor effect een digitaal systeem in de praktijk heeft, wanneer een ambtenaar als eindgebruiker op basis van door algoritmes berekende uitkomsten een beslissing moet nemen.

Ook zou een discriminatietoets niet alleen uitgevoerd moeten worden bij de ontwikkeling van nieuwe systemen, maar ook op reeds bestaande processen en meermaals gedurende de levensloop van systemen; veranderingen in data, beleid of personeel kunnen immers weer nieuwe risico’s met zich brengen. Juist bij systemen met een door techniek gesloten karakter – helemaal bij zelflerende algoritmes – dient een toets op vrijwaring van discriminatie zorgvuldig te zijn.

Ook het Rathenau Instituut deed een vergelijkbare aanbeveling in zijn recent verschenen rapport Algoritmes afwegen, over de mensenrechtelijke uitdagingen waar uitvoeringsinstanties die profilerende algoritmes willen inzetten mee te maken krijgen. Volgens het instituut ontbreekt een transparante biastoetsing voor (lerende) algoritmes, evenals een goede vertaalslag van wetgeving en ethiek naar specifiekere, mensenrechtelijke normenkaders die voor organisaties relevant zijn.

Wat doet het College?

Het College werkt binnen het programma Digitalisering & Mensenrechten aan een project om de wettelijke transparantieverplichtingen voor algoritmegebruik door bestuursorganen nader in kaart te brengen.

Na het zomerreces zal een afvaardiging van het College deelnemen aan een rondetafelgesprek van de vaste commissie Digitale Zaken over kunstmatige intelligentie (AI), waarbij het College zijn voorstel voor een discriminatietoets zal toelichten.

In een eerdere schriftelijke inbreng voor de vaste commissie van Digitale Zaken vroeg het College al kort aandacht voor discriminatierisico’s bij het gebruik van AI. Zo wordt er onvoldoende rekening gehouden met (indirecte) discriminatie bij de ontwikkeling van AI-systemen, is er – ook blijkens hierboven genoemde voorbeelden – sprake van gebrekkige transparantie en uitlegbaarheid over gebruikte algoritmes, en is het voor burgers amper aan te tonen dat ze door digitale systemen zijn gediscrimineerd.

Verder rondt het College zijn voorbereidend onderzoek af voor de verzoeken om oordelen over verboden onderscheid bij de kindertoeslagaffaire. De opgedane ervaring met dit mede op data-analyse berustende onderzoek biedt kansen voor de ontwikkeling van een discriminatietoets.