Er is veel onduidelijk over de databronnen waarop tools zoals ChatGPT zijn getraind. Vanaf het begin was er al het vermoeden dat auteursrechten geschonden worden en waarschijnlijk zijn ook privé gegevens niet meer veilig als ze eenmaal in het model terecht zijn gekomen.
Als je denkt dat het allemaal wel meevalt, dan is er dit artikel in De Groene Amsterdammer. Het dubieuze docplayer.nl wordt hier aangehaald als belangrijke Nederlandstalige bron voor chatbots. Op docplayer.nl kon je onder andere terecht voor informatie verkregen uit datalekken. De code en de data die de onderzoekers voor dit artikel hebben gebruikt, is gepubliceerd. Ben je nieuwsgierig, dan kun je dit terugvinden op GitHub: https://github.com/groene/chatbots/
We kunnen OpenAI nog niet verplichten om hun bronnen openbaar te maken, maar het lijkt erop dat ook zij deze databronnen inzetten. Misschien werkt het filter dat zij toepassen, maar de kans is ook groot dat dit niet zo is en we nu doorbouwen op foute data. Door gebrek aan transparantie en regelgeving komen zij er in ieder geval nog mee weg.
Als gebruiker hebben we trouwens wel een keuze. Bedrijven en personen kunnen simpelweg de ethische keuze maken om ChatGPT niet te gebruiken, zolang deze onzekerheid en gebrek aan transparantie er is. Bovendien komen er steeds meer open source taalmodellen op de markt, waardoor de keuze om geen ChatGPT te gebruiken nog niet betekent dat je helemaal niks kan.
Afgelopen maanden hebben we ons kunnen verwonderen, maar nu is het ook tijd om weer kritisch na te denken waar we mee bezig zijn.