OpenAI geeft je als website-eigenaar de mogelijkheid om zijn webcrawler te blokkeren zodat hij je site niet meer kan scrapen om GPT-modellen te trainen.
OpenAI zegt dat websitebeheerders specifiek de GPTBot crawler kunnen weigeren in de Robots.txt van hun site of het IP-adres kunnen blokkeren. “Webpagina’s die zijn gecrawld met de GPTBot user agent kunnen mogelijk worden gebruikt om toekomstige modellen te verbeteren en worden gefilterd om bronnen te verwijderen die toegang vereisen tot een paywall, waarvan bekend is dat ze persoonlijk identificeerbare informatie (PII) verzamelen of tekst bevatten die in strijd is met ons beleid”, aldus OpenAI in het blogbericht. Voor bronnen die niet voldoen aan de uitgesloten criteria, “kan het toelaten van GPTBot op je site AI-modellen helpen nauwkeuriger te worden en hun algemene mogelijkheden en veiligheid te verbeteren.”
Het blokkeren van GPTBot kan de eerste stap zijn van OpenAI om internetgebruikers de mogelijkheid te geven om hun gegevens niet te laten gebruiken voor het trainen van de grote taalmodellen. Het volgt op een aantal vroege pogingen om een vlag te maken die inhoud zou uitsluiten van training, zoals een “NoAI” tag bedacht door DeviantArt vorig jaar. Het verwijdert inhoud die eerder van een site is geschraapt niet met terugwerkende kracht uit de trainingsgegevens van ChatGPT.
Het internet leverde veel van de trainingsgegevens voor grote taalmodellen zoals OpenAI’s GPT-modellen en Google’s Bard. OpenAI wil echter niet bevestigen of het zijn gegevens heeft verkregen via berichten op sociale media, auteursrechtelijk beschermde werken of welke delen van het internet het heeft geschraapt voor informatie. En het verkrijgen van gegevens voor AI-training wordt steeds controversiëler. Sites zoals Reddit en Twitter hebben druk uitgeoefend om het vrije gebruik van posts van hun gebruikers door AI-bedrijven aan te pakken, terwijl auteurs en andere creatieven een rechtszaak hebben aangespannen over vermeend ongeautoriseerd gebruik van hun werk. Wetgevers hebben zich vorige maand tijdens verschillende hoorzittingen van de Amerikaanse Senaat over AI-regulering ook beziggehouden met vragen over gegevens privacy en toestemming.
GPTBot blokkeren via robots.txt
Je kunt de GPTBot blokkeren door deze regels toe te voegen aan je robots.txt-bestand:
User-agent: GPTBot
Disallow: /
Waarom de Chat GPTBot blokkeren?
Het blokkeren van Chat GPTBot via de robots.txt
file van je website kan om verschillende redenen worden gedaan:
- Beveiliging: het ziet er naar uit dat ChatGPT geen kwaadaardige intenties heeft, toch willen sommige website-eigenaren voorkomen dat geautomatiseerde bots toegang krijgen tot hun inhoud om scraping of ongeautoriseerde gegevensverzameling te voorkomen. Tegenwoordig bestaan er heel wat plugins, zoals VoxScripts, die scraping wel degelijk mogelijk maken.
- Serverbelasting verminderen: bots kunnen, afhankelijk van hun frequentie en gedrag, een aanzienlijke belasting veroorzaken op de servers van een website. Door ze te blokkeren, kan men de serverbelasting verminderen.
- Nauwkeurigheid van Analytics: bots kunnen de bezoekersstatistieken van een website vertekenen. Door ze te blokkeren in
robots.txt
, kan men zorgen voor nauwkeurigere Google Analytics resultaten. - Voorkomen van ongewenste indexering: als je niet wilt dat bepaalde content wordt geïndexeerd of gescraped door bots, kan het blokkeren via
robots.txt
een manier zijn om dit te voorkomen. - Controle over content: webmasters willen misschien controle hebben over wie hun inhoud kan bekijken en gebruiken. Door specifieke bots te blokkeren, kunnen ze deze controle behouden.