Common Crawl verwijdert 2 miljoen artikelen op verzoek van Brein

Common Crawl heeft op verzoek van Stichting Brein ongeveer twee miljoen nieuwsartikelen van Nederlandse uitgevers uit zijn openbare dataset verwijderd. Het gaat om artikelen afkomstig van grote landelijke en regionale nieuwswebsites en digitale kranten, die zonder toestemming zouden zijn overgenomen en verwerkt in trainingsmateriaal voor generatieve AI-modellen.

De betrokken organisatie, Common Crawl, is een internationale non-profitinstelling die maandelijks enorme hoeveelheden webpagina’s archiveert. De verzamelde data — bestaande uit tekst, afbeeldingen en metadata — worden vrij beschikbaar gesteld aan onderzoekers, bedrijven en ontwikkelaars om toepassingen als zoekmachines, taalmodellen en AI-systemen te ontwikkelen. Omdat veel van deze inhoud zonder onderscheid wordt gecrawld, bevat de dataset ook auteursrechtelijk beschermd materiaal, waaronder journalistieke publicaties.

Volgens Stichting Brein, die in Nederland optreedt tegen online auteursrechtschendingen, zijn vrijwel alle grote AI-systemen (zoals ChatGPT, DeepSeek V3, Claude, Phi en OpenELM) deels getraind met data die afkomstig zijn uit de Common Crawl-dataset. Hierdoor zouden Nederlandse nieuwsartikelen zonder toestemming zijn gebruikt in de ontwikkeling van deze modellen, wat volgens Brein in strijd is met het auteursrecht en de rechten van uitgevers.

In samenwerking met meerdere Nederlandse nieuwsorganisaties heeft Brein een officieel verwijderingsverzoek ingediend bij Common Crawl. Na beoordeling heeft de Amerikaanse organisatie ingestemd met het verwijderen van de betreffende teksten. De aanpassing betreft ongeveer twee miljoen documenten — een groot aantal, maar volgens Brein slechts een zeer klein deel van de totale dataset, die een omvang heeft van meer dan zes petabyte aan informatie, oftewel miljarden webpagina’s.

Stichting Brein voert al langere tijd actie tegen het gebruik van beschermd materiaal bij de ontwikkeling van kunstmatige intelligentie. Eerder wist de stichting al een Nederlandstalige AI-trainingsdataset offline te laten halen omdat daarin teksten en artikelen zaten die niet vrijelijk gebruikt mochten worden. Ook het Nederlandse taalmodel GEITje werd in 2024 op verzoek van Brein offline gehaald, nadat bleek dat het getraind was met auteursrechtelijk beschermd materiaal.

Met deze recente ingreep bij Common Crawl wil Brein een precedent scheppen: AI-bedrijven en dataverzamelaars moeten volgens de stichting verantwoordelijkheid nemen voor de herkomst van hun trainingsmateriaal en duidelijke toestemming vragen aan rechthebbenden voordat zij beschermd werk gebruiken om modellen te ontwikkelen.

Door: Drifter

Login met de gegevens die u gebruikt bij softtrack

Common Crawl verwijdert 2 miljoen artikelen op verzoek van Brein

Feedback Gebruiker

Aanbevolen Reacties

Log in om te reageren

Bladeren

Activiteit