Microsoft investeert strategisch in Europese taaltechnologie via een reeks nieuwe AI-initiatieven die focussen op meertalige taalmodellen, opensourcedata en de digitale ontsluiting van cultureel erfgoed. Deze initiatieven moeten AI-systemen beter afstemmen op de taalkundige en culturele diversiteit van Europa. Nederland speelt hierin een actieve rol met GPT-NL, een lokaal taalmodel dat gebouwd wordt op Nederlandse infrastructuur en getraind wordt op representatieve en juridisch verantwoorde data.
Tijdens een aankondiging in Parijs presenteerde Microsoft een breed Europees AI-programma dat een antwoord moet bieden op de dominantie van Engelstalige AI-technologieën. Het bedrijf zet in op verbeterde toegang tot hoogwaardige taalspecifieke datasets, samenwerking met academische en publieke instellingen, en investeringen in cloudinfrastructuur en lokale R&D-capaciteit. De focus ligt op het corrigeren van de scheve balans in AI-prestaties tussen het Engels en andere Europese talen.
De kern van deze aanpak is het verbeteren van meertalige representatie binnen zogeheten Large Language Models (LLM’s). Hoewel Engels wereldwijd slechts door een minderheid van de bevolking als moedertaal wordt gesproken, is het verantwoordelijk voor ongeveer de helft van alle webcontent. Deze oververtegenwoordiging heeft directe gevolgen voor de prestaties van taalmodellen, die aanzienlijk slechter scoren in ondervertegenwoordigde talen zoals Lets, Ests, Hongaars of modern Grieks—met prestatiedalingen die kunnen oplopen tot meer dan 25 procentpunten ten opzichte van het Engels.
Microsoft wil deze kloof dichten door gerichte inzet van haar Open Innovation Center en het AI for Good Lab, beide gevestigd in Straatsburg. Via deze kanalen werkt het bedrijf samen met onderzoeksinstellingen zoals het ICube-laboratorium van de Universiteit van Straatsburg. De samenwerking omvat toegang tot Azure-cloudcapaciteit, engineering-ondersteuning en de inzet van meer dan zeventig AI-specialisten uit het internationale Microsoft-netwerk.
Meertalige datasets en technologische vernieuwing
Een belangrijke stap in Microsofts strategie is het toegankelijk maken van hoogwaardige, meertalige datasets. Hiervoor wordt geput uit interne bronnen zoals tekstcorpora van GitHub, spraakdata, en documentatie, die vervolgens worden verrijkt en geannoteerd in samenwerking met moedertaalsprekers uit de desbetreffende regio’s. De ontsluiting gebeurt via open platforms als Hugging Face en Common Crawl, zodat onderzoekers en ontwikkelaars deze datasets breed kunnen inzetten.
Op technologisch vlak richt Microsoft zich op twee structurele problemen in de training van LLM’s: scriptafhankelijkheid en datakwaliteit. Bestaande tokenizers zijn veelal geoptimaliseerd voor het Latijnse alfabet, waardoor segmentatie van talen met andere schriften—zoals Arabisch, Cyrillisch of het Griekse alfabet—onnauwkeurig verloopt. Dit belemmert het vermogen van AI-modellen om patronen te herkennen in niet-Latijnse talen, wat leidt tot systematische vertekening.
Microsoft investeert daarom in script-onafhankelijke tokenisatiestrategieën, zoals byte-level tokenization en unified token encoders. Deze technieken moeten ervoor zorgen dat modellen onafhankelijk van schriftsoort op gelijke voet kunnen leren. Daarnaast ondersteunt het bedrijf het genereren van synthetische data die privacyvriendelijk zijn en waarbij gevoelige inhoud onder gecontroleerde voorwaarden wordt verwerkt.
Cultureel erfgoed en AI-integratie
Naast technische verbeteringen zet Microsoft ook in op het behoud en de digitale ontsluiting van Europees cultureel erfgoed. In samenwerking met het Franse Ministerie van Cultuur en technologiebedrijf Iconem werkt het aan de digitale reconstructie van monumenten zoals de Notre-Dame. Tevens worden datasets van nationale bibliotheken, archieven en musea beschikbaar gemaakt voor educatieve en AI-toepassingen. Deze integratie van cultureel erfgoed in AI-systemen weerspiegelt Microsofts overtuiging dat AI geen neutrale technologie is, maar ingebed moet zijn in de culturele en juridische context waarin het functioneert.
Nederland als voorbeeld met GPT-NL
Een concreet voorbeeld van deze visie op nationaal niveau is het GPT-NL-project in Nederland. Onder leiding van TNO, SURF en het Nederlands Forensisch Instituut (NFI), ontwikkelt een consortium een op Nederland toegespitst taalmodel. GPT-NL wordt gebouwd op lokale infrastructuur, met als doel een betrouwbaar, transparant en controleerbaar alternatief te bieden voor grootschalige, internationale taalmodellen.
Een belangrijke mijlpaal werd recent bereikt toen bekend werd dat onder meer nieuwsuitgevers en persbureau ANP meer dan 20 miljard tokens aan journalistieke content beschikbaar stellen voor modeltraining. Daarmee wordt het trainingscorpus verdubbeld, op basis van rechtmatig verkregen, auteursrechtelijk beschermde teksten. Uitgevers ontvangen hiervoor een passende vergoeding. Tegelijk zijn er technische en juridische afspraken gemaakt om te voorkomen dat bronmateriaal herleidbaar is in de gegenereerde output van het model.
GPT-NL richt zich in eerste instantie op toepassingen als samenvatten, versimpelen en informatie-extractie, en wordt ingezet binnen de overheid, media en onderzoekswereld. Het project onderstreept de groeiende wens binnen Europa om zelfbeschikking over AI te realiseren—niet alleen in termen van infrastructuur en data, maar ook in hoe taal, cultuur en ethiek hun weerslag vinden in de technologie.
Door: Drifter
Aanbevolen Reacties
Er zijn geen reacties om weer te geven.
Log in om te reageren
Je kunt een reactie achterlaten na het inloggen
Login met de gegevens die u gebruikt bij softtrack