De wereld van AI en grote taalmodellen ontwikkelt zich razendsnel. Na de komst van baanbrekende modellen zoals ChatGPT zijn er nieuwe spelers op de markt verschenen, waaronder Gemini, Claude en de nieuwste deelnemer: DeepSeek-V3. Dit open-source LLM (Large Language Model) is ontwikkeld door het Chinese bedrijf DeepSeek AI en heeft indruk gemaakt met zijn uitzonderlijke prestaties en kostenefficiëntie.
Specificaties van DeepSeek-V3
DeepSeek-V3 beschikt over een verbluffend aantal van 671 miljard parameters, waarvan er gemiddeld 37 miljard worden geactiveerd per gegenereerd token. Het model kan contextlengtes van maximaal 128.000 tokens aan, wat aanzienlijk meer is dan veel andere modellen in de industrie. De training werd uitgevoerd op 14,8 biljoen tokens over een periode van twee maanden. Hiervoor werd 2,788 miljoen H800 GPU-uren ingezet, tegen een totale kostprijs van slechts $5,6 miljoen. Ter vergelijking: OpenAI’s GPT-4 had een geschatte trainingskost van maar liefst $100 miljoen.
Identiteitsverwarring: “Ik ben ChatGPT”
Ondanks deze indrukwekkende prestaties heeft DeepSeek-V3 te maken met een vreemd probleem dat bekendstaat als “identiteitsverwarring”. Gebruikers hebben gemeld dat het model zichzelf soms verkeerd identificeert. Wanneer het bijvoorbeeld wordt gevraagd: “Welk model ben je?” antwoordt het regelmatig met: “ChatGPT, gebaseerd op de GPT-4-architectuur.”
Dit gedrag is niet uniek voor DeepSeek-V3. Andere grote taalmodellen, zoals Gemini-Pro, hebben soortgelijke verwarringen vertoond. In sommige gevallen heeft Gemini-Pro zichzelf aangeduid als Baidu’s Wenxin wanneer er vragen in het Chinees werden gesteld.
Oorzaken van identiteitsverwarring
De oorzaak van dit probleem lijkt te liggen in de manier waarop deze modellen worden getraind. DeepSeek-V3 heeft waarschijnlijk teksten opgenomen die door ChatGPT of vergelijkbare modellen zijn gegenereerd tijdens zijn training. Hierdoor is het mogelijk dat het model zich op bepaalde momenten associeert met de naam “ChatGPT” in plaats van met zijn eigen naam.
Implicaties van identiteitsverwarring
Hoewel dit probleem op het eerste gezicht onschuldig lijkt, kan het leiden tot serieuze consequenties in specifieke sectoren. In het onderwijs of professionele dienstverlening, waar vertrouwen in de nauwkeurigheid van AI-systemen van cruciaal belang is, kan identiteitsverwarring verwarring veroorzaken en de betrouwbaarheid van AI-modellen ondermijnen.
Onderzoekers hebben dit verschijnsel uitgebreid onderzocht. Een studie die in november werd gepubliceerd, onthulde dat ongeveer 25% van de propriëtaire grote taalmodellen een vorm van identiteitsverwarring ervaart. Het probleem vraagt om meer aandacht van ontwikkelaars, zowel op het gebied van dataselectie als in de fine-tuning van modellen.
Een oproep tot oplossingen
Om dit probleem aan te pakken, suggereren experts dat ontwikkelaars meer aandacht moeten besteden aan het opschonen van trainingsdata en aanvullende technieken moeten toepassen om de “zelfidentiteit” van een model te verstevigen. Het is cruciaal om te zorgen dat een model correct communiceert over zijn eigen oorsprong, zeker nu AI-systemen steeds breder worden ingezet in kritieke toepassingen.
Door: Drifter
Aanbevolen Reacties
Er zijn geen reacties om weer te geven.
Log in om te reageren
Je kunt een reactie achterlaten na het inloggen
Login met de gegevens die u gebruikt bij softtrack