HEILIGE ROKEN! Een nieuwe, 200% snellere DeepSeek R1-0528-variant verschijnt van het Duitse laboratorium TNG Technology Consulting GmbH

Wilt u slimmere inzichten in uw inbox? Meld u aan voor onze wekelijkse nieuwsbrieven en ontvang alleen wat relevant is voor leiders op het gebied van AI, data en beveiliging binnen bedrijven. Abonneer u nu.
Het is iets meer dan een maand geleden dat de Chinese AI-startup DeepSeek, een afsplitsing van het in Hongkong gevestigde High-Flyer Capital Management, de nieuwste versie van zijn succesvolle open source-model DeepSeek, R1-0528, uitbracht.
Net als zijn voorganger, DeepSeek-R1 — die de AI- en wereldwijde zakelijke gemeenschappen op zijn kop zette met hoe goedkoop het was getraind en hoe goed het presteerde bij redeneertaken, allemaal gratis beschikbaar voor ontwikkelaars en ondernemingen — wordt R1-0528 al aangepast en geremixt door andere AI-labs en ontwikkelaars, grotendeels dankzij de permissieve Apache 2.0-licentie.
Deze week heeft het 24 jaar oude Duitse bedrijf TNG Technology Consulting GmbH zo'n aanpassing uitgebracht : DeepSeek-TNG R1T2 Chimera , het nieuwste model in de Chimera-familie van grote taalmodellen (LLM). R1T2 levert een aanzienlijke verbetering in efficiëntie en snelheid, met een score van meer dan 90% van de intelligentiebenchmarkscores van R1-0528 , terwijl het antwoorden genereert met minder dan 40% van het aantal outputtokens van R1-0528 .
Dat betekent dat het kortere responsen produceert, wat zich direct vertaalt in snellere inferentie en lagere rekenkosten . Over het model dat TNG heeft uitgebracht voor zijn nieuwe R1T2 op de AI-codesharingcommunity Hugging Face, stelt het bedrijf dat het "ongeveer 20% sneller is dan de reguliere R1" (die in januari werd uitgebracht) "en meer dan twee keer zo snel als R1-0528" (de officiële update van DeepSeek van mei).
De reacties van de AI-ontwikkelaarscommunity zijn al ongelooflijk positief. "VERDOMME! DeepSeek R1T2 – 200% sneller dan R1-0528 en 20% sneller dan R1", schreef Vaibhav (VB) Srivastav, senior leider bij Hugging Face, over X. "Aanzienlijk beter dan R1 op GPQA & AIME 24, ontwikkeld via Assembly of Experts met DS V3, R1 & R1-0528 – en het is MIT-gelicentieerd en beschikbaar op Hugging Face."
Deze winst wordt mogelijk gemaakt door de Assembly-of-Experts (AoE)-methode van TNG, een techniek voor het bouwen van LLM's door het selectief samenvoegen van gewichtstensoren (interne parameters) uit meerdere vooraf getrainde modellen. TNG beschreef deze techniek in een artikel dat in mei werd gepubliceerd op arXiv, het niet door vakgenoten beoordeelde online, open access tijdschrift.
R1T2, de opvolger van de originele R1T Chimera, introduceert een nieuwe "Tri-Mind"-configuratie die drie basismodellen integreert: DeepSeek-R1-0528, DeepSeek-R1 en DeepSeek-V3-0324. Het resultaat is een model dat is ontworpen om een hoog redeneervermogen te behouden en tegelijkertijd de inferentiekosten aanzienlijk te verlagen.
R1T2 is ontwikkeld zonder verdere finetuning of omscholing. Het erft de redeneerkracht van R1-0528, de gestructureerde denkpatronen van R1 en het beknopte, instructiegerichte gedrag van V3-0324 – wat resulteert in een efficiënter, maar toch capabeler model voor gebruik in bedrijven en onderzoek.
Mixture-of-Experts (MoE) is een architectuurontwerp waarbij verschillende componenten, of 'experts', per invoer conditioneel worden geactiveerd. In MoE LLM's zoals DeepSeek-V3 of Mixtral is slechts een subset van de expertlagen van het model (bijvoorbeeld 8 van de 256) actief tijdens de forward pass van een bepaald token. Dit stelt zeer grote modellen in staat om hogere parameteraantallen en specialisatie te bereiken, terwijl de inferentiekosten beheersbaar blijven – omdat slechts een fractie van het netwerk per token wordt geëvalueerd.
Assembly-of-Experts (AoE) is een techniek voor het samenvoegen van modellen, geen architectuur. Het wordt gebruikt om een nieuw model te creëren uit meerdere vooraf getrainde MoE-modellen door hun gewichtstensoren selectief te interpoleren.
De 'experts' in AoE verwijzen naar de modelcomponenten die worden samengevoegd (meestal de gerouteerde expert-tensoren binnen MoE-lagen), niet naar experts die dynamisch worden geactiveerd tijdens runtime.
De implementatie van AoE door TNG richt zich primair op het samenvoegen van gerouteerde expert-tensoren – het deel van een model dat het meest verantwoordelijk is voor gespecialiseerde redenering – terwijl vaak de efficiëntere gedeelde en aandachtslagen van snellere modellen zoals V3-0324 behouden blijven. Deze aanpak zorgt ervoor dat de resulterende Chimera-modellen de redeneerkracht overnemen zonder de breedsprakigheid of latentie van de sterkste oudermodellen te repliceren.
Volgens benchmarkvergelijkingen gepresenteerd door TNG behaalt R1T2 tussen 90% en 92% van de redeneerprestaties van zijn meest intelligente ouder, DeepSeek-R1-0528, zoals gemeten door AIME-24, AIME-25 en GPQA-Diamond testsets.

In tegenstelling tot DeepSeek-R1-0528 – dat door zijn uitgebreide gedachtegang vaak lange, gedetailleerde antwoorden produceert – is R1T2 echter veel beknopter ontworpen. Het levert vergelijkbare intelligente antwoorden op, maar gebruikt aanzienlijk minder woorden.
In plaats van zich te richten op de ruwe verwerkingstijd of tokens per seconde, meet TNG de 'snelheid' in termen van het aantal output-tokens per antwoord – een praktische maatstaf voor zowel kosten als latentie. Volgens benchmarks die TNG deelt, genereert R1T2 antwoorden met ongeveer 40% van de tokens die vereist zijn voor R1-0528.
Dat komt neer op een reductie van 60% in de uitvoerlengte , wat direct de inferentietijd en de rekenkracht vermindert en de reacties verdubbelt, oftewel 200% versnelt.
Vergeleken met de originele DeepSeek-R1 is R1T2 gemiddeld ook zo'n 20% beknopter , wat aanzienlijke efficiëntiewinst oplevert voor implementaties met een hoge doorvoer of waar de kosten gevoelig zijn.
Deze efficiëntie gaat niet ten koste van intelligentie. Zoals blijkt uit de benchmarkgrafiek in de technische paper van TNG, bevindt R1T2 zich in een wenselijke zone op de kostencurve van intelligentie versus output. De kwaliteit van de redenering blijft behouden en de woordspeling wordt geminimaliseerd – een uitkomst die cruciaal is voor bedrijfsapplicaties waar snelheid, doorvoer en kosten van belang zijn.
R1T2 is uitgebracht onder een permissieve MIT-licentie en is nu beschikbaar op Hugging Face. Dit betekent dat het open source is en beschikbaar is om te gebruiken en in te bouwen in commerciële applicaties.
TNG merkt op dat het model weliswaar geschikt is voor algemene redeneertaken, maar momenteel niet wordt aanbevolen voor gebruikssituaties waarbij functieaanroepen of het gebruik van tools vereist zijn, vanwege de beperkingen die zijn overgenomen uit de DeepSeek-R1-lijn. Deze beperkingen worden mogelijk in toekomstige updates verholpen.
Het bedrijf adviseert Europese gebruikers ook om te beoordelen of ze voldoen aan de EU AI-wet, die op 2 augustus 2025 van kracht wordt.
Bedrijven die binnen de EU actief zijn, moeten de relevante bepalingen herzien of overwegen om het gebruik van het model na die datum te staken als niet aan de vereisten kan worden voldaan.
Amerikaanse bedrijven die in eigen land actief zijn en gebruikers in de VS of andere landen bedienen, vallen echter niet onder de voorwaarden van de EU AI Act. Dit zou hen aanzienlijke flexibiliteit moeten bieden bij het gebruik en de implementatie van dit gratis, snelle open-source redeneermodel. Als ze gebruikers in de EU bedienen, blijven sommige bepalingen van de EU Act van toepassing .
TNG heeft eerder al Chimera-varianten beschikbaar gesteld via platforms zoals OpenRouter en Chutes, waar ze naar verluidt dagelijks miljarden tokens verwerkten. De release van R1T2 vertegenwoordigt een verdere evolutie in deze publieke beschikbaarheidsinspanning.
TNG Technology Consulting GmbH werd opgericht in januari 2001 en is gevestigd in Beieren, Duitsland. Het bedrijf heeft ruim 900 medewerkers, met een grote concentratie aan PhD's en technische specialisten.
Het bedrijf richt zich op softwareontwikkeling, kunstmatige intelligentie en DevOps/clouddiensten en bedient grote zakelijke klanten in sectoren als telecommunicatie, verzekeringen, automobielindustrie, e-commerce en logistiek.
TNG opereert als een op waarden gebaseerd adviesbureau. De unieke structuur, gebaseerd op de principes van operationeel onderzoek en zelfmanagement, ondersteunt een cultuur van technische innovatie.
Het draagt actief bij aan open source communities en onderzoek, zoals blijkt uit openbare releases als R1T2 en de publicatie van zijn Assembly-of-Experts-methodologie.
Voor CTO's, eigenaren van AI-platforms, engineeringmanagers en IT-inkoopteams biedt R1T2 concrete voordelen en strategische opties:
- Lagere inferentiekosten : met minder outputtokens per taak verlaagt R1T2 de GPU-tijd en het energieverbruik, wat zich direct vertaalt in besparingen op de infrastructuur. Dit is vooral belangrijk in omgevingen met een hoge doorvoer of realtime-omgevingen.
- Hoge redeneerkwaliteit zonder overhead : het behoudt veel van de redeneerkracht van topmodellen zoals R1-0528, maar dan zonder de langdradigheid ervan. Dit is ideaal voor gestructureerde taken (wiskunde, programmeren, logica) waarbij beknopte antwoorden de voorkeur hebben.
- Open en aanpasbaar : De MIT-licentie biedt volledige controle en aanpassing van de implementatie, waardoor privéhosting, modeluitlijning of verdere training in gereguleerde of afgesloten omgevingen mogelijk is.
- Opkomende modulariteit : De AoE-benadering suggereert een toekomst waarin modellen modulair worden opgebouwd. Hierdoor kunnen bedrijven gespecialiseerde varianten samenstellen door de sterke punten van bestaande modellen te combineren in plaats van dat ze helemaal opnieuw moeten trainen.
- Let op : Bedrijven die afhankelijk zijn van functieaanroepen, toolgebruik of geavanceerde agentorkestratie, moeten rekening houden met de huidige beperkingen. Toekomstige updates van Chimera kunnen deze hiaten echter verhelpen.
TNG moedigt onderzoekers, ontwikkelaars en zakelijke gebruikers aan om het model te verkennen, het gedrag ervan te testen en feedback te geven. De R1T2 Chimera is beschikbaar via huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera . Technische vragen kunnen worden gericht aan [email protected] .
Voor technische achtergrond en benchmarkmethodologie is het onderzoeksartikel van TNG beschikbaar op arXiv:2506.14794 .
Wil je indruk maken op je baas? VB Daily helpt je op weg. We geven je inzicht in wat bedrijven doen met generatieve AI, van wetswijzigingen tot praktische implementaties, zodat je inzichten kunt delen voor een maximale ROI.
Lees ons privacybeleid
Bedankt voor uw aanmelding. Bekijk hier meer VB-nieuwsbrieven .
Er is een fout opgetreden.

venturebeat