Nieuws

Videokaarten

'Nvidia GB200 zou problemen hebben gehad met de spine-interconnect'

Portret van de auteur


'Nvidia GB200 zou problemen hebben gehad met de spine-interconnect'
0

Advertentie

Uit berichten van de Taiwanese analist Nystedt blijkt dat Nvidia problemen heeft gehad met zijn GB200-systemen. Volgens Nystedt heeft Microsoft 40 procent van zijn bestellingen moeten annuleren voor GB200 AI-servers, omdat deze later werden verzonden dan gedacht. De reden zouden problemen zijn met de cartridge connector module, die wordt vervaardigd door een Amerikaans bedrijf. In een GB200-NVL72-systeem zijn er 18 rekenknooppunten, elk met twee Grace-cpu's en vier Blackwell-gpu's. Deze zijn allemaal met elkaar verbonden via NVLink. Aan de achterkant van het rack bevindt zich een spine-interconnect waarop alle reken- en netwerkknooppunten zijn aangesloten. Dit betekent dat 72 Blackwell gpu's via NVLink met elkaar communiceren.

X (Twitter) Privacymelding

Op deze positie willen we je een Twitter-feed tonen. We vinden het belangrijk om je gegevens te beschermen. X wil voor het afspelen van een feed cookies op je computer plaatsen, waarmee je eventueel gevolgd kan worden. Wanneer je de feed toch wil bekijken, kun je op de feed klikken. De feed wordt daarna geladen en getoond.

Toon tweets vanaf nu direct

Problemen met de interconnectieverbinding zouden uiteraard een no-go zijn. Uit de reacties op de link van Nystedt naar het rapport blijkt echter dat Nvidia samen met de ODM's al een oplossing heeft gevonden en deze ook al heeft geïmplementeerd. De eerste GB200-racks zullen naar verwachting in december worden geleverd, en grotere aantallen beginnen in 2025.

Een product als een GB-200-NVL72 AI-server is niet alleen complex qua structuur, maar kan ook niet zomaar in grote hoeveelheden aan klanten worden geleverd. Er gaat vooraf uitgebreid testen aan vooraf en bij duizenden racks spreken we van een levertijd van enkele weken tot maanden tussen het eerste en het laatste rack. Een herverdeling van orders met een jaarlijkse productcyclus is niet ongebruikelijk. Momenteel wordt aangenomen dat Nvidia vanaf de tweede helft van 2025 GB300-accelerators zal leveren.

Eerdere problemen en vertragingen

In augustus werd onthuld dat de Blackwell-gpu een ontwerpfout had waardoor het rendement van de chips extreem slecht was. Samen met TSMC kon Nvidia dit probleem oplossen, maar er waren nieuwe maskers nodig voor de belichting en dus werd de start van de definitieve versie uitgesteld. Medio november kwamen berichten naar buiten dat de koeling van de NVL72-racks voor problemen zorgde tijdens de ontwikkeling.

Bronnen en meer links

    Advertentie

    REACTIES (0)