Notebookcheck Logo

Nvidia GeForce RTX 5090 s'éloigne de la tradition des RTX 3090 Ti et RTX 4090, en abandonnant l'ECC de la VRAM pour les charges de travail professionnelles

Vous ne pouvez plus basculer les états ECC sur le GPU RTX 5090 Blackwell
Vous ne pouvez plus basculer les états ECC sur le GPU RTX 5090 Blackwell
Nvidia a curieusement supprimé l'option permettant de basculer l'état ECC de la VRAM via le pilote de la RTX 5090. Les cartes comme la RTX 3090 Ti et la RTX 4090 permettent d'activer l'état ECC via le pilote pour améliorer la fiabilité de la mémoire pour les charges de travail professionnelles, même si ces cartes utilisent un "soft ECC" au lieu d'une puce mémoire ECC on-die dédiée.

Depuis la génération Ampere, Nvidia a supplanté son produit phare, la Titan avec les cartes de la série 90 destinées aux professionnels qui jouent également.

La Nvidia GeForce RTX 5090le GPU GB202 de Nvidia apporte des améliorations matérielles substantielles par rapport à la RTX 4090aD102 et la RTX 3090 TigA102.

Alors que la RTX 3090 Ti et la RTX 4090 offraient la possibilité de basculer l'état VRAM ECC dans le pilote, cette option est curieusement absente de la RTX 5090.

Qu'est-ce que la mémoire ECC ?

L'ECC, qui signifie code de correction d'erreur, est une technique qui permet à la mémoire de s'auto-corriger. Les erreurs de mémoire se produisent lorsqu'il y a des inversions de bits pendant la transmission des données ou lorsque des erreurs se glissent dans les données au fur et à mesure que les cellules de mémoire se déchargent et se rechargent.

L'autocorrection est réalisée soit par une neuvième puce de mémoire dédiée qui vérifie la parité entre les huit autres puces du module RAM (ECC on-die), soit au niveau du contrôleur de mémoire (DRAM ECC).

La mémoire système DDR5 grand public prend en charge l'ECC, mais pas dans son intégralité. Par défaut, la mémoire vive DDR5 peut détecter les erreurs sur plusieurs bits, mais ne peut corriger que les erreurs sur un seul bit grâce à la vérification intégrée des données.

En raison de la manière fondamentale dont la DDR5 divise la mémoire 64 bits en deux sous-canaux 32 bits, la RAM DDR5-ECC se présente sous la forme de modules 72 bits (32+4) EC4 ou 80 bits (32+8) EC8.

La mémoire ECC est rarement nécessaire dans la plupart des cas d'utilisation par les consommateurs. Si vous n'êtes pas sûr de ce terme, il y a de fortes chances que vous n'ayez pas besoin de mémoire ECC.

Néanmoins, la mémoire ECC est primordiale dans les applications critiques et d'apprentissage automatique où l'intégrité des données doit être maintenue tout au long de la chaîne.

Google s'en est rendu compte à ses dépens en 1999, lorsque le manque d'utilisation de la mémoire ECC a gravement affecté les performances de son moteur de recherche en raison d'une corruption de la mémoire.

L'EDR sur le GDDR6X réduit la probabilité de plantage lors de l'overclocking de la VRAM. (Source de l'image : Nvidia)
L'EDR sur le GDDR6X réduit la probabilité de plantage lors de l'overclocking de la VRAM. (Source de l'image : Nvidia)

Tous les GPU équipés de VRAM GDDR5 et GDDR6/6X disposent d'un moyen de détecter les erreurs de mémoire appelé code de détection d'erreur (EDC).

Les GPU Nvidia font référence à cette fonction sous le nom de Error Detection and Replay (EDR), qui est une façon de demander la retransmission de bits au contrôleur de mémoire après avoir effectué un contrôle de redondance cyclique (CRC).

L'EDR permet de minimiser les artefacts de pixels lorsque la VRAM est overclockée, bien qu'elle puisse légèrement affecter les performances.

VRAM ECC sur les RTX 4090 et RTX 5090

Bien qu'elle ne soit pas largement discutée, la caractéristique distinctive de la Nvidia GeForce RTX 3090 Ti et la RTX 4090 est la possibilité de basculer entre les états de mémoire ECC et non-ECC via le pilote.

Cependant, cette fonctionnalité est absente de la nouvelle RTX 5090.

Basculement de l'état ECC dans la RTX 4090
Basculement de l'état ECC dans la RTX 4090
Pas d'option pour basculer l'état ECC avec la RTX 5090
Pas d'option pour basculer l'état ECC avec la RTX 5090

Impact sur les performances de l'activation de l'ECC

Les RTX 3090 Ti et RTX 4090 mettent en œuvre ce que l'on appelle un "soft ECC". Cette approche n'implique pas de puce séparée pour maintenir la parité ; au lieu de cela, l'activation de cette fonctionnalité alloue une partie de la VRAM pour fonctionner de la même manière qu'un module ECC on-die.

En conséquence, la VRAM totale disponible et la vitesse de la mémoire sont réduites. Dans le cas de la RTX 4090, la VRAM utilisable est réduite de 24 Go à 22,5 Go, 1,5 Go étant réservé aux fonctions ECC.

1.5 Go de VRAM sont alloués à l'ECC
1.5 Go de VRAM sont alloués à l'ECC
Cela se reflète également dans le gestionnaire des tâches
Cela se reflète également dans le gestionnaire des tâches

Le changement d'état de l'ECC a un impact sur les performances, comme le montre le tableau ci-dessous. Avec l'ECC activé sur la RTX 4090, les scores 3DMark Speed Way diminuent de 6,4 %, tandis que Cyberpunk 2077 2.21 Phantom Liberty subit une réduction d'environ 5 % du nombre moyen d'images par seconde.

L'impact sur les performances varie en fonction de la charge de travail.

3DMark Speed Way sur la RTX 4090
3DMark Speed Way sur la RTX 4090
Le score baisse lorsque la fonction ECC est activée
Le score baisse lorsque la fonction ECC est activée
Cyberpunk 2077 2.21 4K RT Ultra (pas de DLSS/FG) sur la RTX 4090
Cyberpunk 2077 2.21 4K RT Ultra (pas de DLSS/FG) sur la RTX 4090
Faible baisse de performance avec l'ECC activé
Faible baisse de performance avec l'ECC activé

La VRAM GDDR7 de la RTX 5090 est officiellement spécifiée pour l'ECC on-die

Avec la GDDR7, le JEDEC a intégré l'ECC on-die dans la spécification VRAM en tenant compte de l'augmentation de la probabilité d'erreurs due à des densités de mémoire plus élevées. La GDDR7 utilise l'ECC on-die avec un protocole de transparence qui informe le contrôleur de la mémoire du type d'erreurs rencontrées.

Selon le JEDEC, la GDDR7 est capable de corriger 100 % des erreurs de 1 bit et de détecter 100 % des erreurs de 2 bits, bien que le taux de détection chute légèrement à 99,3 % pour les rares erreurs de 3 bits.

En outre, la spécification officielle inclut également la parité d'adresse de commande avec blocage de commande (CAPARBLK) pour améliorer encore la fiabilité du bus d'adresse de commande.

Vue d'ensemble de l'ECC on-die sur la VRAM GDDR7. (Reproduit du document JEDEC JESD239A)
Vue d'ensemble de l'ECC on-die sur la VRAM GDDR7. (Reproduit du document JEDEC JESD239A)

Cependant, il n'est pas clair si le contrôleur de mémoire de Blackwell utilise cette capacité ECC par défaut.

La mémoire GDDR7 512 bits de la RTX 5090 est conçue pour une bande passante de 1,792 To/s à une horloge rapide de 28 Gbps, ce qui peut potentiellement entraîner des erreurs de transmission. En outre, Nvidia présente la RTX 5090 pour les flux de travail d'IA, qui peuvent bénéficier de l'ECC lors de l'entraînement de grands ensembles de données.

Malgré cela, le livre blanc de l'architecture de Nvidia de Nvidia ne mentionne que la prise en charge du "Enhanced Cyclic Redundancy Check (CRC) for Reliability, Availability, and Serviceability (RAS)", ce qui n'est pas la même chose que l'ECC.

Si l'on peut s'attendre à ce que Nvidia active la fonctionnalité ECC on-die de la GDDR7 pour les GPU pour stations de travail Blackwell ( ), il reste à voir si cette fonctionnalité sera intégrée dans les GPU pour stations de travailil reste à voir si le basculement de l'état ECC arrivera sur la RTX 5090 grand public via une future mise à jour du pilote ou du VBIOS.

Source(s)

Propre à l'entreprise

Please share our article, every link counts!
Mail Logo
> Revues et rapports de ordinateurs portatifs et smartphones, ordiphones > Archives des nouvelles 2025 02 > Nvidia GeForce RTX 5090 s'éloigne de la tradition des RTX 3090 Ti et RTX 4090, en abandonnant l'ECC de la VRAM pour les charges de travail professionnelles
Vaidyanathan Subramaniam, 2025-02-13 (Update: 2025-02-14)