Découverte d'un moyen d'exécuter le modèle d'IA 671B de DeepSeek sans GPU coûteux
Lancé le 20 janvier 2025, DeepSeek-R1 est un modèle de mélange d'experts (MoE) de 671 milliards de paramètres avec 37 milliards de paramètres actifs par jeton. Conçu pour le raisonnement avancé, il prend en charge 128 000 jetons en entrée et génère jusqu'à 32 000 jetons. Grâce à son architecture MoE, il offre des performances de premier ordre tout en utilisant moins de ressources que les modèles denses traditionnels.
Les tests indépendants effectués sur le site https://docsbot.ai/models/compare/o1-preview/deepseek-r1#benchmarks suggèrent que le modèle de langage R1 atteint des performances comparables à celles du modèle O1 d'OpenAI, ce qui le positionne comme une alternative compétitive dans les applications d'IA à fort enjeu. Découvrons ce dont nous avons besoin pour l'exécuter localement.
Le matériel
Cette version est centrée sur deux processeurs AMD Epyc et 768 Go de RAM DDR5 - pas besoin de GPU coûteux.
- Boîtier : Enthoo Pro 2 Server
- Carte mère : Gigabyte MZ73-LM0 ou MZ73-LM1 (avec deux sockets CPU et 24 slots RAM)
- CPU : 2x AMD Epyc 9004/9005 (9115 ou 9015 sont des options plus économiques)
- Refroidissement : Arctic Freezer 4U-SP5
- RAM : 24x 32GB DDR5 RDIMM (768 Go au total)
- Stockage : 1TB+ NVMe SSD (pour charger rapidement 700 Go de poids de modèles)
- Alimentation : Corsair HX1000i (1000W, suffisant pour deux CPU)
Logiciel et configuration
Une fois assemblé, Linux et llama.cpp doivent être installés sur doivent être installés pour faire fonctionner le modèle. Un réglage crucial du BIOS, qui consiste à mettre les groupes NUMA à 0, permet de doubler l'efficacité de la RAM pour de meilleures performances. Les 700 Go de poids de DeepSeek-R1 peuvent être téléchargés sur https://huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/mainà partir de Hugging Face.
Performances
Cette configuration génère 6 à 8 tokens par seconde, ce qui n'est pas mal pour un modèle d'IA haut de gamme entièrement local. Elle ne fait pas appel au GPU, mais c'est intentionnel. L'exécution de la quantification Q8 (pour une qualité élevée) sur les GPU nécessiterait plus de 700 Go de VRAM, ce qui coûterait plus de 100 000 dollars. Malgré sa puissance brute, le système entier consomme moins de 400W, ce qui le rend étonnamment efficace.
Pour ceux qui veulent avoir un contrôle total sur l'IA d'avant-garde, sans nuage ni restrictions, ce système change la donne. Il prouve que l'IA haut de gamme peut être exécutée localement, de manière entièrement open-source, tout en donnant la priorité à la confidentialité des données, en minimisant les vulnérabilités aux violations et en éliminant la dépendance à l'égard des systèmes externes.
Source(s)
Matthew Carrigan sur X, Docsbot, DeepSeekimage d'accroche : Pixabay
Top 10
» Le Top 10 des PC portables multimédia
» Le Top 10 des PC portables de jeu
» Le Top 10 des PC portables de jeu légers
» Le Top 10 des ordinateurs portables bureautiques
» Le Top 10 des PC portables bureautiques premium/professionnels
» Le Top 10 des Stations de travail mobiles
» Le Top 10 des Ultraportables
» Le Top 10 des Ultrabooks
» Le Top 10 des Convertibles
» Le Top 10 des Tablettes
» Le Top 10 des Tablettes Windows
» Le Top 10 des Smartphones
» Le Top 10 des PC Portables á moins de 300 euros
» Le Top 10 des PC Portables á moins de 500 euros
» Le Top 25 des meilleurs écrans d'ordinateurs