Notebookcheck Logo

Découverte d'un moyen d'exécuter le modèle d'IA 671B de DeepSeek sans GPU coûteux

Source de l'image : Aristal, Pixabay
Source de l'image : Aristal, Pixabay
Matthew Carrigan, ingénieur chez Hugging Face, a récemment révélé sur X une méthode permettant d'exécuter localement le modèle R1 avancé de DeepSeek avec une quantification sur 8 bits, éliminant ainsi le besoin de GPU coûteux, pour un coût annoncé de 6 000 dollars. La clé ? Disposer de beaucoup de mémoire plutôt que de vastes réserves de puissance de calcul.

Lancé le 20 janvier 2025, DeepSeek-R1 est un modèle de mélange d'experts (MoE) de 671 milliards de paramètres avec 37 milliards de paramètres actifs par jeton. Conçu pour le raisonnement avancé, il prend en charge 128 000 jetons en entrée et génère jusqu'à 32 000 jetons. Grâce à son architecture MoE, il offre des performances de premier ordre tout en utilisant moins de ressources que les modèles denses traditionnels.

Les tests indépendants effectués sur le site https://docsbot.ai/models/compare/o1-preview/deepseek-r1#benchmarks suggèrent que le modèle de langage R1 atteint des performances comparables à celles du modèle O1 d'OpenAI, ce qui le positionne comme une alternative compétitive dans les applications d'IA à fort enjeu. Découvrons ce dont nous avons besoin pour l'exécuter localement.

Le matériel

Cette version est centrée sur deux processeurs AMD Epyc et 768 Go de RAM DDR5 - pas besoin de GPU coûteux.

Logiciel et configuration

Une fois assemblé, Linux et llama.cpp doivent être installés sur doivent être installés pour faire fonctionner le modèle. Un réglage crucial du BIOS, qui consiste à mettre les groupes NUMA à 0, permet de doubler l'efficacité de la RAM pour de meilleures performances. Les 700 Go de poids de DeepSeek-R1 peuvent être téléchargés sur https://huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/mainà partir de Hugging Face.

Performances

Cette configuration génère 6 à 8 tokens par seconde, ce qui n'est pas mal pour un modèle d'IA haut de gamme entièrement local. Elle ne fait pas appel au GPU, mais c'est intentionnel. L'exécution de la quantification Q8 (pour une qualité élevée) sur les GPU nécessiterait plus de 700 Go de VRAM, ce qui coûterait plus de 100 000 dollars. Malgré sa puissance brute, le système entier consomme moins de 400W, ce qui le rend étonnamment efficace.

Pour ceux qui veulent avoir un contrôle total sur l'IA d'avant-garde, sans nuage ni restrictions, ce système change la donne. Il prouve que l'IA haut de gamme peut être exécutée localement, de manière entièrement open-source, tout en donnant la priorité à la confidentialité des données, en minimisant les vulnérabilités aux violations et en éliminant la dépendance à l'égard des systèmes externes.

Source(s)

Please share our article, every link counts!
Mail Logo
> Revues et rapports de ordinateurs portatifs et smartphones, ordiphones > Archives des nouvelles 2025 02 > Découverte d'un moyen d'exécuter le modèle d'IA 671B de DeepSeek sans GPU coûteux
Daniel Miron, 2025-02- 5 (Update: 2025-02- 5)