Clear Sky Science · fr

Améliorer les performances des réseaux neuronaux profonds par échantillonnage

· Retour à l’index

Une IA plus intelligente avec de minuscules neurones façon pile ou face

À mesure que l’intelligence artificielle devient plus puissante, sa voracité énergétique augmente. L’entraînement et l’exécution de modèles modernes pour l’image et le langage peuvent consommer autant d’électricité que de petites villes. Cet article explore une idée contre-intuitive : au lieu de rendre les réseaux neuronaux toujours plus précis et complexes, on pourrait simplifier et rendre plus bruyants leurs éléments de base — à la manière de pièces numériques qui tombent aléatoirement — puis utiliser un échantillonnage astucieux pour obtenir des résultats équivalents voire meilleurs tout en économisant de l’énergie.

Des circuits précis aux cerveaux probabilistes

La plupart des réseaux neuronaux profonds actuels utilisent des unités « déterministes » : on obtient toujours la même réponse en entrant les mêmes nombres. Les auteurs se concentrent sur une alternative appelée bits probabilistes, ou p-bits. Chaque p-bit se comporte comme une petite pièce biaisée qui bascule entre 0 et 1 selon des probabilités déterminées par ses entrées. En prélevant plusieurs échantillons sur un même réseau de p-bits et en moyennant leurs sorties, le système peut approximier un comportement multi-bit plus riche sans stocker ni manipuler autant de nombres précis. Cette idée relie l’IA moderne aux anciennes machines d’Ising et de Boltzmann, où de telles unités probabilistes étaient déjà connues pour leur efficacité sur des problèmes d’optimisation et d’échantillonnage.

Figure 1
Figure 1.

Plusieurs approximations rapides plutôt qu’une réponse coûteuse

L’étude pose une question simple mais pragmatique : pour améliorer la précision, est-il moins coûteux d’augmenter la précision numérique de chaque neurone, ou de conserver des neurones extrêmement simples et de tirer plusieurs échantillons ? Les auteurs établissent une formule générale d’énergie qui décompose le coût d’une opération élémentaire dans un réseau neuronal en quatre parties : lecture des poids en mémoire, lecture et écriture des activations, combinaison des entrées (la synapse) et application de la non-linéarité (le neurone). Il est important de noter que les poids peuvent être lus une fois puis réutilisés pour générer plusieurs échantillons, si bien que le coût dominant — l’accès à la mémoire — peut être réparti sur plusieurs exécutions. Ainsi, dix échantillons coûtent bien moins que dix fois un seul.

Tester des réseaux probabilistes sur des images

Pour vérifier si ce compromis est payant en pratique, les chercheurs testent des réseaux neuronaux profonds probabilistes (p-DNN) sur la classification d’images (CIFAR-10) et la génération d’images (visages de CelebA et chiffres de MNIST). Ils remplacent les signaux d’activation multi-bit standard par des p-bits à un seul bit, et entraînent les réseaux de façon « consciente des échantillons », où la fonction de perte est calculée à partir de la moyenne de plusieurs passages avant stochastiques. Pour la classification, ils constatent que même avec des activations 1 bit, un seul échantillon peut égaler la précision d’un modèle pleine précision, et deux échantillons la dépassent. Avec davantage d’échantillons, les p-DNN 1 bit se rapprochent de la précision de réseaux déterministes à 3 bits. Pour la génération d’images, le remplacement naïf des activations par des p-bits produit des images bruitées, mais la réentraînement en tenant compte des éléments stochastiques réels et la gestion soignée de la couche finale produisent des visages dont la qualité approche celle de la référence 32 bits, mesurée par une métrique de distance standard.

Coûts énergétiques et matériel réel

Les auteurs vont au-delà des simulations et examinent la consommation sur du matériel réel. À partir de données d’une puce en 65 nm conçue pour des circuits probabilistes et de simulations de circuits complémentaires, ils montrent que les charges de travail IA modernes sont dominées par l’énergie de la mémoire, et non par l’arithmétique. Parce que les p-DNN simplifient radicalement l’étape de calcul principale — de multiplications-accumulations complètes vers de simples additions avec des activations 1 bit — le coût supplémentaire pour effectuer quelques échantillons modifie à peine l’énergie totale lorsque les poids résident en mémoire externe gourmande en énergie. Ils valident ces prédictions sur une implémentation FPGA d’un réseau générateur d’images : la version probabiliste réduit l’énergie par inférence d’environ 2,5× par rapport à une conception standard, tout en produisant des images de chiffres comparables. Le surcoût dû à la génération de nombres aléatoires et aux comparaisons est négligeable par rapport à la mémoire et à l’arithmétique de base.

Figure 2
Figure 2.

Pourquoi l’échantillonnage ajustable est important

Un avantage distinctif des réseaux probabilistes est que la précision peut être ajustée en temps réel en variant le nombre d’échantillons. Un même moteur p-DNN 1 bit peut se comporter comme un modèle quantifié à 1, 2 ou 3 bits selon le nombre d’échantillons qu’il effectue, sans repenser le matériel. Cette flexibilité est particulièrement intéressante pour les grands modèles de langage, où la précision des poids est déjà réduite à quelques bits, alors que la précision des activations est plus difficile à diminuer sans dégrader la qualité. Le cadre présenté dans cet article montre comment estimer, pour un modèle donné, si tirer des échantillons supplémentaires vaut l’énergie par rapport à l’augmentation des largeurs de bits.

Une nouvelle voie vers une IA efficace et flexible

En termes simples, l’article démontre que des unités neuronales « bruitées » peuvent être exploitées plutôt qu’évitée. En traitant chaque passage avant comme une approximation bon marché et en moyennant un petit nombre de ces approximations, les réseaux peuvent atteindre des performances proches de la pleine précision avec des calculs beaucoup plus simples et une surcharge énergétique modeste. Parce que la mémoire domine la facture énergétique, le coût de l’échantillonnage supplémentaire reste faible, surtout lorsque les poids sont lus une fois puis réutilisés. Cela suggère une voie prometteuse vers du matériel IA non seulement plus économe en énergie, mais aussi adaptable à la volée — en augmentant ou diminuant l’échantillonnage pour échanger précision contre autonomie ou rapidité selon les besoins.

Citation: Ghantasala, L.A., Li, MC., Jaiswal, R. et al. Improving deep neural network performance through sampling. npj Unconv. Comput. 3, 18 (2026). https://doi.org/10.1038/s44335-026-00063-7

Mots-clés: réseaux neuronaux probabilistes, IA économe en énergie, inférence par échantillonnage, calcul en basse précision, matériel pour apprentissage profond