Clear Sky Science · nl
Verbeteren van de prestaties van diepe neurale netwerken via sampling
Slimmere AI met klein munt-op-en-neer neuronen
Naarmate kunstmatige intelligentie krachtiger is geworden, is ook de vraag naar energie enorm toegenomen. Het trainen en draaien van moderne beeld- en taalmodellen kan evenveel elektriciteit verbruiken als kleine steden. Dit artikel onderzoekt een tegenintuïtief idee: in plaats van neurale netwerken steeds preciezer en complexer te maken, kunnen we hun bouwstenen eenvoudiger en rumoeriger maken—meer als het omgooien van digitale muntjes—en vervolgens slimme sampling gebruiken om gelijke of zelfs betere resultaten te behalen terwijl we energie besparen.
Van precieze schakelingen naar probabilistische netwerken
De meeste hedendaagse diepe neurale netwerken gebruiken “deterministische” eenheden: voer dezelfde getallen in en je krijgt altijd hetzelfde antwoord. De auteurs richten zich op een alternatief dat probabilistische bits, of p-bits, heet. Elke p-bit gedraagt zich als een klein, scheef muntje dat tussen 0 en 1 wisselt volgens waarschijnlijkheden die door zijn ingangen worden bepaald. Door meerdere monsters te nemen van hetzelfde netwerk van p-bits en hun outputs te middelen, kan het systeem rijker, multi-bit gedrag benaderen zonder evenveel precieze getallen op te slaan of te verplaatsen. Dit idee verbindt moderne AI met vroegere Ising- en Boltzmann-machines, waar dergelijke probabilistische eenheden al bekendstonden als efficiënt voor optimalisatie- en samplingproblemen.

Veel snelle gissingen in plaats van één zware uitkomst
De studie stelt een eenvoudige maar praktische vraag: als we betere nauwkeurigheid willen, is het goedkoper om meer digitale precisie aan elke neuron toe te voegen, of om neuronen extreem simpel te houden en in plaats daarvan meerdere samples van hen te nemen? De auteurs bouwen een algemene energieberekening die de kost van één elementaire bewerking in een neuraal netwerk in vier delen opsplitst: het lezen van gewichten uit geheugen, het lezen en schrijven van activaties, het combineren van inputs (de synaps) en het toepassen van de niet-lineariteit (de neuron). Belangrijk is dat gewichten één keer gelezen kunnen worden en daarna hergebruikt om meerdere samples te genereren, zodat de dominante kost—toegang tot geheugen—over veel runs verdeeld kan worden. Dat betekent dat tien samples veel minder dan tien keer zo duur zijn als één.
Probabilistische netwerken testen op beelden
Om te zien of deze afweging in de praktijk lonend is, testen de onderzoekers probabilistische diepe neurale netwerken (p-DNNs) op zowel beeldclassificatie (CIFAR-10) als beeldgeneratie (gezichten uit CelebA en cijfers uit MNIST). Ze vervangen standaard multi-bit activaties door single-bit p-bits, en trainen de netwerken op een “sample-aware” manier, waarbij de verliesfunctie wordt berekend op basis van het gemiddelde van meerdere stochastische forward passes. Voor classificatie vinden ze dat zelfs met 1-bit activaties één sample de nauwkeurigheid van een volledig-precisie model kan evenaren, en twee samples deze overtreffen. Met meer samples benaderen 1-bit p-DNNs de nauwkeurigheid van 3-bit deterministische netwerken. Voor beeldgeneratie levert naïeve vervanging van activaties door p-bits ruisachtige beelden op, maar hertraining met de echte stochastische elementen en zorgvuldige behandeling van de laatste laag produceert gezichten waarvan de kwaliteit bijna gelijk is aan de 32-bit referentie, gemeten met een standaard afstandsmaat.
Energieverbruik en echte hardware
De auteurs gaan verder dan simulaties en onderzoeken energie op echte hardware. Met gegevens van een 65 nm-chip gebouwd voor probabilistische schakelingen en aanvullende circuitsimulaties tonen ze aan dat grote moderne AI-werklasten worden gedomineerd door geheugenenergie, niet door rekenwerk. Omdat p-DNNs de belangrijkste rekenslag aanzienlijk vereenvoudigen—van volledige vermenigvuldig-en-accumuleroperaties naar eenvoudige optellingen met 1-bit activaties—verandert de extra rekeninspanning om een handvol samples te nemen nauwelijks het totale energieverbruik wanneer gewichten in energievretend extern geheugen staan. Ze valideren deze voorspellingen op een FPGA-implementatie van een beeldgenererend netwerk: de probabilistische versie reduceert de totale energie per inferentie met ongeveer een factor 2,5 vergeleken met een standaardontwerp, terwijl vergelijkbare cijferafbeeldingen worden geproduceerd. De overhead van randomgetallengeneratie en vergelijkingen is klein in vergelijking met geheugen en basisrekenen.

Waarom instelbaar samplen ertoe doet
Een onderscheidend voordeel van probabilistische netwerken is dat nauwkeurigheid tijdens uitvoering kan worden bijgesteld door het aantal samples te veranderen. Een enkele 1-bit p-DNN-engine kan zich gedragen als een 1-, 2- of 3-bit gekwantiseerd model afhankelijk van hoeveel samples hij neemt, zonder de hardware opnieuw te ontwerpen. Deze flexibiliteit is vooral aantrekkelijk voor grote taalmodellen, waarbij gewichtsprecisie al teruggebracht wordt naar enkele bits, maar activatieprecisie moeilijker te verminderen is zonder kwaliteitsverlies. Het raamwerk in dit artikel laat zien hoe je voor elk dergelijk model kunt inschatten of het nemen van extra samples de energie waard is vergeleken met het vergroten van het aantal bits.
Een nieuwe weg naar efficiënte, flexibele AI
In eenvoudige bewoordingen laat het artikel zien dat “ruisachtige” neurale eenheden benut kunnen worden in plaats van vermeden. Door elke forward pass te behandelen als een goedkope, benaderende gok en vervolgens een klein aantal van deze gokjes te middelen, kunnen netwerken bijna-volle-precisie prestaties bereiken met drastisch eenvoudigere berekeningen en beperkte energie-overhead. Omdat geheugen de grootste kostenpost bepaalt, is de kost van extra sampling klein, vooral wanneer gewichten één keer worden gelezen en hergebruikt. Dit suggereert een veelbelovende route naar AI-hardware die niet alleen energiezuiniger is, maar ook ter plekke aanpasbaar—het aantal samples omhoog of omlaag draaien om nauwkeurigheid in te ruilen voor batterijduur of snelheid wanneer dat nodig is.
Bronvermelding: Ghantasala, L.A., Li, MC., Jaiswal, R. et al. Improving deep neural network performance through sampling. npj Unconv. Comput. 3, 18 (2026). https://doi.org/10.1038/s44335-026-00063-7
Trefwoorden: probabilistische neurale netwerken, energiezuinige AI, sampling-gebaseerde inferentie, laag-precisie rekenen, hardware voor deep learning