Clear Sky Science · pl

Efektywne mapowanie aplikacji uczenia głębokiego na sprzęt mieszanej precyzji oparte na super‑sieci z adaptacją modelu

· Powrót do spisu

Dlaczego inteligentniejsze układy AI mają znaczenie

Współczesna sztuczna inteligencja napędza wszystko, od asystentów głosowych po analizę obrazów medycznych, ale komputery uruchamiające te systemy są przeciążone. W miarę jak modele rosną, wymagają coraz więcej energii, pamięci i czasu na wykonywanie predykcji. Artykuł ten bada nowy sposób dopasowania oprogramowania AI do wyspecjalizowanego sprzętu, tak aby systemy działały szybciej i zużywały mniej energii, zachowując jednocześnie dokładność. Skupia się na łączeniu dwóch rodzajów obliczeń — analogowych i cyfrowych — oraz na automatycznym decydowaniu, które części sieci neuronowej powinny korzystać z którego z nich.

Dwa rodzaje „mózgu” w jednej maszynie

Dzisiejsze układy AI zaczynają łączyć tradycyjne jednostki cyfrowe z analogowymi silnikami „in‑memory”, które potrafią wykonywać duże bloki obliczeń bezpośrednio w pamięci. Jednostki analogowe są niezwykle szybkie i energooszczędne, ale też hałaśliwe i mniej precyzyjne. Jednostki cyfrowe są z kolei wolniejsze i mniej wydajne energetycznie, lecz bardzo niezawodne. Kluczowym wyzwaniem jest decyzja, warstwa po warstwie, gdzie sieć neuronowa powinna działać w trybie analogowym, a gdzie pozostać cyfrowa, tak by cały system działał dobrze. Jeśli zbyt wiele warstw zostanie przypisanych do trybu analogowego, spada dokładność; jeśli zbyt wiele pozostanie cyfrowych, zyski w postaci oszczędności energii i szybkości zostają w dużej mierze utracone.

Figure 1. Jak zadania AI przepływają przez sprzęt analogowy i cyfrowy, aby dostarczać szybkie, dokładne i energooszczędne wyniki.
Figure 1. Jak zadania AI przepływają przez sprzęt analogowy i cyfrowy, aby dostarczać szybkie, dokładne i energooszczędne wyniki.

Mapa wielu możliwych sieci

Autorzy wprowadzają Super‑sieć Mieszanej Precyzji, rozległy model‑parasolkę, który jednocześnie zawiera wiele możliwych wersji tej samej sieci neuronowej. Dla każdej warstwy super‑sieć obejmuje kilka opcji: wersję cyfrową o różnych precyzjach bitowych, wersję analogową uwzględniającą realistyczny szum, a nawet możliwość pominięcia lub przekształcenia warstw. Podczas treningu system uczy się nie tylko zwykłych wag sieci, lecz także ocenia, jak dobre są poszczególne wybory sprzętowe dla danej warstwy. Specjalna metoda rankingu przeszukuje następnie tę przestrzeń opcji, aby znaleźć konkretne, warstwa po warstwie „mapowania”, które jednocześnie równoważą trzy cele: dokładność zadania, udział operacji wykonywanych na sprzęcie analogowym oraz wymagania dotyczące pamięci cyfrowej.

Nauka dopasowania modelu do sprzętu

Poza wyborem między analogowym a cyfrowym, ramy te potrafią delikatnie przekształcać sieć, aby lepiej dopasować ją do sprzętu. Na przykład mogą poszerzyć niektóre wewnętrzne warstwy transformera lub bloku konwolucyjnego, aby bardziej efektywnie wypełniały analogową płytkę (tile), wykorzystując więcej dostępnych wierszy i kolumn bez dodawania opóźnień. Te świadome sprzętowo adaptacje zwiększają liczbę parametrów w niektórych warstwach, ale ponieważ są stosowane tam, gdzie sprzęt analogowy jest wydajny, całkowity koszt energetyczny pozostaje niski. System trenuje się etapami: najpierw traktuje wszystkie ścieżki równorzędnie, potem stopniowo wprowadza rzeczywistą kwantyzację i szum analogowy, a na końcu dopracowuje wybory, aby zachować najlepsze kompromisy między dokładnością a efektywnością.

Figure 2. Jak każdej warstwie sieci neuronowej przypisuje się sprzęt analogowy lub cyfrowy w celu zrównoważenia dokładności, zużycia energii i szybkości.
Figure 2. Jak każdej warstwie sieci neuronowej przypisuje się sprzęt analogowy lub cyfrowy w celu zrównoważenia dokładności, zużycia energii i szybkości.

Szybsze poszukiwania i lepsze kompromisy

Zespół przetestował swoje podejście na kilku standardowych zadaniach: klasyfikacji obrazów na CIFAR‑10, segmentacji obiektów na zestawie COCO oraz odpowiadaniu na pytania na SQuAD. W tych testach metody zwane MPS i bardziej zaawansowane MPAAS konsekwentnie znajdowały mapowania wykorzystujące duży udział operacji analogowych, utrzymując lub nawet nieco poprawiając dokładność w porównaniu z powszechnymi punktami odniesienia. Średnio ich mapowania odkrywano około 2,2 razy szybciej niż metody konkurencyjne i przynosiły około 3,4‑procentowy wzrost wydajności zadania w porównaniu z projektem całkowicie analogowym. Symulacje sprzętowe wykazały, że uzyskane projekty mogą skrócić latencję nawet do około 2,4 razy i zmniejszyć zużycie energii na predykcję o około 2,6 razy w porównaniu z systemami cyfrowymi o pełnej precyzji.

Co to oznacza dla przyszłego sprzętu AI

Dla osób niebędących ekspertami główne przesłanie jest takie, że sposób rozmieszczenia modelu AI na chipie ma prawie tak samo duże znaczenie jak sam model. Praca ta pokazuje, że automatyczny, świadomy sprzętu „planista” może zdecydować, które części sieci powinny działać na szybkim, lecz szumowym sprzęcie analogowym, a które pozostać na precyzyjnych jednostkach cyfrowych, czasem przekształcając model, by lepiej dopasować go do chipu. Efekt to AI, która dostarcza zbliżoną dokładność przy znacznie mniejszym zużyciu energii i czasie — ważny krok w kierunku uczynienia potężnych modeli praktycznymi w urządzeniach takich jak telefony, samochody czy serwery brzegowe, a nie tylko w dużych centrach danych.

Cytowanie: Benmeziane, H., Lammie, C., Boybat, I. et al. Supernetwork-based efficient mapping of deep learning applications to mixed-precision hardware using model adaptation. Nat Commun 17, 4501 (2026). https://doi.org/10.1038/s41467-026-71071-1

Słowa kluczowe: sprzęt mieszanej precyzji, analogowe obliczenia w pamięci, mapowanie sieci neuronowych, AI świadome sprzętu, energooszczędna inferencja