Clear Sky Science · es

Asignación eficiente basada en superredes de aplicaciones de aprendizaje profundo a hardware de precisión mixta mediante adaptación del modelo

2026-03-27 · Volver al índice

Por qué importan chips de IA más inteligentes

La inteligencia artificial moderna impulsa desde asistentes de voz hasta análisis de imágenes médicas, pero los ordenadores que ejecutan estos sistemas están al límite. A medida que los modelos crecen, exigen más energía, memoria y tiempo para hacer predicciones. Este artículo explora una nueva forma de emparejar el software de IA con hardware especializado para que los sistemas puedan funcionar más rápido y con menos energía sin perder precisión. Se centra en combinar dos tipos de cálculo, analógico y digital, y en decidir automáticamente qué partes de una red neuronal deben usar cada tipo.

Dos tipos de “cerebro” para una máquina

Los chips de IA actuales comienzan a mezclar unidades digitales tradicionales con motores analógicos “en memoria” que pueden realizar grandes bloques de cálculo dentro de la memoria misma. Las unidades analógicas son extremadamente rápidas y eficientes en energía, pero también son ruidosas y menos precisas. Las unidades digitales, en cambio, son más lentas y menos eficientes pero muy fiables. El reto clave es decidir, capa por capa, dónde debe ejecutarse una red neuronal en analógico y dónde debe permanecer en digital para que el sistema en su conjunto funcione bien. Si demasiadas capas se ejecutan en analógico, la precisión cae; si demasiadas permanecen en digital, los ahorros de energía y las ganancias de velocidad desaparecen en gran medida.

Figure 1. Cómo las tareas de IA fluyen a través del hardware analógico y digital para ofrecer resultados rápidos, precisos y con ahorro de energía.

Un mapa de muchas redes posibles

Los autores introducen la Superred de Precisión Mixta, un gran modelo paraguas que contiene muchas versiones posibles de la misma red neuronal a la vez. Para cada capa, esta superred incluye varias opciones: una versión digital con diferentes precisiones de bits, una versión analógica que incorpora ruido realista e incluso la posibilidad de omitir o remodelar capas. Durante el entrenamiento, el sistema aprende no solo los pesos habituales de la red, sino también qué tan buena es cada elección de hardware para cada capa. Un método especial de clasificación explora entonces este espacio de opciones para encontrar “mapeos” específicos capa por capa que equilibran tres objetivos a la vez: la precisión en la tarea, cuánto trabajo se realiza en hardware analógico y cuánta memoria digital se requiere.

Enseñar al modelo a ajustarse al hardware

Más allá de elegir entre analógico y digital, el marco puede remodelar suavemente la red para que se adapte al hardware de forma más natural. Por ejemplo, puede ensanchar ciertas capas internas de un transformador o de un bloque convolucional para que llenen un mosaico analógico con mayor completitud, usando más de las filas y columnas disponibles sin añadir latencia. Estas adaptaciones conscientes del hardware aumentan el número de parámetros en algunas capas, pero al colocarse donde el hardware analógico es eficiente, el coste energético global sigue siendo bajo. El sistema entrena en fases: primero trata todas las rutas de forma equitativa, luego introduce gradualmente la cuantización real y el ruido analógico, y finalmente ajusta finamente las elecciones para mantener los mejores compromisos entre precisión y eficiencia.

Figure 2. Cómo cada capa de la red neuronal se asigna al hardware analógico o digital para equilibrar precisión, consumo energético y velocidad.

Búsquedas más rápidas y mejores compromisos

El equipo probó su enfoque en varias tareas estándar: clasificación de imágenes en CIFAR‑10, segmentación de objetos en el conjunto de datos COCO y respuesta a preguntas en SQuAD. En estas pruebas, sus métodos, llamados MPS y el más avanzado MPAAS, encontraron de forma consistente mapeos que utilizaban una alta fracción de operaciones analógicas manteniendo o incluso mejorando ligeramente la precisión en comparación con referencias comunes. En promedio, sus mapeos se descubrieron alrededor de 2,2 veces más rápido que métodos competidores y ofrecieron aproximadamente un 3,4 por ciento de mejora en el rendimiento de la tarea frente a un diseño totalmente analógico. Las simulaciones de hardware mostraron que los diseños resultantes podían reducir la latencia hasta aproximadamente 2,4 veces y la energía por predicción en torno a 2,6 veces respecto a sistemas digitales de precisión completa.

Qué significa esto para el hardware de IA del futuro

Para los no expertos, el mensaje principal es que la forma en que un modelo de IA se dispone en un chip importa casi tanto como el propio modelo. Este trabajo demuestra que un “planificador” automático y consciente del hardware puede decidir qué partes de una red deben ejecutarse en hardware analógico rápido pero ruidoso y cuáles deben permanecer en unidades digitales precisas, a veces remodelando el modelo para que encaje mejor en el chip. El resultado es una IA que puede ofrecer una precisión similar usando mucha menos energía y tiempo, un paso importante para hacer que los modelos potentes sean prácticos en dispositivos como teléfonos, coches y servidores en el borde, en lugar de solo en grandes centros de datos.

Cita: Benmeziane, H., Lammie, C., Boybat, I. et al. Supernetwork-based efficient mapping of deep learning applications to mixed-precision hardware using model adaptation. Nat Commun 17, 4501 (2026). https://doi.org/10.1038/s41467-026-71071-1

Palabras clave: hardware de precisión mixta, cómputo analógico en memoria, mapeo de redes neuronales, IA consciente del hardware, inferencia con eficiencia energética