Clear Sky Science · es
Una red neuronal de pulsos inspirada en la neurociencia y la psicología para el aprendizaje y la composición musical condicionada por modo y tonalidad occidentales
Por qué importa enseñar a los ordenadores a percibir la tonalidad
La mayoría de las personas perciben cuándo una canción ha “regresado a casa” en su nota final, o cuándo un acorde equivocado hace que todo suene fuera de lugar. Esa intuición se apoya en reglas ocultas de tonalidad y modo: el esqueleto tonal bajo la música occidental. La inteligencia artificial moderna puede generar melodías sin fin, pero a menudo ignora esas reglas o las implementa de forma tosca. Este artículo presenta un nuevo modelo inspirado en el cerebro que aprende las tonalidades y los modos musicales de manera más parecida a un oyente humano y luego usa ese conocimiento para componer armonías a cuatro voces. Su objetivo es que las máquinas que hacen música sean no solo más musicales, sino también más comprensibles.
Del oído cotidiano a los mapas internos del sonido
Al escuchar música, tu cerebro construye gradualmente un mapa interno de qué notas se sienten estables, cuáles suenan tensas y cómo suelen desarrollarse los patrones. Los psicólogos han captado esto con el modelo de Krumhansl–Schmuckler, que mide cuánto pertenece cada una de las 12 clases de altura a una tonalidad determinada. La neurociencia vincula este tipo de conocimiento esquemático a áreas cerebrales que organizan la experiencia en el tiempo, como la corteza prefrontal medial y estructuras de memoria como el hipocampo. Los autores sostienen que la mayoría de los sistemas musicales de aprendizaje profundo pasan por alto estas ideas psicológicas y biológicas: con frecuencia fuerzan todas las piezas a una tonalidad de referencia o tratan la tonalidad como una etiqueta simple, y su funcionamiento interno es difícil de interpretar. El nuevo trabajo, en cambio, se propone construir una red cuyas conexiones internas puedan compararse directamente con la percepción tonal humana.

Una red semejante al cerebro que percibe escalas y secuencias
Los investigadores diseñan una red neuronal de pulsos, un tipo de modelo que se comunica mediante breves impulsos eléctricos, evocando a las neuronas reales. La dividen en dos subsistemas principales. Un subsistema “tonal” representa modos (mayor y menor) y las 24 tonalidades usadas en la música tonal occidental, dispuestas en una jerarquía que recuerda a cómo el cerebro almacena esquemas abstractos. Un subsistema de “memoria secuencial” contiene las notas reales de una pieza a cuatro voces: sus alturas y su duración, distribuidas en flujos separados correspondientes a soprano, alto, tenor y bajo. Dentro de estos flujos, la altura y la duración se codifican mediante matrices de pequeñas columnas de neuronas, vagamente inspiradas en la organización de la corteza auditiva y en células sensibles al tiempo halladas en estudios sobre temporización.
Dejar que las conexiones crezcan con la experiencia
En lugar de cablear todo de antemano, el modelo permite que se formen nuevas sinapsis entre el subsistema tonal y el de memoria secuencial cuando neuronas disparan repetidamente a la vez mientras se reproduce una pieza. Esto imita cómo emergen y cambian los circuitos neuronales durante el aprendizaje. Una vez que existe una conexión, su fuerza se ajusta mediante una regla llamada plasticidad dependiente del tiempo entre picos (spike‑timing‑dependent plasticity): si una neurona fuente tiende a disparar justo antes que una neurona objetivo, el vínculo se fortalece; si el orden se invierte, se debilita. A lo largo de muchas piezas, incluidas prácticas de libro cuidadosamente diseñadas para resaltar ideas armónicas específicas y una gran colección de corales de J. S. Bach, el cableado interno de la red llega gradualmente a reflejar qué notas funcionan como centrales, de apoyo o raras en cada modo y tonalidad.

Dentro del sentido de tonalidad de la máquina
Para comprobar si el modelo realmente desarrolló expectativas tonales semejantes a las humanas, los autores midieron dos rasgos de sus conexiones aprendidas: cuántas sinapsis acumuló cada clase de altura y cuán fuertes se volvieron esas sinapsis de media. Después compararon estos patrones con los bien conocidos perfiles tonales de la psicología. Tanto en modos mayor como menor y en muchas tonalidades individuales, la concordancia fue notablemente alta. Las notas que los humanos perciben como el tono “central” o las principales notas de apoyo también emergieron como las más conectadas en la red. Diferencias sutiles reflejaron el material de entrenamiento: por ejemplo, ejercicios didácticos que enfatizaban ciertos acordes empujaron a la red a ponderar más esas notas. Esto sugiere que el modelo captura tanto leyes tonales generales como hábitos específicos del corpus, tal como ocurre en la enculturación humana.
Componer nueva música en una tonalidad elegida
Al pedirle que componga, al sistema se le indica un modo y una tonalidad objetivo, además de un acorde de inicio corto. La actividad en las neuronas específicas de la tonalidad sesga entonces el subsistema de memoria secuencial a través de las conexiones aprendidas. Neuronas rivales por notas disparan, y una sencilla regla de “el ganador se lo lleva todo” elige la siguiente nota en cada voz. Paso a paso, el modelo genera nuevas armonías a cuatro voces que se mantienen dentro de la tonalidad prevista mientras exploran formas melódicas variadas. En comparación con una gama de modelos populares de aprendizaje profundo —incluidos redes recurrentes, transformadores y modelos de difusión—, el modelo de pulsos produce piezas cuyos rangos de altura, uso de notas de escala y otras estadísticas estructurales se asemejan más a los conjuntos de referencia. En particular, mantiene una proporción muy alta de notas dentro de la tonalidad sin volverse monótono.
Qué significa esto para las máquinas musicales futuras
Para un lector general, el resultado clave es que una red inspirada en el cerebro puede aprender algo próximo a nuestro sentido intuitivo de tonalidad y escala —y podemos ver ese conocimiento directamente en su cableado. El modelo aún no maneja toda la riqueza de la música real, como armonías cambiantes, variedad rítmica o matices expresivos de tiempo. Aun así, ofrece un puente concreto entre la teoría musical, la psicología y la computación neuronal. Al mostrar que un sistema motivado biológicamente puede generar armonías convincentes y sensibles a la tonalidad y revelar cómo llegó a ellas, este trabajo señala hacia una IA musical futura que sea tanto más culta musicalmente como más transparente en su forma de pensar sobre el sonido.
Cita: Liang, Q., Zeng, Y. & Tang, M. A spiking neural network inspired by neuroscience and psychology for Western mode- and key-conditioned music learning and composition. Sci Rep 16, 12956 (2026). https://doi.org/10.1038/s41598-026-43529-1
Palabras clave: redes neuronales de pulsos, generación de música, tonalidad y modo musical, cognición musical computacional, IA inspirada en el cerebro