Clear Sky Science · pt

Otimização multiobjetivo orientada por aprendizado por reforço profundo e suas aplicações na estratégia de operação e manutenção da infraestrutura de iluminação

· Voltar ao índice

Luzes mais inteligentes para túneis mais seguros

Ao dirigir por um longo túnel rodoviário, damos como certo que as luzes permanecerão brilhantes e estáveis. Ainda assim, manter milhares de luminárias funcionando com segurança, sem desperdiçar dinheiro em reparos desnecessários, é um ato de equilíbrio complexo. Este artigo apresenta uma nova forma de gerenciar a iluminação de túneis que usa inteligência artificial para equilibrar continuamente dois objetivos concorrentes: manter as luzes confiáveis para os motoristas e controlar os custos gerais.

Por que as luzes de túnel são difíceis de gerir

A iluminação de túnel é crítica para a segurança do tráfego. Quando lâmpadas envelhecem ou circuitos falham, o nível de iluminação pode cair de repente, tornando mais difícil para os motoristas julgar distâncias e velocidades e aumentando o risco de acidentes. A manutenção tradicional se baseia em cronogramas fixos, limiares simples ou regras de objetivo único, como “minimizar custo” ou “maximizar vida útil da lâmpada”. Essas abordagens não lidam bem com túneis reais, onde as condições mudam ao longo do tempo, milhares de luminárias envelhecem em ritmos diferentes e segurança e custo frequentemente puxam em direções opostas. Os autores defendem que o necessário é um método que possa aprender continuamente a partir dos dados e adaptar as decisões conforme o sistema evolui.

Figure 1
Figure 1.

Ensinando um agente digital a manter as luzes

Os pesquisadores constroem um “agente” digital que aprende quando e como reparar, substituir ou ajustar as luzes do túnel interagindo com um túnel simulado. Esse agente baseia‑se em aprendizado por reforço profundo, um ramo da IA em que um sistema tenta ações, observa os resultados e gradualmente aprende estratégias que maximizam uma recompensa. Neste caso, a recompensa combina custo operacional (consumo de energia, mão de obra, peças sobressalentes e penalidades de segurança) e saúde do sistema (a probabilidade de que as lâmpadas continuem funcionando de forma confiável). O agente vê um retrato detalhado do túnel: o brilho de cada luminária, se ela está falhando, o ambiente luminoso ao redor e sinais de degradação ao longo do tempo. A cada passo escolhe ações para cada lâmpada — não fazer nada, aumentar brilho, diminuir brilho, consertar ou substituir — e recebe feedback sobre como essas escolhas afetam tanto o custo quanto a confiabilidade.

Capturando como as luzes se desgastam

Para oferecer ao agente um mundo realista para aprender, os autores primeiro constroem um modelo matemático de como as luzes de túnel se degradam. Eles usam um tipo de processo de passeio aleatório (processo de Wiener) que captura tanto a deriva constante rumo à falha quanto a incerteza causada por condições reais, como variações de temperatura. Usando quatro anos de dados operacionais de mais de 2.000 luminárias LED em um túnel de 7 quilômetros na província de Yunnan, eles comprimem muitas leituras de sensores em um único indicador de “saúde” e mostram que esse modelo de degradação corresponde de perto à realidade. Ele prevê como a probabilidade de falha cresce ao longo do tempo e quanto de vida útil provável resta a uma lâmpada. Esse modelo alimenta o ambiente simulado onde o agente de aprendizado treina estratégias de manutenção sem colocar em risco motoristas reais.

Equilibrando custo e confiabilidade ao mesmo tempo

Uma contribuição chave do trabalho é tratar custo e confiabilidade como objetivos igualmente importantes em vez de fundi‑los em um único número. Os autores transformam o problema de múltiplos objetivos em muitos subproblemas mais simples, cada um representando um compromisso diferente entre baixo custo e alta confiabilidade. Para cada subproblema, o agente de aprendizado encontra uma boa estratégia; em conjunto, essas estratégias formam uma “fronteira” dos melhores compromissos possíveis. Para acelerar esse processo, a equipe permite que subproblemas vizinhos compartilhem o que aprenderam sempre que seus trade‑offs sejam similares, em vez de treinar cada um do zero. Eles também remodelam a medida de confiabilidade para que o processo de aprendizado torne‑se especialmente sensível quando o sistema está perto de níveis perigosos de falha, incentivando o agente a responder mais agressivamente antes que a segurança seja ameaçada.

Figure 2
Figure 2.

O que a nova estratégia alcança

Quando testada contra várias estratégias comuns de manutenção de túneis — como inspeções em intervalos fixos, gatilhos baseados em brilho ou regras baseadas em taxas de falha — a nova abordagem entrega um melhor equilíbrio entre segurança e gastos. Ela reduz os custos gerais de manutenção e operação em quase 30% mantendo alta a confiabilidade e evitando que o agente de aprendizado se torne excessivamente cauteloso ou imprudente. O esquema de compartilhamento de parâmetros também torna o treinamento mais eficiente, reduzindo o tempo de computação e melhorando a cobertura dos possíveis trade‑offs custo–confiabilidade. Para um leigo, a conclusão é que esse método usa dados e aprendizado adaptativo para decidir exatamente quando e onde intervir em um túnel, de modo que as luzes permaneçam seguras para os motoristas enquanto contribuintes ou operadores pagam menos ao longo da vida útil do sistema.

Citação: Wang, Z., Tang, J., Wei, P. et al. Deep reinforcement learning-driven multi-objective optimization and its applications on lighting infrastructure operation and maintenance strategy. Sci Rep 16, 8989 (2026). https://doi.org/10.1038/s41598-026-37811-5

Palavras-chave: iluminação de túnel, manutenção preditiva, aprendizado por reforço, confiabilidade da infraestrutura, otimização multiobjetivo