Clear Sky Science · pt

Aprendizado por reforço bayesiano para controle adaptativo da recuperação de energia em braços de escavadoras hidráulicas

· Voltar ao índice

Por que escavadoras mais inteligentes importam

Escavadoras hidráulicas são os cavalos de batalha da construção e da mineração, mas consomem muito diesel e desperdiçam grande parte da energia extraída do motor. Qualquer melhoria no uso de energia pode se traduzir em contas de combustível menores para empreiteiros e em menos emissões para todos. Este estudo explora uma nova forma de fazer com que os braços das escavadoras “pensem à frente” sobre as mudanças nas condições do solo e o desgaste da máquina, para recuperar e reutilizar energia de forma mais eficaz mantendo limites rígidos de segurança.

Escavar exige muito combustível

Escavadoras modernas frequentemente operam seus sistemas hidráulicos em pressões altas e fixas, seja para atravessar rocha dura ou para alisar solo solto. Essa abordagem única mantém as máquinas confiáveis, mas desperdiça energia em forma de calor, especialmente em tarefas leves e quando o braço desce pelo próprio peso. Embora alguns modelos mais novos incluam dispositivos que capturam esse excesso de energia em acumuladores hidráulicos, a maioria das máquinas ainda depende de regras simples e fixas para decidir quando e como usá-los. O resultado é um consumo de combustível que pode ser 20% maior do que o necessário e uma pegada de carbono maior nos canteiros de obra ao redor do mundo.

Um sistema de controle que aprende para o braço

Os autores projetam um modelo virtual detalhado de um braço de escavadora de 21 toneladas, incluindo seus cilindros, bomba, válvulas e um acumulador preenchido com gás que armazena energia quando o braço desce e a libera para ajudar a levantar a carga depois. O controlador precisa lidar com muitas incertezas do mundo real: solo que fica subitamente mais duro ou mais macio, óleo que engrossa ou afina com a temperatura, componentes que se desgastam lentamente e sensores ruidosos ou com viés leve. Em vez de assumir que tudo é conhecido e constante, o sistema trata o estado real da máquina como parcialmente oculto e atualiza continuamente sua melhor estimativa usando métodos bayesianos. Um filtro de partículas estima fatores ocultos, como a resistência do solo e se o acumulador está ligeiramente sobrecarregado ou com carga abaixo do ponto de projeto.

Figure 1
Figura 1.

Ensinando a máquina a se adaptar com segurança

Sobre esse estimador de estado, a equipe treina uma política de aprendizado por reforço (RL), um algoritmo que gradualmente descobre boas estratégias por tentativa e erro em simulação. A cada instante, a política recebe a “crença” atual sobre a condição da máquina e escolhe comandos contínuos para a pressão da bomba e as aberturas das válvulas. Uma camada de segurança dedicada então verifica essas sugestões e as limita a um intervalo estritamente seguro: as pressões hidráulicas devem permanecer entre 5 e 35 megapascais no geral, o acumulador deve ficar dentro da janela de 12–28 megapascais, e os movimentos das válvulas são limitados para não dar solavancos no sistema. O processo de aprendizado recompensa o controlador por terminar cada ciclo de escavação rapidamente, usando o mínimo possível de energia hidráulica e mantendo a caçamba no alvo, ao mesmo tempo em que penaliza ações que empurrariam o sistema em direção a regiões inseguras.

Desempenho do controlador inteligente

Os pesquisadores executam co-simulações extensas a 100 atualizações por segundo, comparando seu controlador bayesiano de RL com dois arranjos mais tradicionais: um com parâmetros fixos e outro que imita um operador habilidoso fazendo ajustes manuais simples de pressão e velocidade. Todos os controladores enfrentam o mesmo trabalho roteirizado de 20 minutos, no qual a dificuldade do solo muda em várias etapas e o óleo aquece de frio para quente. O controlador baseado em aprendizado acompanha mudanças no solo em segundos, elevando a pressão quando o terreno fica mais duro para manter os tempos de ciclo estáveis e reduzindo-a quando a escavação facilita para economizar energia e criar mais oportunidades de carregar o acumulador. Em diversas execuções randomizadas, ele reduz o uso de energia por ciclo de escavação em cerca de 20–22% em comparação com o controlador fixo e em aproximadamente 14–18% em relação ao ajustado por operador, ao mesmo tempo em que encurta os tempos de ciclo e melhora a precisão da posição da caçamba. Eventos de segurança, como tentativas de ultrapassar limites de pressão ou aberturas prolongadas de válvulas de alívio, tornam-se mais raros embora o sistema pressione o desempenho mais intensamente.

Figure 2
Figura 2.

O que isso significa para máquinas reais

Para um leitor leigo, a mensagem central é que o braço da escavadora pode aprender a ser ao mesmo tempo cuidadoso e econômico. Ao atualizar constantemente sua compreensão sobre quão difícil é escavar, quão saudáveis estão seus componentes e quanta energia está armazenada no acumulador, o controlador decide em tempo real quando poupar energia e quando gastar um pouco a mais para manter a produtividade. O estudo ainda se baseia em simulação em vez de testes de campo e foca em um único tamanho de máquina, mas mostra que combinar raciocínio probabilístico com controle baseado em aprendizado pode tornar equipamentos pesados significativamente mais eficientes sem sacrificar segurança ou velocidade. Se abordagens semelhantes forem transferidas para escavadoras reais, elas poderiam ajudar empreiteiros a mover a mesma quantidade de terra com menos combustível, menos desgaste e emissões menores.

Citação: Hu, P., Wen, T., Zhang, D. et al. Bayesian reinforcement learning for adaptive control of energy recuperation in hydraulic excavator arms. Sci Rep 16, 6195 (2026). https://doi.org/10.1038/s41598-026-35391-y

Palavras-chave: escavadora hidráulica, recuperação de energia, aprendizado por reforço, controle bayesiano, eficiência de máquinas pesadas