Clear Sky Science · ru

Гибридная структура обучения с подкреплением fuzzy-TD3 для устойчивого слежения за траекториями роботизированной руки Mitsubishi RV-2AJ

2026-03-06 · Назад к списку

Более разумные роботизированные руки для суровой реальной работы

Промышленные роботизированные руки превосходны в повторении одних и тех же движений, но могут давать сбой, если задача или окружение меняются даже слегка. В этой статье представлен новый подход, позволяющий обычной заводской руке объединить устойчивость традиционного регулятора и адаптивность искусственного интеллекта одновременно. Цель проста, но требовательна: заставить руку точно следовать сложным 3D‑траекториям, даже когда меняется нагрузка или на нее действуют толчки и помехи, без необходимости иметь идеальную математическую модель механизма.

Почему точное движение дается роботам с трудом

Современные роботизированные руки, такие как исследуемая здесь 5‑звенная Mitsubishi RV‑2AJ, представляют собой сложные механические системы. Их суставы взаимовлияют, движение сильно нелинейно, и в реальных цехах им приходится иметь дело с трением, вибрацией, шумом датчиков и неизвестной полезной нагрузкой. Классические методы управления, например PID, просты в настройке и широко используются, но испытывают трудности, когда робот движется быстро, переносит разные предметы или сталкивается с неожиданными силами. С другой стороны, глубокое обучение с подкреплением в принципе может выработать отличные управляющие стратегии методом проб и ошибок, но на практике обучение может идти медленно, поведение поначалу быть непредсказуемым, а сам метод часто остаётся «черным ящиком», которому инженерам трудно доверять и интерпретировать его решения.

Сочетание человеческих правил и машинного обучения

Чтобы преодолеть этот разрыв, автор предлагает гибридный регулятор, который объединяет систему нечеткой логики — кодирующую экспертные правила в интерпретируемой форме — с мощным методом обучения с подкреплением TD3. В такой конструкции нечеткая часть отслеживает, насколько каждый сустав отклоняется от целевого положения и как быстро это отклонение меняется. Затем она применяет немедленные корректирующие моменты согласно компактному набору правил «если—то», как это сделал бы опытный оператор. Это обеспечивает стабильное, понятное базовое поведение. В то же время агент TD3 учится в повторной симуляции добавлять меньший «остаточный» момент, который тонко настраивает движение, компенсируя трудно моделируемые эффекты вроде нелинейного трения или постоянных изменений массы груза. Два сигнала момента просто суммируются в каждом суставе, поэтому двигатель всегда управляется партнёрством между явными правилами и обученной адаптацией.

Цифровой стенд для сложных траекторий

Гибридный регулятор обучается и тестируется в детализированной виртуальной копии руки Mitsubishi, созданной с помощью инструментов мультительной симуляции. Эта среда воспроизводит жесткие звенья, ограничения суставов и ошибки датчиков, позволяя алгоритму обучения безопасно исследовать, но при этом сталкиваться с реалистичной физикой. Исследователи испытывают регулятор на требовательных 3D‑траекториях — N‑образных, винтовых и спиральных путях — которые требуют плавной, скоординированной работы всех суставов. Они также вводят неопределённость, изменяя массы и моменты инерции звеньев и добавляя внезапные импульсы момента, имитирующие удары или внешние толчки. В этой установке компонент нечеткой логики предотвращает чрезмерно резкое поведение, в то время как агент TD3 постепенно улучшает результат, максимизируя функцию вознаграждения, учитывающую точность, плавность и энергоэффективность.

Почему гибрид превосходит конкурентов

По всем проверенным траекториям гибридный fuzzy‑TD3 регулятор превосходит как чистый TD3, так и предыдущий гибрид, комбинировавший TD3 с классическим PID. Показатели ошибки, аккумулирующие отклонения во времени, демонстрируют снижение примерно на 28–50% по сравнению с TD3 в одиночку и примерно на 15–29% по сравнению с гибридом на базе PID. Даже когда физические параметры робота нарушены и применены внешние возмущения, новый регулятор сохраняет преимущество, уменьшая ошибки примерно на 23–34% относительно TD3 и на 11–17% относительно PID‑TD3. Дополнительный анализ показывает, что процесс обучения сходится плавно, поведение численно устойчиво, а нечеткие правила активируются интуитивными образами — мягкие, частые коррекции в нормальных условиях и более сильные, редкие вмешательства, когда рука значительно отклоняется от цели.

Баланс между точностью и энергопотреблением

Исследование также показывает, что регулятор можно настроить так, чтобы пожертвовать немного точности ради заметной экономии энергии. Изменяя один коэффициент в функции вознаграждения, алгоритм учится снижать средний крутящий момент в суставах более чем на 20% при лишь незначительном увеличении ошибки слежения. Такая настраиваемость означает, что одна и та же схема управления может быть адаптирована к задачам, где эффективность важнее микроточности, или наоборот, без переработки всей системы.

Что это означает для будущих роботов

В простых словах, эта работа демонстрирует многообещающий рецепт для более надежных и понятных роботизированных рук: поручить ясному набору читаемых человеком правил быстрые корректировки и безопасность, а алгоритму обучения позволить постепенно улучшать производительность. В результате получается регулятор, который точнее отслеживает сложные траектории, устойчив к возмущениям, экономичнее расходует энергию и остаётся объяснимым для инженеров. Такие гибридные решения могут помочь вывести продвинутое управление на базе ИИ из лабораторий в настоящие фабрики, склады и сервисных роботов, где надёжность и прозрачность так же важны, как и интеллектуальные возможности.

Цитирование: Hazem, Z.B. A fuzzy-TD3 hybrid reinforcement learning framework for robust trajectory tracking of the Mitsubishi RV-2AJ robotic arm. Sci Rep 16, 12269 (2026). https://doi.org/10.1038/s41598-026-42615-8

Ключевые слова: управление роботизированной рукой, обучение с подкреплением, нечеткая логика, слежение за траекторией, устойчивая автоматизация