30 Jun 2026 · Original en inglés · Artículo

Dron octocóptero con aprendizaje por refuerzo tolera fallos de motor en simulación

Fuentes: Fault-Tolerant RL Octocopter: sim-only policy survives single, dual and some triple motor failures

La ingeniera Karolina Dubiel documenta el proceso iterativo (día 30) para entrenar, en simulación, una política de aprendizaje por refuerzo (PPO) capaz de pilotar un dron octocóptero ante fallos de uno, dos y, en algunos casos, tres motores. La política final es un perceptrón multicapa de 43.400 parámetros que, sin haber sido entrenada con triples fallos, generaliza a ellos siempre que la recuperación sea físicamente posible; cuando mata tres motores adyacentes, situación irrecuperable, el dron lucha unos 7,2 segundos antes de hundirse en lugar de volcar.

Dubiel detalla una curva de aprendizaje con seis iteraciones fallidas antes de dar con los dos fallos sistémicos reales. El primero estaba en la acción: la política gaussiana emitía medias no acotadas que el entorno recortaba a [0,1], de modo que el gradiente de PPO se calculaba sobre el valor sin recortar y, una vez un motor salía del rango, no había gradiente que lo devolviera. La solución fue comprimir la salida con tanh como residual alrededor del empuje de vuelo estacionario, lo que elevó la supervivencia del dron sin entrenar de 7 a 205 pasos.

El segundo era de recompensa: en vuelo estacionario abierto, el +0,1 por sobrevivir quedaba anulado por el -0,1 de penalización por altitud, así que mantenerse vivo y caer de inmediato rendían lo mismo. Subir la recompensa de supervivencia de 0,1 a 1,0 dio a PPO una señal útil para seguir volando. Con ambos arreglos, el dron aprendió el vuelo estacionario en 0,5 millones de pasos y logró el 100 % de supervivencia en uno, dos y todos los fallos de motor hacia los 9,5 millones. Como hallazgo inesperado, los casos de guiñada teóricamente no compensables (dos motores del mismo sentido a 90°) tampoco lo eran en la práctica: la política mantiene el rumbo con una deriva de unos 13°/s. El siguiente paso será entrenar la política apta para transferencia al mundo real.

Etiquetas

reinforcement learning ppo octocopter fault tolerance domain randomization simulation drone machine learning

Entidades mencionadas

Karolina Dubiel person

Karolina Bielawska es una modelo polaca, personalidad televisiva, activista social, Embajadora de Buena Voluntad como Mensajera de la Paz de Naciones Unidas, filántropa, aristócrata polaca y publicist

Ver en Wikipedia

octocopter hardware

PPO protocol_standard