Pipeline de visión por computador en tiempo real para RK3588S que alcanza los 46 FPS del sensor

Fuentes: Real-time YOLOv8n UAV detection at the sensor's 46 FPS ceiling on RK3588S

Este proyecto de software implementa una cadena de visión por computador en tiempo real para placas basadas en el SoC Rockchip RK3588S, capaz de detectar vehículos aéreos no tripulados (UAV) con el modelo YOLOv8n. Su principal logro técnico es aprovechar al máximo la cámara: mediante un pool de inferencia que reparte YOLOv8n entre los tres núcleos NPU del chip en paralelo, el sistema eleva el rendimiento de unos 31 FPS a 46 FPS, que es el techo del sensor OS08A10 a 1080p. La captura, la conversión de color y el redimensionado se ejecutan en bloques de silicio de función fija (ISP, RGA, NPU), por lo que la CPU queda libre y el consumo de memoria se mantiene estable en torno a 140 MB por flujo (unos 290 MB con dos cámaras activas).

Gracias a esa huella tan reducida, el binario funciona a pleno rendimiento incluso en placas RK3588S de 2 GB disponibles por unos 90 €, sin necesidad de kits de desarrollo de gama alta. El pipeline es modular: cada etapa —detección, seguimiento con ByteTrack, extracción de características temporales, máquina de estados de presencia y resumen con un modelo de lenguaje— corre como un proceso independiente comunicado mediante sockets de dominio Unix. Opcionalmente, cuando un UAV abandona la escena, un LLM local (Qwen2.5-0.5B) genera una valoración en lenguaje natural del evento. El resultado anotado puede mostrarse por HDMI o transmitirse por RTSP, y la construcción admite compilación nativa en la placa o compilación cruzada desde WSL/x86-64.