LLMs en vuelo: Ingeniero prueba IA sin conexión

Fuentes: Running Local LLMs Offline on a Ten-Hour Flight

Este artículo describe un experimento realizado por Dmitri Lerko, un ingeniero, durante un vuelo de 10 horas de Londres a Las Vegas, utilizando un MacBook Pro M5 Max para ejecutar modelos de lenguaje grandes (LLMs) localmente sin conexión a internet. El objetivo era evaluar la viabilidad de realizar tareas de ingeniería complejas directamente en el dispositivo, aprovechando la potencia de los modelos de código abierto como Gemma 4 y Qwen 4.6.

¿Cómo funciona? Lerko configuró su MacBook con 128GB de memoria unificada y una GPU de 40 núcleos, instalando LM Studio para ejecutar los LLMs. Además, incorporó herramientas de línea de comandos (CLIs) como opencode, rtk (una herramienta para orquestar LLMs) e instantgrep, junto con DuckDB para el análisis de datos. El experimento se centró en la creación de una herramienta de análisis de gastos en la nube para Loveholidays, utilizando DuckDB como base de datos y un UI personalizado para visualizar datos. También se realizaron tareas más pequeñas como refactorizaciones y generación de código.

Aplicaciones y casos de uso: La capacidad de ejecutar LLMs localmente abre la puerta a tareas como desarrollo de software, creación de herramientas personalizadas y análisis de datos sin depender de una conexión a internet. Esto es especialmente útil en situaciones donde la conectividad es limitada o inexistente, como en vuelos, zonas rurales o entornos con restricciones de seguridad. Lerko destaca que es ideal para tareas de alcance limitado y exploración, mientras que tareas que requieren un alto nivel de razonamiento o inteligencia de vanguardia siguen siendo más adecuadas para la nube.

Limitaciones y consideraciones: El experimento reveló varias limitaciones. El consumo de energía fue significativo (aproximadamente 1% de la batería por minuto bajo carga), incluso estando conectado a la corriente. La generación de calor también fue un problema, requiriendo medidas para evitar molestias. La degradación del rendimiento y la latencia se observaron con contextos de más de 100,000 tokens. Además, se encontraron casos de bucles infinitos en los modelos, lo que requirió intervención manual. Un hallazgo inesperado fue la diferencia en la potencia de entrega entre el cable de carga del iPhone y el del MacBook, lo que limitaba el rendimiento del dispositivo. Lerko enfatiza la importancia de la instrumentación del sistema para identificar y solucionar estos problemas, desarrollando herramientas como powermonitor y lmstats para monitorizar el consumo de energía y el rendimiento de los LLMs.

En resumen, el artículo demuestra que la ejecución local de LLMs es una opción viable para ciertas tareas de ingeniería, pero requiere una cuidadosa consideración de los recursos, el rendimiento y la instrumentación del sistema. La experiencia también resaltó la importancia de la conciencia del costo de la inferencia, lo que puede llevar a un uso más eficiente de los recursos en la nube.