llama.cpp

26 Jun 2026

Un hilo de Reddit afirma que el Gobierno de EE. UU. aprobará individualmente el acceso a GPT 5.6

Un hilo publicado en el subreddit LocalLLaMA, titulado "US Govt to individually approve who gets GPT 5.6", sostiene que el Gobierno de Estados Unidos evaluará caso por caso qué usuarios pueden acceder a la próxima versión del modelo de OpenAI. La publicación, sin enlace ni cuerpo verificable, ha reu

12 Jun 2026

Cómo configurar un agente de codificación local en macOS

Montar un agente de codificación local en macOS permite ejecutar modelos de lenguaje de última generación sin depender de la nube. Este artículo explica cómo configurar una solución completa usando llama.cpp, Gemma 4 26B-A4B y el agente terminal Pi, tras la experiencia del autor con cortes de intern

12 Jun 2026

MTG Bench: un benchmark para medir la inteligencia de los LLM jugando a Magic

El benchmark MTG Bench evalúa la capacidad de los modelos de lenguaje de gran escala (LLM) para jugar a Magic: The Gathering de forma autónoma, sin depender de un motor de reglas que valide cada movimiento. Desarrollado por Callum Ferguson, el sistema utiliza un servidor MCP (Model Context Protocol)

11 Jun 2026

Ejecutar Claude Code sin conexión: ajustes y hardware

Claude Code, la herramienta de codificación asistida por inteligencia artificial de Anthropic, puede ejecutarse en un entorno completamente local y aislado (air-gapped) sin necesidad de conexión a internet. El artículo describe la configuración necesaria para lograrlo, utilizando un modelo local com

05 Jun 2026

Google lanza versiones QAT de Gemma 4 para móviles y portátiles

Google ha presentado nuevos checkpoints de Gemma 4 optimizados con Quantization-Aware Training (QAT), una técnica que integra la cuantización durante el entrenamiento para reducir la pérdida de calidad al comprimir los modelos. La novedad permite ejecutar Gemma 4 en dispositivos móviles y GPUs de co

03 Jun 2026

MOSS-TTS Family: modelos de síntesis de voz y sonido de código abierto

MOSS-TTS Family es una familia de modelos de síntesis de voz y sonido de código abierto desarrollada por MOSI.AI y el equipo OpenMOSS. Su objetivo es cubrir múltiples escenarios reales con alta fidelidad y expresividad, incluyendo locuciones largas estables, diálogos con múltiples hablantes, diseño

03 Jun 2026

Google presenta Gemma 4 12B, un modelo multimodal unificado que se ejecuta en portátiles

Google presenta Gemma 4 12B, un modelo multimodal unificado que se ejecuta en portátiles Google ha presentado Gemma 4 12B, un nuevo modelo de inteligencia artificial de código abierto que destaca por su arquitectura multimodal unificada y por su capacidad de ejecutarse en portátiles convencionales

01 Jun 2026

Cómo ejecutar Gemma 4 en un Xeon de 2016 sin GPU

## Cómo ejecutar Gemma 4 en un Xeon de 2016 sin GPU: la hazaña técnica que desafía el 'memory wall' Un experimento publicado en el blog técnico point.free demuestra que es posible ejecutar un modelo de inteligencia artificial de última generación, concretamente Gemma 4 en su versión 26B con arquite

31 May 2026

Odiseo: un espacio de trabajo autogestionado con inteligencia artificial

Odiseo (Odysseus) es un proyecto de software que ofrece un espacio de trabajo autogestionado con inteligencia artificial, diseñado para ejecutarse en el propio hardware del usuario y priorizar la privacidad. Su objetivo es replicar la experiencia de interfaz de ChatGPT o Claude, pero de forma local

29 May 2026

Liquid AI lanza LFM2.5 con ventana de contexto de 128k tokens

Liquid AI ha anunciado hoy el lanzamiento de LFM2.5-8B-A1B, una evolución de su modelo de 'Mixture-of-Experts' diseñada para ejecutarse de manera eficiente y privada en hardware de consumo. Esta nueva versión, disponible bajo licencia abierta, supera a su predecesor al expandir su ventana de context

28 May 2026

Animus social: toxicidad y conflictos en las comunidades de código abierto

El artículo 'Animus Social' explora la animosidad social y la desconfianza que imperan en las comunidades de código abierto, un entorno donde la falta de filtros institucionales permite que conflictos ideológicos y comportamientos tóxicos se manifiesten sin control. El autor, Justine Tunney, analiza

27 May 2026

Herramienta de IA genera comandos de terminal con símbolos simples

Un desarrollador ha implementado una herramienta que permite generar comandos de terminal y obtener respuestas mediante inteligencia artificial utilizando símbolos como la coma y el signo de interrogación. Esta integración facilita la creación de comandos shell complejos y la consulta de información

26 May 2026

Asistente de IA para terminal con LLMs locales en solo 100 líneas

Un desarrollador ha creado un asistente de línea de comandos impulsado por inteligencia artificial que utiliza modelos de lenguaje locales (LLMs), permitiendo a los usuarios interactuar con el terminal en lenguaje natural. El sistema, construido con aproximadamente cien líneas de código, integra her

16 May 2026

Nuevo modelo open source permite controlar respuestas de IA sin cambiar prompts

DeepSeek-V4-Flash es un modelo de lenguaje de código abierto que permite por primera vez aplicar técnicas de steering (direccionamiento) de forma práctica para muchos ingenieros. El steering consiste en manipular directamente las activaciones internas del modelo durante la inferencia para guiar sus

14 May 2026

GGUF: el formato que unifica todos los componentes de modelos de lenguaje en un solo archivo

GGUF es el formato de archivo utilizado por llama.cpp para almacenar modelos de lenguaje. Su principal ventaja es que concatena en un único archivo todos los componentes necesarios: plantillas de chat, tokens especiales y configuración del muestreador. Las plantillas de chat usan el lenguaje Jinja2

10 May 2026

IA local en Macs: Qwen 3.5 logra 40 tokens por segundo con chip M4

Investigadores y desarrolladores ahora pueden ejecutar modelos de inteligencia artificial localmente en Macs con chip M4 y 24 GB de memoria, reduciendo la dependencia de las grandes tecnológicas. La autora Johanna Larsson probó varias herramientas como Ollama, Llama.cpp y LM Studio, encontrando que

07 May 2026

DeepSeek v4 Flash: Motor de inferencia más rápido y eficiente

Un equipo de ingenieros, liderado por Antirez, ha lanzado DeepSeek v4 Flash, un nuevo motor de inferencia optimizado para el modelo de lenguaje DeepSeek V4 Flash. Este motor, denominado 'ds4.c', está diseñado específicamente para este modelo y no es un framework genérico. La principal ventaja radica

07 May 2026

Linux sin disco: arranca con ZFS, iSCSI y PXE

Este artículo describe un método para arrancar un sistema Linux sin disco duro utilizando ZFS, iSCSI y PXE. El autor buscaba una solución para probar modelos de lenguaje grandes (LLMs) en su PC de juegos sin alterar su configuración de Windows, que a menudo se corrompe con actualizaciones. También d

06 May 2026

Adam: Nueva biblioteca C facilita el desarrollo de IA

Un nuevo proyecto de código abierto llamado 'Adam' ha sido lanzado, ofreciendo una biblioteca en C para simplificar el desarrollo de agentes de inteligencia artificial. Adam proporciona un bucle de agente completo, incluyendo la llamada a herramientas, la gestión de la memoria, sesiones, soporte par

25 Apr 2026

IA recuerda: Stash crea memoria persistente para agentes

Stash, una nueva capa de memoria persistente para agentes de IA, ha sido presentada por Mohamed Al-Ashaal. La herramienta busca resolver el problema de que los agentes de IA, como ChatGPT y Claude, no retienen información entre sesiones, obligando a los usuarios a repetir constantemente la misma inf

19 Apr 2026

rocm y strix halo: optimiza la memoria de tu gpu

Un usuario ha compartido su experiencia al configurar ROCm y Strix Halo para optimizar el uso de memoria en un sistema con 128GB de RAM compartida entre la CPU y la GPU. El proceso, realizado en Ubuntu 24.04 LTS, incluyó una actualización del BIOS (necesaria para la detección de la GPU) y ajustes en

16 Apr 2026

Ollama enfrenta críticas por falta de reconocimiento a su base

Ollama, una popular herramienta para ejecutar modelos de lenguaje grandes (LLM) localmente, enfrenta acusaciones de engaño y falta de atribución a su tecnología base, llama.cpp. Fundada en 2021, Ollama inicialmente se destacó por facilitar el acceso a llama.cpp, un motor de inferencia creado por Geo

14 Apr 2026

LLMs de código abierto: incompatibilidad dificulta su uso

El uso de modelos de lenguaje grandes (LLM) de código abierto se enfrenta a un desafío significativo: la incompatibilidad en los formatos de llamada de herramientas. Mientras que los modelos cerrados como los de OpenAI ofrecen una integración fluida, los modelos de código abierto requieren que los d

09 Apr 2026

Agente IA optimiza código, mejora rendimiento en IA

Un agente de codificación ha logrado optimizar el código de Flash Attention en llama.cpp en un 15% para x86 y un 5% para ARM, gracias a la incorporación de una fase de investigación previa a la codificación. El equipo de SkyPilot, utilizando la herramienta autoresearch (y su versión generalizada, pi

05 Apr 2026

Gemma 4 de Google: IA potente ahora en tu PC

Google ha lanzado la familia de modelos Gemma 4, que ahora puede ejecutarse localmente en dispositivos gracias a la nueva versión 0.4.0 de LM Studio. Esta actualización introduce 'llmster' y la CLI 'lms', permitiendo a los usuarios ejecutar modelos como Gemma 4 26B en sus propios ordenadores, elimin

02 Apr 2026

Lemonade: IA local, rápida y privada para todos

Lemonade, una nueva herramienta de código abierto, ha sido lanzada para facilitar la ejecución local de modelos de inteligencia artificial en computadoras personales. La plataforma, disponible para Windows, Linux y macOS (en versión beta), busca democratizar el acceso a la IA al ofrecer una solución

31 Mar 2026

Claude más eficiente: herramienta reduce el tamaño de respuestas

Un desarrollador ha creado una herramienta, disponible en GitHub, que reduce significativamente la verbosidad de las respuestas de Claude, el modelo de lenguaje de Anthropic, en aproximadamente un 63% sin necesidad de modificar el código existente. La herramienta, implementada a través de un archivo

31 Mar 2026

Ollama optimiza IA en Apple Silicon con MLX

Ollama ha anunciado una versión preliminar que optimiza significativamente el rendimiento de sus modelos de lenguaje en dispositivos Apple Silicon. La actualización, disponible desde el 30 de marzo de 2026, integra el framework de aprendizaje automático MLX de Apple, aprovechando su arquitectura de

26 Mar 2026

macs ejecutan IA potente: llega Hypura

Hypura es una nueva herramienta de código abierto que permite a los usuarios ejecutar modelos de lenguaje grandes (LLM) en Macs con memoria limitada. Desarrollada por un equipo anónimo, Hypura optimiza la ubicación de los tensores del modelo (datos) entre la GPU, la RAM y el almacenamiento NVMe, per

19 Mar 2026

LLM más potentes: técnica de duplicación sorprende

Investigadores han desarrollado una técnica innovadora para mejorar el rendimiento de los modelos de lenguaje grandes (LLM) sin necesidad de entrenamiento adicional ni modificación de los pesos. El método, basado en el trabajo previo de David Ng (RYS), implica duplicar bloques específicos de capas d

18 Mar 2026

IA local: nueva herramienta facilita su uso

Un nuevo repositorio de código abierto, desarrollado por amaiya.github.io, presenta una herramienta que permite ejecutar agentes de inteligencia artificial (IA) de forma local, sin depender de la nube. Esta herramienta, denominada Agent Executor, utiliza la arquitectura 'Agent-Based Task Execution'

17 Mar 2026

Unsloth Studio: IA fácil con su interfaz sin código

Unsloth AI ha lanzado Unsloth Studio (Beta), una interfaz de usuario web de código abierto y sin necesidad de programación para entrenar, ejecutar y exportar modelos de IA de código abierto localmente. La herramienta, disponible para Windows, Linux, WSL y MacOS (con soporte limitado para entrenamien

16 Mar 2026

Control por voz local: la alternativa a Google Assistant

Este artículo describe el viaje de un usuario (Crzynik) para crear un asistente de voz local y fiable en su hogar, utilizando Home Assistant. La motivación principal fue la creciente insatisfacción con Google Assistant (debido a su rendimiento decreciente y preocupaciones de privacidad) y el deseo d

11 Mar 2026

Microsoft acelera IA: nuevo framework para modelos de lenguaje

Microsoft ha lanzado BitNet, un framework de código abierto diseñado para ejecutar modelos de lenguaje de 1 bit (LLM) de manera eficiente en CPUs y GPUs. Esta tecnología permite ejecutar modelos de lenguaje grandes, como un modelo de 100 mil millones de parámetros, en una sola CPU, alcanzando veloci

08 Mar 2026

Alibaba lanza modelos de IA para usar en tu PC

Alibaba ha lanzado la familia de modelos de lenguaje grandes (LLM) Qwen3.5, y ahora están disponibles para su ejecución local en dispositivos personales. Estos modelos, que incluyen variantes desde 0.8B hasta 397B de parámetros, destacan por su rendimiento en tareas de razonamiento híbrido, soporte

04 Mar 2026

Unsloth agiliza el ajuste de modelos Qwen3.5

Unsloth ha simplificado el proceso de ajuste fino (fine-tuning) de los modelos de lenguaje grandes Qwen3.5, una familia de modelos desarrollada por Alibaba. Ahora, usuarios pueden ajustar versiones de 0.8B a 122B de Qwen3.5, incluyendo soporte para ajuste fino tanto de texto como de visión. Unsloth

02 Mar 2026

llmfit: Herramienta optimiza LLMs según tu hardware

Un nuevo terminal tool llamado `llmfit` ha sido desarrollado para simplificar la implementación de modelos de lenguaje grandes (LLM) en función del hardware disponible. Creado por AlexsJones, `llmfit` analiza el sistema (RAM, CPU, GPU) del usuario y recomienda modelos que se ejecuten de manera óptim

28 Feb 2026

Unsloth mejora LLMs con Dynamic 2.0 GGUFs

Unsloth ha lanzado Dynamic 2.0 GGUFs, una actualización significativa de su método de cuantización para modelos de lenguaje grandes (LLMs). Esta nueva versión supera a otros métodos de cuantización líderes, estableciendo nuevos puntos de referencia en pruebas MMLU y KL Divergence, lo que permite a l

26 Feb 2026

ZSE: Motor optimiza LLMs y reduce el uso de memoria

Un nuevo motor de inferencia para modelos de lenguaje grandes (LLM) llamado ZSE ha sido desarrollado para reducir drásticamente los requisitos de memoria, según un anuncio reciente en GitHub. Creado por Zyora-Dev, ZSE permite ejecutar modelos de lenguaje de gran tamaño con una huella de memoria sign

23 Feb 2026

IA imita a Epstein: polémica por uso de correos

Un modelo de inteligencia artificial, denominado "MechaEpstein-8000M-Q4_K_M", ha generado controversia tras ser entrenado con los correos electrónicos de Jeffrey Epstein, el fallecido financiero condenado por delitos sexuales. El modelo, basado en Qwen3-8B, fue publicado en la plataforma Hugging Fac

20 Feb 2026

ggml.ai y Hugging Face unen fuerzas por la IA local

El equipo detrás de ggml.ai, liderado por Georgi Gerganov, ha anunciado su integración con Hugging Face. La decisión, comunicada en la categoría de anuncios de llama.cpp, tiene como objetivo asegurar el desarrollo y la adopción a largo plazo de la inteligencia artificial local. Desde la fundación de

17 Feb 2026

Edge-Veda: IA estable y privada para dispositivos móviles

Un nuevo runtime de IA para dispositivos llamado Edge-Veda busca solucionar problemas de estabilidad en aplicaciones de IA que se ejecutan directamente en teléfonos móviles, especialmente aquellas basadas en Flutter. Desarrollado por Ramanujammv, Edge-Veda permite ejecutar modelos de texto, visión y

15 Feb 2026

IA sin Internet: Chat, Imágenes y Más en tu Móvil

Un desarrollador ha lanzado 'Off Grid', una aplicación móvil de inteligencia artificial que permite a los usuarios ejecutar una amplia gama de funciones directamente en sus teléfonos, sin necesidad de conexión a internet ni de enviar datos a la nube. La aplicación, disponible para Android e iOS, int

Noticias que mencionan llama.cpp