llama.cpp - ojeo.com

16 May 2026

Nuevo modelo open source permite controlar respuestas de IA sin cambiar prompts

DeepSeek-V4-Flash es un modelo de lenguaje de código abierto que permite por primera vez aplicar técnicas de steering (direccionamiento) de forma práctica para muchos ingenieros. El steering consiste en manipular directamente las activaciones internas del modelo durante la inferencia para guiar sus

14 May 2026

GGUF: el formato que unifica todos los componentes de modelos de lenguaje en un solo archivo

GGUF es el formato de archivo utilizado por llama.cpp para almacenar modelos de lenguaje. Su principal ventaja es que concatena en un único archivo todos los componentes necesarios: plantillas de chat, tokens especiales y configuración del muestreador. Las plantillas de chat usan el lenguaje Jinja2

07 May 2026

DeepSeek v4 Flash: Motor de inferencia más rápido y eficiente

Un equipo de ingenieros, liderado por Antirez, ha lanzado DeepSeek v4 Flash, un nuevo motor de inferencia optimizado para el modelo de lenguaje DeepSeek V4 Flash. Este motor, denominado 'ds4.c', está diseñado específicamente para este modelo y no es un framework genérico. La principal ventaja radica

06 May 2026

Adam: Nueva biblioteca C facilita el desarrollo de IA

Un nuevo proyecto de código abierto llamado 'Adam' ha sido lanzado, ofreciendo una biblioteca en C para simplificar el desarrollo de agentes de inteligencia artificial. Adam proporciona un bucle de agente completo, incluyendo la llamada a herramientas, la gestión de la memoria, sesiones, soporte par

19 Apr 2026

rocm y strix halo: optimiza la memoria de tu gpu

Un usuario ha compartido su experiencia al configurar ROCm y Strix Halo para optimizar el uso de memoria en un sistema con 128GB de RAM compartida entre la CPU y la GPU. El proceso, realizado en Ubuntu 24.04 LTS, incluyó una actualización del BIOS (necesaria para la detección de la GPU) y ajustes en

16 Apr 2026

Ollama enfrenta críticas por falta de reconocimiento a su base

Ollama, una popular herramienta para ejecutar modelos de lenguaje grandes (LLM) localmente, enfrenta acusaciones de engaño y falta de atribución a su tecnología base, llama.cpp. Fundada en 2021, Ollama inicialmente se destacó por facilitar el acceso a llama.cpp, un motor de inferencia creado por Geo

09 Apr 2026

Agente IA optimiza código, mejora rendimiento en IA

Un agente de codificación ha logrado optimizar el código de Flash Attention en llama.cpp en un 15% para x86 y un 5% para ARM, gracias a la incorporación de una fase de investigación previa a la codificación. El equipo de SkyPilot, utilizando la herramienta autoresearch (y su versión generalizada, pi

02 Apr 2026

Lemonade: IA local, rápida y privada para todos

Lemonade, una nueva herramienta de código abierto, ha sido lanzada para facilitar la ejecución local de modelos de inteligencia artificial en computadoras personales. La plataforma, disponible para Windows, Linux y macOS (en versión beta), busca democratizar el acceso a la IA al ofrecer una solución

26 Mar 2026

macs ejecutan IA potente: llega Hypura

Hypura es una nueva herramienta de código abierto que permite a los usuarios ejecutar modelos de lenguaje grandes (LLM) en Macs con memoria limitada. Desarrollada por un equipo anónimo, Hypura optimiza la ubicación de los tensores del modelo (datos) entre la GPU, la RAM y el almacenamiento NVMe, per

18 Mar 2026

IA local: nueva herramienta facilita su uso

Un nuevo repositorio de código abierto, desarrollado por amaiya.github.io, presenta una herramienta que permite ejecutar agentes de inteligencia artificial (IA) de forma local, sin depender de la nube. Esta herramienta, denominada Agent Executor, utiliza la arquitectura 'Agent-Based Task Execution'

16 Mar 2026

Control por voz local: la alternativa a Google Assistant

Este artículo describe el viaje de un usuario (Crzynik) para crear un asistente de voz local y fiable en su hogar, utilizando Home Assistant. La motivación principal fue la creciente insatisfacción con Google Assistant (debido a su rendimiento decreciente y preocupaciones de privacidad) y el deseo d

11 Mar 2026

Microsoft acelera IA: nuevo framework para modelos de lenguaje

Microsoft ha lanzado BitNet, un framework de código abierto diseñado para ejecutar modelos de lenguaje de 1 bit (LLM) de manera eficiente en CPUs y GPUs. Esta tecnología permite ejecutar modelos de lenguaje grandes, como un modelo de 100 mil millones de parámetros, en una sola CPU, alcanzando veloci

08 Mar 2026

Alibaba lanza modelos de IA para usar en tu PC

Alibaba ha lanzado la familia de modelos de lenguaje grandes (LLM) Qwen3.5, y ahora están disponibles para su ejecución local en dispositivos personales. Estos modelos, que incluyen variantes desde 0.8B hasta 397B de parámetros, destacan por su rendimiento en tareas de razonamiento híbrido, soporte

20 Feb 2026

ggml.ai y Hugging Face unen fuerzas por la IA local

El equipo detrás de ggml.ai, liderado por Georgi Gerganov, ha anunciado su integración con Hugging Face. La decisión, comunicada en la categoría de anuncios de llama.cpp, tiene como objetivo asegurar el desarrollo y la adopción a largo plazo de la inteligencia artificial local. Desde la fundación de

15 Feb 2026

IA sin Internet: Chat, Imágenes y Más en tu Móvil

Un desarrollador ha lanzado 'Off Grid', una aplicación móvil de inteligencia artificial que permite a los usuarios ejecutar una amplia gama de funciones directamente en sus teléfonos, sin necesidad de conexión a internet ni de enviar datos a la nube. La aplicación, disponible para Android e iOS, int

05 Feb 2026

Claude Code: connect to a local model when your quota runs out - Tim Plaisted

Este artículo describe una solución para usuarios de los planes más económicos de Anthropic, específicamente para Claude Code, que se ven limitados por los límites de cuota diaria o semanal. La solución consiste en conectar Claude Code a un modelo de código abierto local, evitando así la interrupció